Tổng hợp các đột phá mới từ NVIDIA GTC 2021

NVIDIA GTC là sự kiện thường niên giới thiệu các đột phá của NVIDIA. Năm nay, bên cạnh Quantum, NVIDIA còn gây chú ý với các bài toán về data center, cybersecurity, metaverse và AI.

Sự kiện năm nay mở màn ấn tượng với đoạn video về khả năng của AI đã vươn lên tầm sáng tạo nội dung. CEO Jensen Huang một lần nữa nhắc khéo về sự phát triển mạnh mẽ của CUDA cũng như khả năng dẫn đầu về phần cứng của dòng DGX chuyên dụng cho việc phát triển AI ở quy mô doanh nghiệp được hơn 25,000 công ty lựa chọn.

Dưới đây là nội dung được mình tổng hợp từ sự kiện.

Ra mắt 3 thư viện mới

ReOpt

Thư viện tối ưu hóa các hoạt động logistic, warehouse, manufacturing theo thời gian thực. ReOpt cho phép các nhà phát triển giải quyết các bài toán như dynamic-rerouting, simulation, đưa ra lời giải trong thời gian hạn chế cho bài toán last-mile delivery, supply chain, warehouse picking, food delivery.

cuQuantum

Đối với giấc mơ siêu máy tính Quantum, Jensen cho rằng sẽ cần một thập kỉ nữa để công nghệ này trưởng thành. Hiện tại các nhà nghiên cứu sẽ cần một siêu máy tính để giả lập các tính toán quantum. NVIDIA giới thiệu cuQuantum DGX với khả năng rút ngắn thời gian từ đơn vị tháng xuống ngày cho các phép tính quantum với 1,688 Qubits simulation of MAXCUT. Đây chính thức trở thành kỉ lục thế giới mới (gấp 8 lần kỉ lục cũ). cuQuantum sẽ chính thức ra mắt vào quý 1/2022.

cuNumeric

Không cần thay đổi code, cuNumeric cho phép các tính toán của thư viện NumPy có thể chạy song song lên đến hàng nghìn GPUs. Đây thật sự là một thay đổi rất lớn và đáng kì vọng cho hơn 20 triệu người dùng Python. Tính từ năm 2017, Numpy đã nhận 122 triệu lượt tải về và được sử dụng bên trong 790 nghìn dự án trên GitHub. Numpy đóng vai trò nền tảng trong các thư viện Pandas, SciPy, Scikit-Learn. Như vậy bên cạnh cuDF (Pandas), cuML (Scikit-Learn), cuGraph (NetworkX) thì cuNumeric đã đánh dấu một mốc mới của bức tranh Data Center Scale.

Data center và cybersecurity

Tại sự kiện GTC 2021, NVIDIA chú ý khá nhiều đến các bài toán của data center và cybersecurity.

NVIDIA Quantum-2

Switch thế hệ 7 của kiến trúc InfiniBand có khả năng ấn tượng đến 400Gb/s bandwidth/port. Quantum-2 cải thiện hiệu suất gấp 3 lần và giảm nhu cầu sử dụng bộ chuyển mạch trung tâm dữ liệu xuống 6 lần, đồng thời cắt giảm mức tiêu thụ điện năng và không gian diện tích.

Thiết kế của Quantum-2 cho phép giải quyết cả 2 bài toán gồm trung tâm siêu máy tính (hiệu năng mức bare-metal) và nhà cung cấp dịch vụ đám mây (share capabilities), cho phép cô lập hiệu suất giữa các tenant, đảm bảo băng thông tin cậy bất kể số lượng người dùng hoặc khối lượng công việc tăng đột biến.

Đây là một cột mốc quan trọng cho next-gen data center.

NVIDIA DOCA Framework 1.2 trên phần cứng NVIDIA BlueField DPU

Với sự hoàn thiện của DOCA 1.2 thì BlueField DPU trở thành ứng viên sáng giá cho giải pháp Zero Trust Security đối với data center ngày nay. Bởi vì perimeter security chỉ đủ để bảo vệ trước các mối đe dọa bên ngoài, việc ngầm định tin tưởng các thiết bị, ứng dụng bên trong data center không còn phù hợp với xu thế của private cloud, SAAS, BYOD.

NVIDIA cũng thông báo hàng loạt các tên tuổi lớn đang chuẩn bị cung cấp thế hệ firewall mới dựa trên Blue Field.

NVIDIA Morpheus - next gen SIEM

Dựa trên unsupervised learning và khả năng tính toán GPU cực mạnh để xử lý toàn bộ dữ liệu, tạo ra vân tay kĩ thuật số của người dùng và tiến trình, Morpheus dễ dàng phát hiện các hành vi bất thường và tạo cảnh báo thời gian thực mà không cần phải dán nhãn huấn luyện.

Morpheus chính là ví dụ điển hình cho tương lai của việc ứng dụng AI vào lĩnh vực bảo mật.

Đột phá metaverse và AI

Bên cạnh đó, không thể không kể đến những bước đột phá MillionLeap trong lĩnh vực sinh học, hóa học, điển hình như AlphaFold giải được cấu trúc protein, AI tối ưu hóa phản ứng hóa học.

Tại GTC 2021, Jensen giới thiệu Simulation Framework NVIDIA Modulus (tiền thân là SimNET), giải bài toán physics ML, huấn luyện AI với dữ liệu và cả tính chất định luật vật lý, từ đó việc dự đoán các tác động sẽ chính xác và tuân theo khoa học vật lý. Hiển nhiên chúng ta sẽ nghĩ ngay đến bài toán Digital Twin và rộng hơn chính là các bài toán về Địa vật lý, thậm chí là nhân tố quan trọng Omniverse. Nếu bạn đã nghe về metaverse (siêu vũ trụ ảo) của Facebook và Microsoft thì Omniverse chính là vũ trụ ảo của NVIDIA.

Siemens xây dựng một nhà máy ảo với đầy đủ hệ thống máy móc, tản nhiệt được giả lập như thật. Nhờ Modulus, việc tiết kiệm năng lượng và giảm lượng khí thải được tính toán liên tục để tìm ra giải pháp tối ưu nhất và được lựa chọn để xây nhà máy thật.

Ericsson dựng cả một thành phố ảo với kiến trúc tương tự thành phố thật để giả lập độ phủ của mạng 5G để từ đó cải thiện thiết kế.

Một thế giới ảo như thật và trong tương lai sẽ là một bản sao sinh động của thế giới thật trong thời gian thực.

Với các công nghệ lõi của AI, NVIDIA tiếp tục gây ấn tượng với rất nhiều giải pháp mới.

DGL CUDA-X

Graph Neural Network (GNN) vốn ít được chú ý khi bị lấn át bởi GAN và Transformer. Tuy nhiên GNN lại được ứng dụng ở rất nhiều công ty và cho kết quả tốt, điển hình như tại PayPal, Amazon, Pinterest. NVIDIA chính thức hỗ trợ cộng đồng DGL (Deep Graph Library) bằng việc tăng tốc GNN trên nền tảng CUDA-X, thúc đẩy sự phát triển của các mô hình GNN.

Nemo Megatron - Giải pháp huấn luyện mô hình AI lớn

Jensen đã khéo léo khoe lại bài toán zero shot learning với năng lực khủng khiếp của GPT-3 và tiếp tục sắp tới là Megatron-Turing NLG với 530 tỉ parameters. Ông nhấn mạnh việc huấn luyện các language model lớn là vô cùng tốn kém, xử lý lượng lớn dữ liệu, chạy tính toán hàng tháng trời với một nền tảng được tối ưu bởi các chuyên gia.

Nền tảng đó chính là Nemo Megatron, cho phép các công ty có thể huấn luyện các SOTA language model một cách hiệu quả như NVIDIA đã từng làm với GPT-3 (11 ngày), Megatron MT NLB 530B (6 tuần).

NVIDIA Triton - Giải pháp Inference multi-GPU, multi-Node đầu tiên của thế giới

Với language model kích thước lớn, kể cả sau khi huấn luyện xong thì việc sử dụng cũng không đơn giản, vì thời gian inference của Megatron 530B là khoảng 1 phút, không phù hợp để đáp ứng nhu cầu thời gian thực. Bên cạnh đó, GPT-3 175B parametes cần ít nhất 350GB bộ nhớ, Megatron 530B parameters cần 1TB bộ nhớ. Triton cho phép tính toán phân toán quá trình suy luận nên rút ngắn thời gian inference từ 1 phút còn 0.5 giây chỉ với 2 DGX A100.

Ứng dụng của các mô hình language model lớn không chỉ nằm ở việc dịch, cảm nhận, tóm tắt, sáng tác, viết code mà còn cho phép việc huấn luyện lại để đáp ứng các domain mới, mở ra nhiều tiềm năng trong nhiều lĩnh vực.

Tiếp tục hợp tác chặt chẽ với Microsoft, Triton inference được ứng dụng vào việc tạo ra live caption, transcript của 28 ngôn ngữ khi thực hiện hội thoại qua Teams, đồng thời hứa hẹn các tính năng như lọc nhiễu, xóa tiếng ồn, duy trì giao tiếp bằng mắt (eye contact).

Triton - Át chủ bài Inference của NVIDIA

Một điều đặc biệt là Triton hỗ trợ cả ML trong việc đẩy nhanh tốc độ tính toán.

Bên cạnh đó với phiên bản Server Triton Inference Server 2.15, việc tích hợp AWS Sage Maker và AliCloud đã hoàn tất, nên tất cả các framework, cloud hay AI platform lớn đều đã được hỗ trợ, thậm chí là trên kiến trúc phần cứng ARM.

Bảng tốc độ inference trên các lĩnh vực phổ biến của trí tuệ nhân tạo cho kết quả vô cùng ấn tượng.

TensorRT

Thực tế với sự đa dạng của cấu hình phần cứng, kiến trúc ứng dụng và nhu cầu xử lý nhanh trong thời gian thực khiến cho việc ứng dụng AI gặp nhiều khó khăn. NVIDIA tung ra cập nhật lớn cho TensorRT khi tích hợp với Pytorch và Tensorflow chỉ một dòng code và tăng tốc gấp ba lần so với framework đang dùng.

Các dịch vụ mới

NVIDIA Riva Speech AI

Bên cạnh chất lượng giọng nói và thời gian xử lý nhanh, Riva cho phép dễ dàng tự tạo giọng nói của trợ lý ảo chỉ với 30 phút dữ liệu âm thanh, dễ dàng triển khai trên Cloud, on-premises, Edge và Embedded.

Omniverse Avatar

Omniverse Avatar cho phép tạo ra avatar ảo có khả năng nói nhiều ngôn ngữ với đúng nét mặt, cử chỉ của ngôn ngữ đó chỉ với tấm ảnh thẻ.

Đặc biệt tự động chỉnh sửa ánh mắt, xóa tiếng ồn để người xem không nhận ra bạn đang đọc script ở một quán cà phê ồn ào. Ảo hay thật, không còn là chuyện deepFake nữa khi mà Omniverse xóa bỏ ranh giới này.

NVIDIA Clara Holoscan

Nền tảng tính toán cho phép các nhà phát triển xây dựng các ứng dụng xử lý AI với các cảm biến và thiết bị trong ngành y tế để chạy các mô hình suy luận và hiển thị đồ họa chất lượng cao trong thời gian thực, chạy trên nền NVIDIA AGX Orin.

Đây sẽ là sự thay đổi rất lớn với chẩn đoán lâm sàng và mở ra nhiều cơ hội cho các nhà phát triển phần mềm trên nền thiết bị y tế.

Kết hợp NVIDIA ISSAC ROS với Omniverse Replicator

ISSAC được trở thành một module trong ROS giúp cải thiện hiệu năng. Đồng thời Omniverse Replicator cho phép tạo ra giả lập của robot trong thế giới ảo với đầy đủ cảm biến, khả năng vật lý để tiếp tục huấn luyện với synthetic data (dữ liệu tổng hợp). Các dữ liệu này được tạo ra ngẫu nhiên và đa dạng, khiến chính robot không nhận ra mình đang ở môi trường ảo hay thật, từ đó sẵn sàng cho các tình huống không lường trước trong môi trường thực tế.

Đây chính là lý do các hãng xe hợp tác với NVIDIA Drive.

Hyperion 8

Khép lại GTC, NVIDIA chính thức công bố Hyperion 8, một nền tảng production-ready với cảm biến, máy tính, phần mềm cần cho việc phát triển xe tự lái. Trên nền tảng này, các hãng Lumninar, Continental, Hella, Sony và Valeo sẽ cung cấp các cảm biến, phần cứng bên cạnh các thành tựu giải pháp của DeepMap (công ty được NVIDIA mua lại vào hồi tháng 6). Nền tảng sẵn sàng đưa vào sử dụng cho các mẫu xe tự lái vào năm 2024.

Atekco - Home for Authentic Technical Consultants