GPU NVIDIA Blackwell B200 có thể tiêu thụ tới 1200W điện, kiến trúc hoàn toàn khác với Hopper

Cập nhật ngày 4/8: Kế hoạch ra mắt chip Blackwell B200 “delay” thêm ít nhất 3 tháng

Nvidia đã đạt được thành công lớn nhờ doanh số bán tăng vọt đối với phân khúc GPU cho các trung tâm dữ liệu AI toàn cầu. Tuy nhiên, một báo cáo mới tuyên bố rằng việc phát hành con chip AI chiến lược Blackwell B200 năm nay của hãng có thể bị trì hoãn trong ba tháng hoặc thậm chí lâu hơn, gây nhiều hệ lụy đến thị trường.

Báo cáo này đến từ The Information, trích dẫn các nguồn tin giấu tên, cho biết Nvidia đã thông báo cho các đối tác GPU AI lớn của mình, bao gồm cả Microsoft, rằng chip Blackwell B200 đang gặp lỗi thiết kế, khiến công ty buộc phải trì hoãn kế hoạch sản xuất hàng loạt và di dời lịch giao bộ xử lý.

Nvidia lần đầu tiên công bố kiến ​​trúc GPU Blackwell vào tháng 3 trong hội nghị GTC. Bộ xử lý Blackwell B200 sẽ chứa 208 tỷ bóng bán dẫn, có thể cung cấp hiệu suất lên tới 20 petaflop với hỗ trợ dấu phẩy động 4 bit (4FP). GPU Blackwell được thiết kế để thay thế GPU Hopper H100 hiện đang được Microsoft, OpenAI, Google, Meta và các công ty khác sử dụng trong các trung tâm dữ liệu AI quy mô lớn, và đã mang đến thành công nhảy vọt cho Nvidia trong năm 2023.

Báo cáo của The Information tiết lộ lỗi thiết kế này được phát hiện rất muộn trong quá trình sản xuất Blackwell B200. Nvidia được cho là đang trải qua một vòng thử nghiệm sản xuất mới với chip này. Theo dự kiến, công ty sẽ bắt đầu giao hàng loạt lô hàng GPU thương mại vào cuối năm nay, nhưng có thể sẽ buộc phải thay đổi mốc thời gian sang quý đầu tiên của năm 2025.

Cũng theo các nguồn tin rò rỉ, nhiều khách hàng chip AI của Nvidia được cho là đã đặt hàng "hàng chục tỷ đô la" cho dòng sản phẩm GPU Blackwell B200 sắp ra mắt. Việc trì hoãn giao hàng thêm ít nhất một quý có thể ảnh hưởng không chỉ đến Nvidia về mặt doanh thu mà còn tác động cực kỳ tiêu cực đối với khách hàng của hãng, những công ty có thể đã trông chờ vào sự gia tăng hiệu suất lớn từ con chip này để giúp bổ sung các tính năng AI mới và được cải thiện.

GPU Blackwell - Được thiết kế cho kỷ nguyên AI với kiến trúc hoàn toàn mới

Đầu tiên, chúng ta đều biết rằng Blackwell sẽ là một bản nâng cấp lớn về kiến trúc so với Hopper, và có vẻ như thực tế còn hơn thế nữa khi Jonah nói rằng Blackwell sử dụng một kiến trúc vi mô thậm chí hoàn toàn khác Hopper.

Như đã biết, Blackwell sẽ được tích hợp công nghệ Transformer Engine thế hệ thứ 2, bổ sung các định dạng tính toán FP4 và FP6. Sự góp mặt của những định dạng này cũng như khả năng tối ưu hóa phần mềm mới là những yếu tố góp phần khiến Blackwell trở thành một trong những nền tảng chip AI nhanh trong ngành. Thế nhưng nâng cấp này lại có phần gây tiêu cực cho FP64 tiêu chuẩn của nó, vốn chỉ tăng 32% so với Hopper. Lý do rất rõ ràng và đơn giản, Blackwell trước hết là chip AI, và đây là thị trường mục tiêu chính mà NVIDIA hướng tới. FP64 không quan trọng lắm từ góc độ AI, ở mức thấp thì khả năng suy luận và đào tạo càng nhanh.

Ngoài ra, lý do để đi theo con đường chiplet (MCM) là do nhu cầu cải thiện hiệu suất tổng thể hơn là cải thiện năng suất. Sẽ rất thú vị khi xem cách tiếp cận MCM đầu tiên của NVIDIA hoạt động như thế nào trong lĩnh vực này, vì chúng ta đang nói về hai GPU chạy trên cùng một gói. Người ta đề cập rằng CUDA thực hiện khá tốt việc xử lý hai GPU và kiến trúc khác nhau, không yêu cầu thực hiện thay đổi lớn nào đối với các lập trình viên.

GPU GB200 là biến thể cao nhất của dòng Blackwell, công suất cao hơn 500W so với Hopper

Trong quá trình ra mắt, NVIDIA đã gây ra một sự khó hiệu xung quanh tất cả các biến thể nền tảng và GPU của Blackwell. CEO Jensen Huang tuyên bố rằng Blackwell không phải GPU mà là toàn bộ nền tảng, và nền tảng này chứa đựng nhiều loại sản phẩm nhưng chúng vẫn dựa trên GPU.

Tính đến thời điểm hiện tại, NVIDIA đã công bố ba biến thể GPU Blackwell chính thức, trong đó có biến thể B200 đầu bảng, sở hữu thông số kỹ thuật đầy đủ được phát triển trên nền tảng Superchip GB200. Con chip này sở hữu khả năng tính toán được đánh giá cao nhất và có TDP tối đa 1200W. Mức công suất này cao hơn 500 Watts so với Hopper H100 có TDP 700W. Toàn bộ Superchip được trang bị hai GPU B200 này và một CPU Grace cho công suất lên tới 2700W (1200W x 2 cho B200 + 300W CPU/IO).

Tiếp theo là phiên bản Blackwell B200 sử dụng trên nền tảng DGX & HGX, được tối ưu hóa khoảng 1000W và cung cấp gần 90% hiệu suất của biến thể thông số kỹ thuật đầy đủ. Không rõ liệu biến thể này chỉ có TDP thấp hơn hay đi kèm với thông số kỹ thuật bị cắt giảm so với cấu hình đầy đủ, hay còn thua kém thêm ở khía cạnh nào khác nữa.

Cuối cùng là Blackwell B100, một biến thể được tùy chỉnh với TDP 700W. Biến thể này cung cấp khoảng 80% hiệu suất của B200 (1000W) và 70% hiệu suất của B200 (1200W).

Nhiều khả năng sẽ có thêm một biến thể GPU Blackwell một khuôn, đặc biệt dành cho nền tảng PCIe trong tương lai. Kiến trúc GPU Blackwell đã được tích hợp trong các nền tảng RTX & AI dành cho người tiêu dùng như Drive Thor và dòng GeForce trong tương lai. GPU Blackwell GB200 của NVIDIA sẽ bắt đầu được giao hàng vào cuối năm nay cho các đối tác AI lớn của công ty.

Chủ Nhật, 04/08/2024 13:50
33 👨 134
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ