Công ty khởi nghiệp AI Trung Quốc DeepSeek vừa chính thức phát hành mô hình ngôn ngữ lớn (LLM) mới nhất của mình mang tên DeepSeek-V3-0324. Với dung lượng lên tới 641GB, mô hình này đã được công bố trên nền tảng AI Hugging Face mà không có nhiều thông tin được tiết lộ, đúng phong cách kín tiếng về sản phẩm mới mà công ty luôn áp dụng từ trước đến nay.
Điểm đặc biệt của mô hình này nằm ở giấy phép MIT, cho phép sử dụng miễn phí cho mục đích thương mại. Các kết quả benchmark ban đầu cho thấy DeepSeek-V3-0324 có khả năng chạy trên các cấu hình phần cứng phổ thông, chẳng hạn như Mac Studio của Apple với chip M3 Ultra. Nhà khoa học AI Awni Hannun đã báo cáo rằng có thể đạt được tốc độ xử lý hơn 20 token mỗi giây khi sử dụng cấu hình này. Khả năng chạy một mô hình ngôn ngữ lớn trên phần cứng thông thường tại chỗ này hoàn toàn trái ngược với cách thức truyền thống là sử dụng cơ sở hạ tầng trung tâm dữ liệu khổng lồ để hỗ trợ các mô hình AI cao cấp.
Theo thông tin từ DeepSeek, các thử nghiệm ban đầu đã cho thấy sự cải thiện đáng kể so với các phiên bản trước đó. Mô hình này đã được các bên liên quan nội bộ kiểm tra nghiêm ngặt và thể hiện hiệu suất xuất sắc, thậm chí có thể vượt trội hơn tất cả các mô hình cạnh tranh khác và đánh bại Claude Sonnet 3.5 của Anthropic trong những tác vụ không yêu cầu tư duy sâu. Tuy nhiên, không giống như các mô hình theo phong cách Sonnet yêu cầu đăng ký trả phí, DeepSeek-V3-0324 hoàn toàn miễn phí để tải về và sử dụng.
Về mặt kỹ thuật, DeepSeek-V3-0324 sử dụng kiến trúc hỗn hợp chuyên gia (MoE). Nổi bật ở khả năng chọn lọc sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số cho mỗi tác vụ, giúp tăng hiệu quả bằng cách giảm nhu cầu tính toán trong khi vẫn duy trì hiệu suất. Mô hình này cũng áp dụng công nghệ Chú Ý Tiềm Ẩn Đa Đầu (Multi-Head Latent Attention - MLA) và Dự Đoán Đa Token (Multi-Token Prediction - MTP), những công nghệ góp phần cải thiện khả năng ghi nhớ ngữ cảnh và tăng tốc độ đầu ra.
Người dùng có thể truy cập DeepSeek-V3-0324 thông qua Hugging Face, giao diện chat và API của OpenRouter, cũng như nền tảng chat của DeepSeek nếu muốn. Nhà cung cấp dịch vụ suy luận Hyperbolic Labs cũng cung cấp quyền truy cập vào mô hình.
Với việc phát hành DeepSeek-V3-0324, công ty tiếp tục khẳng định vị thế trong cuộc đua phát triển các mô hình ngôn ngữ lớn, đồng thời mang đến một lựa chọn mạnh mẽ và dễ tiếp cận cho cộng đồng nghiên cứu và phát triển AI. Khả năng chạy trên phần cứng thông thường cùng với giấy phép tự do sử dụng chắc chắn sẽ mở ra nhiều cơ hội ứng dụng thực tế cho mô hình này trong tương lai gần.