Nvidia vừa đưa ra thông báo phát hành một mô hình ngôn ngữ lớn (LLM) nguồn mở được cho là có hiệu suất ngang bằng với các mô hình độc quyền hàng đầu từ OpenAI, Anthropic, Meta và Google.
Mô hình mới này có tên NVLM-D-72B với 72 tỷ tham số, và là một phần trong họ các mô hình ngôn ngữ lớn NVLM 1.0 đã được Nvidia phát hành thời gian gần đây. NVLM 1.0 về cơ bản là một họ các mô hình ngôn ngữ lớn đa phương thức cấp biên giới đạt được kết quả tiên tiến nhất về các tác vụ ngôn ngữ thị giác, cạnh tranh với những mô hình độc quyền hàng đầu (ví dụ: GPT-4o) cũng như các mô hình truy cập mở.
Theo báo cáo, họ mô hình ngôn ngữ lớn mới này đã có khả năng "đa phương thức cấp độ công nghệp", với hiệu suất vượt trội trên nhiều nhiệm vụ về thị giác và ngôn ngữ, ngoài ra còn cải thiện đáng kể khả năng phản hồi dựa trên văn bản. "Để đạt được điều này, chúng tôi tạo và tích hợp một tập dữ liệu chỉ có văn bản chất lượng cao vào quá trình đào tạo đa phương thức, cùng với một lượng lớn dữ liệu toán học và lý luận đa phương thức, dẫn đến khả năng toán học và mã hóa được nâng cao trên nhiều phương thức", các nhà nghiên cứu đến từ Nvidia giải thích trong một tuyên bố.
Kết quả là một LLM hiêu năng cao, có thể thực hiện các tác vụ từ dễ dàng như việc giải thích tại sao một meme lại buồn cười, cho đến các phương trình toán học phức tạp, từng bước một. Nvidia cũng đã cố gắng tăng độ chính xác chỉ văn bản của mô hình lên trung bình 4,3 điểm trên các chuẩn mực chung của ngành, nhờ vào phong cách đào tạo đa phương thức của mình.
Nvidia có vẻ nghiêm túc trong việc đảm bảo rằng mô hình này đáp ứng định nghĩa mới nhất của hiệp hội Open Source Initiative về "nguồn mở", bằng cách không chỉ công khai trọng số đào tạo để cộng đồng cùng đánh giá, mà còn hứa hẹn sẽ phát hành mã nguồn của mô hình trong tương lai gần. Đây là một sự khác biệt đáng kể so với cách làm của các đối thủ như OpenAI và Google, vốn luôn tỏ ra rất chặt chẽ trong việc bảo mật thông tin chi tiết về trọng số và mã nguồn các mô hình của LLM của mình. Khi làm như vậy, Nvidia đã tự định vị NVLM không nhất thiết phải cạnh tranh trực tiếp với ChatGPT-4o và Gemini 1.5 Pro, mà thay vào đó đóng vai trò là nền tảng cho các nhà phát triển bên thứ ba xây dựng các chatbot và ứng dụng AI của riêng họ.