Microsoft Phi-3.5 ra mắt: Mô hình AI giàu tính cạnh tranh hơn

Microsoft vừa chính thức công bố phát hành loạt mô hình ngôn ngữ nhỏ (Small Language Model) mới có tên Phi-3.5 mới, bao gồm ba biến thể Phi-3.5-vision, Phi-3.5-MoE và Phi-3.5-mini. Các mô hình ngôn ngữ AI gọn nhẹ này được xây dựng dựa trên dữ liệu tổng hợp và các trang web công khai đã được lọc, hỗ trợ độ dài ngữ cảnh 128K token. Tất cả các mô hình Phi-3.5 mới hiện đã khả dụng trên Hugging Face theo giấy phép MIT.

Microsoft Phi-3.5

Phi-3.5-MoE: Sự kết hợp mang nhiều tính đột phá

Phi-3.5-MoE nổi bật là mô hình đầu tiên trong họ Phi của Microsoft có thể tận dụng công nghệ Mixture of Experts (MoE). Mô hình MoE 16 x 3,8 tỷ tham số này chỉ kích hoạt 6,6 tỷ tham số và được đào tạo trên 4,9T token sử dụng 512 hệ thống GPU H100. Trong các chuẩn AI phổ biến hiện nay, Phi-3.5-MoE vượt trội hơn Llama-3.1 8B, Gemma-2-9B và Gemini-1.5-Flash, và tiệm cận với mô hình dẫn đầu hiện tại là GPT-4o-mini.

Phi-3.5-mini: Gọn nhẹ và Mạnh mẽ

Phi-3.5-mini là mô hình 3.8 tỷ tham số, vượt trội hơn Llama3.1 8B hay Mistral 7B, và thậm chí còn cạnh tranh với Mistral NeMo 12B. Nó được đào tạo trên 3.4T token sử dụng 512 GPU H100. Với chỉ 3.8B tham số hoạt động, mô hình này có khả năng cạnh tranh trên các tác vụ đa ngôn ngữ so với các LLM có nhiều tham số hoạt động hơn. Ngoài ra, Phi-3.5-mini hiện hỗ trợ độ dài ngữ cảnh 128K, trong khi đối thủ chính Gemma-2 chỉ hỗ trợ 8K.

Phi-3.5-vision: Nâng cao khả năng xử lý hình ảnh đa khung

Phi-3.5-vision là mô hình 4.2 tỷ tham số được đào tạo trên 500B token sử dụng 256 GPU A100. Mô hình này hiện hỗ trợ khả năng hiểu và suy luận hình ảnh đa khung (multi-frame). Phi-3.5-vision đã cải thiện hiệu suất trên MMMU (từ 40.2 lên 43.0), MMBench (từ 80.5 lên 81.9) và chuẩn xử lý tài liệu TextVQA (từ 70.9 lên 72.0).

Microsoft có kế hoạch chia sẻ thêm thông tin chi tiết về dòng mô hình Phi-3.5 trong tháng này, chủ yếu giới thiệu những tiến bộ về hiệu quả và khả năng của mô hình AI. Với trọng tâm là thiết kế nhẹ và hiểu biết đa phương thức, dòng mô hình Phi-3.5 có thể được áp dụng rộng rãi hơn trên nhiều ứng dụng AI khác nhau.

Thứ Sáu, 23/08/2024 10:30
3,73 👨 121
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ