Foxconn công bố mô hình ngôn ngữ lớn (LLM) được tinh chế từ Llama 3.1 của Meta

Foxconn, công ty nổi tiếng với vai trò gia công iPhone và các sản phẩm phần cứng khác của Apple, vừa gây bất ngờ khi công bố mô hình ngôn ngữ lớn (LLM) đầu tiên của mình, có tên FoxBrain, với mục đích sử dụng để cải thiện quản lý sản xuất và chuỗi cung ứng.

Nhà sản xuất Đài Loan cho biết FoxBrain được huấn luyện chỉ với 120 GPU H100 của Nvidia. LLM này về cơ bản được phát triển dựa trên kiến trúc Llama 3.1 của Meta, với 70 tỷ tham số thông qua quá trình tinh chế (distillation). Khái niệm tinh chế LLM liên quan đến việc sử dụng một mô hình "cha" và huấn luyện mô hình "con" dựa trên các phản hồi của nó. Foxconn cũng thừa nhận rằng LLM của họ không tốt bằng mô hình tinh chế của DeepSeek (Trung Quốc), nhưng hiệu suất tổng thể rất gần với các tiêu chuẩn đẳng cấp thế giới.

Nói về thành tự này, Tiến sĩ Yung-Hui Li, Giám đốc Trung tâm Nghiên cứu Trí tuệ Nhân tạo tại Viện Nghiên cứu Hon Hai (Foxconn), cho biết:

Trong những tháng gần đây, việc tăng cường khả năng lập luận và sử dụng hiệu quả GPU đã dần trở thành xu hướng chính trong lĩnh vực AI. Mô hình FoxBrain của chúng tôi đã áp dụng một chiến lược huấn luyện rất hiệu quả, tập trung vào tối ưu hóa quá trình huấn luyện thay vì tích lũy sức mạnh tính toán một cách mù quáng.

Thông qua các phương pháp huấn luyện được thiết kế cẩn thận và tối ưu hóa tài nguyên, chúng tôi đã thành công trong việc xây dựng một mô hình AI địa phương với khả năng lập luận mạnh mẽ".

Foxconn

Foxconn không chỉ lắp ráp các sản phẩm của Apple mà còn sản xuất máy chủ AI của Nvidia. Cùng với 120 GPU H100, FoxBrain được mở rộng quy mô nhờ mạng Quantum-2 InfiniBand của Nvidia, và quá trình huấn luyện chỉ mất khoảng 4 tuần (với tổng chi phí tính toán là 2.688 ngày GPU). Foxconn đã tạo ra 98 tỷ token dữ liệu tiền huấn luyện chất lượng cao bằng tiếng Trung truyền thống với độ dài cửa sổ ngữ cảnh lên đến 128.000 token.

Mối quan hệ hợp tác giữa Foxconn và Nvidia không phải là mới, và cả hai công ty cũng đang làm việc trên các dự án khác, bao gồm xây dựng một cơ sở sản xuất GPU Blackwell lớn nhất thế giới.

Nvidia cũng cung cấp cho Foxconn siêu máy tính Taipei-1 để hoàn thành quá trình tiền huấn luyện mô hình. Foxconn cho biết FoxBrain sẽ trở thành "động cơ quan trọng" để nâng cấp ba nền tảng chính của công ty: Sản xuất Thông minh, Xe Điện Thông minh và Thành phố Thông minh.

Thứ Ba, 11/03/2025 07:30
31 👨 90
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
❖
    ❖ Chuyện công nghệ
    Chia sẻ
    Chia sẻ FacebookChia sẻ Twitter
    Đóng