Với các LLM lượng tử hiện có trên HuggingFace và các hệ sinh thái AI như H20, Text Gen và GPT4All cho phép bạn load trọng số LLM trên máy tính, giờ đây bạn có tùy chọn cho AI miễn phí, linh hoạt và an toàn. Sau đây là 9 LLM cục bộ/ngoại tuyến tốt nhất mà bạn có thể dùng thử ngay bây giờ!
Mục lục bài viết
1. Hermes 2 Pro GPTQ

Hermes 2 Pro là một mô hình ngôn ngữ tiên tiến được tinh chỉnh bởi Nous Research. Nó sử dụng phiên bản cập nhật và đã được làm gọn của bộ dữ liệu OpenHermes 2.5, cùng với bộ dữ liệu Function Calling và JSON mới được giới thiệu do công ty tự phát triển. Mô hình này dựa trên kiến trúc Mistral 7B và đã được đào tạo trên 1.000.000 hướng dẫn/cuộc trò chuyện có chất lượng GPT-4 trở lên, chủ yếu là dữ liệu tổng hợp.
Model | Hermes 2 Pro GPTQ |
---|---|
Kích thước model | 7.26 GB |
Tham số | 7 tỷ |
Lượng tử hóa | 4-bit |
Loại | Mistral |
Giấy phép | Apache 2.0 |
Hermes 2 Pro trên Mistral 7B là model Hermes 7B hàng đầu mới, cung cấp hiệu suất được cải thiện trên nhiều chuẩn mực khác nhau, bao gồm AGIEval, BigBench Reasoning, GPT4All và TruthfulQA. Các khả năng nâng cao của nó giúp nó phù hợp với nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP), chẳng hạn như tạo code, tạo nội dung và các ứng dụng AI đàm thoại.
2. Zephyr 7B Beta
Zephyr là một loạt các mô hình ngôn ngữ được đào tạo để hoạt động như những trợ lý hữu ích. Zephyr-7B-Beta là mô hình thứ hai trong sê-ri, được tinh chỉnh từ Mistral-7B-v0.1 bằng cách sử dụng Direct Preference Optimization (DPO) trên hỗn hợp các tập dữ liệu tổng hợp có sẵn công khai.
Model | Zephyr 7B Beta |
---|---|
Kích thước model | 7.26 GB |
Tham số | 7 tỷ |
Lượng tử hóa | 4-bit |
Loại | Mistral |
Giấy phép | Apache 2.0 |
Bằng cách loại bỏ sự căn chỉnh tích hợp của các tập dữ liệu đào tạo, Zephyr-7B-Beta chứng minh hiệu suất được cải thiện trên những benchmark như MT-Bench, tăng cường tính hữu ích của nó trong nhiều tác vụ khác nhau. Tuy nhiên, sự điều chỉnh này có thể dẫn đến việc tạo ra văn bản có vấn đề khi được nhắc theo một số cách nhất định.
3. Falcon Instruct GPTQ

Phiên bản lượng tử hóa này của Falcon dựa trên kiến trúc chỉ có bộ giải mã được tinh chỉnh trên mô hình Falcon-7b thô của TII. Mô hình Falcon cơ sở được đào tạo bằng cách sử dụng 1,5 nghìn tỷ token nổi bật có nguồn gốc từ Internet công cộng. Là một mô hình chỉ có bộ giải mã dựa trên lệnh được cấp phép theo Apache 2, Falcon Instruct hoàn hảo cho các doanh nghiệp nhỏ đang tìm kiếm một mô hình để sử dụng cho dịch ngôn ngữ và nhập dữ liệu.
Model | Falcon-7B-Instruct |
---|---|
Kích thước model | 7.58 GB |
Tham số | 7 tỷ |
Lượng tử hóa | 4-bit |
Loại | Falcon |
Giấy phép | Apache 2.0 |
Tuy nhiên, phiên bản Falcon này không lý tưởng để tinh chỉnh và chỉ dành cho suy luận. Nếu muốn tinh chỉnh Falcon, bạn sẽ phải sử dụng mô hình thô, có thể yêu cầu quyền truy cập vào phần cứng đào tạo cấp doanh nghiệp như NVIDIA DGX hoặc AMD Instinct AI Accelerators.
4. GPT4ALL-J Groovy
GPT4All-J Groovy là mô hình chỉ dành cho bộ giải mã được tinh chỉnh bởi Nomic AI và được cấp phép theo Apache 2.0. GPT4ALL-J Groovy dựa trên mô hình GPT-J ban đầu, được biết đến là tuyệt vời trong việc tạo văn bản từ prompt. GPT4ALL -J Groovy đã được tinh chỉnh thành mô hình trò chuyện, rất tuyệt vời cho các ứng dụng tạo văn bản nhanh và sáng tạo. Điều này làm cho GPT4All-J Groovy trở nên lý tưởng cho những người sáng tạo nội dung trong việc hỗ trợ họ viết và sáng tác, cho dù đó là thơ ca, âm nhạc hay truyện.
Model | GPT4ALL-J Groovy |
---|---|
Kích thước model | 3.53 GB |
Tham số | 7 tỷ |
Lượng tử hóa | 4-bit |
Loại | GPT-J |
Giấy phép | Apache 2.0 |
Thật không may, mô hình GPT-J cơ sở được đào tạo trên tập dữ liệu chỉ có tiếng Anh, điều này có nghĩa là ngay cả mô hình GPT4ALL-J được tinh chỉnh này cũng chỉ có thể trò chuyện và thực hiện các ứng dụng tạo văn bản bằng tiếng Anh.
5. DeepSeek Coder V2 Instruct

DeepSeek Coder V2 là một mô hình ngôn ngữ tiên tiến giúp tăng cường khả năng lập trình và suy luận toán học. DeepSeek Coder V2 hỗ trợ nhiều ngôn ngữ lập trình và cung cấp độ dài ngữ cảnh mở rộng, khiến nó trở thành một công cụ đa năng cho các nhà phát triển.
Model | DeepSeek Coder V2 Instruct |
---|---|
Kích thước model | 13 GB |
Tham số | 33 tỷ |
Lượng tử hóa | 4-bit |
Loại | DeepSeek |
Giấy phép | Apache 2.0 |
So với phiên bản tiền nhiệm, DeepSeek Coder V2 cho thấy những tiến bộ đáng kể trong các tác vụ liên quan đến mã, lý luận và khả năng chung. Nó mở rộng hỗ trợ cho các ngôn ngữ lập trình từ 86 lên 338 và mở rộng độ dài ngữ cảnh từ 16K lên 128K token. Trong các đánh giá chuẩn mực, nó vượt trội hơn các mô hình như GPT-4 Turbo, Claude 3 Opus và Gemini 1.5 Pro trong chuẩn mực mã hóa và toán học.
6. Mixtral-8x7B

Mixtral-8x7B là hỗn hợp các mô hình chuyên gia (MoE) do Mistral AI phát triển. Nó có 8 chuyên gia cho mỗi MLP, tổng cộng 45 tỷ tham số. Tuy nhiên, chỉ có hai chuyên gia được kích hoạt cho mỗi token trong quá trình suy luận, khiến nó hiệu quả về mặt tính toán, với có tốc độ và chi phí tương đương với mô hình 12 tỷ tham số.
Model | Mixtral-8x7B |
---|---|
Kích thước model | 12 GB |
Tham số | 45 tỷ (8 chuyên gia) |
Lượng tử hóa | 4-bit |
Loại | Mistral MoE |
Giấy phép | Apache 2.0 |
Mixtral hỗ trợ độ dài ngữ cảnh là 32k token và vượt trội hơn Llama 2 70B trên hầu hết các benchmark, ngang bằng hoặc vượt hiệu suất GPT-3.5. Nó thông thạo nhiều ngôn ngữ, bao gồm tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha và tiếng Ý, khiến nó trở thành lựa chọn linh hoạt cho nhiều tác vụ NLP khác nhau.
7. Wizard Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ là phiên bản lượng tử của Wizard Vicuna dựa trên mô hình LlaMA. Không giống như hầu hết các LLM được phát hành cho công chúng, Wizard-Vicuna là một mô hình không bị kiểm duyệt với sự liên kết bị xóa bỏ. Điều này có nghĩa là mô hình không có cùng tiêu chuẩn an toàn và đạo đức như hầu hết các mô hình khác.
Model | Wizard-Vicuna-30B-Uncensored-GPTQ |
---|---|
Kích thước model | 16.94 GB |
Tham số | 30 tỷ |
Lượng tử hóa | 4-bit |
Loại | LlaMA |
Giấy phép | GPL 3 |
Mặc dù có thể đặt ra vấn đề kiểm soát căn chỉnh AI, việc có một LLM không bị kiểm duyệt cũng mang lại điều tốt nhất cho mô hình bằng cách cho phép nó trả lời mà không có bất kỳ ràng buộc nào. Điều này cũng cho phép người dùng thêm căn chỉnh tùy chỉnh của họ vào cách AI nên hành động hoặc trả lời dựa trên một prompt nhất định.
8. Orca Mini-GPTQ

Bạn đang muốn thử nghiệm một mô hình được đào tạo theo phương pháp học tập độc đáo? Orca Mini là một mô hình triển khai không chính thức của các bài nghiên cứu Orca của Microsoft. Mô hình này được đào tạo bằng phương pháp học tập giáo viên-học sinh, trong đó tập dữ liệu chứa đầy các giải thích thay vì chỉ có lời nhắc và phản hồi. Về mặt lý thuyết, điều này sẽ giúp học sinh thông minh hơn, trong đó mô hình có thể hiểu được vấn đề thay vì chỉ tìm kiếm các cặp đầu vào và đầu ra như cách hoạt động của LLM thông thường.
Model | Orca Mini-GPTQ |
---|---|
Kích thước model | 8.11 GB |
Tham số | 3 tỷ |
Lượng tử hóa | 4-bit |
Loại | LlaMA |
Giấy phép | MIT |
Chỉ với 3 tỷ tham số, Orca Mini GPTQ dễ chạy ngay cả trên các hệ thống ít mạnh hơn. Tuy nhiên, không nên sử dụng mô hình này cho bất kỳ mục đích chuyên nghiệp nào vì nó tạo ra thông tin sai lệch, thiên vị và phản hồi mang tính xúc phạm. Nên sử dụng mô hình này để tìm hiểu, cũng như thử nghiệm với Orca và các phương pháp của nó.
9. Llama 2 13B Chat GPTQ

Llama 2 là phiên bản kế thừa của Llama LLM ban đầu, cung cấp hiệu suất và tính linh hoạt được cải thiện. Biến thể 13B Chat GPTQ được tinh chỉnh cho các ứng dụng AI đàm thoại được tối ưu hóa cho đối thoại tiếng Anh.
Model | Llama 2 13B Chat GPTQ |
---|---|
Kích thước model | 7.26 GB |
Tham số | 13 tỷ |
Lượng tử hóa | 4-bit |
Loại | Llama 2 |
Giấy phép | Meta License |
Llama 2 được thiết kế cho mục đích thương mại và nghiên cứu. Những điều khoản cấp phép của nó cho phép các công ty có ít hơn 700 triệu người dùng sử dụng mà không phải trả thêm phí. Mô hình này lý tưởng cho các tổ chức đang tìm kiếm giải pháp chatbot mạnh mẽ, chỉ cần đào tạo bổ sung tối thiểu.
Một số mô hình được liệt kê ở trên có nhiều phiên bản về mặt thông số. Nhìn chung, các phiên bản có thông số cao hơn mang lại kết quả tốt hơn nhưng yêu cầu phần cứng mạnh hơn, trong khi các phiên bản có thông số thấp hơn sẽ tạo ra kết quả chất lượng thấp hơn nhưng có thể chạy trên phần cứng cấp thấp hơn. Nếu bạn không chắc chắn liệu PC của mình có thể chạy được mô hình này hay không, hãy thử dùng phiên bản có thông số thấp hơn trước, sau đó tiếp tục cho đến khi bạn cảm thấy hiệu suất giảm không còn chấp nhận được nữa.