Những cách chạy LLM cục bộ thay thế Ollama hoặc llama.cpp

Xuân Thủy

Ollama đã trở thành câu trả lời mặc định khi ai đó hỏi cách chạy một LLM cục bộ, và điều đó hoàn toàn có lý. Nó dễ sử dụng, hoạt động trên nhiều nền tảng, và che giấu đủ các phần phức tạp để bạn có thể xây dựng một mô hình hoạt động chỉ trong vài phút. llama.cpp cũng là nền tảng của rất nhiều ứng dụng AI cục bộ, đặc biệt nếu bạn đang sử dụng các mô hình GGUF, vì vậy cả hai đều sẽ không biến mất.

Vấn đề là tiêu chuẩn "dễ" không còn đủ nữa khi mô hình cục bộ trở thành một phần của quy trình làm việc. Bạn bắt đầu quan tâm đến việc cung cấp API, xử lý hàng loạt, đầu ra có cấu trúc, hành vi cache, tăng tốc dành riêng cho Mac, triển khai trên thiết bị di động, hoặc liệu bạn có đang âm thầm bỏ phí hiệu năng hay không. Nhiều người vẫn nghĩ Ollama là cách dễ nhất để bắt đầu chạy các LLM cục bộ, nhưng đó không phải là nơi họ muốn tiếp tục khi xây dựng một thứ gì đó nghiêm túc hơn.

Các phương án thay thế phức tạp hơn, nhưng chúng cho phép bạn kiểm soát những phần mà Ollama cố gắng che giấu. Nếu bạn đang chạy các agent, hướng nhiều ứng dụng đến cùng một mô hình, làm việc trên máy Mac, hoặc cố gắng làm cho GPU dành cho người tiêu dùng hoạt động như một hộp suy luận thực thụ, thì runtime bắt đầu quan trọng không kém gì mô hình.

vLLM và SGLang biến các mô hình cục bộ thành cơ sở hạ tầng

vLLM là công cụ đầu tiên nên xem xét khi bạn muốn một mô hình cục bộ hoạt động ít giống một ứng dụng desktop hơn và giống một dịch vụ suy luận hơn. Nó có API server tương thích với OpenAI, suy luận thông lượng cao, xử lý hàng loạt liên tục, lưu cache tiền tố, điền trước theo khối, đầu ra có cấu trúc, trình phân tích cú pháp gọi công cụ và suy luận, hỗ trợ nhiều định dạng lượng tử hóa.

Những tính năng đó rất quan trọng khi mô hình được gọi bởi các công cụ lập trình, agent, thí nghiệm RAG hoặc nhiều ứng dụng cùng một lúc. Một prompt duy nhất trong terminal không cần nhiều logic lập lịch, nhưng một endpoint cục bộ được truy cập nhiều lần chắc chắn cần. Đặc biệt là khi các yêu cầu đó chia sẻ ngữ cảnh, chạy dài hoặc cần tránh lãng phí VRAM cho việc quản lý cache.

Tính năng nổi tiếng nhất của vLLM là PagedAttention, quản lý cache key-value của mô hình hiệu quả hơn. Mục tiêu là để tránh việc bộ nhớ GPU trở thành nút thắt cổ chai khi có nhiều yêu cầu hoạt động đồng thời hoặc khi ngữ cảnh trở nên lớn hơn. Điều này không làm cho mọi thiết lập cục bộ nhanh hơn, nhưng đó là lý do tại sao vLLM xuất hiện rất thường xuyên trên Internet, đặc biệt là trong các triển khai có thông lượng cao hơn.

SGLang nằm trong cùng một nhóm rộng, nhưng đặc điểm của nó gắn liền hơn với việc tạo cấu trúc, các mẫu prompt lặp lại và khối lượng công việc kiểu agent. Danh sách tính năng của nó bao gồm RadixAttention để lưu trữ tiền tố, phân tách giải mã-điền trước, giải mã suy đoán, xử lý hàng loạt liên tục, chú ý theo trang, điền trước theo khối, song song tensor và chuyên gia, xử lý hàng loạt đa LoRA.

Văn bản tự do thì ổn trong hộp trò chuyện, nhưng nó trở thành vấn đề khi chương trình của bạn mong đợi JSON, schema hoặc lệnh gọi công cụ ở một định dạng cụ thể. SGLang được xây dựng cho các prompt lặp lại, đầu ra bị ràng buộc và tái sử dụng cache, tất cả đều dễ quan tâm hơn nhiều khi mô hình điều khiển các công cụ thay vì chỉ trả lời câu hỏi.

Bạn sẽ không cài đặt bất kỳ công cụ nào trong số này trước khi làm quen với các công cụ đơn giản hơn, vì chúng yêu cầu khá nhiều thao tác thiết lập và giả định người dùng cần có một trình độ hiểu biết nhất định để sử dụng. Tuy nhiên, chúng sẽ hữu ích nhất khi bạn sử dụng các phần mềm khác yêu cầu thiết lập endpoint theo kiểu doanh nghiệp hơn. Nếu LLM cục bộ trở thành cơ sở hạ tầng phụ trợ cho phòng thí nghiệm tại nhà, thì vLLM và SGLang sẽ phù hợp hơn với nhu cầu của bạn.

vMLX cung cấp cho máy Mac một ứng dụng cục bộ mạnh mẽ hơn

Mô tả về MLX của Apple trong LM Studio khi di chuột qua biểu tượng MLX

Người dùng Mac luôn có một câu chuyện LLM cục bộ hơi khác. Bộ nhớ hợp nhất của Apple Silicon giúp các mô hình lớn trở nên thực tế hơn bạn tưởng trên laptop, nhưng ngăn xếp phần mềm không giống như trên máy Linux với GPU Nvidia. Bạn có thể chạy llama.cpp với Metal, và nó hoạt động tốt, nhưng có những lý do chính đáng để muốn sử dụng các công cụ được xây dựng với ngăn xếp của Apple ngay từ đầu.

vMLX rất thú vị vì nó hướng đến trải nghiệm ứng dụng gần gũi hơn với những gì người dùng mong muốn từ Ollama hoặc LM Studio, đồng thời kế thừa các ý tưởng từ các nền tảng xử lý dữ liệu chuyên nghiệp hơn. Chính nó đã đề cập đến cache tiền tố, cache KV phân trang, xử lý hàng loạt liên tục và các công cụ MCP. Đây là một cách tiếp cận rất khác so với "tải xuống một mô hình và trò chuyện với nó", đó là lý do tại sao nó xứng đáng được coi trọng hơn chỉ là một Mac wrapper thông thường.

MLX là framework xử lý mảng của Apple dành cho Apple Silicon, với lazy computation, đồ thị động, thực thi CPU/GPU và mô hình bộ nhớ thống nhất, nơi các mảng nằm trong bộ nhớ dùng chung. MLX-LM cung cấp thêm khả năng tạo văn bản, tích hợp Hugging Face, lượng tử hóa và tinh chỉnh, trong khi MLX-VLM bao gồm các mô hình ngôn ngữ thị giác trên cùng một nền tảng chung. vMLX là công cụ cấp ứng dụng, trong khi MLX-LM và MLX-VLM là các tùy chọn cấp thấp hơn khi bạn muốn làm việc gần hơn với mô hình. Thừa nhận rằng, không có bất kỳ điều nào trong số này là sự thay thế hoàn hảo cho vLLM hoặc SGLang, nhưng vẫn là một công cụ tuyệt vời nếu bạn là người dùng Mac.

vMLX được hiểu rõ nhất là con đường gốc của Mac thông qua thế giới LLM cục bộ, chứ không phải là một công cụ CUDA được ánh xạ một cách vụng về lên Apple Silicon. Mô hình bộ nhớ, ngăn xếp GPU và kỳ vọng của ứng dụng đủ khác biệt để các công cụ gốc như thế này thực sự mang lại lợi ích.

MLC-LLM và ExLlamaV3 nhắm mục tiêu giải quyết các vấn đề phần cứng cụ thể

Mô hình Vicuna-7B chạy trên Samsung Galaxy S23 Ultra, cho thấy sức mạnh của AI trên thiết bị

MLC-LLM được xây dựng dựa trên việc biên dịch và triển khai Machine Learning trên nhiều nền tảng khác nhau. Nó hỗ trợ các trình duyệt web thông qua WebGPU và WASM, iOS và iPadOS thông qua Metal trên GPU dòng A của Apple, và Android thông qua OpenCL trên GPU Adreno và Mali.

MLC đóng vai trò khác với môi trường chạy máy chủ thông thường, mặc dù nó có thể cung cấp các API tương thích với OpenAI. Nó được xây dựng cho các trường hợp sử dụng chuyên biệt hơn, và WebLLM chạy suy luận trực tiếp trong trình duyệt với khả năng tăng tốc WebGPU mà không cần máy chủ. Nó cũng hỗ trợ stream, chế độ JSON và tạo JSON có cấu trúc.

MLC không phải là lựa chọn phù hợp cho một mô hình lớn phục vụ một phòng thí nghiệm tại nhà với nhiều ứng dụng. Điểm hấp dẫn của nó là khả năng triển khai vào những nơi không giống như các LLM host thông thường: Những nơi như trình duyệt, điện thoại, máy tính bảng và ứng dụng nhúng. Nó nhắm đến một loại dự án AI cục bộ hoàn toàn khác so với vLLM và SGLang.

ExLlamaV3 chuyên về hướng ngược lại. Đây là phiên bản hiện tại của dòng ExLlama sau khi ExLlamaV2 được lưu trữ, và về cơ bản nó là một thư viện suy luận được xây dựng đặc biệt để chạy LLM cục bộ trên GPU tiêu dùng hiện đại. Các ưu tiên là phù hợp với mô hình, giữ cho ngữ cảnh có thể sử dụng được, tránh lãng phí VRAM và đạt được tốc độ chấp nhận được mà không cần phần cứng doanh nghiệp.

Định dạng lượng tử hóa EXL3, suy luận song song tensor và expert cho phần cứng người tiêu dùng, xử lý hàng loạt động liên tục, giải mã dự đoán, lượng tử hóa cache, hỗ trợ đa phương thức và hỗ trợ LoRA đều được xây dựng vì mục tiêu đó. TabbyAPI cũng cung cấp cho nó một máy chủ tương thích với OpenAI, vì vậy nó vẫn có thể tích hợp vào các ứng dụng mong đợi một endpoint cục bộ thông thường.

Thứ Tư, 17/06/2026 10:48

3 ★ 1 👨 132

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

AI cho người mới

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Những cách chạy LLM cục bộ thay thế Ollama hoặc llama.cpp

Xuân Thủy

vLLM và SGLang biến các mô hình cục bộ thành cơ sở hạ tầng

vMLX cung cấp cho máy Mac một ứng dụng cục bộ mạnh mẽ hơn

MLC-LLM và ExLlamaV3 nhắm mục tiêu giải quyết các vấn đề phần cứng cụ thể

Bạn nên đọc

Tính năng trích xuất hình ảnh của Gemini trong Google Photos giúp thư viện ảnh của bạn trở nên hữu ích như thế nào?

Cách dùng LLM cục bộ sắp xếp kho Obsidian hỗn loạn

Cách tổ chức Obsidian vault không sử dụng thư mục

NoteGPT AI: Tạo Podcast, tóm tắt tài liệu nhanh chóng

Các LLM cục bộ không thể thay thế ChatGPT hoặc Gemini

AI tạo ra sự dư thừa: Tương lai của nhân loại hay lợi ích của số ít?

Có thể chạy chatbot AI cục bộ trên phần cứng cũ không?

Đừng dùng Perplexity nữa! LLM cục bộ của bạn làm mọi thứ tốt hơn

5 khóa học AI miễn phí giúp bạn hiểu rõ AI từ con số 0