Có rất nhiều dịch vụ dựa trên điện toán đám mây vận hành các mô hình ngôn ngữ mạnh mẽ, nhưng giống như bất kỳ thứ gì trên đám mây, hai vấn đề ngay lập tức phát sinh: Thu thập dữ liệu và truy cập nhất quán. Nhiều người luôn thích thử nghiệm với các LLM tự host, và công nghệ đã tiến bộ vượt bậc kể từ khi lần đầu tiên có thể chạy các mô hình mạnh mẽ và hoàn toàn miễn phí trên card đồ họa cấp độ người tiêu dùng. Tất nhiên, những gì bạn thực sự có thể chạy sẽ khác nhau rất nhiều tùy thuộc vào cấu hình máy tính của bạn, nhưng sự thật là có rất nhiều lựa chọn ngoài kia.
7. Kích thước mô hình và VRAM không phải là những yếu tố duy nhất quan trọng
Băng thông bộ nhớ là một yếu tố chính
Bài học đầu tiên bạn nên biết sớm là kích thước mô hình không chỉ đơn thuần là mức độ "thông minh" của nó. Còn một khía cạnh khác cần xem xét, đó là số lượng token được tạo ra mỗi giây. Băng thông bộ nhớ có thể đóng vai trò lớn ở đây, và đó là lý do tại sao RTX 3090 vẫn là một trong những GPU cấp người tiêu dùng tốt nhất cho suy luận cục bộ bất chấp sự ra mắt của 4090 và 5090, và đó là nhờ băng thông bộ nhớ cao và chi phí thấp hơn so với các card RTX xx90 mới hơn đã được phát hành kể từ đó. Những card đồ họa đó hoạt động tốt hơn RTX 3090 ở nhiều khía cạnh, nhưng không đến mức như bạn mong đợi khi so sánh chúng cụ thể trong quá trình suy luận. Để tham khảo, 5090 có thể đạt hiệu suất tăng gấp hai đến ba lần so với 3090 (mặc dù nó cũng có 32GB VRAM), nhưng việc nâng cấp từ 4090 lên 3090 chỉ là một cải tiến nhỏ khi nói đến các mô hình ngôn ngữ lớn.
Ngoài ra còn một phần khác cần xem xét, đó là cửa sổ ngữ cảnh. Các mô hình ngôn ngữ tính toán "vị trí" của chúng bằng cách sử dụng Rotary Positional Embeddings (RoPE) được mã hóa trong các bộ chuyển đổi, và chúng hoạt động như một thước đo toán học được đặt trên chuỗi. Tăng chiều dài của thước đo này (cửa sổ ngữ cảnh) nghĩa là nhiều phép nhân hơn trong mỗi lần truyền tiến và cache key-value lớn hơn, và việc tăng gấp đôi chiều dài của ngữ cảnh (ví dụ: từ 8K token lên 16K) có thể làm giảm hiệu suất xuống một nửa.
6. Lượng tử hóa là người bạn đồng hành thân thiết
Lượng tử hóa là một trong những điều quan trọng nhất cần tìm hiểu khi nói đến các LLM tự host, vì nó quyết định rất nhiều thứ. Về cơ bản, nó nén các số dấu phẩy động 16 bit hoặc 32 bit liên tục tạo mạng nơ-ron thành ít bit hơn, lưu trữ các giá trị gần đúng "đủ tốt" cho suy luận. Trên thực tế, lượng tử hóa số nguyên 8 bit (INT8) khá phổ biến hiện nay, nó ánh xạ phạm vi của mỗi kênh thành 256 mức trong runtime và thường có thể chạy mà không cần huấn luyện lại. Nói cách khác, hãy xem xét phiên bản tham số 671B của mô hình R1 của DeepSeek, cụ thể là phiên bản lượng tử hóa 4 bit Q4_K_M. Chất lượng bị mất rất ít so với mô hình kích thước đầy đủ không có bất kỳ lượng tử hóa nào, nhưng việc giảm dung lượng bộ nhớ lại là một lợi thế lớn.
Tuy nhiên, việc lượng tử hóa mạnh mẽ cũng có những nhược điểm, chẳng hạn như lỗi tái tạo cao hơn. Điều này có nghĩa là các từ hiếm hoặc suy luận số học tinh tế có thể bị lỗi khi mọi phép toán đều được làm tròn. Mặc dù vậy, việc tiết kiệm theo cấp số nhân về VRAM và băng thông thường bù đắp cho sự mất mát độ chính xác đôi khi xảy ra, đặc biệt là đối với các trường hợp sử dụng "cơ bản" hơn, và sự đánh đổi rất nhỏ về hiệu suất sẽ cho phép bạn chạy một mô hình lớn hơn so với trước đây. Thêm vào đó, gần như chắc chắn rằng mô hình nhỏ hơn sẽ có hiệu suất kém hơn ở tất cả các hạng mục so với phiên bản lượng tử hóa của mô hình lớn hơn.
5. Đừng quên tính đến chi phí điện năng
Mặc dù LLM tự host có vẻ là một cách tiết kiệm chi phí để có được suy luận cục bộ tốt, nhưng nhiều người quên mất hóa đơn tiền điện và các chi phí khác có thể phát sinh khi triển khai LLM được host cục bộ. RTX 4090 có TDP 450W, và giá điện trung bình ở Mỹ là 0,16 USD/kWh. Điều đó nghĩa là bạn có thể phải trả hóa đơn tiền điện hơn 50 USD/tháng nếu sử dụng nó ở công suất tối đa. Sử dụng thường xuyên trong suốt cả ngày có thể nhanh chóng làm tăng chi phí và gây tốn kém hơn so với việc sử dụng API của Gemini hoặc OpenAI để truy cập vào các mô hình mạnh mẽ hơn đáng kể.
4. Bạn không cần chỉ tập trung vào Nvidia
Nvidia không phải là người chơi duy nhất trong lĩnh vực LLM tự host hiện nay. Như đã đề cập, bạn có thể sử dụng AMD Radeon RX 7900 XTX cho các mô hình tự host của mình, và nhiều người cũng đã thử nghiệm Intel Arc A770 với 16GB VRAM. AMD được hỗ trợ chính thức trong các công cụ như Ollama, và mặc dù cần thêm một chút công sức, bạn cũng có thể sử dụng GPU Intel thông qua bản phân nhánh IPEX LLM của Ollama.
Nvidia chắc chắn là một lựa chọn tốt, nhưng nếu card Nvidia không khả thi, hãy xem xét AMD và Intel, và nghiên cứu hiệu năng của các dòng máy bạn muốn sử dụng để xem liệu có card nào phù hợp với nhu cầu hay không. Bạn có thể sẽ bất ngờ đấy.
3. Kỹ thuật tạo prompt và sử dụng công cụ hiệu quả là những cách tuyệt vời để khai thác tối đa hiệu năng của một mô hình nhỏ
Nếu bạn đang sử dụng một mô hình nhỏ hơn và muốn có hiệu suất tốt hơn, đừng chỉ chuyển sang mô hình khác với hy vọng rằng thêm vài tỷ tham số sẽ giải quyết được tất cả vấn đề của mình. Thay vào đó, có một vài lời khuyên, và lời khuyên đầu tiên là hãy suy nghĩ lại về các prompt của bạn. Một prompt ngắn gọn, trực tiếp và toàn diện sẽ mang lại kết quả tốt hơn so với một prompt mơ hồ, không rõ ràng. Chỉ vì bạn đã quen với Gemini, ChatGPT hoặc Claude, những mô hình có thể hoạt động tốt với các prompt mơ hồ, không có nghĩa là bạn có thể tiếp cận một mô hình nhỏ hơn đáng kể đang chạy trên máy tính hoặc máy chủ tại nhà theo cùng một cách. Nếu bạn trực tiếp và đi thẳng vào vấn đề, các mô hình của bạn có khả năng sẽ hoạt động tốt hơn đáng kể, vì vậy hãy suy nghĩ lại về các prompt nếu câu trả lời bạn nhận được không đủ tốt.
Mẹo tiếp theo là sử dụng Retrieval Augmented Generation, hay còn gọi là RAG. Điều này giúp mô hình của bạn có một tập dữ liệu để dựa vào đó đưa ra câu trả lời, dẫn đến độ chính xác cao hơn mà không cần phải tải toàn bộ ngữ cảnh của mô hình với mọi thông tin có khả năng liên quan.
Mẹo cuối cùng là sử dụng các công cụ. Các công cụ trong ngữ cảnh LLM là những tiện ích phần mềm được thiết kế để mô hình vận hành và có thể được gọi khi cần thiết. Có rất nhiều loại công cụ khác nhau mà bạn có thể sử dụng, và trong nhiều trường hợp, có thể không cần thiết phải "cưỡng chế" "trí thông minh" bằng cách chỉ sử dụng một mô hình lớn hơn.
2. Các mô hình Mixture of Experts cho phép sử dụng các mô hình lớn hơn với giới hạn VRAM thấp hơn
Các mô hình ngôn ngữ Mixture of Experts (MoE) tương đối mới, nhưng khái niệm này trong AI đã có từ nhiều thập kỷ trước và đã được sử dụng trong các ngữ cảnh deep learning cho nghiên cứu và tính toán. Về cơ bản, các mô hình này phân vùng một mạng lưới "chuyên gia" với một cổng gọn nhẹ quyết định chuyên gia nào xử lý nhiệm vụ nào. Điều này không có nghĩa là dung lượng bộ nhớ của nó ít hơn so với một mô hình khác có cùng lượng tử hóa và số lượng tham số. Tuy nhiên, điều đó nghĩa là bạn có thể điều chỉnh việc load mô hình sao cho các tensor ít được truy cập hơn được chuyển sang RAM hệ thống, để lại chỗ trống trong VRAM của GPU cho các tensor mà bạn muốn truy cập thường xuyên.
1. Hãy bắt đầu với những thứ đơn giản!
LM Studio là một lựa chọn tuyệt vời để bắt đầu
Thay vì phải tốn công thiết lập các công cụ phức tạp như Ollama và Open Web UI, điều có thể gây khó khăn cho người mới bắt đầu tự thiết lập máy chủ, hãy sử dụng giao diện đồ họa như LM Studio để bắt đầu. Nó cực kỳ đơn giản; chỉ cần sử dụng chức năng tìm kiếm tích hợp để tìm mô hình, tải xuống và chạy. Bạn không cần phải cấu hình gì cả. Nó đi kèm với tất cả các thư viện cần thiết để tận dụng tối đa phần cứng của bạn, và hoạt động trên Windows, Linux và macOS, vì vậy nó giúp bạn không phải mất công tìm hiểu chính xác những gì cần thiết để chạy LLM trên hệ thống của mình.
Thậm chí tốt hơn, đối với việc phát triển, LM Studio có thể host một máy chủ tương thích với OpenAI ở chế độ nền, vì vậy bạn có thể sử dụng nó để kiểm tra các ứng dụng hoặc công cụ của riêng mình hiểu API của OpenAI sau khi bạn trỏ chúng đến endpoint được host cục bộ của mình. Nó dễ sử dụng, hoàn toàn miễn phí và là một cách tuyệt vời để bắt đầu và làm quen với việc tự quản lý LLM trước khi triển khai một hệ thống LLM ở nơi khác. Tất cả các thiết lập chính mà bạn muốn chỉnh sửa, từ prompt hệ thống đến độ dài ngữ cảnh, đều có thể thay đổi được, vì vậy đây là một cách tuyệt vời để bắt đầu.
Hướng dẫn AI
Học IT










AI
Hàm Excel