Cách chạy Qwen 3.5 cục bộ trên một GPU duy nhất

Trần Mến

Qwen 3.5 là dòng mô hình Qwen mới nhất của Alibaba, được xây dựng dựa trên hiệu năng mạnh mẽ của các mô hình Qwen trước đó trong các tác vụ suy luận, lập trình và đa phương thức.

Các đánh giá chuẩn độc lập cho thấy mô hình Qwen 3.5-397B-A17B đạt điểm cao trong những bài kiểm tra được sử dụng rộng rãi như LiveCodeBench và AIME26, thường vượt trội hơn các mô hình hàng đầu như GPT-5.2 và Claude Opus 4.5 trong phần lớn những hạng mục được đánh giá, và mang lại thông lượng cao hơn đáng kể so với các thế hệ Qwen trước đó.

Yêu cầu phần cứng và phần mềm cho Qwen 3.5

Trước khi chạy Qwen 3.5 cục bộ, bạn cần đảm bảo thiết lập của mình đáp ứng cả yêu cầu phần cứng và phần mềm để suy luận mượt mà. Hướng dẫn này sẽ sử dụng GPU NVIDIA H200 với 141GB VRAM, kết hợp với 240GB RAM hệ thống, cung cấp đủ bộ nhớ để chạy phiên bản MXFP4_MOE của Qwen 3.5 một cách hiệu quả với tính năng giảm tải MoE.

Nhìn chung, để đạt hiệu suất tốt nhất, tổng dung lượng VRAM + RAM của bạn nên xấp xỉ bằng kích thước của mô hình lượng tử hóa mà bạn tải xuống. Nếu không, llama.cpp có thể chuyển tải sang ổ SSD, nhưng quá trình suy luận sẽ chậm hơn.

Về phần mềm, bạn cần cài đặt driver GPU NVIDIA mới nhất, cùng với CUDA Toolkit phiên bản gần đây, để đảm bảo khả năng tương thích hoàn toàn với llama.cpp và quá trình suy luận tăng tốc bằng CUDA.

Cách chạy Qwen 3.5 cục bộ

Bây giờ, bạn đã đáp ứng đủ các điều kiện tiên quyết, hãy cùng xem hướng dẫn từng bước về cách sử dụng Qwen 3.5 cục bộ:

1. Thiết lập môi trường cục bộ

Để chạy Qwen 3.5 cục bộ, bạn cần có quyền truy cập vào một máy tính có GPU mạnh. Vì hầu hết các máy tính xách tay và máy tính để bàn không có đủ VRAM hoặc bộ nhớ để xử lý những mô hình có kích thước này, chúng ta sẽ sử dụng máy ảo GPU trên đám mây.

Hướng dẫn này đang sử dụng Hyperbolic để chạy mô hình một cách riêng tư. Bạn cũng có thể sử dụng các nhà cung cấp khác như RunPod, Vast.ai, hoặc bất kỳ nền tảng máy ảo GPU nào bạn thích. Bài viết chọn Hyperbolic vì hiện tại nó cung cấp một số phiên bản GPU tiết kiệm chi phí nhất hiện có.

Bắt đầu bằng cách khởi chạy một phiên bản mới với một GPU H200 duy nhất.

Khởi động phiên bản máy ảo GPU Hyperbolic H200

Sau khi máy khởi động, bạn sẽ thấy địa chỉ IP public và lệnh SSH cần thiết để kết nối từ terminal cục bộ của bạn.

Trước khi kết nối, hãy đảm bảo bạn đã thiết lập SSH cục bộ và đã thêm SSH key public của mình khi tạo máy ảo.

Sau khi phiên bản sẵn sàng, hãy kết nối với nó bằng SSH với chuyển tiếp cổng. Điều này rất quan trọng vì chúng ta muốn truy cập máy chủ suy luận llama.cpp cục bộ thông qua cổng 8080:

ssh -L 8080:localhost:8080 root@129.212.191.53

Lần đầu tiên kết nối, hãy nhập yes để xác nhận, sau đó xác thực bằng SSH key của bạn.

Sau khi đăng nhập, hãy xác minh rằng GPU được nhận diện chính xác:

nvidia-smi

Bạn sẽ thấy NVIDIA H200 được liệt kê trong kết quả.

Cuối cùng, hãy cài đặt các gói Linux cần thiết để tải xuống, biên dịch và chạy llama.cpp:

sudo apt update
sudo apt install pciutils build-essential cmake curl libcurl4-openssl-dev -y

Sau khi hoàn tất, môi trường của bạn đã sẵn sàng để cài đặt llama.cpp và chạy Qwen 3.5 cục bộ.

2. Cài đặt llama.cpp với hỗ trợ CUDA

llama.cpp là một công cụ suy luận C và C++ mã nguồn mở cho phép bạn chạy các mô hình ngôn ngữ lớn cục bộ với thiết lập tối thiểu, hỗ trợ cả tăng tốc CPU và GPU.

Đầu tiên, sao chép kho lưu trữ llama.cpp:

git clone https://github.com/ggml-org/llama.cpp

Tiếp theo, cấu hình bản build hỗ trợ CUDA với CMake. Chúng ta bật CUDA bằng -DGGML_CUDA=ON và đặt kiến trúc CUDA thành 90a vì đang sử dụng NVIDIA H200 (lớp Hopper). Điều này giúp bản build tạo ra code GPU được tối ưu hóa cho các tính năng của Hopper.

cmake llama.cpp -B llama.cpp/build \
  -DGGML_CUDA=ON \
  -DCMAKE_BUILD_TYPE=Release \
  -DCMAKE_CUDA_ARCHITECTURES="90a"

Tạo file xây dựng llama.cpp hỗ trợ CUDA.

Bây giờ biên dịch file nhị phân máy chủ. llama-server là máy chủ REST tích hợp cho phép bạn hiển thị llama.cpp như một API endpoint:

cmake --build llama.cpp/build --config Release -j --clean-first --target llama-server

Cuối cùng, sao chép các file nhị phân đã biên dịch vào thư mục chính để dễ dàng chạy:

cp llama.cpp/build/bin/llama-* llama.cpp

3. Tải xuống mô hình Qwen 3.5

Giờ đây, sau khi đã cài đặt llama.cpp, bước tiếp theo là tải xuống các trọng số mô hình Qwen 3.5 thực tế ở định dạng GGUF. Các file này có dung lượng lớn, vì vậy sử dụng Hugging Face CLI là cách đáng tin cậy nhất để tải chúng trực tiếp vào máy GPU của bạn.

Cần cài đặt Python trước vì những công cụ tải xuống và tiện ích xác thực của Hugging Face được phân phối dưới dạng các gói Python. Mặc dù bản thân llama.cpp được viết bằng C++, nhưng Python giúp việc quản lý tải xuống và truyền tải mô hình dễ dàng hơn nhiều.

Bắt đầu bằng cách cài đặt pip:

sudo apt install python3-pip

Tiếp theo, cài đặt Hugging Face Hub client cùng với các công cụ hỗ trợ hiệu suất. hf_transfer và hf-xet giúp tăng tốc độ tải xuống đáng kể, điều này rất quan trọng khi tải xuống hàng trăm gigabyte file mô hình:

pip -q install -U huggingface_hub hf-xet
pip -q install -U hf_transfer

Bây giờ, hãy tải xuống mô hình Qwen 3.5 từ Hugging Face. Trong hướng dẫn này, chúng ta chỉ tải xuống biến thể MXFP4_MOE, được tối ưu hóa cho suy luận MoE hiệu quả:

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
   --local-dir models/Qwen3.5 \
   --include "*MXFP4_MOE*"

Tải xuống mô hình 4-bit Qwen 3.5 từ Hugging Face

Sau khi quá trình tải xuống hoàn tất, các file mô hình sẽ được lưu trữ trong models/Qwen 3.5, sẵn sàng để được load vào llama.cpp để suy luận cục bộ.

4. Khởi chạy mô hình Qwen 3.5 trên GPU đơn

Bây giờ, chúng ta có thể khởi chạy Qwen 3.5 bằng llama-server. Điều này cung cấp cho chúng ta một API endpoint tương thích với OpenAI có thể gọi từ các công cụ và ứng dụng cục bộ.

Tối ưu hóa máy chủ cho thiết lập GPU đơn bằng cách thực hiện 3 việc chính. Đầu tiên, bật tùy chọn --fit để llama.cpp tự động cân bằng mô hình giữa VRAM của GPU và RAM hệ thống, thay vì báo lỗi khi mô hình không vừa hết trong VRAM.

Thứ hai, chúng ta sử dụng cửa sổ ngữ cảnh lớn hơn với --ctx-size 16384 để máy chủ có thể xử lý các prompt dài hơn. Thứ ba, chúng ta bật tùy chọn --jinja và truyền --chat-template-kwargs để kiểm soát định dạng trò chuyện và tắt chế độ suy nghĩ để nhận phản hồi nhanh và trực tiếp hơn.

Chạy máy chủ với lệnh:

./llama.cpp/llama-server \
    --model models/Qwen3.5/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \
    --alias "Qwen3.5" \
  --host 0.0.0.0 \
  --port 8080 \
  --fit on \
  --jinja \
   --ctx-size 16384 \
   --temp 0.7 \
   --top-p 0.8 \
   --top-k 20 \
   --min-p 0.00 \
   --chat-template-kwargs "{\"enable_thinking\": false}"

Trong khi mô hình đang load, bạn sẽ thấy nó sử dụng cả VRAM GPU và bộ nhớ hệ thống, điều này là bình thường đối với một mô hình MoE lớn.

Khởi động máy chủ llama.cpp và load mô hình

Sau khi quá trình load hoàn tất, máy chủ sẽ có thể truy cập được tại:

0.0.0.0:8080 trên máy ảo
http://127.0.0.1:8080 trên máy cục bộ của bạn sau khi chuyển tiếp cổng SSH

Máy chủ Qwen 3.5 đang chạy trên cổng 8080

Hãy để máy chủ tiếp tục chạy. Trên máy tính cục bộ của bạn, mở một cửa sổ terminal mới và kết nối lại bằng cách chuyển tiếp cổng SSH:

ssh -L 8080:localhost:8080 root@129.212.191.53

Sau đó, kiểm tra máy chủ bằng cách liệt kê các mô hình có sẵn:

curl -s http://127.0.0.1:8080/v1/models

Nếu bạn thấy Qwen 3.5 trong phản hồi, máy chủ của bạn đang chạy chính xác và bạn đã sẵn sàng gọi nó từ OpenAI SDK và các ứng dụng cục bộ của mình.

Mô hình Qwen 3.5 có sẵn tại cổng 8080 trên máy chủ llama.cpp

5. Kiểm tra mô hình Qwen 3.5 bằng cách sử dụng OpenAI SDK

Bây giờ, máy chủ suy luận Qwen 3.5 đang chạy, bước tiếp theo là xác minh rằng nó hoạt động chính xác với các ứng dụng client thực tế. Một trong những lợi thế lớn nhất của llama.cpp là llama-server cung cấp API tương thích với OpenAI, có nghĩa là bạn có thể sử dụng OpenAI SDK chính thức mà không cần thay đổi cấu trúc code của mình.

Đầu tiên, hãy cài đặt gói Python OpenAI trên máy tính cục bộ của bạn (hoặc bên trong máy ảo nếu bạn muốn):

pip install openai

Bây giờ, hãy chạy một script kiểm thử đơn giản. Script này kết nối với điểm cuối được chuyển tiếp cục bộ của bạn tại http://127.0.0.1:8080/v1 thay vì máy chủ đám mây của OpenAI.

python3 - <<'PY'
from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:8080/v1",
    api_key="sk-no-key-required"
)

response = client.chat.completions.create(
    model="Qwen3.5",
    messages=[
        {"role": "user", "content": "Write one sentence about AI agents."}
    ]
)

print(response.choices[0].message.content)
PY

Một vài chi tiết quan trọng cần hiểu ở đây:

base_url trỏ đến máy chủ Qwen 3.5 cục bộ của bạn, không phải API của OpenAI.
api_key vẫn được yêu cầu bởi SDK, nhưng llama.cpp không bắt buộc xác thực, vì vậy bất kỳ giá trị giữ chỗ nào cũng hoạt động.
Tên model="Qwen 3.5" khớp với alias được đặt khi khởi động máy chủ.

Nếu mọi thứ được cấu hình chính xác, bạn sẽ nhận được phản hồi nhanh chóng và rõ ràng từ mô hình.

Tạo phản hồi bằng cách sử dụng OpenAI Python SDK

Điều này xác nhận rằng:

Mô hình Qwen 3.5 đã được load thành công
Máy chủ llama.cpp đang chạy đúng cách
Chuyển tiếp cổng SSH của bạn đang hoạt động
Điểm cuối hoàn toàn tương thích với các ứng dụng kiểu OpenAI

Tại thời điểm này, bạn có thể tích hợp Qwen 3.5 vào bất kỳ công cụ cục bộ, quy trình làm việc của agent hoặc ứng dụng nào đã hỗ trợ định dạng API của OpenAI.

6. Xây dựng giao diện người dùng dựa trên văn bản (TUI) cho giao dịch chứng khoán bằng WebUI của Llama.cpp

Llama.cpp bao gồm một WebUI tích hợp sẵn, theo kiểu ChatGPT, mà bạn có thể sử dụng để trò chuyện trực tiếp với mô hình trong trình duyệt của mình. Điều này hữu ích cho việc kiểm thử nhanh, lặp lại thao tác và tạo code mà không cần phải viết bất kỳ script client nào trước.

Vì đã thiết lập chuyển tiếp cổng SSH, bạn có thể mở WebUI trên máy tính cục bộ của mình và nó sẽ hoạt động như thể máy chủ đang chạy trên laptop.

Theo mặc định, WebUI có sẵn tại:

http://127.0.0.1:8080

Nếu trang này load được, nó xác nhận hai điều. SSH tunnel của bạn đang hoạt động chính xác và máy chủ Qwen 3.5 có thể truy cập được cục bộ trong khi vẫn đang chạy riêng tư trên máy ảo GPU.

Sau khi bạn vào WebUI, hãy dán prompt này. Mục tiêu là để mô hình tạo ra cả code Python và hướng dẫn sử dụng ngắn gọn.

Xây dựng một ứng dụng giao diện người dùng văn bản (TUI) đơn giản bằng Python "Stock Screener Trainer" chạy bằng `python app.py` sử dụng thư viện rich (không phải giao diện web). Ứng dụng này cho phép tôi nhập danh sách mã cổ phiếu, chọn chế độ (tăng trưởng/giá trị/cổ tức) và mức độ rủi ro (thấp/trung bình/cao), lấy các chỉ số cơ bản công khai cho mỗi mã cổ phiếu từ một nguồn miễn phí, hiển thị trạng thái load trực tiếp, sau đó tạo một bảng đẹp và phần "Top 5 theo quy tắc chấm điểm của tôi" với lời cảnh báo rõ ràng "chỉ mang tính chất giáo dục, không phải lời khuyên tài chính", và lưu toàn bộ kết quả vào file `results.csv`.

Trong vòng vài giây, Qwen 3.5 sẽ tạo ra một file `app.py` và thường là một lời giải thích ngắn gọn về cách chạy nó.

Xây dựng ứng dụng giao dịch trong giao diện web `llama.cpp` bằng Qwen 3.5

Bây giờ hãy chuyển sang terminal cục bộ của bạn (laptop). Cài đặt các thư viện cần thiết cho ứng dụng được tạo ra:

pip install rich yfinance

Thao tác này cài đặt:

rich cho bố cục giao diện người dùng dựa trên văn bản (TUI), bảng, prompt và chỉ báo tiến độ
yfinance để lấy các chỉ số chứng khoán công khai, miễn phí

Tạo một file có tên app.py, dán code do mô hình tạo ra và chạy:

python3 app.py

Sau khi chạy script, bạn sẽ thấy giao diện người dùng dựa trên văn bản (TUI) khởi chạy chính xác trong terminal của mình. Ứng dụng sẽ nhắc bạn nhập mã chứng khoán muốn phân tích, cùng với chế độ sàng lọc và mức độ rủi ro ưa thích của bạn.

Ví dụ, tác giả bài viết đã thử nghiệm với ba cổ phiếu phổ biến.

Kiểm tra ứng dụng được tạo ra bằng lệnh Python.

Sau một giai đoạn load ngắn, công cụ sẽ trả về một bảng đầy đủ các chỉ số chứng khoán, làm nổi bật kết quả dựa trên những quy tắc chấm điểm và lưu mọi thứ vào file results.csv.

Kết quả phân tích TUI giao dịch chứng khoán

Đây là một ví dụ tuyệt vời về cách Qwen 3.5 có thể tạo ra một ứng dụng hoạt động hoàn chỉnh chỉ trong một lần, chỉ sử dụng một endpoint mô hình lượng tử hóa 4 bit và một prompt đơn giản.

Thứ Ba, 03/03/2026 17:25

5 ★ 1 👨 355

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Cách chạy Qwen 3.5 cục bộ trên một GPU duy nhất

Trần Mến

Yêu cầu phần cứng và phần mềm cho Qwen 3.5

Cách chạy Qwen 3.5 cục bộ

1. Thiết lập môi trường cục bộ

2. Cài đặt llama.cpp với hỗ trợ CUDA

3. Tải xuống mô hình Qwen 3.5

4. Khởi chạy mô hình Qwen 3.5 trên GPU đơn

5. Kiểm tra mô hình Qwen 3.5 bằng cách sử dụng OpenAI SDK

6. Xây dựng giao diện người dùng dựa trên văn bản (TUI) cho giao dịch chứng khoán bằng WebUI của Llama.cpp

Bạn nên đọc

Hướng dẫn học trực quan với Visual Learning Gemini

Hãy ngừng trả phí cho ChatGPT và xây dựng một thiết lập AI riêng ai cũng có thể sử dụng!

Cách chỉnh sửa hình ảnh bằng AI trong Messenger

Hướng dẫn cách hủy đăng ký và xóa tài khoản Copilot

Cách chạy LLM trên điện thoại Android bằng MNN Chat

Hướng dẫn tạo bài đọc Reading từ SGK bằng NotebookLM

Đừng dùng Perplexity nữa! LLM cục bộ của bạn làm mọi thứ tốt hơn

Hướng dẫn kết nối Copilot với Gmail, OneDrive trên Windows 11

Các LLM cục bộ không thể thay thế ChatGPT hoặc Gemini

Cũ vẫn chất

Công thức tính diện tích tam giác: vuông, thường, cân, đều

Kí tự chữ nhỏ, ký tự số nhỏ FF

Hướng dẫn cập nhật thông tin tài khoản LMHT VNG mới

Cách dễ nhất để tìm và xóa các file trùng lặp trên Windows

Cách gửi file âm thanh trên Messenger điện thoại, máy tính

Đáp án Chiến Thần Tri Thức LOL, Chiến Thần Tri Thức đáp án

Hướng dẫn tách dữ liệu cột trong Excel

10+ cách xóa bỏ logo trong file PDF rất đơn giản

Lấy lại Windows Photo Viewer trên Windows 10 giúp xem ảnh nhanh hơn, Photos chậm quá!

Code Thiên Thư Truyền Kỳ mới nhất 5/2026