Hướng dẫn sử dụng Gemma 4 trong VS Code

Mỗi nhà phát triển đều có cùng một câu hỏi: "Liệu tôi có thể có được một trợ lý lập trình AI thực thụ mà không cần trả 19 USD/tháng và không cần gửi code của mình lên máy chủ của người khác không?". Câu trả lời, tính đến giữa năm 2026, là có — và Gemma 4 chạy cục bộ thông qua Ollama bên trong VS Code là cách tốt nhất để làm điều đó. Không phải là một món đồ chơi. Không phải là một sự thỏa hiệp. Một người bạn đồng hành lập trình thực sự hữu ích, hoạt động hoàn toàn trên máy tính của bạn.

Hướng dẫn này là kết quả của việc sử dụng hàng ngày thiết lập toàn thời gian trên trong hơn một tháng, trên các dự án Flutter, Python và TypeScript — không phải là một thử nghiệm nhanh, mà là một quy trình làm việc thực tế được xây dựng dựa trên Gemma 4. Có nhiều cách khác nhau để kết nối Gemma 4 với VS Code, cung cấp cho bạn các thiết lập cụ thể giúp trải nghiệm nhanh chóng thay vì gây khó chịu. Nếu bạn chưa cài đặt Gemma 4, hãy bắt đầu với hướng dẫn dành cho người mới chạy Gemma 4 cục bộ và quay lại đây sau khi Ollama đã hoạt động.

Trước khi bắt đầu: Máy của bạn có đủ mạnh không?

Gemma 4 hoạt động hoàn toàn trên phần cứng của bạn — không có cơ chế dự phòng đám mây. Nếu máy của bạn không đủ mạnh, bạn sẽ gặp phải tình trạng hoàn thành chậm chạp, làm gián đoạn quá trình làm việc thay vì hỗ trợ nó. Đây là những gì bạn thực sự cần:

  • Windows hoặc Linux với GPU NVIDIA: 8GB VRAM là điểm khởi đầu thực tế cho gemma4:e4b, tag mặc định tốt nhất cho hầu hết các nhà phát triển. Nếu GPU của bạn chỉ có 4-6GB VRAM, hãy bắt đầu với gemma4:e2b và mong đợi các đề xuất đơn giản hơn.
  • Mac với Apple Silicon: Bất kỳ chip M1, M2, M3 hoặc M4 nào với 16GB bộ nhớ hợp nhất đều xử lý gemma4:e4b một cách thoải mái. Với bộ nhớ hợp nhất 24GB trở lên, bạn có thể thử gemma4:26b, và 32GB trở lên sẽ cho bạn cơ hội tốt hơn để sử dụng mô hình gemma4:31b đầy đủ.
  • Không có GPU chuyên dụng: gemma4:e2b vẫn có thể chạy trên CPU, nhưng hãy mong đợi 2-5 giây cho mỗi lần hoàn thành thay vì dưới một giây. Bạn cần tối thiểu 8GB RAM, tốt nhất là 16GB. Cấu hình này có thể sử dụng được cho các quy trình làm việc trò chuyện nhưng sẽ gây khó chịu với tính năng tự động hoàn thành văn bản trực tuyến.

Kiểm tra phần cứng nhanh: Trên Windows, nhấn Ctrl+Shift+Esc để mở Task Manager, vào Performance > GPU — tìm Dedicated GPU memory. Trên Mac, nhấp vào menu Apple và kiểm tra About This Mac để xem thông tin về chip và bộ nhớ. Trên Linux, chạy lệnh nvidia-smi trong terminal.

Cài đặt VS Code (Bỏ qua nếu bạn đã có)

Nếu VS Code đã có trên máy của bạn, hãy chuyển thẳng đến phần Ollama bên dưới.

1. Truy cập code.visualstudio.com và tải xuống trình cài đặt cho hệ điều hành của bạn.

  • Windows: Chạy file .exe. Trong quá trình cài đặt, chọn Add to PATHRegister Code as an editor for supported file types — cả hai đều giúp bạn tránh gặp rắc rối sau này.
  • Mac: Giải nén file đã tải xuống, kéo VS Code vào Applications. Khi khởi chạy lần đầu, nhấp chuột phải vào biểu tượng và chọn Open để bỏ qua cảnh báo Gatekeeper của macOS.
  • Linux: Tải xuống gói .deb và chạy lệnh sudo dpkg -i code_*.deb, hoặc cài đặt qua snap bằng lệnh sudo snap install code --classic.

2. Mở VS Code và nhấn Ctrl+` (phím dấu nháy đơn phía trên phím Tab) để mở terminal tích hợp. Bạn sẽ cần điều này cho các bước tiếp theo.

Cài đặt Ollama — Công cụ đằng sau mọi thứ

Ollama là thành phần thực sự tải xuống và chạy Gemma 4 trên máy của bạn. Hãy coi nó như một máy chủ cục bộ hoạt động âm thầm trong nền, chờ các VS Code extension gửi prompt. Mọi phương pháp trong hướng dẫn này đều dựa vào nó.

1. Truy cập ollama.com và tải xuống trình cài đặt.

  • Windows: Chạy file .exe. Sau khi cài đặt, Ollama sẽ tự động khởi động và hiển thị dưới dạng biểu tượng trong khay hệ thống của bạn (góc dưới bên phải, gần đồng hồ).
  • Mac: Mở file .dmg, kéo Ollama vào Applications và khởi chạy nó. Bạn sẽ thấy biểu tượng của nó xuất hiện trên thanh menu.
  • Linux: Chạy lệnh curl -fsSL https://ollama.com/install.sh | sh trong terminal. Nó sẽ tự động cài đặt và khởi chạy như một service nền.

2. Xác minh cài đặt: Mở terminal và chạy lệnh:

ollama --version

Nếu bạn thấy số phiên bản, tức là đã cài đặt thành công. Nếu bạn nhận được thông báo "command not found", hãy khởi động lại terminal hoặc khởi động lại máy tính của bạn.

3. Xác nhận máy chủ đang hoạt động: Truy cập http://localhost:11434 trong trình duyệt của bạn. Bạn sẽ thấy dòng chữ "Ollama is running". Nếu không, hãy khởi chạy lại ứng dụng Ollama từ menu Start hoặc thư mục Applications.

Tải xuống Gemma 4 — Một lệnh, Tải xuống một lần

Bước này tải xuống trọng số mô hình vào ổ đĩa cục bộ của bạn. Việc này chỉ diễn ra một lần — sau đó, mô hình sẽ được laod từ bộ nhớ trong vài giây mỗi khi bạn bắt đầu lập trình.

Tính đến bản cập nhật này, dòng Gemma 4 của Google bao gồm E2B, E4B, 26B, A4B và 31B. Các tag Gemma 4 của Ollama tuân theo cách đặt tên đó, vì vậy hãy sử dụng những tag cụ thể bên dưới thay vì các tham chiếu 12B hoặc 27B cũ hơn mà bạn có thể thấy ở nơi khác.

1. Mở cửa sổ dòng lệnh (hoặc sử dụng cửa sổ dòng lệnh tích hợp trong VS Code với tổ hợp phím Ctrl+`).

2. Tải xuống mô hình E4B, đây là sự cân bằng tốt nhất giữa tốc độ và chất lượng cho hầu hết các nhà phát triển:

ollama pull gemma4:e4b

3. VRAM hoặc CPU hạn chế? Tải xuống tag Ollama chính thức nhẹ nhất: ollama pull gemma4:e2b

4. Có 16GB+ VRAM hoặc nhiều bộ nhớ hợp nhất? Tải xuống mô hình mixture-of-experts 26B A4B để có khả năng suy luận mạnh mẽ hơn đáng kể: ollama pull gemma4:26b

5. Có 24GB+ VRAM hoặc 32GB+ bộ nhớ hợp nhất? Tải xuống mô hình 31B hàng đầu: ollama pull gemma4:31b. Nếu bạn muốn tag lượng tử hóa rõ ràng, hãy sử dụng ollama pull gemma4:31b-it-q4_K_M.

6. Xác minh quá trình tải xuống: Chạy ollama list — mô hình của bạn sẽ xuất hiện cùng với kích thước của nó.

7. Kiểm tra nhanh: Chạy lệnh ollama run gemma4:e4b để mở cửa sổ trò chuyện. Hỏi một câu đơn giản như "Write a hello world in Python" (Viết chương trình "hello world" bằng Python). Nếu nhận được code hoạt động, mọi thứ đã được thiết lập đúng. Gõ /bye để thoát.

Kiểm tra Gemma 4 trong ứng dụng Ollama desktop (Không cần VS Code)

Các bản build Ollama gần đây đi kèm với cửa sổ trò chuyện trên desktop được tích hợp sẵn — đây là cách nhanh nhất để xác nhận cài đặt của bạn hoạt động trước khi kết nối bất cứ thứ gì với VS Code. Nếu ứng dụng dành cho desktop giao tiếp tốt với Gemma 4, mọi phương pháp bên dưới cũng sẽ hoạt động, vì tất cả chúng đều kết nối với cùng một máy chủ Ollama cục bộ tại localhost:11434.

  1. Mở ứng dụng Ollama từ menu Start (Windows), thư mục Applications (Mac) hoặc biểu tượng khay hệ thống.
  2. Bạn sẽ thấy giao diện trò chuyện tối giản với bộ chọn mô hình ở góc dưới bên phải. Nhấp vào đó và chọn biến thể bạn đã chọn, chẳng hạn như gemma4:e2b, gemma4:e4b, gemma4:26b hoặc gemma4:31b.
  3. Nhập một prompt nhanh như "Write a Python function that reverses a string" và nhấn Enter. Gemma 4 sẽ bắt đầu truyền phản hồi trong vòng một hoặc hai giây.
Đây là ứng dụng trò chuyện tích hợp sẵn của Ollama trên desktop với Gemma 4 được chọn. Nếu cách này hoạt động, mọi phương pháp VS Code bên dưới cũng sẽ hoạt động — tất cả đều truy cập cùng một máy chủ cục bộ.
Đây là ứng dụng trò chuyện tích hợp sẵn của Ollama trên desktop với Gemma 4 được chọn. Nếu cách này hoạt động, mọi phương pháp VS Code bên dưới cũng sẽ hoạt động — tất cả đều truy cập cùng một máy chủ cục bộ.

Không thấy cửa sổ trò chuyện? Bạn đang sử dụng phiên bản Ollama cũ. Hãy cập nhật lên phiên bản mới nhất từ ​​ollama.com — giao diện người dùng trò chuyện trên desktop được tích hợp sẵn trong mọi bản cài đặt mới. Lệnh CLI ollama run gemma4:e4b (ở trên) vẫn hoạt động trên mọi phiên bản nếu bạn muốn sử dụng terminal.

Phương pháp 1: Extension Continue — Thay thế hoàn toàn Copilot (Được khuyến nghị)

Đây là phương pháp được khuyên dùng cho hầu hết các nhà phát triển. Continue cung cấp cho bạn tính năng trò chuyện, chỉnh sửa code trực tiếp và tự động hoàn thành bằng phím Tab — về cơ bản là mọi thứ mà GitHub Copilot làm, nhưng được trỏ đến mô hình Gemma 4 cục bộ của bạn. Nếu bạn sử dụng Android Studio cho công việc Flutter, thiết lập Continue + Ollama tương tự cũng hoạt động ở đó.

Thiết lập

  1. Trong VS Code, nhấn Ctrl+Shift+X (Cmd+Shift+X trên Mac) và tìm kiếm Continue. Cài đặt phiên bản được phát hành bởi Continue.dev.
  2. Nhấp vào biểu tượng Continue ở thanh bên trái. Trình hướng dẫn thiết lập sẽ khởi chạy và tự động phát hiện Ollama — nó liệt kê mọi mô hình bạn đã tải về. Chọn Ollama làm nhà cung cấp của bạn.
  3. Nếu nó yêu cầu bạn đăng nhập, hãy nhấp vào Skip hoặc Use local models. Bạn không cần tài khoản để sử dụng cục bộ.
  4. Chọn Gemma 4 từ menu drop-down mô hình ở đầu bảng trò chuyện. Trò chuyện và chỉnh sửa trực tiếp sẽ hoạt động ngay sau bước này.

Bật tính năng tự động hoàn thành bằng phím Tab (quan trọng — tính năng này bị tắt theo mặc định)

Các tính năng trò chuyện và chỉnh sửa trực tiếp của Continue hoạt động ngay lập tức, nhưng tính năng tự động hoàn thành bằng phím Tab không được bật theo mặc định. Bạn cần cấu hình riêng:

1. Mở file cấu hình của Continue. Nhấn tổ hợp phím Ctrl+Shift+P (Cmd+Shift+P trên máy Mac), gõ Continue: Open Config và chọn nó. Các phiên bản Continue mới hơn sử dụng config.yaml; những bản cài đặt cũ hơn có thể vẫn hiển thị config.json. File này nằm trong ~/.continue/ trên Mac/Linux hoặc C:\Users\YourName\.continue\ trên Windows.

2. Trong file config.yaml, hãy thêm Gemma 4 vào mục models và bao gồm vai trò

name: Local Gemma 4
version: 0.0.1
schema: v1

models:
  - name: Gemma 4 E4B Chat
    provider: ollama
    model: gemma4:e4b
    roles:
      - chat
      - edit
      - apply

  - name: Gemma 4 E2B Autocomplete
    provider: ollama
    model: gemma4:e2b
    roles:
      - autocomplete
    autocompleteOptions:
      debounceDelay: 350
      maxPromptTokens: 1024

3. Nếu bản cài đặt Continue của bạn vẫn sử dụng config.json, kiểu tabAutocompleteModel cũ vẫn có thể hoạt động, nhưng hãy coi đó là đường dẫn cũ và chuyển sang YAML khi extension nhắc bạn.

4. Lưu file. Continue sẽ tự động load lại cấu hình — không cần khởi động lại VS Code.

Mẹo: Để tự động hoàn thành nhanh hơn, hãy giữ một mô hình nhỏ hơn như gemma4:e2b dành riêng cho việc hoàn thành bằng phím Tab, trong khi sử dụng gemma4:e4b, gemma4:26b hoặc gemma4:31b cho khung chat. Tốc độ quan trọng hơn chất lượng đối với các gợi ý nội tuyến.

Ba phím tắt bạn sẽ sử dụng thường xuyên

  • Trò chuyện về code đã chọn: Highlight bất kỳ block code nào và nhấn Ctrl+L (Cmd+L trên Mac). Hỏi những câu như "giải thích điều này", "tìm lỗi" hoặc "điều gì xảy ra nếu đầu vào là null?". Bạn cũng có thể gõ @file hoặc @codebase trong khung trò chuyện để tham chiếu các file khác mà không cần dán thủ công.
  • Chỉnh sửa code trực tiếp: Highlight code, nhấn Ctrl+I (Cmd+I trên Mac) và nhập một lệnh — "thêm xử lý lỗi", "chuyển đổi sang async/await", "thêm kiểu TypeScript". Bạn sẽ nhận được một bản so sánh để xem xét trước khi chấp nhận.
  • Tự động hoàn thành bằng phím Tab: Chỉ cần bắt đầu gõ. Văn bản mờ màu xám sẽ xuất hiện sau một khoảng dừng ngắn — nhấn Tab để chấp nhận đề xuất hoặc tiếp tục gõ để bỏ qua. Nhấn Esc để đóng.

Khắc phục sự cố

  • Không có đề xuất hoặc phản hồi trò chuyện: Mở http://localhost:11434 trong trình duyệt của bạn. Nếu không hiển thị "Ollama is running", hãy khởi chạy lại Ollama từ menu Start hoặc thư mục Applications.
  • Tính năng tự động hoàn thành tab không hiển thị: Hãy đảm bảo mô hình config.yaml của bạn bao gồm vai trò autocomplete. Nếu không, chỉ có tính năng trò chuyện và chỉnh sửa trực tiếp hoạt động.
  • Đề xuất rất chậm: Chạy lệnh ollama ps trong terminal. Nếu cột bộ xử lý hiển thị cpu thay vì gpu, hãy chuyển sang mô hình nhỏ hơn như gemma4:e2b hoặc cập nhật driver GPU của bạn.

Phương pháp 2: Extension CodeGPT — Tốt nhất cho quy trình làm việc nhiều cuộc trò chuyện

Nếu bạn dành nhiều thời gian để hỏi về code hơn là viết code — gỡ lỗi, giải thích code cũ, lên ý tưởng kiến ​​trúc — CodeGPT đáng để bạn xem xét. Nó tập trung mạnh vào trải nghiệm trò chuyện và có giao diện hội thoại sạch hơn Continue, mặc dù tính năng tự động hoàn thành trực tiếp của nó chậm hơn.

Thiết lập

1. Nhấn tổ hợp phím Ctrl+Shift+X (Cmd+Shift+X trên máy Mac), tìm kiếm CodeGPT và cài đặt.

2. Nhấp vào biểu tượng CodeGPT trong thanh bên và chọn Ollama làm nhà cung cấp AI của bạn.

3. CodeGPT sẽ tự động quét các mô hình có sẵn cục bộ. Chọn Gemma 4 từ menu drop-down. Nếu nó không hiển thị, hãy xác nhận Ollama đang chạy bằng lệnh ollama list và nhấp vào nút làm mới.

4. Tùy chọn nhưng được khuyến nghị: Đặt prompt hệ thống sau trong cài đặt của CodeGPT để điều chỉnh chất lượng đầu ra:

You are an expert software developer. Write clean, well-structured code. When explaining, break it down step by step.
Bạn là một nhà phát triển phần mềm chuyên nghiệp. Hãy viết code sạch, có cấu trúc tốt. Khi giải thích, hãy chia nhỏ từng bước.

5. Kiểm tra nó: Hãy hỏi:

Write a Python function that checks if a number is prime
Viết một hàm Python kiểm tra xem một số có phải là số nguyên tố hay không

Nếu bạn nhận được code hoạt động, quá trình thiết lập đã hoàn tất.

Cách sử dụng

Bôi đen code trong trình soạn thảo của bạn, nhấp chuột phải và bạn sẽ thấy các tùy chọn menu ngữ cảnh của CodeGPT — "Giải thích mã này", "Tìm lỗi", "Tái cấu trúc", "Tạo kiểm thử". CodeGPT cũng lưu giữ lịch sử hội thoại của bạn giữa các phiên VS Code, điều này rất hữu ích khi bạn đang giải quyết một vấn đề gỡ lỗi nhiều bước trong nhiều giờ.

Lưu ý: Tính năng tự động hoàn thành bằng phím Tab của CodeGPT với các mô hình cục bộ kém tin cậy hơn đáng kể so với Continue. Nếu các gợi ý trực tiếp theo thời gian thực quan trọng với bạn, hãy sử dụng Continue (Phương pháp 1) và chỉ dùng CodeGPT để trò chuyện.

Phương pháp 3: Extension Ollama — Tối giản và Nhẹ nhàng

Nếu bạn chỉ muốn một cửa sổ trò chuyện đơn giản để hỏi Gemma 4 các câu hỏi mà không cần bất kỳ tính năng bổ sung nào, extension Ollama độc lập là cách nhanh nhất. Không cần tài khoản, không cần file cấu hình, không cần học hỏi gì cả.

Thiết lập

  1. Nhấn Ctrl+Shift+X, tìm kiếm Ollama và cài đặt extension có số lượt tải xuống cao nhất.
  2. Nhấn Ctrl+Shift+P (Cmd+Shift+P trên Mac), nhập Ollama và chọn Ollama: Chat.
  3. Chọn Gemma 4 từ danh sách mô hình. Nếu danh sách trống, Ollama không chạy — hãy khởi động lại.
  4. Kiểm tra: Hãy hỏi:
What does the map function do in JavaScript?
Hàm map trong JavaScript làm nhiệm vụ gì?

... — nếu nhận được câu trả lời mạch lạc, bạn đã hoàn tất.

Extension này không cung cấp gì ngoài một bảng trò chuyện — không có tự động hoàn thành nội tuyến, không có chỉnh sửa nội tuyến, không có lập chỉ mục không gian làm việc. Đó là sự đánh đổi cho sự đơn giản của nó. Nó hầu như không ảnh hưởng đến hiệu suất của VS Code, điều này làm cho nó trở thành một lựa chọn tốt cho các máy tính cũ hơn. Để có trải nghiệm đầy đủ, hãy sử dụng Continue (Phương pháp 1).

Thứ Ba, 23/06/2026 14:59
51 👨 13
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
❖ AI cho người mới