Tại sự kiện Google I/O đầu năm nay, Google từng tiết lộ kế hoạch bổ sung khả năng “sử dụng máy tính” (computer use) vào Gemini API. Mới đây, hãng chính thức công bố Gemini 2.5 Computer Use, một mô hình chuyên biệt được thiết kế để giúp các tác tử AI (AI agents) tương tác trực tiếp với giao diện người dùng (UI). Theo Google, mô hình mới này đã vượt trội so với nhiều đối thủ dẫn đầu trong các bài đánh giá hiệu năng AI liên quan đến điều khiển web và ứng dụng di động.
Cách hoạt động của công cụ “computer_use” trong Gemini API
Quy trình sử dụng công cụ này bao gồm các bước như sau:
- Nhà phát triển gửi yêu cầu của người dùng (user request) đến công cụ, kèm theo ảnh chụp màn hình môi trường làm việc và lịch sử các thao tác gần đây.
- Ngoài ra, nhà phát triển có thể chỉ định loại hành động UI nào bị loại trừ hoặc bổ sung thêm các hàm tùy chỉnh nếu cần.
- Mô hình Gemini 2.5 Computer Use sẽ phân tích dữ liệu đầu vào và tạo phản hồi tương ứng — có thể là một thao tác UI như nhấp chuột hoặc nhập văn bản.
- Nếu mô hình không chắc chắn, nó sẽ yêu cầu xác nhận từ người dùng cuối, đặc biệt trong các hành động nhạy cảm như mua hàng.
- Sau đó, mã phía client sẽ thực hiện hành động được chỉ định (như nhấn nút hoặc hiển thị hộp xác nhận).
- Khi hoàn tất, hệ thống sẽ gửi lại ảnh chụp màn hình mới và URL hiện tại cho mô hình, khởi động lại vòng lặp thao tác.
Chu trình này sẽ lặp lại cho đến khi hoàn thành mục tiêu chính mà người dùng yêu cầu.
Theo Google, Gemini 2.5 Computer Use được tối ưu hóa cho trình duyệt web, nhưng cũng cho thấy hiệu năng cao khi điều khiển giao diện ứng dụng di động. Tuy nhiên, mô hình này chưa được tối ưu cho việc kiểm soát giao diện ở cấp hệ điều hành máy tính (desktop OS).
Kết quả thử nghiệm nội bộ cho thấy Gemini 2.5 Computer Use đạt hiệu năng dẫn đầu trên nhiều bài kiểm tra AI tiêu chuẩn trong lĩnh vực điều khiển UI.

Hiện tại, Gemini 2.5 Computer Use đã được mở bản xem trước công khai (public preview). Các nhà phát triển có thể truy cập và thử nghiệm mô hình này thông qua Gemini API trên Google AI Studio và Vertex AI.
Học IT










Công nghệ
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Hướng dẫn
Ô tô, Xe máy