Google ra mắt Gemini 2.5 Computer Use: Mô hình AI vượt trội trong điều khiển giao diện web và di động

Tại sự kiện Google I/O đầu năm nay, Google từng tiết lộ kế hoạch bổ sung khả năng “sử dụng máy tính” (computer use) vào Gemini API. Mới đây, hãng chính thức công bố Gemini 2.5 Computer Use, một mô hình chuyên biệt được thiết kế để giúp các tác tử AI (AI agents) tương tác trực tiếp với giao diện người dùng (UI). Theo Google, mô hình mới này đã vượt trội so với nhiều đối thủ dẫn đầu trong các bài đánh giá hiệu năng AI liên quan đến điều khiển web và ứng dụng di động.

Cách hoạt động của công cụ “computer_use” trong Gemini API

Quy trình sử dụng công cụ này bao gồm các bước như sau:

  1. Nhà phát triển gửi yêu cầu của người dùng (user request) đến công cụ, kèm theo ảnh chụp màn hình môi trường làm việc và lịch sử các thao tác gần đây.
  2. Ngoài ra, nhà phát triển có thể chỉ định loại hành động UI nào bị loại trừ hoặc bổ sung thêm các hàm tùy chỉnh nếu cần.
  3. Mô hình Gemini 2.5 Computer Use sẽ phân tích dữ liệu đầu vào và tạo phản hồi tương ứng — có thể là một thao tác UI như nhấp chuột hoặc nhập văn bản.
  4. Nếu mô hình không chắc chắn, nó sẽ yêu cầu xác nhận từ người dùng cuối, đặc biệt trong các hành động nhạy cảm như mua hàng.
  5. Sau đó, mã phía client sẽ thực hiện hành động được chỉ định (như nhấn nút hoặc hiển thị hộp xác nhận).
  6. Khi hoàn tất, hệ thống sẽ gửi lại ảnh chụp màn hình mới và URL hiện tại cho mô hình, khởi động lại vòng lặp thao tác.

Chu trình này sẽ lặp lại cho đến khi hoàn thành mục tiêu chính mà người dùng yêu cầu.

Theo Google, Gemini 2.5 Computer Use được tối ưu hóa cho trình duyệt web, nhưng cũng cho thấy hiệu năng cao khi điều khiển giao diện ứng dụng di động. Tuy nhiên, mô hình này chưa được tối ưu cho việc kiểm soát giao diện ở cấp hệ điều hành máy tính (desktop OS).

Kết quả thử nghiệm nội bộ cho thấy Gemini 2.5 Computer Use đạt hiệu năng dẫn đầu trên nhiều bài kiểm tra AI tiêu chuẩn trong lĩnh vực điều khiển UI.

Hiện tại, Gemini 2.5 Computer Use đã được mở bản xem trước công khai (public preview). Các nhà phát triển có thể truy cập và thử nghiệm mô hình này thông qua Gemini API trên Google AI Studio và Vertex AI.

Thứ Năm, 09/10/2025 07:35
31 👨 308
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ Gemini