Một trong những nhược điểm lớn của chatbot AI ban đầu là chúng bị giới hạn ở giao diện hội thoại - nhưng điều đó hiện đang thay đổi. Với Claude Computer Use và Cowork, ChatGPT agent (trước đây là ChatGPT Operator), cùng một số công cụ khác, bạn có thể kết nối chatbot AI với môi trường máy tính đang hoạt động.
Những công cụ này sử dụng sự kết hợp giữa mô hình ngôn ngữ, ảnh chụp màn hình và máy ảo để mô phỏng cách con người sử dụng máy tính - về cơ bản là điều khiển máy tính (với sự cho phép của bạn). Mặc dù chúng vẫn còn xa so với việc hoàn toàn tự động, nhưng đây là bước tiến thực sự đầu tiên hướng tới việc tạo ra các AI agent sử dụng chung dễ tiếp cận có thể hoạt động độc lập.
Đây là những điều bạn cần biết.
Tại sao Claude Computer Use và ChatGPT agent lại quan trọng?
Các AI computer agent như Claude Computer Use và ChatGPT agent đang trở nên nổi bật hơn, vì vậy điều đáng để tìm hiểu là mọi thứ sẽ như thế nào nếu không có các AI agent có thể sử dụng bàn phím và chuột - điều đó có thể giúp chúng ta thấy được tầm quan trọng của những tiến bộ này.
Ngoài chức năng chính của chatbot, hầu hết mọi tính năng của chatbot AI đều dựa trên API. Các API này có thể được xây dựng bởi chính những nhà phát triển chatbot, như trường hợp của ChatGPT Search, hoặc bởi các nhà phát triển bên thứ ba, như trường hợp tích hợp Photoshop và Booking.com của ChatGPT.

Điều này cũng đúng với một số công cụ điều khiển máy tính, như Claude Cowork và OpenClaw. Mặc dù chúng vô cùng mạnh mẽ, siêu hữu ích và rất thú vị, nhưng chúng bị giới hạn ở việc sử dụng dòng lệnh hoặc các lệnh gọi API để tương tác với máy tính và những dịch vụ của bạn.

Ví dụ, bạn có thể sử dụng Claude Cowork để sắp xếp thư mục Downloads của mình. Nó sẽ làm rất tốt, nhưng sử dụng các lệnh terminal để xử lý mọi thứ. Nó không thể sắp xếp tài khoản email, danh sách đơn đặt hàng Amazon hoặc thư viện ảnh bằng các kỹ thuật tương tự. Để mở rộng chức năng của chúng, cần phải có một phương pháp có cấu trúc để xử lý mọi thứ: Một API, ngôn ngữ kịch bản hoặc một tập hợp các lệnh terminal.
Mặt khác, việc có các AI computer agent có thể duyệt bất kỳ trang web nào, sử dụng bất kỳ ứng dụng nào và làm việc với bất kỳ file nào sẽ là một bước tiến tuyệt vời. Ví dụ, bạn có thể yêu cầu AI agent tìm kiếm và so sánh giá một chuyến đi trên các dịch vụ du lịch khác nhau cho 3 ngày cuối tuần khác nhau và cho bạn biết chuyến đi nào rẻ nhất. Nó có thể tạo ra một lịch trình và lưu chi tiết vào Google Docs. Hoặc thậm chí có thể đặt chuyến đi cho bạn - mặc dù điều đó vượt xa khả năng mà các AI computer agent hiện tại có thể được tin tưởng để thực hiện.
Các AI computer agent hoạt động như thế nào?
Các AI computer agent kết hợp một vài tiến bộ gần đây trong trí tuệ nhân tạo, bao gồm những mô hình đa phương thức có thể hiểu nhiều hơn chỉ văn bản và các mô hình suy luận có khả năng giải quyết những vấn đề phức tạp hơn.
Đây là cách chúng hoạt động:
- Chúng sử dụng ảnh chụp màn hình để xem màn hình máy tính và hiểu những gì đang xảy ra.
- Chúng chia nhỏ các hướng dẫn phức tạp thành một loạt những bước logic, thử chúng và tự sửa lỗi nếu mọi thứ không hoạt động như mong đợi.
- Chúng có thể sử dụng chuột và bàn phím ảo để điều hướng giao diện người dùng thông thường trong máy ảo.
Quá trình này được tóm gọn thành một quy trình làm việc đơn giản và có thể lặp lại của AI:
- Chụp ảnh màn hình.
- Quyết định hành động tiếp theo của máy tính để tiến gần hơn đến mục tiêu.
- Thực hiện hành động.
- Chụp ảnh màn hình.
- Quyết định hành động tiếp theo của máy tính để tiến gần hơn đến mục tiêu.
- Thực hiện hành động.
- Lặp lại cho đến khi đạt được mục tiêu.
Tất nhiên, mọi thứ phức tạp hơn nhiều ở bên trong. Các AI agent phải được đào tạo về những kiến thức cơ bản trong tương tác giữa con người và máy tính, một kỹ thuật để đếm chính xác các pixel trên ảnh chụp màn hình, giúp AI có thể biết vị trí di chuyển con trỏ và nhấp chuột cần được phát triển trước khi bất kỳ điều gì trong số này bắt đầu hoạt động.
Các AI agent cũng đang được đào tạo trên những nền tảng cụ thể như Uber, OpenTable và DoorDash để chúng có thể làm việc với các dịch vụ thực tế "trong khi tôn trọng các chuẩn mực đã được thiết lập".
Ngay cả một năm sau khi được công bố lần đầu, cả Claude Computer Use và ChatGPT agent đều đang trong giai đoạn thử nghiệm beta - hoặc ít nhất là có cảm giác như vậy. Mặc dù các thành phần cơ bản của những AI computer agent đang dần được hình thành, chúng vẫn còn xa mới đủ tin cậy để sử dụng rộng rãi trong thực tế.
Các AI computer agent có thể làm được gì?
Bước đột phá lớn là các AI computer agent có thể sử dụng máy tính giống như con người - mặc dù chậm và kém chính xác hơn. Ngay cả trong các bản demo, chúng cũng cho thấy rất nhiều tiềm năng.
Dưới đây là một số điều mà Anthropic và OpenAI đã chứng minh các agent sử dụng máy tính của họ có thể làm được từ một prompt văn bản:
- Điều hướng hệ thống Windows, Mac và Linux, mở trình duyệt và các ứng dụng khác, điều hướng và tìm kiếm trên web
- Điền vào các biểu mẫu bằng cách lấy dữ liệu từ bảng tính, CRM và những nguồn dữ liệu khác nhau
- Tìm kiếm thông tin về một chuyến leo núi ngắm bình minh trên Google, tính toán khoảng cách bằng Google Maps và tạo sự kiện trên Google Calendar vào thời gian cần thiết để khởi hành
- Tạo dự án và danh sách mua sắm trong các ứng dụng việc cần làm.
- Tìm kiếm công thức nấu ăn trên Allrecipes và thêm nguyên liệu vào giỏ hàng Instacart
- Tải xuống file, kết hợp PDF và xuất hình ảnh
- Giải các bài kiểm tra trực tuyến
- Tìm kiếm thông tin khách hàng cụ thể trong các hệ thống quản trị thương mại điện tử giả lập
Đây là một ví dụ minh họa từ Claude computer use.

Nhưng đây chỉ là những việc chúng có thể làm ngay bây giờ. Tiềm năng trong tương lai còn rất lớn, ví dụ như:
- Tất cả những công việc kế toán nhàm chán mà bạn có thể tưởng tượng, như gửi hóa đơn, ghi giờ làm việc, đối chiếu tài khoản, nộp chi phí, v.v...
- Làm việc với bảng tính để lấy dữ liệu từ nhiều nguồn khác nhau.
- Theo dõi các sản phẩm hết hàng trên những cửa hàng trực tuyến và đặt hàng khi chúng có sẵn.
- Đặt vé xem phim hoặc đặt chỗ nhà hàng ngay khi mở cửa.
- Kiểm tra thư mục thư rác để đảm bảo không có gì quan trọng bạn bỏ sót.
- Giao tiếp với các nhân viên hỗ trợ trực tuyến và chatbot.
Thành thật mà nói, đó chỉ là những ý tưởng chợt lóe lên. Trên thực tế, có vô số cách mà một AI computer agent có thể hữu ích.
AI Computer Agent hiện nay tốt đến mức nào?

Computer agent đang ngày càng tốt hơn. Bài kiểm tra OSWorld đánh giá việc sử dụng máy tính trong các tình huống thực tế bằng các ứng dụng thông thường. Các trợ lý phải điều hướng những ứng dụng như Google Drive và Excel bằng bàn phím và chuột (ảo), chứ không phải API hoặc dòng lệnh. Một người bình thường đạt 72,4%.
Năm ngoái, Computer Using Agent của OpenAI đạt 38,1%. Vào tháng 10, Claude đạt 62,9% - tăng từ 22% so với năm trước. Và cuối cùng, vào tháng 2 năm 2026, Claude Sonnet 4.6 đạt 72,5% - đó là "khả năng ở cấp độ con người trong các tác vụ như điều hướng bảng tính phức tạp hoặc điền vào biểu mẫu web nhiều bước, trước khi tổng hợp tất cả trên nhiều tab trình duyệt".
Tất nhiên, con người có kỹ năng và kiến thức chuyên môn cao vẫn vượt trội hơn hẳn so với các hệ thống tự động sử dụng máy tính. Ngoài ra, các hệ thống này cũng chậm hơn: Chúng dừng lại và suy nghĩ trước khi thực hiện từng bước và không hành động nhanh chóng. ChatGPT mất khoảng 15 phút để đặt lịch cắt tóc; trong khi bình thường chỉ mất khoảng 30 giây. Dù vậy, tốc độ cải thiện của chúng vẫn rất ấn tượng.
Bạn có thể thử Claude Computer Use hoặc ChatGPT Operator không?
Cả Claude Computer Use và ChatGPT Agent đều dành cho công chúng.
- Claude Computer Use chỉ có thể sử dụng thông qua API. Nếu có kỹ năng kỹ thuật, bạn có thể chạy nó trong môi trường phát triển và trải nghiệm. Bạn cũng có thể thử Claude Cowork như một phương án dự phòng.
- ChatGPT Agent dành cho người dùng đăng ký ChatGPT Plus và Pro, tuy nhiên chỉ có thể sử dụng trình duyệt web. API cũng đang trong giai đoạn thử nghiệm beta.
Học IT










Công nghệ
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Prompt
Ô tô, Xe máy