Không đủ khả năng chi trả cho ChatGPT Operator, hãy sử dụng giải pháp thay thế nguồn mở miễn phí Browser Use!

Các AI agent có thể điều khiển trình duyệt web và thực hiện các tác vụ, giống như con người, không còn giới hạn trong khái niệm nữa. Các công cụ như ChatGPT Operator rất mạnh mẽ nhưng đi kèm một mức giá tương đối cao. Thay vì trả tiền, bạn có thể tìm kiếm một giải pháp thay thế miễn phí, như Browser Use.

Browser Use: Giải pháp thay thế nguồn mở tốt nhất hiện có

ChatGPT Operator có thể điều khiển trình duyệt web và tự thực hiện các hành động như nhấp và cuộn. Bạn chỉ cần cho ChatGPT biết những gì cần làm, chẳng hạn như đặt vé hoặc viết văn bản trong Google Docs, và nó sẽ thực hiện. Nhưng để có quyền truy cập, người dùng ta phải trả một mức giá khá cao - 200 USD/tháng theo gói Pro của ChatGPT. Nhiều người không đủ khả năng mua gói đăng ký này và phải tìm kiếm một giải pháp thay thế.

Browser Use là một AI agent nguồn mở tương tự như ChatGPT Operator. Nó có thể tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện những hành động. Tuy nhiên, nó chỉ tốn một phần nhỏ so với dịch vụ của ChatGPT. Hơn nữa, có hai tùy chọn để lựa chọn.

Tùy chọn đầu tiên là trả phí đăng ký 30 USD, chạy AI agent trên dịch vụ đám mây của họ. Tùy chọn khác là tự thiết lập cục bộ và chi phí thấp nhất (bạn sẽ chỉ bị tính phí sử dụng API).

Thiết lập Browser Use không đơn giản như ChatGPT Operator, nhưng chỉ với một vài dòng code, bạn đã có thể thiết lập và chạy nó.

Cách thiết lập Browser Use trên PC

Để bắt đầu, bạn sẽ cần hai thứ: Python 3.11 được cài đặt trên máy tính và quyền truy cập API từ OpenAI (hoặc LLM được lưu trữ cục bộ nếu bạn thích).

Vì Browser Use là một AI agent nên nó yêu cầu một mô hình ngôn ngữ lớn (LLM) để hoạt động. Để làm được điều đó, bạn có thể truy cập API từ trang web của OpenAI hoặc bất kỳ API nào khác hoạt động với Browser Use. Lợi ích của việc sử dụng API là bạn có thể linh hoạt lựa chọn giữa các mô hình khác nhau (như GPT-3.5 và GPT-4) và bạn chỉ phải trả tiền cho những gì mình sử dụng - thay vì phí đăng ký trả trước.

Trong quá trình thử nghiệm, tác giả bài viết đã sử dụng mô hình ChatGPT 4-o. Nếu bạn ghép nối nó với API DeepSeek, giá sẽ rẻ hơn nhiều lần.

Bạn cũng có thể sử dụng LLM cục bộ trên máy tính của mình. Tuy nhiên, chạy LLM cục bộ tương đương với ChatGPT 4-o đòi hỏi sức mạnh tính toán đáng kể, mà hầu hết mọi người có thể không có. Tác giả đã thử nghiệm mô hình LLM 7B của DeepSeek trên máy tính của mình và hiệu suất không ngạc nhiên là khá kém. Vì vậy, bạn nên sử dụng API ngay bây giờ.

Sau khi có quyền truy cập API, bạn có thể tạo môi trường ảo trong VS Code bằng cách vào View > Command Palette và nhập create environment. Sau đó, mở một terminal mới và cài đặt Browser-use bằng pip.

pip install browser-use

Tạo file .env bên trong thư mục và thêm key API.

OPENAI_API_KEY="API của bạn"

Tạo file Python mới có tên app.py và dán code sau.

pip install browser-use
OPENAI_API_KEY="Your API Here"
from langchain_openai import ChatOpenAI

from browser_use import Agent

import asyncio

from dotenv import load_dotenv

load_dotenv()



async def main():

    agent = Agent(

        task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",

        llm=ChatOpenAI(model="gpt-4o"),

    )

    result = await agent.run()

    print(result)



asyncio.run(main())

Thay thế bằng prompt của riêng bạn, như "Search for Albert Einstein and open his Wikipedia page". Cuối cùng, Chạy file python app.py bằng terminal.

python app.py

Liệu Browser Use có đáp ứng được kỳ vọng không?

Hãy bắt đầu thử nghiệm bằng các tác vụ đơn giản, chẳng hạn như tìm kiếm trên Google "Albert Einstein" và mở trang Wikipedia về ông ấy. Khi chạy script, AI agent đã mở một cửa sổ trình duyệt mới và thực hiện tác vụ một cách hoàn hảo.

Tiếp theo, yêu cầu nó tìm kiếm laptop chơi game trên Amazon và mở kết quả đầu tiên. Một lần nữa, AI agent đã hoàn thành tác vụ một cách thành công.

Rõ ràng, Browser Use có thể điều hướng web một cách thông minh. Để thúc đẩy hơn nữa, tác giả đã hướng dẫn nó truy cập Yahoo News và tóm tắt 5 bài viết hàng đầu. Thật bất ngờ, Browser Use có thể hoàn thành tác vụ trong vòng vài phút. Các bản tóm tắt ngắn gọn và đi thẳng vào vấn đề. Bạn có thể xem kết quả bên dưới.

Tuy nhiên, mọi thứ trở nên khó khăn đối với Browser Use khi tác giả yêu cầu nó tìm kiếm các chuyến bay từ London đến Paris trên skyscanner.com. Ban đầu, trang web đã chặn quyền truy cập do phát hiện bot, vì vậy phải can thiệp và bỏ qua việc phát hiện bot. Tuy nhiên, Browser Use gặp khó khăn - nó nhấp vào nút tìm kiếm mà không nhập đúng "London" và "Paris" vào các trường tương ứng.

Lưu ý: Bạn có thể ghép nối Browser Use với trình duyệt chính, nơi tất cả các tài khoản của bạn được đăng nhập. Điều này cho phép AI agent nhập dữ liệu vào Google Sheet hoặc dán tóm tắt Yahoo News vào Google Doc. Tuy nhiên, tác giả gặp sự cố khi thiết lập nó với trình duyệt đang hoạt động của mình, vì vậy tác giả đã tạm dừng nó.

Nhìn chung, đó là một thử nghiệm thú vị. Việc xem một AI agent điều hướng web và thực hiện các tác vụ thật hấp dẫn. Mặc dù Browser Use không hoàn hảo, nhưng nó vẫn còn lâu mới là một AI agent đáng tin cậy có thể duyệt web.

Tuy nhiên, công nghệ này vẫn còn trong giai đoạn trứng nước, vì vậy chúng ta có thể mong đợi những cải tiến trong tương lai.

Hiện tại, nếu bạn sẵn sàng mày mò thiết lập và không ngại những trục trặc thỉnh thoảng xảy ra, hãy khởi động máy tính và cài đặt Browser Use. Hãy thoải mái đề cập đến nó trong các thread nếu bạn gặp sự cố và cần trợ giúp.

Thứ Sáu, 07/03/2025 15:41
31 👨 130
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
❖
    Chia sẻ
    Chia sẻ FacebookChia sẻ Twitter
    Đóng