Large Action Model (LAM) là gì?

Ngọc Khánh

Sự nổi lên của các chatbot Generative AI đã phổ biến thuật ngữ "mô hình ngôn ngữ lớn", công nghệ AI cơ bản hoạt động ở hậu trường. Các mô hình ngôn ngữ lớn (LLM) tạo ra đầu ra dựa trên một bộ ngôn ngữ được dự đoán để phản hồi đầu vào của người dùng, khiến nó có vẻ như AI có khả năng tự suy nghĩ.

Nhưng LLM không phải là mô hình lớn duy nhất; các Large Action Model (LAM) có thể là điều quan trọng tiếp theo trong AI.

Large Action Model (LAM) là gì?

LAM là một hệ thống trí tuệ nhân tạo có khả năng hiểu đầu vào của con người và thực hiện hành động tương ứng. Đây là một cách tiếp cận hơi khác so với các hệ thống AI chỉ tập trung vào việc tạo ra phản hồi. Thuật ngữ "Large Action Model" lần đầu tiên được giới thiệu bởi Rabbit Inc., nhà phát triển thiết bị rabbit r1. Trong video ra mắt rabbit r1 của công ty, LAM là mô hình nền tảng mới giúp đưa AI từ lời nói đến hành động.

LAM được đào tạo trên bộ dữ liệu lớn về hành động của người dùng; do đó, chúng học bằng cách bắt chước hành động của con người hoặc thông qua demo. Thông qua demo, LAM có thể hiểu và điều hướng giao diện người dùng của các trang web hoặc ứng dụng di động khác nhau và thực hiện những hành động cụ thể dựa trên hướng dẫn. Theo Rabbit, LAM có thể đạt được điều này ngay cả khi giao diện bị thay đổi một chút.

Bạn có thể coi LAM như một phần mở rộng từ các khả năng hiện có của LLM. Trong khi LLM tạo ra văn bản hoặc đầu ra media dựa trên đầu vào của người dùng bằng cách dự đoán từ hoặc token tiếp theo (Bạn đặt câu hỏi và LLM cung cấp đầu ra văn bản hoặc media), LAM còn tiến xa hơn bằng cách thêm khả năng thực hiện các hành động phức tạp thay mặt bạn .

LAM có thể làm gì?

LAM tập trung vào việc thực hiện các hành động phức tạp thay mặt bạn. Tuy nhiên, điểm quan trọng cần lưu ý là khả năng thực hiện các hành động phức tạp. Điều này làm cho LAM trở nên hữu ích hơn khi thực hiện các tác vụ nâng cao nhưng không có nghĩa là chúng không thể thực hiện những tác vụ đơn giản.

Về lý thuyết, điều này có nghĩa là bạn có thể yêu cầu LAM thay mặt mình làm điều gì đó, như order cà phê từ quán Starbucks gần nhất, gọi xe công nghệ và thậm chí đặt phòng khách sạn. Do đó, nó khác với việc thực hiện các tác vụ đơn giản như yêu cầu Google Assistant, Siri hoặc Alexa bật TV hoặc đèn phòng khách.

Về cơ bản, theo tầm nhìn được chia sẻ bởi Rabbit Inc., LAM có thể truy cập trang web hoặc ứng dụng liên quan và điều hướng qua giao diện của nó để thực hiện hành động, chẳng hạn như đặt xe hoặc hủy chuyến nếu bạn thay đổi ý định.

LAM sẽ thành công với LLM, nhưng chúng vẫn chưa sẵn sàng

Khái niệm LAM rất thú vị, thậm chí có thể còn thú vị hơn cả LLM. LAM sẽ là tương lai sau Generative AI, cho phép chúng ta có thể giải quyết các nhiệm vụ nhàm chán và tập trung vào những hoạt động hay ho khác. Tuy nhiên, dù có vẻ thú vị nhưng LAM vẫn chưa sẵn sàng.

Sản phẩm thương mại đầu tiên hứa hẹn tận dụng LAM (rabbit r1) đã không thực hiện đầy đủ lời hứa tiếp thị về việc thực hiện các hành động thay mặt cho người dùng. Thiết bị này đã thất bại một cách ngoạn mục ở điểm cốt lõi của nó đến nỗi nhiều đánh giá trực tiếp cho rằng nó khá vô dụng.

Tệ hơn nữa, một cuộc điều tra của YouTuber Coffeezilla phối hợp với một nhóm kỹ sư phần mềm chọn lọc có quyền truy cập vào một phần cơ sở code của r1, đã phát hiện ra rằng Rabbit đã sử dụng script Playwright để thực hiện các hành động thay vì LAM. Vì vậy, thay vì một thiết bị chạy mô hình AI độc đáo, nó thực sự chỉ chạy một loạt các câu lệnh kiểu If > Then; khác xa với LAM đã hứa.

Thứ duy nhất có thể rút ra từ thiết bị r1 của Rabbit là tầm nhìn. Tuy nhiên, còn rất nhiều điều cần thực hiện nên đừng vội vui mừng.

Thứ Sáu, 12/07/2024 09:29

5 ★ 1 👨 185

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Kiến thức cơ bản

Giấy phép Mạng Xã Hội số 362/GP-BTTTT. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Large Action Model (LAM) là gì?

Ngọc Khánh

Large Action Model (LAM) là gì?

LAM có thể làm gì?

LAM sẽ thành công với LLM, nhưng chúng vẫn chưa sẵn sàng

Bạn nên đọc

Mô hình ngôn ngữ lớn (LLM) là gì?

PC AI là gì? Điều gì khiến chúng trở nên khác biệt?

Google Imagen AI là gì? Cách truy cập Imagen 2

Sự khác nhau giữa giao thức TCP và UDP

CodeGPT là gì? Nó thực sự có thể viết code không?

POP và IMAP có gì khác biệt? Nên sử dụng cái nào?

Công thức tính Diện tích hình vuông, tính Chu vi hình vuông

Định dạng ảnh JPG, JPEG, GIF, PNG và SVG khác gì nhau?

Chuyển từ cơ số 16 sang cơ số 10