Large Action Model (LAM) là gì?

Sự nổi lên của các chatbot Generative AI đã phổ biến thuật ngữ "mô hình ngôn ngữ lớn", công nghệ AI cơ bản hoạt động ở hậu trường. Các mô hình ngôn ngữ lớn (LLM) tạo ra đầu ra dựa trên một bộ ngôn ngữ được dự đoán để phản hồi đầu vào của người dùng, khiến nó có vẻ như AI có khả năng tự suy nghĩ.

Nhưng LLM không phải là mô hình lớn duy nhất; các Large Action Model (LAM) có thể là điều quan trọng tiếp theo trong AI.

Large Action Model (LAM) là gì?

LAM là một hệ thống trí tuệ nhân tạo có khả năng hiểu đầu vào của con người và thực hiện hành động tương ứng. Đây là một cách tiếp cận hơi khác so với các hệ thống AI chỉ tập trung vào việc tạo ra phản hồi. Thuật ngữ "Large Action Model" lần đầu tiên được giới thiệu bởi Rabbit Inc., nhà phát triển thiết bị rabbit r1. Trong video ra mắt rabbit r1 của công ty, LAM là mô hình nền tảng mới giúp đưa AI từ lời nói đến hành động.

LAM được đào tạo trên bộ dữ liệu lớn về hành động của người dùng; do đó, chúng học bằng cách bắt chước hành động của con người hoặc thông qua demo. Thông qua demo, LAM có thể hiểu và điều hướng giao diện người dùng của các trang web hoặc ứng dụng di động khác nhau và thực hiện những hành động cụ thể dựa trên hướng dẫn. Theo Rabbit, LAM có thể đạt được điều này ngay cả khi giao diện bị thay đổi một chút.

Bạn có thể coi LAM như một phần mở rộng từ các khả năng hiện có của LLM. Trong khi LLM tạo ra văn bản hoặc đầu ra media dựa trên đầu vào của người dùng bằng cách dự đoán từ hoặc token tiếp theo (Bạn đặt câu hỏi và LLM cung cấp đầu ra văn bản hoặc media), LAM còn tiến xa hơn bằng cách thêm khả năng thực hiện các hành động phức tạp thay mặt bạn .

LAM có thể làm gì?

LAM tập trung vào việc thực hiện các hành động phức tạp thay mặt bạn. Tuy nhiên, điểm quan trọng cần lưu ý là khả năng thực hiện các hành động phức tạp. Điều này làm cho LAM trở nên hữu ích hơn khi thực hiện các tác vụ nâng cao nhưng không có nghĩa là chúng không thể thực hiện những tác vụ đơn giản.

Về lý thuyết, điều này có nghĩa là bạn có thể yêu cầu LAM thay mặt mình làm điều gì đó, như order cà phê từ quán Starbucks gần nhất, gọi xe công nghệ và thậm chí đặt phòng khách sạn. Do đó, nó khác với việc thực hiện các tác vụ đơn giản như yêu cầu Google Assistant, Siri hoặc Alexa bật TV hoặc đèn phòng khách.

Về cơ bản, theo tầm nhìn được chia sẻ bởi Rabbit Inc., LAM có thể truy cập trang web hoặc ứng dụng liên quan và điều hướng qua giao diện của nó để thực hiện hành động, chẳng hạn như đặt xe hoặc hủy chuyến nếu bạn thay đổi ý định.

LAM sẽ thành công với LLM, nhưng chúng vẫn chưa sẵn sàng

Khái niệm LAM rất thú vị, thậm chí có thể còn thú vị hơn cả LLM. LAM sẽ là tương lai sau Generative AI, cho phép chúng ta có thể giải quyết các nhiệm vụ nhàm chán và tập trung vào những hoạt động hay ho khác. Tuy nhiên, dù có vẻ thú vị nhưng LAM vẫn chưa sẵn sàng.

Sản phẩm thương mại đầu tiên hứa hẹn tận dụng LAM (rabbit r1) đã không thực hiện đầy đủ lời hứa tiếp thị về việc thực hiện các hành động thay mặt cho người dùng. Thiết bị này đã thất bại một cách ngoạn mục ở điểm cốt lõi của nó đến nỗi nhiều đánh giá trực tiếp cho rằng nó khá vô dụng.

Tệ hơn nữa, một cuộc điều tra của YouTuber Coffeezilla phối hợp với một nhóm kỹ sư phần mềm chọn lọc có quyền truy cập vào một phần cơ sở code của r1, đã phát hiện ra rằng Rabbit đã sử dụng script Playwright để thực hiện các hành động thay vì LAM. Vì vậy, thay vì một thiết bị chạy mô hình AI độc đáo, nó thực sự chỉ chạy một loạt các câu lệnh kiểu If > Then; khác xa với LAM đã hứa.

Thứ duy nhất có thể rút ra từ thiết bị r1 của Rabbit là tầm nhìn. Tuy nhiên, còn rất nhiều điều cần thực hiện nên đừng vội vui mừng.

Thứ Sáu, 12/07/2024 09:29
51 👨 149
0 Bình luận
Sắp xếp theo
    ❖ Kiến thức cơ bản