Mới đây, Figure AI, một startup chuyên phát triển robot hình người, đã công bố một video ghi lại cảnh robot hình người Figure 01 của công ty được trang bị mô hình ngôn ngữ hình ảnh của OpenAI để đối thoại với con người một cách tự nhiên.
Figure 01 có thể giao tiếp là do được tích hợp Mô hình ngôn ngữ hình ảnh (VLM) mới nhất do OpenAI phát triển, có thể tương tác lời nói - lời nói (speech-to-speech).
VLM sử dụng mô hình đa phương thức của OpenAI với khả năng dựa trên cuộc trò chuyện bằng giọng nói theo thời gian thực để thu nhận và hiểu hình ảnh, văn bản từ camera trên robot. Robot sẽ phân tích dữ liệu này để phản hồi ngược trở lại cho người đối diện.
Dưới đây là video màn đối thoại giữa robot Figure 01 với con người.
Video demo cho thấy Figure 01 có thể tương tác với con người khá tự nhiên, dù hơi chậm. Bên cạnh đó, robot cũng sử dụng thao tác tay một cách nhuần nhuyễn.
Figure AI khẳng định nội dung trong video là thật 100%, đều dựa trên quá trình học hỏi của hệ thống và không bị điều khiển từ xa.
Figure AI là startup mới thành lập năm 2022 tại Mỹ nhận được khoản đầu tư 675 triệu USD từ các nhà đầu tư lớn như Jeff Bezos, Microsoft, Nvidia, và OpenAI,. Theo Bloomberg. Hiện nay Figure AI đã nhanh chóng trở thành kỳ lân được định giá 2,6 tỷ USD. Robot hình người Figure 01 dự kiến sẽ được sử dụng trong các lĩnh vực đang thiếu hụt lao động như sản xuất, vận chuyển, hậu cần, kho bãi và bán lẻ…