Google DeepMind đã và đang đạt được những tiến bộ ổn định trong lĩnh vực AI với các bản cập nhật thường xuyên, được đánh giá cao cho Gemini, Imagen, Veo, Gemma và AlphaFold. Hôm nay, đội ngũ AI của Google tiếp tục gây chú ý khi tuyên bố chính thức tham gia vào ngành công nghiệp robot với việc cho ra mắt hai mô hình mới dựa trên Gemini 2.0: Gemini Robotics và Gemini Robotics-ER.
Gemini Robotics: Mô hình Thị giác-Ngôn ngữ-Hành động tiên tiến
Gemini Robotics là một mô hình thị giác-ngôn ngữ-hành động (VLA) tiên tiến được phát triển dựa trên Gemini 2.0, với việc bổ sung các hành động vật lý như một phương thức đầu ra mới để điều khiển robot. Google tuyên bố rằng mô hình mới này có thể hiểu được các tình huống mà thậm chí chưa từng gặp phải trong quá trình đào tạo.
So với các mô hình VLA hàng đầu khác, Gemini Robotics hoạt động tốt gấp đôi trên một bộ tiêu chuẩn tổng quát hóa toàn diện. Do được xây dựng trên mô hình Gemini 2.0, mô hình này có khả năng hiểu nhiều loại ngôn ngữ tự nhiên khác nhau, đồng nghĩa với việc có thể hiểu lệnh của con người một cách chính xác hơn.
Về khả năng khéo léo, Google tuyên bố rằng Gemini Robotics có thể xử lý các nhiệm vụ phức tạp, đa bước đòi hỏi sự thao tác chính xác. Ví dụ, mô hình này có thể gấp origami hoặc đặt đồ ăn nhẹ vào túi Ziploc.
Gemini Robotics-ER: Mô hình Thị giác-Ngôn ngữ tập trung vào lập luận không gian
Gemini Robotics-ER là một mô hình thị giác-ngôn ngữ tiên tiến tập trung vào lập luận không gian, cho phép các nhà nghiên cứu robot tích hợp với các bộ điều khiển cấp thấp hiện có của họ. Sử dụng mô hình này, nhà nghiên cứu robot sẽ có tất cả các bước để điều khiển robot ngay lập tức, bao gồm nhận thức, ước tính trạng thái, hiểu biết không gian, lập kế hoạch và tạo mã.
Tương lai của Gemini Robotics
Google đang hợp tác với Apptronik để xây dựng robot hình người dựa trên các mô hình Gemini 2.0. Google cũng đang làm việc với một số đối tác thử nghiệm đáng tin cậy, bao gồm Agile Robots, Agility Robotics, Boston Dynamics và Enchanted Tools, để định hướng phát triển tương lai của Gemini Robotics-ER.
Bằng cách cho phép robot hiểu và thực hiện các nhiệm vụ phức tạp với độ chính xác và khả năng thích ứng cao hơn, Google DeepMind đang mở đường cho một tương lai nơi robot có thể tích hợp liền mạch vào nhiều khía cạnh của cuộc sống chúng ta.