Top 10 mô hình Physical AI điều khiển robot mạnh nhất năm 2026

Phạm Hải

Trong khoảng gần 2 năm qua, khoảng cách giữa khả năng của các mô hình ngôn ngữ và việc triển khai robot trong thế giới thực đã thu hẹp đáng kể. Một lớp mô hình nền tảng mới đang dần xuất hiện — không còn tập trung vào tạo văn bản, mà hướng tới hành động vật lý.

Những hệ thống này hiện đã được triển khai trên phần cứng thực tế trong nhà máy, kho vận và phòng nghiên cứu. Chúng bao gồm các policy điều khiển robot, các mô hình vision-language-action (VLA) đang thử nghiệm, mô hình mã nguồn mở và cả world model dùng để mở rộng dữ liệu huấn luyện.

Dưới đây là 10 mô hình quan trọng nhất trong lĩnh vực “Physical AI” tính đến năm 2026.

NVIDIA Isaac GR00T N-Series (N1.5 / N1.6 / N1.7)

NVIDIA ra mắt GR00T N1 tại GTC tháng 3/2025 như foundation model mở đầu tiên dành cho robot humanoid với khả năng suy luận và kỹ năng tổng quát.

Dòng N-series sau đó phát triển rất nhanh. GR00T N1.5 (COMPUTEX 5/2025) bổ sung một VLM “đóng băng”, cải thiện grounding với Eagle 2.5, đưa vào objective huấn luyện FLARE cho phép học từ video góc nhìn người (ego video), đồng thời giới thiệu blueprint GR00T-Dreams giúp rút thời gian tạo dữ liệu tổng hợp từ vài tháng xuống còn khoảng 36 giờ.

GR00T N1.6 (15/12/2025) nâng cấp với backbone NVIDIA Cosmos-2B VLM hỗ trợ độ phân giải linh hoạt, tăng quy mô DiT lên gấp đôi (32 lớp so với 16 ở N1.5), bổ sung action chunk dạng state-relative để chuyển động mượt hơn, cùng hàng nghìn giờ dữ liệu teleoperation từ nhiều hệ robot như YAM bimanual, AGIBot Genie-1 và Unitree G1. Phiên bản này đã được kiểm chứng trên các tác vụ bimanual và locomanipulation thực tế.

Phiên bản mới nhất GR00T N1.7 Early Access (17/4/2026) là một VLA 3B tham số, cấp phép thương mại mở, xây dựng trên backbone Cosmos-Reason2-2B với kiến trúc Action Cascade hai hệ thống. Điểm đột phá là EgoScale — huấn luyện trên 20.854 giờ video góc nhìn người trải rộng hơn 20 nhóm nhiệm vụ, vượt xa lượng dữ liệu teleoperation trước đó. NVIDIA cho biết đây là lần đầu xác lập “scaling law” cho độ khéo léo của robot: tăng dữ liệu từ 1.000 lên 20.000 giờ giúp hơn gấp đôi tỷ lệ hoàn thành nhiệm vụ. N1.7 đã có trên HuggingFace và GitHub với license Apache 2.0, và đang được các đối tác như AeiRobot, Foxlink, NEURA Robotics, Lightwheel thử nghiệm.

Google DeepMind Gemini Robotics 1.5

Google DeepMind phát triển Gemini Robotics như một mô hình VLA dựa trên Gemini 2.0, bổ sung hành động vật lý như một dạng output mới để điều khiển robot trực tiếp.

Ra mắt tháng 3/2025 cùng Gemini Robotics-ER (Embodied Reasoning), phiên bản Gemini Robotics 1.5 (9/2025) bổ sung khả năng agentic: chuyển đổi thông tin hình ảnh và chỉ dẫn thành lệnh điều khiển động cơ, đồng thời làm rõ quá trình suy luận để robot có thể xử lý các tác vụ nhiều bước một cách minh bạch hơn.

Mô hình hiện chỉ dành cho đối tác như Agile Robots, Agility Robotics, Boston Dynamics và Enchanted Tools. Nhánh Gemini Robotics-ER tiếp tục phát triển với bản 1.6 (14/4/2026), cải thiện suy luận không gian và hiểu đa góc nhìn, đồng thời bổ sung khả năng đọc thiết bị đo (gauge, sight glass) hợp tác cùng Boston Dynamics. Phiên bản này có thể truy cập qua Gemini API và Google AI Studio.

Physical Intelligence π0 / π0.5 / π0.7

π0 đề xuất kiến trúc flow matching trên nền mô hình vision-language, kế thừa tri thức ngữ nghĩa quy mô internet. Nó được huấn luyện trên nhiều loại robot có độ khéo léo cao như robot một tay, hai tay và mobile manipulator, và đã được open-source từ tháng 2/2025.

π0.5 (4/2025) không tập trung tăng độ khéo léo mà hướng tới generalization trong môi trường mở. Mô hình sử dụng co-training trên nhiều nhiệm vụ, nhiều robot, kết hợp dự đoán ngữ nghĩa cấp cao và dữ liệu web để xử lý các môi trường chưa từng thấy như bếp hoặc phòng ngủ mới. Phiên bản tiếp theo áp dụng phương pháp RECAP (RL với Experience & Corrections), học từ demonstration, cải thiện qua chỉnh sửa và trải nghiệm tự động, giúp tăng gấp đôi throughput ở các tác vụ như lắp filter máy pha cà phê, gấp đồ hay lắp hộp carton.

π0.7 (16/4/2026) tập trung vào compositional generalization — kết hợp kỹ năng từ nhiều ngữ cảnh để giải quyết nhiệm vụ chưa từng huấn luyện. Đây là mô hình có khả năng “điều hướng” (steerable) với các năng lực emergent, được xem là bước tiến hướng tới robot đa năng, dù vẫn đang ở giai đoạn nghiên cứu.

Figure AI Helix

Helix (20/2/2025) là VLA đầu tiên có thể xuất điều khiển liên tục với tần số cao cho toàn bộ phần thân trên robot humanoid, bao gồm cổ tay, thân, đầu và từng ngón tay.

Hệ thống gồm hai phần: System 2 là VLM 7B tham số chạy ở 7–9 Hz để hiểu ngữ cảnh, System 1 là transformer 80M tham số chạy ở 200 Hz để chuyển đổi biểu diễn thành hành động chính xác. Mô hình được huấn luyện trên khoảng 500 giờ dữ liệu teleoperation đa robot, đa người vận hành.

Helix chạy hoàn toàn trên GPU nhúng tiêu thụ điện thấp, phù hợp triển khai thực tế. Nó sử dụng một bộ trọng số duy nhất cho tất cả hành vi, không cần fine-tune theo từng task, và đã được thử nghiệm trong thao tác gia đình và phân loại hàng hóa logistics. Ngoài ra, nó có thể điều phối đồng thời hai robot thông qua kiến trúc supervisory.

OpenVLA

OpenVLA là mô hình VLA mã nguồn mở 7B tham số, huấn luyện trên 970.000 demonstration robot thực.

Nó kết hợp Llama 2 với encoder hình ảnh sử dụng DINOv2 và SigLIP. Dù nhỏ hơn 7 lần, OpenVLA vẫn vượt RT-2-X (55B) tới 16.5 điểm phần trăm về tỷ lệ thành công trên 29 nhiệm vụ.

Phương pháp OFT (Optimized Fine-Tuning) giúp tăng tốc suy luận 25–50 lần và đạt 97.1% trên benchmark LIBERO. Phiên bản OFT+ bổ sung FiLM conditioning để cải thiện grounding và hỗ trợ điều khiển bimanual tần số cao. OpenVLA hỗ trợ LoRA, quantization và tích hợp ROS 2.

Octo

Octo là policy robot mã nguồn mở từ UC Berkeley với hai phiên bản 27M và 93M tham số.

Mô hình sử dụng transformer với diffusion decoding, được huấn luyện trên 800.000 episode từ Open X-Embodiment dataset. Nó hỗ trợ input đa dạng (ngôn ngữ, hình ảnh) và thích ứng với nhiều dạng sensor, action mà không cần thay đổi kiến trúc.

Octo được thiết kế để fine-tune nhanh. Với khoảng 100 demonstration, nó vượt training từ đầu trung bình 52% trên nhiều benchmark và đạt hiệu năng tương đương RT-2-X trong zero-shot, dù nhỏ hơn rất nhiều.

AGIBOT BFM và GCFM

AGIBOT công bố hai foundation model trong kiến trúc “One Robotic Body, Three Intelligences”.

BFM tập trung vào học hành vi từ demonstration, còn GCFM tạo hành động dựa trên input đa phương thức (text, audio, video). Công ty cũng xây dựng dataset AGIBOT WORLD 2026 từ môi trường thực tế và đã triển khai 10.000 robot vào tháng 3/2026.

Gemini Robotics On-Device

Phiên bản này tối ưu để chạy trực tiếp trên robot với độ trễ thấp, không cần mạng.

Nó kế thừa khả năng từ Gemini Robotics, huấn luyện chủ yếu trên robot ALOHA và có thể thích ứng với robot FR3 hoặc humanoid Apollo. Mô hình học nhiệm vụ mới chỉ với 50–100 demonstration và hiện vẫn trong giai đoạn thử nghiệm giới hạn.

NVIDIA Cosmos World Models

Cosmos không phải policy điều khiển robot mà là world model tạo dữ liệu mô phỏng.

Nó có thể sinh trajectory từ ảnh và mô tả ngôn ngữ, giúp robot học trong môi trường mới mà không cần dữ liệu teleoperation thực. Cosmos Predict 2 được dùng trong GR00T-Dreams và đã được phát hành trên HuggingFace.

SmolVLA (HuggingFace LeRobot)

SmolVLA là mô hình VLA nhỏ gọn 450M tham số của Hugging Face, huấn luyện hoàn toàn từ dữ liệu mã nguồn mở.

Nó sử dụng backbone SmolVLM-2 kết hợp transformer flow-matching và được huấn luyện trên 10 triệu frame từ 487 dataset. SmolVLA chạy được trên GPU phổ thông và MacBook, fine-tune khoảng 4 giờ trên A100.

Trong thử nghiệm thực tế, SmolVLA đạt khoảng 78.3% sau fine-tune và hiệu năng tương đương hoặc vượt các mô hình lớn hơn trong benchmark LIBERO và Meta-World. Đây là điểm khởi đầu dễ tiếp cận nhất cho các nhóm có tài nguyên hạn chế.

Sự xuất hiện của các mô hình Physical AI cho thấy một bước chuyển lớn: AI không còn chỉ xử lý thông tin, mà bắt đầu tương tác trực tiếp với thế giới vật lý.

Các hệ thống này đang mở ra một kỷ nguyên mới, nơi robot có thể học, thích nghi và thực hiện nhiệm vụ phức tạp trong môi trường thực tế. Dù vẫn còn nhiều thách thức, xu hướng chung đã rất rõ ràng: AI đang tiến từ “ngôn ngữ” sang “hành động”.

Thứ Hai, 04/05/2026 10:35

3 ★ 1 👨 149

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

AI cho Lập trình

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Top 10 mô hình Physical AI điều khiển robot mạnh nhất năm 2026

Phạm Hải

NVIDIA Isaac GR00T N-Series (N1.5 / N1.6 / N1.7)

Google DeepMind Gemini Robotics 1.5

Physical Intelligence π0 / π0.5 / π0.7

Figure AI Helix

OpenVLA

Octo

AGIBOT BFM và GCFM

Gemini Robotics On-Device

NVIDIA Cosmos World Models

SmolVLA (HuggingFace LeRobot)

Bạn nên đọc

5 mẹo biến OpenAI Codex thành AI Coding Agent mạnh mẽ hơn

Cách xây dựng Knowledge Base hiệu quả cho AI Models

Cách viết robust code với Claude Code và AI Coding Agent

5 cuốn sách hay nhất giúp xây dựng Agentic AI system trong năm 2026

5 Python decorator giúp viết code AI sạch và dễ kiểm soát hơn

6 cách nhận biết ảnh AI giả nhanh và chính xác

5 nền tảng AI giúp xây dựng ứng dụng nhanh nhất hiện nay

Hướng dẫn tạo giọng đọc lồng tiếng cho slide bài giảng

6 plugin opencode giúp ai coding mạnh mẽ và thực tế hơn