Ba hướng tiếp cận giúp AI bắt đầu hiểu thế giới vật lý

Các mô hình ngôn ngữ lớn (LLM) đang dần chạm tới giới hạn khi bước ra khỏi môi trường số để xử lý những bài toán liên quan đến thế giới vật lý như robot, xe tự hành hay sản xuất.

Điều này khiến giới đầu tư bắt đầu chuyển hướng sang một khái niệm mới: world model — các mô hình có khả năng mô phỏng và hiểu cách thế giới vận hành. Minh chứng là việc AMI Labs gọi vốn hơn 1 tỷ USD, ngay sau khi World Labs cũng đạt mốc tương tự.

Vì sao LLM “đuối” khi ra đời thực?

LLM rất giỏi xử lý kiến thức trừu tượng thông qua việc dự đoán từ tiếp theo. Nhưng chúng thiếu một yếu tố cốt lõi: hiểu quan hệ nhân quả trong thế giới vật lý.

Nói cách khác, AI có thể viết rất hay, nhưng lại không thực sự hiểu điều gì sẽ xảy ra khi một hành động diễn ra ngoài đời thực.

Nhà khoa học Richard Sutton từng nhận định rằng LLM chỉ đang “bắt chước cách con người nói”, chứ không thực sự mô hình hóa thế giới. Điều này khiến chúng khó học từ trải nghiệm và thích nghi với thay đổi.

Trong khi đó, CEO Google DeepMind Demis Hassabis gọi hiện tượng này là “trí tuệ răng cưa” — AI có thể giải toán cực khó nhưng lại thất bại với những bài toán vật lý cơ bản.

Để khắc phục điểm yếu này, các nhà nghiên cứu đang xây dựng world model — những hệ thống có thể mô phỏng thế giới bên trong, giúp AI “thử nghiệm” trước khi hành động. Hiện tại, có ba hướng tiếp cận chính, mỗi hướng giải quyết một khía cạnh khác nhau của bài toán.

JEPA: Tập trung vào bản chất, bỏ qua chi tiết thừa

Một hướng đi quan trọng là học các biểu diễn trừu tượng thay vì cố mô phỏng toàn bộ thế giới ở cấp độ pixel. Cách tiếp cận này được thúc đẩy bởi kiến trúc JEPA.

Thay vì ghi nhớ mọi chi tiết nhỏ, JEPA hoạt động giống cách con người quan sát thế giới. Khi nhìn một chiếc xe chạy, chúng ta quan tâm đến hướng di chuyển và tốc độ, chứ không quan tâm đến ánh sáng phản chiếu trên từng chiếc lá xung quanh.

JEPA cũng làm điều tương tự: nó bỏ qua chi tiết không cần thiết và tập trung vào các quy luật cốt lõi. Nhờ đó, mô hình trở nên ổn định hơn trước những thay đổi nhỏ và không bị “vỡ” khi dữ liệu đầu vào biến động.

Một ưu điểm lớn là hiệu quả tính toán cao, tiêu tốn ít tài nguyên hơn và có độ trễ thấp. Điều này khiến JEPA phù hợp với các ứng dụng cần phản hồi theo thời gian thực như robot, xe tự lái hoặc hệ thống doanh nghiệp.

Nhà khoa học Yann LeCun cho biết các world model kiểu này có thể được “điều khiển” theo mục tiêu cụ thể, tức là chỉ tập trung hoàn thành nhiệm vụ được giao.

Gaussian splats: Xây dựng thế giới 3D hoàn chỉnh

Hướng thứ hai tập trung vào việc tạo ra toàn bộ không gian 3D từ đầu bằng mô hình sinh.

Phương pháp này sử dụng kỹ thuật “Gaussian splatting”, trong đó một cảnh 3D được tạo từ hàng triệu điểm nhỏ mô tả hình học và ánh sáng. Khác với video phẳng, các cảnh này có thể đưa trực tiếp vào các engine như Unreal để tương tác từ nhiều góc độ.

Cách tiếp cận này giúp giảm đáng kể chi phí và thời gian tạo môi trường ảo phức tạp. Theo Fei-Fei Li, LLM hiện tại giống như “nhà văn trong bóng tối” — giỏi ngôn ngữ nhưng thiếu nhận thức không gian. World model dạng này giúp lấp đầy khoảng trống đó.

Dù không phù hợp với các tác vụ cần phản hồi tức thì, phương pháp này lại rất tiềm năng trong thiết kế công nghiệp, giải trí tương tác và huấn luyện robot trong môi trường mô phỏng.

End-to-end: Mô phỏng thế giới theo thời gian thực

Hướng thứ ba là sử dụng mô hình sinh end-to-end, nơi chính AI đóng vai trò “engine vật lý”.

Thay vì tạo môi trường rồi đưa vào hệ thống khác xử lý, mô hình sẽ trực tiếp sinh ra hình ảnh, vật lý và phản ứng theo thời gian thực dựa trên hành động của người dùng.

Các hệ thống như Genie của DeepMind hay Cosmos của NVIDIA đi theo hướng này. Chúng có thể tạo ra môi trường tương tác liên tục, đồng thời duy trì tính nhất quán của vật thể và quy luật vật lý.

Điểm mạnh lớn nhất là khả năng tạo ra lượng dữ liệu mô phỏng khổng lồ. Ví dụ, các công ty xe tự hành có thể thử nghiệm những tình huống nguy hiểm hiếm gặp mà không cần thử nghiệm ngoài đời thực. Tuy nhiên, đổi lại là chi phí tính toán rất cao, vì hệ thống phải xử lý cả hình ảnh lẫn vật lý cùng lúc.

Trong thời gian tới, LLM vẫn sẽ đóng vai trò giao tiếp và suy luận. Nhưng world model sẽ trở thành lớp hạ tầng quan trọng cho các hệ thống AI hoạt động trong thế giới thực. Xu hướng hiện tại là kết hợp nhiều kiến trúc khác nhau để tận dụng điểm mạnh của từng loại. Ví dụ, startup DeepTempo đã phát triển mô hình kết hợp giữa LLM và JEPA để phát hiện bất thường trong hệ thống an ninh mạng.

Thứ Hai, 23/03/2026 09:40
31 👨
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo