Phát triển thành công mô hình AI có thể dịch ngôn ngữ thành chuyển động vật lý

Phạm Hải

Các nhà nghiên cứu AI đến từ Đại học Carnegie Mellon, Pennsylvania, Hoa Kỳ mới đây đã phát triển thành công một mô hình AI chuyên sâu, có khả năng dịch các ngôn ngữ (văn bản, giọng nói) thành chuyển động, cử chỉ vật lý với độ chính xác tương đối cao.

Mô hình AI này được đặt tên là Joint Language-to-Pose (JL2P), đồng thời được biết đến như một phương pháp đem lại khả năng kết hợp ngôn ngữ tự nhiên với các mô hình mô phỏng tư thế 3D hiệu quả khi được ứng dụng vào thực tiễn trong tương lai gần.

Mô hình AI của DeepMind có thể học cách tạo video chỉ bằng cách xem các clip trên YouTube

Mô hình AI này được đặt tên là Joint Language-to-Pose (JL2P)

Khả năng phân tích và mô phỏng tư thế, cử chỉ trong không gian 3 chiều của JL2P được đào tạo kỹ lưỡng thông qua các chương trình end-to-end xuyên suốt - một cách tiếp cận mạnh mẽ và hiệu quả với việc các chương trình đào tạo được “xé nhỏ” theo dạng chuỗi riêng lẻ. Mô hình AI sẽ phải hoàn thành các nhiệm vụ ngắn, đơn giản trước khi được phép chuyển sang những mục tiêu phức tạp hơn.

Hiện tại, khả năng mô phỏng hoạt hình của JL2P đang được giới hạn ở dạng hình ảnh thô sơ (tạo thành từ các đường thẳng đơn giản), tuy nhiên khả năng mô phỏng chuyển động giống của con người dựa trên ngôn ngữ của mô hình AI này là tương đối chính xác và trực quan. Nhóm nghiên cứu tin rằng những mô hình như JL2P một ngày nào đó có thể giúp robot thực hiện các nhiệm vụ vật lý trong thế giới thực tương tự như con người, hoặc hỗ trợ sáng tạo nhân vật hoạt hình ảo cho trong trò chơi video cũng như phim ảnh.

Phát triển thành công xe đạp tự hành sử dụng chip AI có khả năng suy luận và học hỏi như con người

Khả năng mô phỏng hoạt hình của JL2P đang được giới hạn ở dạng hình ảnh thô sơ, đơn giản

Thực ra ý tưởng phát triển một mô hình AI với khả năng dịch ngôn ngữ thành chuyển động vật lý không phải mới. Trước khi Đại học Carnegie Mellon giới thiệu JL2P, Microsoft cũng đã phát triển thành công một mô hình có tên ObjGAN, với nhiệm vụ chuyên phác họa hình ảnh và storyboard (bảng phác thảo lại câu chuyện bạn muốn kể dưới dạng hình ảnh) từ những chú thích dạng ngôn ngữ. Một mô hình AI khác của của Disney cũng đã được biết đến rộng rãi với khả năng sử dụng chính những từ ngữ trong kịch bản để tạo storyboard. Hay nổi tiếng hơn cả là mô hình GauGAN của Nvidia, có thế biến một bức vẽ nguệch ngoạc như được tạo ra bằng trackpad hoặc Microsoft Paint thành những bản phác thảo kỹ thuật số thông minh với tính thẩm mỹ cực cao.

Trở lại với JL2P, mô hình AI này hiện có thể mô phỏng rất chính xác một số chuyển động từ đơn giản đến tương đối phức tạp như đi bộ hoặc chạy, chơi nhạc cụ (như guitar hoặc violin), làm theo hướng dẫn định hướng (trái hoặc phải) hoặc điều khiển tốc độ (nhanh hoặc chậm).

Phát triển thành công một "bàn phím tưởng tượng" cho màn hình cảm ứng và VR, hoạt động dựa trên AI

JL2P hiện có thể mô phỏng rất chính xác một số chuyển động từ đơn giản đến tương đối phức tạp

“Trước tiên chúng tôi tối ưu hóa mô hình để dự đoán 2 bước thời gian dựa trên những câu từ hoàn chỉnh. Nhiệm vụ đơn giản này có thể giúp mô hình AI học cách mô phỏng các chuỗi tư thế rất ngắn, chẳng hạn như chuyển động chân khi đi bộ, chuyển động tay trong khi vẫy hay tư thế, dáng người khi cúi đầu. Sau khi JL2P đã biết cách mô phỏng những cử chỉ tương tự với độ chính xác cao, chúng tôi sẽ chuyển sang giai đoạn tiếp theo trong chương trình giảng dạy. Mô hình hiện được đưa ra 2 lần (số) tư thế để dự đoán trong cùng một lúc”, nhóm nghiên cứu Đại học Carnegie Mellon cho biết.

AI đã biết chơi poker, đánh thắng những người giỏi nhất thế giới trong một ván đấu 6 người

Mô phỏng tư thế chạy bộ của một người bình thường

Chi tiết về phương thức hoạt động cũng như các “tác phẩm” điển hình của JL2P đã được trình bày lần đầu tiên trong một bài báo khoa học xuất bản ngày 2 tháng 7 trên chuyên trang arXiv.org, và dự kiến sẽ được trình bày bởi chính hội đồng tác giả và các nhà nghiên cứu của Viện Công nghệ Ngôn ngữ CMU Chaitanya Ahuja vào ngày 19 tháng 9 tới đây, trên sân khấu của Hội nghị Quốc tế về 3D Vision diễn ra ở Quebec, Canada.

Nhóm nghiên cứu tự tin khẳng định JL2P có thể cho khả năng mô phỏng tư thế cũng như chuyển động vật lý chính xác hơn 9% so với một mô hình AI “đỉnh cao” khác được phát triển bởi các chuyên gia AI của SRI International vào năm 2018.

Deepfake của Samsung có thể khiến tu sĩ hắc ám Rasputin hát như thật

JL2P mô phỏng hành động chống tay đứng dậy của con người

Sản phẩm tạo ra bởi JL2P sau khi được đào tạo bằng bộ dữ liệu ngôn ngữ chuyển động KIT (KIT Motion-Language Dataset).

JL2P mô phỏng hành động nhảy qua qua chướng ngại vật và chạy

Được giới thiệu lần đầu vào năm 2016 bởi tổ chức Performance Humanoid Technologies, Đức, bộ dữ liệu đào này là một sự kết hợp của chuyển động con người với các mô tả ngôn ngữ tự nhiên, ánh xạ 11 giờ chuyển động liên tục một người, được ghi lại thành hơn 6.200 câu tiếng Anh, mỗi câu có độ dài khoảng 8 từ.

Thứ Ba, 17/09/2019 08:20

5 ★ 3 👨 498

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Phát triển thành công mô hình AI có thể dịch ngôn ngữ thành chuyển động vật lý

Phạm Hải

Bạn nên đọc

TOP công cụ nhân hóa văn bản AI tự nhiên nhất

Nvidia phát triển thành công hệ thống AI có thể tạo mô hình 3D từ hình ảnh 2D

Cách tìm lại file, ảnh và tin nhắn cũ trên ChatGPT trong vài giây

9 Chrome extension hữu ích cho ChatGPT

Kimi vs ChatGPT: Đâu là trợ lý AI tốt hơn?

So sánh 27 mô hình Claude

TOP công cụ AI tạo danh sách công việc tốt nhất

Cách tìm kiếm hình ảnh bằng văn bản trên Google Photos

Trí tuệ nhân tạo sẽ ảnh hưởng đến phần mềm độc hại trong tương lai như thế nào?