AI của Alibaba 'biến' ảnh tĩnh thành biết nói và hát

Nguyễn Đạt

EMO (Emotive Portrait Alive) là AI tạo sinh mới được nghiên cứu bởi Viện Điện toán Thông minh (IIC) của Alibaba với khả năng "hô biến" hình ảnh bất kỳ có thể nói, hát như thật.

Nói cách khác, AI của Alibaba có thể biến một hình ảnh tham chiếu tĩnh và âm thanh giọng nói thành một video có thể nói, hát với biểu cảm tự nhiên.

Các AI trước đây chỉ làm biến đổi miệng và một phần khuôn mặt, trong khi đó EMO có thể tạo nét mặt, phần miệng thể hiện tự nhiên, đồng bộ môi chính xác, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc.

Alibaba có công bố một số video cho thấy hình ảnh sẽ biến thành video và hát các bài được nhập vào nhanh chóng. EMO hỗ trợ tiếng Anh, tiếng Trung, và nhiều ngôn ngữ khác.

Alibaba tiết lộ, để EMO có thể tạo biểu cảm khuôn mặt một cách chân thực, nó đã được huấn luyện với một lượng lớn dữ liệu về hình ảnh, âm thanh và video thông qua mô hình khuếch tán riêng có tên Audio2Video.

Để giải quyết thách thức lớn hiện nay là tính chân thực và tính biểu cảm trong việc tạo video từ hình ảnh và âm thanh, nhóm nghiên cứu đã tập trung vào mối liên hệ cũng như sắc thái giữa tín hiệu âm thanh và chuyển động trên khuôn mặt, bỏ qua liên kết mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt, chuyển tiếp khung hình liền mạch và bảo toàn tính nhất quán trong video.

Alibaba chưa tiết lộ khi nào sẽ phát hành đại trà AI này nhưng đã công bố dữ liệu của EMO trên Github, các tài liệu nghiên cứu được đăng trên ArXiv.

Thứ Tư, 13/03/2024 10:19

5 ★ 2 👨 321

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

AI của Alibaba 'biến' ảnh tĩnh thành biết nói và hát

Nguyễn Đạt

Bạn nên đọc

6 Web API miễn phí mà mọi lập trình viên AI và “vibe coder” nên biết

Tìm hiểu về GenAI của Adobe: Công cụ biến lời nhắc văn bản thành âm nhạc

Viết kịch bản video AI thu hút người xem

Các rủi ro của Trí tuệ nhân tạo (AI): Phân tích toàn diện trong bối cảnh công nghệ hiện đại

AI sau khi được dạy 'lừa đảo' rất khó 'hoàn lương'

Sinh trắc học hành vi: "chứng chỉ" mới trong kỷ nguyên AI

Hướng dẫn tạo hình ảnh đại diện trên Microsoft Designer

AI mới có thể giả mạo chữ viết tay của người dùng

Google AI Edge Eloquent: Ứng dụng ghi âm mới của Google có gì đặc biệt?

Cũ vẫn chất

Lăm/năm, tư/bốn, mốt/một… đọc như thế nào mới đúng trong dãy số tự nhiên?

Thống kê tin nhắn Facebook xem ai nhắn tin nhiều nhất trên Facebook

Những câu nói hay về thời gian, stt về thời gian hay và ý nghĩa

Hàm VLOOKUP: Cách sử dụng và các ví dụ cụ thể

Cách chèn dấu tích vào trong Word

Đây là quốc gia duy nhất từng lấy cờ trắng làm quốc kỳ

Cách xem danh sách số điện thoại bị chặn trên iPhone

Những câu hỏi đáng suy ngẫm về giá trị cuộc sống

Code Fruit Battlegrounds mới nhất 11/04/2026 và cách đổi code lấy thưởng

Cách xem những người bạn đã chặn (block) trên Facebook