AI của Alibaba 'biến' ảnh tĩnh thành biết nói và hát

EMO (Emotive Portrait Alive) là AI tạo sinh mới được nghiên cứu bởi Viện Điện toán Thông minh (IIC) của Alibaba với khả năng "hô biến" hình ảnh bất kỳ có thể nói, hát như thật.

Nói cách khác, AI của Alibaba có thể biến một hình ảnh tham chiếu tĩnh và âm thanh giọng nói thành một video có thể nói, hát với biểu cảm tự nhiên.

Các AI trước đây chỉ làm biến đổi miệng và một phần khuôn mặt, trong khi đó EMO có thể tạo nét mặt, phần miệng thể hiện tự nhiên, đồng bộ môi chính xác, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc.

Alibaba có công bố một số video cho thấy hình ảnh sẽ biến thành video và hát các bài được nhập vào nhanh chóng. EMO hỗ trợ tiếng Anh, tiếng Trung, và nhiều ngôn ngữ khác.

Alibaba tiết lộ, để EMO có thể tạo biểu cảm khuôn mặt một cách chân thực, nó đã được huấn luyện với một lượng lớn dữ liệu về hình ảnh, âm thanh và video thông qua mô hình khuếch tán riêng có tên Audio2Video.

Để giải quyết thách thức lớn hiện nay là tính chân thực và tính biểu cảm trong việc tạo video từ hình ảnh và âm thanh, nhóm nghiên cứu đã tập trung vào mối liên hệ cũng như sắc thái giữa tín hiệu âm thanh và chuyển động trên khuôn mặt, bỏ qua liên kết mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt, chuyển tiếp khung hình liền mạch và bảo toàn tính nhất quán trong video.

Alibaba chưa tiết lộ khi nào sẽ phát hành đại trà AI này nhưng đã công bố dữ liệu của EMO trên Github, các tài liệu nghiên cứu được đăng trên ArXiv.

Thứ Tư, 13/03/2024 10:19
52 👨 300
0 Bình luận
Sắp xếp theo
    ❖ Trí tuệ nhân tạo (AI)