Microsoft giới thiệu AI VASA-1 có thể giúp ảnh chân dung biết nói chuyện và ca hát

Microsoft Research Asia mới đây đã tiết lộ công cụ AI mới có tên VASA-1 có khả năng chuyển đổi ảnh tĩnh hoặc bản vẽ của một người thành video chân thực người đó nói chuyện và ca hát.

Công nghệ này có khả năng tạo ra nét mặt, cảm xúc, sắc thái tinh tế trên khuôn mặt và chuyển động đầu tự nhiên từ hình ảnh hiện có. Nó cũng tạo chuyển động môi phù hợp với âm thanh đang phát.

VASA-1

Công cụ VASA-1 được đào tạo trên bộ dữ liệu VoxCeleb2, bao gồm "hơn 1 triệu lời nói của 6.112 người nổi tiếng". Microsoft đã thử nghiệm thành công VASA-1 trên cả hình ảnh thật và nghệ thuật như Mona Lisa.

Các nhà nghiên cứu cho biết, VASA-1 có thể tạo ra video có độ phân giải cao (512 x 512 pixel) ở tốc độ khung hình cao, ở chế độ ngoại tuyến cung cấp 45 khung hình mỗi giây, còn ở chế độ trực tuyến là 40 khung hình mỗi giây.

Tuy nhiên, nhiều người dùng lo ngại rằng bộ công cụ AI mới của Microsoft có thể bị lạm dụng để tạo ra các video deepfake.

Để ngăn chặn việc này, các nhà nghiên cứu từ Microsoft Research Asia quyết định chỉ đến khi có biện pháp bảo vệ trách nhiệm và phù hợp mới phát hành các sản phẩm nào liên quan đến công nghệ này. Còn hiện tại, sẽ không có sản phẩm nào ra mắt cả.

Dù vậy, các nhà nghiên cứu vẫn kỳ vọng vào tiềm năng của công nghệ AI mới trong việc giúp nâng cao trải nghiệm giáo dục, hỗ trợ mọi người gặp khó khăn trong giao tiếp, đồng hành và hỗ trợ trị liệu cho những người cần, mở ra cơ hội cho các chương trình truyền đạt thông tin thông qua nhân vật AI có thể nói chuyện.

Thứ Hai, 22/04/2024 08:49
52 👨 226
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ