AI tạo đoạn video giả một người đang nói như thật

Một khía cạnh của trí thông minh nhân tạo mà chúng ta đã không mấy chú ý, đó là nó có thẻ tạo đoạn audio và video giả mà thật tới nỗi khó có thể phân biệt được. Sự ra đời của Photoshop đã khiến chúng ta phải nghi ngờ những gì mình nhìn thấy, và chuyện gì sẽ xảy ra khi chẳng thể tin tưởng được giác quan của mình.

Ví dụ gần đây nhất về ma thuật hình ảnh - âm thanh của AI đến từ đại học Washington, nơi các nhà nghiên cứu đang tạo ra một công cụ mới có thể dùng tập tin âm thanh và chuyển chúng thành chuyển động của môi rất chân thực, sau đó biến chúng thành video. Kết quả là một video ai đó đang nói (điều mà họ không hề nói). Nghe có vẻ phức tạp nhưng bạn có thể xem video dưới đây để hiểu hơn về quy trình này.

Bạn có thể thấy hai video song song của cựu tổng thống Mỹ Barack Obama. Video bên trái là nguồn để lấy âm thanh gốc, còn video bên phải là một bài nói hoàn toàn khác mà nhà nghiên cứu dùng thuật toán để tạo khẩu hình và đưa vào video. Video “chế” không thực sự hoàn hảo (chuyển động miệng của ông Obame hơi mờ - một lỗi thường thấy với hình ảnh do AI tạo ra) nhưng nhìn qua thì trông rất thuyết phục.

Các nhà nghiên cứu nói rằng họ chọn ông Obama để làm ví dụ vì video chất lượng cao của vị cựu tổng thống rất nhiều, vì thế giúp việc học mạng nơ-ron dễ hơn. Nhà nghiên cứu Ira Kemelmacher nói rằng họ cần tới dữ liệu là 17 giờ video để dõi theo và sao chép chuyển động miệng, nhưng trong tương lai có thể giảm xuống còn một giờ.

AI chế video từ dữ liệu âm thanh và hình ảnh thật của ông Obama
AI chế video từ dữ liệu âm thanh và hình ảnh thật của ông Obama

Nhóm đứng sau nghiên cứu này nói rằng họ hy vọng có thể dùng nó để cải thiện công cụ chat video như Skype. Người dùng có thể chọn video họ nói để dạy phần mềm, khi cần nói chuyện với ai đó, video có thể được tạo tự động và dùng giọng nói của họ. Điều này sẽ giúp ích trong những tình huống khi kết nối mạng không được tốt hoặc muốn tiết kiệm dữ liệu mobile.

Tất nhiên, có những lo ngại về việc công cụ này sẽ tạo video giả, gây hiểu nhầm, tung tin tức giả. Kết hợp công cụ này với công nghệ có thể tạo giọng nói của bất kì ai chỉ với vài phút audio mẫu. Những nghiên cứu tương tự cũng đang thay đổi cách nhận diện khuôn mặt trong thời gian thực, tạo mô hình 3D mặt người từ vài tấm hình...

Nhóm nghiên cứu từ đại học Washington cũng hiểu rằng họ sẽ không dùng vào những mục đích không đúng, nói rõ rằng họ chỉ dạy mạng nơ-ron bằng giọng nói và video của ông Obama. “Không thể lấy giọng nói của bất cứ ai rồi biến nó thành video của ông Obama được”, giáo sư Steve Seitz nói, “chúng tôi sẽ không làm việc đưa những điều một người nói thành điều của người khác”. Nhưng về lý thuyết thì công nghệ này có thể tạo giọng nói trên khuôn mặt bất kì ai.

Cùng xem video ông Obama phát biểu do AI tạo dưới đây.

Thứ Năm, 13/07/2017 16:04
3,73 👨 398