Các nhà khoa học tại Học viện Công nghệ Massachusetts (MIT-Mỹ) lần đầu tiên thành công trong việc ứng dụng thuật toán để tái tạo lại chân dung của một người chỉ bằng một đoạn ghi âm ngắn giọng nói.
Thuật toán AI có tên là Speech2Face được giới thiệu lần đầu tiên vào năm 2019.
Đầu tiên, các nhà nghiên cứu thiết kế một mạng neuron nhân tạo học sâu. Sau đó, AI được đào tạo bằng cách xem hàng triệu video từ YouTube và internet lúc mọi người đang nói chuyện để học được mối tương quan giữa âm thanh của giọng nói và người nói, từ đó đưa ra những phỏng đoán tốt nhất về độ tuổi, giới tính và quốc tịch của người nói.
Sau khi được đào tạo, AI đã có thể đưa ra các bức chân dung chỉ dựa trên các bản ghi âm giọng nói.
Các nhà nghiên cứu đã xây dựng "bộ giải mã khuôn mặt" để tạo ra tiêu chuẩn cho khuôn mặt của một người từ hình ảnh tĩnh của họ, bỏ qua ánh sáng và tư thế chụp ảnh. Họ sẽ sử dụng khuôn mặt tiêu chuẩn của con người này để so sánh với khuôn mặt được tái tạo từ giọng nói của AI. Kết quả cho thấy, khuôn mặt được tạo ra bởi AI rất gần với khuôn mặt thật trong rất nhiều các trường hợp được nghiên cứu từ nhiều độ tuổi, giới tính và dân tộc khác nhau.
Các nhà nghiên cứu cho biết, chân dung được tái tạo bởi AI có thể được dùng để gán cho giọng nói do máy tạo ra được sử dụng trong các thiết bị gia đình và trợ lý ảo. Hoặc AI cũng có thể giúp các cơ quan thực thi pháp luật tạo ra một bức chân dung của kẻ tình nghi từ bằng chứng duy nhất là một đoạn ghi âm giọng nói. Tuy nhiên, điều này có thể gây tranh cãi về quyền riêng tư của con người.