Tai nghe không dây Pixel Buds của Google từ lâu đã cung cấp tính năng dịch thời gian thực ấn tượng. Trong vài năm qua, các thương hiệu như Timkettle cũng đã ra mắt tai nghe tương tự cho khách hàng doanh nghiệp. Tuy nhiên, tất cả những giải pháp này có một hạn chế chung, đó là chỉ có thể xử lý một luồng âm thanh tại một thời điểm để phiên dịch.
Nhóm nghiên cứu tại Đại học Washington (UW) đã phát triển thành công một thiết bị có thể khắc phục nhược điểm nêu trên: tai nghe AI có khả năng dịch giọng nói của nhiều người cùng lúc. Hãy tưởng tượng một thông dịch viên đa ngôn ngữ trong quán bar đông đúc, có thể hiểu lời nói của những người xung quanh dù họ dùng các ngôn ngữ khác nhau, tất cả cùng một lúc.
Nhóm nghiên cứu gọi phát minh này là Spatial Speech Translation (Dịch giọng nói không gian), hoạt động dựa trên tai nghe âm thanh lập thể (binaural). Đối với những người chưa biết, âm thanh lập thể mô phỏng hiệu ứng âm thanh theo cách tai người tự nhiên cảm nhận. Để ghi lại hiệu ứng này, micro được đặt trên một đầu manơcanh, cách nhau khoảng cách tương đương hai tai người.
Cách tiếp cận này rất quan trọng vì tai người không chỉ nghe âm thanh mà còn giúp xác định hướng phát ra âm thanh. Mục tiêu tổng thể là tạo ra sân khấu âm thanh tự nhiên với hiệu ứng stereo, mang lại cảm giác như đang nghe trực tiếp tại buổi hòa nhạc. Trong bối cảnh hiện đại, đây chính là trải nghiệm nghe không gian (spatial listening). Công trình này đến từ nhóm nghiên cứu do Giáo sư Shyam Gollakota dẫn đầu
Cơ chế dịch đa người nói
"Lần đầu tiên, chúng tôi giữ nguyên âm sắc giọng nói của từng người và hướng phát ra âm thanh đó," Giáo sư Gollakota — hiện công tác tại Trường Khoa học Máy tính & Kỹ thuật Paul G. Allen của UW — giải thích.
Nhóm nghiên cứu so sánh hệ thống của họ với radar: nó bắt đầu bằng cách xác định số lượng người nói trong môi trường xung quanh và cập nhật con số này theo thời gian thực khi mọi người di chuyển vào/ra khỏi phạm vi nghe. Toàn bộ quy trình hoạt động trên thiết bị mà không cần gửi dữ liệu giọng nói lên máy chủ đám mây để dịch — đảm bảo quyền riêng tư.
Ngoài dịch giọng nói, hệ thống còn "duy trì biểu cảm và âm lượng của từng người nói". Hơn nữa, nó điều chỉnh hướng và cường độ âm thanh khi người nói di chuyển khắp phòng. Đáng chú ý, Apple cũng được cho là đang phát triển hệ thống cho phép AirPods dịch âm thanh thời gian thực.
Hệ thống được tạo ra như thế nào?
Nhóm UW đã thử nghiệm khả năng dịch của tai nghe AI trong gần mười hai môi trường trong nhà và ngoài trời. Về hiệu suất, hệ thống có thể tiếp nhận, xử lý và tạo ra âm thanh đã dịch trong vòng 2-4 giây. Người tham gia thử nghiệm tỏ ra ưa thích độ trễ khoảng 3-4 giây, nhưng nhóm nghiên cứu đang nỗ lực tăng tốc quy trình dịch.
Hiện tại, nhóm mới chỉ thử nghiệm dịch tiếng Tây Ban Nha, Đức và Pháp, nhưng họ kỳ vọng sẽ bổ sung nhiều ngôn ngữ hơn. Về mặt kỹ thuật, họ đã tích hợp các công đoạn tách nguồn âm mù, định vị, dịch biểu cảm thời gian thực và kết xuất âm thanh lập thể vào một quy trình duy nhất — một thành tựu đáng nể.
Về phần cứng, nhóm đã phát triển mô hình dịch giọng nói chạy thời gian thực trên chip Apple M2, đạt khả năng suy luận tức thì. Nhiệm vụ thu âm được xử lý bởi tai nghe Sony WH-1000XM4 khử ồn và micro USB âm thanh lập thể Sonic Presence SP15C.
Đặc biệt, "Mã nguồn cho thiết bị nguyên mẫu đã được mở để cộng đồng tiếp tục phát triển," thông cáo báo chí của UW cho biết. Điều này có nghĩa cộng đồng khoa học và mã nguồn mở có thể học hỏi và xây dựng các dự án tiên tiến hơn dựa trên nền tảng mà nhóm UW đã thiết lập.