Sau vô số tin đồn, Meta cuối cùng cũng đã chính thức công bố mô hình AI thế hệ mới nhất của mình với tên gọi Voicebox. Mô hình này được thiết kế để hỗ trợ các nhà sáng tạo nội dung xử lý hiện quả những tác vụ liên quan đến tạo giọng nói như chỉnh sửa âm thanh, lấy mẫu và cách điệu, ngay cả khi nó không được được đào tạo cụ thể thông qua dữ liệu trong ngữ cảnh.
Meta tự tin khẳng định mô hình AI mới này sẽ “mang lại lợi ích cho nhiều người trên toàn thế giới” chứ không chỉ riêng trong lĩnh vực sáng tạo nội dung. Chẳng hạn như giúp người khiếm thị nghe được tin nhắn bằng văn bản bằng giọng nói, cũng như cho phép mọi người nói tiếng nước ngoài bằng chính giọng nói của họ.
Bản thân Voicebox còn được quảng cáo là có thể tạo cả clip âm thanh chất lượng cao và chỉnh sửa các đoạn âm thanh được ghi trước để loại bỏ những chi tiết gián đoạn không mong muốn, chẳng hạn như tiếng còi ô tô, trong khi vẫn giữ nguyên nội dung và phong cách đa ngôn ngữ, (tạo ra lời nói bằng sáu ngôn ngữ khác nhau). Các phát triển trong tương lai đã được Meta lên kế hoạch cho mô hình bao gồm cung cấp giọng nói tự nhiên cho trợ lý hình ảnh hoặc nhân vật trong các trò chơi trong metaverse.
Meta cũng đã so sánh Voicebox với các mô hình AI hỗ trợ xử lý âm thanh khác hiện có trên thị trường, cụ thể là các đối thủ cạnh tranh chính như Vall-E và YourTTS. Nhìn chung, mô hình của Meta tiên tiến và vượt trội hơn cả đối thủ khi so sánh tỷ lệ lỗi Word và sự tương đồng về Style.
Voicebox được xây dựng trên Flow Matching. Đây là mô hình tổng quát không tự hồi quy mới nhất của Meta, có thể xử lý ánh xạ không xác định cao giữa văn bản và lời nói. Điều này cho phép Voicebox có thể học tập từ nhiều loại dữ liệu giọng nói khác nhau mà không cần phải dán nhãn cẩn thận, qua đó có cơ hội tiếp cận với lượng dữ liệu đào tạo đa dạng và trên quy mô lớn hơn. Cho đến nay, Voicebox đã được đào tạo trên hơn 50.000 giờ ghi âm bài phát biểu và bản chép lời từ sách nói bằng tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Ba Lan và tiếng Bồ Đào Nha.
Mặc dù công nghệ này có thể mở ra một kỷ nguyên mới về trí tuệ nhân tạo AI trong xử lý âm thanh, nhưng Meta thừa nhận rằng nó có thể mang đến khả năng lạm dụng và gây hại ngoài ý muốn. Trong tài liệu nghiên cứu mà Meta chia sẻ về Voicebox sẽ bao gồm thông tin chi tiết về cách công ty xây dựng bộ phân loại hiệu quả cao, có thể phân biệt giữa giọng nói xác thực và giọng nói do Voicebox tạo ra.
Meta sẽ không cung cấp chương trình AI Voicebox cho công chúng sử dụng, cũng như sẽ không phát hành mã nguồn, ít nhất là ở thời điểm hiện tại.