Amazon hôm nay đã giới thiệu Nova Sonic – mô hình chuyển đổi giọng nói thành giọng nói (speech-to-speech) tiên tiến, cho phép nhà phát triển xây dựng ứng dụng có khả năng trò chuyện bằng giọng nói giống con người theo thời gian thực. Amazon tuyên bố mô hình âm thanh mới này sở hữu hiệu suất giá hàng đầu ngành và độ trễ thấp.
Thông thường, phát triển ứng dụng hỗ trợ giọng nói đòi hỏi nhà phát triển phải làm việc với nhiều mô hình cùng lúc:
- Mô hình nhận dạng giọng nói để chuyển đổi âm thanh thành văn bản.
- Mô hình ngôn ngữ lớn (LLM) để hiểu và tạo phản hồi.
- Mô hình chuyển văn bản thành giọng nói (text-to-speech).
Cách tiếp cận này không chỉ phức tạp mà còn thường bỏ sót các ngữ cảnh âm học quan trọng như tông giọng, ngữ điệu (prosody) và phong cách nói.
Nova Sonic giải quyết thách thức này bằng cách tích hợp khả năng hiểu và tạo âm thanh vào một mô hình duy nhất. Cách tiếp cận thống nhất giúp mô hình nắm bắt tông giọng, phong cách và đầu vào âm thanh, tạo ra đối thoại tự nhiên hơn. Nó cũng xác định thời điểm phản hồi phù hợp và xử lý tốt hơn tình huống ngắt lời (barge-in).
Nova Sonic hỗ trợ cả giọng nam và nữ với nhiều chất giọng tiếng Anh như Mỹ, Anh. Nhà phát triển có thể truy cập mô hình qua Amazon Bedrock bằng API streaming hai chiều, hỗ trợ gọi chức năng (function calling). Mô hình này cũng tích hợp sẵn các tính năng bảo vệ như kiểm duyệt nội dung và chèn watermark.
Liên quan đến lĩnh vực này, tháng trước OpenAI đã công bố thế hệ mô hình chuyển giọng nói thành văn bản (speech-to-text) mới – gpt-4o-transcribe và gpt-4o-mini-transcribe – với cải tiến vượt trội về tỷ lệ lỗi từ, nhận diện ngôn ngữ và độ chính xác so với các mô hình Whisper trước đây.