Amazon công bố mô hình âm thanh Nova Sonic, tuyên bố hiệu năng vượt trội OpenAI và Google

Phạm Hải

Amazon hôm nay đã giới thiệu Nova Sonic – mô hình chuyển đổi giọng nói thành giọng nói (speech-to-speech) tiên tiến, cho phép nhà phát triển xây dựng ứng dụng có khả năng trò chuyện bằng giọng nói giống con người theo thời gian thực. Amazon tuyên bố mô hình âm thanh mới này sở hữu hiệu suất giá hàng đầu ngành và độ trễ thấp.

Thông thường, phát triển ứng dụng hỗ trợ giọng nói đòi hỏi nhà phát triển phải làm việc với nhiều mô hình cùng lúc:

Mô hình nhận dạng giọng nói để chuyển đổi âm thanh thành văn bản.
Mô hình ngôn ngữ lớn (LLM) để hiểu và tạo phản hồi.
Mô hình chuyển văn bản thành giọng nói (text-to-speech).

Cách tiếp cận này không chỉ phức tạp mà còn thường bỏ sót các ngữ cảnh âm học quan trọng như tông giọng, ngữ điệu (prosody) và phong cách nói.

Nova Sonic

Nova Sonic giải quyết thách thức này bằng cách tích hợp khả năng hiểu và tạo âm thanh vào một mô hình duy nhất. Cách tiếp cận thống nhất giúp mô hình nắm bắt tông giọng, phong cách và đầu vào âm thanh, tạo ra đối thoại tự nhiên hơn. Nó cũng xác định thời điểm phản hồi phù hợp và xử lý tốt hơn tình huống ngắt lời (barge-in).

Nova Sonic hỗ trợ cả giọng nam và nữ với nhiều chất giọng tiếng Anh như Mỹ, Anh. Nhà phát triển có thể truy cập mô hình qua Amazon Bedrock bằng API streaming hai chiều, hỗ trợ gọi chức năng (function calling). Mô hình này cũng tích hợp sẵn các tính năng bảo vệ như kiểm duyệt nội dung và chèn watermark.

Liên quan đến lĩnh vực này, tháng trước OpenAI đã công bố thế hệ mô hình chuyển giọng nói thành văn bản (speech-to-text) mới – gpt-4o-transcribe và gpt-4o-mini-transcribe – với cải tiến vượt trội về tỷ lệ lỗi từ, nhận diện ngôn ngữ và độ chính xác so với các mô hình Whisper trước đây.

Thứ Năm, 10/04/2025 07:05

3 ★ 1 👨 102

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Giấy phép Mạng Xã Hội số 362/GP-BTTTT. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Amazon công bố mô hình âm thanh Nova Sonic, tuyên bố hiệu năng vượt trội OpenAI và Google

Phạm Hải

Bạn nên đọc

Perplexity Free vs Pro vs Max - Nên lựa chọn gói nào?

So sánh NotebookLM Free vs Plus vs Pro vs Ultra - Nên lựa chọn gói nào?

DeepL vs ChatGPT: Công cụ AI nào tốt hơn?

Claude Sonnet 5 hay Opus 4.8: Nên chọn mô hình nào để xây dựng AI Agent?

Lợi ích của tự động hóa ChatGPT trên Zapier

Gemini vs ChatGPT: Nên lựa chọn chatbot AI nào?