Mistral AI vừa giới thiệu hai mô hình chuyển giọng nói thành văn bản mới là Voxtral Mini Transcribe 2 và Voxtral Realtime, được thiết kế để chạy trực tiếp trên thiết bị. Điều này đồng nghĩa với việc các cuộc trò chuyện của bạn không cần gửi lên trung tâm dữ liệu, giúp đảm bảo quyền riêng tư tốt hơn.
Có những lúc bạn cần ghi âm và chép lại nội dung, nhưng lại không muốn dữ liệu “trôi nổi” trên internet, nơi có thể trở thành mục tiêu của hacker. Đó có thể là cuộc trò chuyện với bác sĩ, luật sư, hay một buổi phỏng vấn nhạy cảm của nhà báo. Trong những trường hợp như vậy, quyền kiểm soát và bảo mật là yếu tố then chốt.
Chính nhu cầu này là một trong những lý do khiến Mistral AI, công ty AI đến từ Pháp, xây dựng các mô hình chuyển giọng nói đủ nhỏ để chạy ngay trên thiết bị. Các mô hình này có thể hoạt động trên điện thoại, laptop, hoặc nếu cần, vẫn có thể triển khai trên đám mây.

Nhỏ gọn để nhanh hơn và riêng tư hơn
Voxtral Mini Transcribe 2, một trong hai mô hình mới được công bố hôm thứ Tư, được mô tả là “siêu, siêu nhỏ”, theo lời Pierre Stock, Phó chủ tịch phụ trách vận hành khoa học của Mistral AI. Mô hình còn lại, Voxtral Realtime, có khả năng làm điều tương tự nhưng theo thời gian thực, giống như phụ đề trực tiếp (closed captioning).
Quyền riêng tư không phải là lý do duy nhất. Khi chạy trực tiếp trên thiết bị, các mô hình này còn mang lại tốc độ xử lý nhanh hơn. Không còn cảnh phải chờ file âm thanh được gửi qua internet tới trung tâm dữ liệu rồi lại trả kết quả về.
“Thứ bạn muốn là quá trình chuyển giọng nói thành văn bản diễn ra càng gần bạn càng tốt,” Stock nói. “Và thứ gần nhất với bạn chính là các thiết bị biên (edge devices) như laptop, điện thoại, hay thậm chí là thiết bị đeo như đồng hồ thông minh.”
Độ trễ thấp – yếu tố sống còn cho phiên âm thời gian thực
Độ trễ thấp (tức tốc độ cao) đặc biệt quan trọng với phiên âm thời gian thực. Theo Stock, Voxtral Realtime có độ trễ dưới 200 mili-giây, đủ nhanh để bạn đọc gần như song song với lời người nói. Không còn tình trạng phải chờ 2–3 giây để phụ đề “đuổi kịp” cuộc trò chuyện.
Hiện tại, Voxtral Realtime đã có mặt thông qua API của Mistral và trên Hugging Face, kèm theo bản demo cho phép người dùng trải nghiệm trực tiếp.
Quá trình thử nghiệm ban đầu cho thấy mô hình tạo kết quả khá nhanh (dù chưa nhanh như khi chạy hoàn toàn trên thiết bị) và phiên âm khá chính xác tiếng Anh, kể cả khi có xen lẫn một chút tiếng Tây Ban Nha. Theo Mistral, mô hình hiện hỗ trợ 13 ngôn ngữ.
Nhanh và ổn định, nhưng vẫn có nhược điểm
Voxtral Mini Transcribe 2 cũng được cung cấp qua API và có thể dùng thử trong Mistral AI Studio. Kết quả cho thấy tốc độ nhanh và độ tin cậy khá tốt, nhưng mô hình vẫn gặp khó với tên riêng. Ví dụ, “Mistral AI” bị phiên âm thành Mr. Lay Eye , còn “Voxtral” thành VoxTroll . Đúng vậy, AI còn… đọc sai chính tên của mình.
Tuy nhiên, Stock cho biết người dùng có thể tùy biến mô hình để nhận diện tốt hơn các từ chuyên ngành, tên riêng hoặc thuật ngữ đặc thù, nếu dùng cho những tác vụ cụ thể.
Theo Stock, thách thức lớn nhất khi xây dựng các mô hình AI nhỏ và nhanh là vẫn phải đảm bảo độ chính xác cao. Mistral cho biết các mô hình Voxtral đạt kết quả tốt trên các benchmark, với tỷ lệ lỗi thấp hơn so với nhiều đối thủ.
“Không đủ nếu chỉ nói rằng ‘OK, tôi sẽ làm một mô hình nhỏ’,” Stock nói. “Điều bạn thực sự cần là một mô hình nhỏ nhưng có chất lượng ngang với các mô hình lớn.”
Học IT










Công nghệ
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Prompt
Ô tô, Xe máy