OpenAI đã giới thiệu Chế độ Giọng nói Nâng cao (Advanced Voice Mode) vào năm ngoái cùng với sự ra mắt của GPT-4o. Tính năng này sử dụng các mô hình đa phương thức bản địa như GPT-4o và có thể phản hồi đầu vào âm thanh chỉ trong 232 mili-giây, với thời gian trung bình là 320 mili-giây - tương đương với tốc độ phản ứng của con người trong một cuộc hội thoại thông thường. Nó cũng có thể tạo ra âm thanh nghe tự nhiên hơn, nhận biết các tín hiệu phi ngôn ngữ như tốc độ bạn nói, và phản hồi với cảm xúc.
Đầu năm nay, OpenAI đã phát hành một bản cập nhật nhỏ cho Chế độ Giọng nói Nâng cao nhằm giảm bớt sự ngắt quãng và cải thiện cách phát âm. Hôm nay, OpenAI đã tung ra một bản nâng cấp đáng kể cho chế độ này, khiến nó trở nên tự nhiên và giống con người hơn nữa. Các phản hồi hiện nay có ngữ điệu tinh tế hơn, nhịp điệu thực tế hơn, bao gồm các khoảng ngắt và nhấn mạnh, và thể hiện cảm xúc chính xác hơn với những cảm xúc nhất định như sự đồng cảm và sự mỉa mai.
Bản cập nhật này cũng giới thiệu khả năng hỗ trợ dịch ngôn ngữ. Người dùng ChatGPT giờ đây có thể sử dụng Chế độ Giọng nói Nâng cao để dịch giữa các ngôn ngữ. Chỉ cần yêu cầu ChatGPT bắt đầu dịch, và nó sẽ tiếp tục phiên dịch suốt cuộc hội thoại cho đến khi được yêu cầu dừng lại. Tính năng này thay thế hiệu quả cho các ứng dụng dịch giọng nói chuyên dụng.
Hiện tại, Chế độ Giọng nói Nâng cao đã cập nhật chỉ khả dụng cho người dùng trả phí của ChatGPT. OpenAI cũng lưu ý rằng có một số hạn chế đã biết với bản cập nhật mới nhất này, được nêu bên dưới:
Bản cập nhật này đôi khi có thể dẫn đến sự suy giảm nhẹ về chất lượng âm thanh, chẳng hạn như thay đổi bất thường về tông giọng và cao độ, đặc biệt dễ nhận thấy với một số tùy chọn giọng nói.
Các trường hợp ảo giác hiếm gặp trong chế độ giọng nói vẫn tồn tại, đôi khi tạo ra các âm thanh không mong muốn như tiếng quảng cáo, tiếng nói lộn xộn hoặc nhạc nền.
Mặc dù vẫn còn một số hạn chế nhỏ, nhưng dòng cải tiến liên tục cho thấy một tương lai nơi ranh giới giữa trò chuyện với con người và AI sẽ ngày càng khó phân biệt.