Viện Công nghệ Thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam) mới đây đã nghiên cứu, làm chủ công nghệ dịch máy tiên tiến nhất hiện nay và xây dựng thành công hệ thống dịch văn bản đa ngữ có thể dịch các ngôn ngữ hiếm như tiếng Lào, Thái, Khmer, Malaysia, Indonesia sang tiếng Việt và ngược lại.
Theo đơn vị phát triển, họ gặp nhiều khó khăn khi xây dựng mô hình máy dịch các ngôn ngữ như Lào, Thái và Khmer do những ngôn ngữ này rất phong phú về mặt hình thái, thiếu sự phân tách từ, phân tách câu và tính đa nghĩa. Ngoài ra việc khan hiếm dữ liệu song ngữ cũng là một trở ngại lớn.
Mô hình AI do Viện Công nghệ thông tin phát triển có thể khắc phục được những điều trên và có chất lượng dịch tương đương hoặc cao hơn Google Translate đối với cùng văn bản. Một ưu điểm khác của mô hình AI này là không hạn chế độ dài của văn bản.
Phần mềm dịch đa ngữ này không phải sử dụng API của hãng cung cấp dịch vụ khác mà chạy riêng, lưu trữ dữ liệu tại chỗ, giúp đảm bảo an ninh, an toàn và không lộ lọt thông tin ra ngoài.
Trong giai đoạn 2022-2023, hệ thống tập trung triển khai kỹ thuật mô hình ngôn ngữ lớn (Large Language Models – LLMs) ưu tiên dịch các ngôn ngữ Lào, Thái, Khmer, Malaysia, Indonesia sang tiếng Việt và ngược lại.
Với tiếng Anh, phần mềm của Viện Công nghệ thông tin đảm bảo chất lượng gần tương đương Google Translate, thậm chí có khả năng tinh chỉnh để thích ứng với các thuật ngữ chuyên môn của các ngành như y tế, luật… theo yêu cầu riêng của đối tác.
Nhóm nghiên cứu tự phát triển hệ thống này dựa trên hạ tầng kỹ thuật hỗ trợ lưu trữ dữ liệu ngôn ngữ lớn và năng lực siêu tính toán trí tuệ nhân tạo/học máy (AI/ML) mạnh nhất Việt Nam.
Viện Công nghệ thông tin hoàn toàn làm chủ các công nghệ liên quan và có thể dễ dàng mở rộng ứng dụng sang các ngôn ngữ đích mới như tiếng Mường, tiếng Thái,… các ngôn ngữ dân tộc thiểu số khác tại Việt Nam, khi cần cũng có thể mở rộng các ngôn ngữ nước ngoài phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga…