Facebook tạo ra AI có thể dịch 100 ngôn ngữ khác nhau, không cần thông qua tiếng Anh trước tiên

Facebook vừa mở nguồn một mô hình AI sở hữu khả năng dịch thuật ấn tượng, lên đến 100 loại ngôn ngữ bất kỳ mà không cần dịch chúng sang tiếng Anh trước như một bước trung gian vốn thường thấy trên các công cụ dịch thuật dựa trên trí tuệ nhân tạo hiện nay.

Mô hình AI này có tên gọi M2M-100, và hiện mới chỉ dừng lại ở cấp độ dự án nghiên cứu. Tuy nhiên sau khi các giai đoạn phát triển hoàn tất (trong tương lai gần), nó có có thể được sử dụng để giải quyết triệt để nhiệm vụ dịch các bài đăng cũng như bình luận của người dùng Facebook - đến từ nhiều loại ngôn ngữ khác nhau trên toàn thế giới. Theo thống kê mới nhất, hiện tại có hơn 2/3 người dùng Facebook không sử dụng tiếng Anh để giao tiếp trên nền tảng mạng xã hội này.

“Các nhà nghiên cứu AI của chúng tôi đã làm việc tích cực trong suốt nhiều năm ròng để xây dựng và phát triển nên một mô hình chung duy nhất có thể hiểu được nhiều loại ngôn ngữ trong nhiều tình huống, nhiệm vụ khác nhau. Một mô hình duy nhất hỗ trợ tất cả các ngôn ngữ, phương ngữ, và các bản dịch được cập nhật, tối ưu liên tục sẽ giúp chúng tôi đem đến trải nghiệm tuyệt vời hơn cho hàng tỷ người dùng Facebook”, nhà nghiên cứu AI Facebook Angela Fan cho biết trong một bài đặt trên blogpost.al.

Mô hình AI mới có thể hỗ trợ nhiều loại bản dịch khác nhau trên Facebook
Mô hình AI mới có thể hỗ trợ nhiều loại bản dịch khác nhau trên Facebook

M2M-100 được đào tạo dựa trên tập dữ liệu bao gồm 7,5 tỷ cặp câu phổ biến tới từ 100 loại ngôn ngữ khác nhau, tất cả đều được thu thập từ internet. Facebook cho biết nguồn tài nguyên này đều là nguồn mở và họ sử dụng dữ liệu công khai.

Để quản lý kho dữ liệu đào tạo với quy mô lớn như vậy, các nhà nghiên cứu AI Facebook chủ yếu tập trung vào các bản dịch ngôn ngữ được yêu cầu phổ biến nhất, đồng thời hạn chế các câu từ cũng như ngôn ngữ hiếm gặp. Sau đó, họ sẽ nhóm các ngôn ngữ này thành 14 nhóm khác nhau, dựa trên những điểm tương đồng về ngôn ngữ, địa lý và văn hóa. Cách tiếp cận này được cho là tối ưu hơn cả vì những người ở các quốc gia cùng chia sẻ các đặc điểm chung nêu trên sẽ được hưởng lợi hơn từ các bản dịch được tối ưu hóa trong một nhóm ngôn ngữ nhất định.

Các ngôn ngữ thuộc những nhóm khác nhau sẽ được kết nối thông qua một số ít các ngôn ngữ cầu nối. Trong ví dụ về nhóm ngôn ngữ Ấn Độ, tiếng Hindi, tiếng Bengali và tiếng Tamil đóng vai trò là ngôn ngữ cầu nối cho các ngôn ngữ Indo-Aryan. Qua toàn bộ quá trình thu thập và chọn lọc, các nhà nghiên cứu đã nắm trong tay thành quả là một tập dữ liệu bao gồm 7,5 tỷ câu song song, tương ứng với 2.200 hướng dịch.

Đối với những ngôn ngữ thiếu dữ liệu dịch chất lượng, các nhà nghiên cứu đã sử dụng một phương pháp gọi là dịch ngược để tạo ra các bản dịch tổng hợp có thể bổ sung cho dữ liệu đã khai thác.

Nhìn chung, sự kết hợp của các kỹ thuật này đã dẫn đến thành quả là một mô hình dịch máy đa ngôn ngữ (MMT) đầu tiên trên thế giới có thể dịch giữa bất kỳ 100 ngôn ngữ nào mà không cần dựa vào dữ liệu tiếng Anh làm chuẩn, theo tuyên bố từ Facebook.

"Chẳng hạn thông thường, khi dịch từ tiếng Trung sang tiếng Pháp, hầu hết các mô hình dịch thuật đa ngôn ngữ hiện nay sẽ lấy tiếng Anh làm trung tâm, chúng sẽ dịch tiếng Trung sang tiếng Anh và từ tiếng Anh sang tiếng Pháp, bởi vì dữ liệu đào tạo tiếng Anh là có sẵn cũng như phổ biến nhất. Thay vì tuân theo mô-típ này, mô hình của chúng tôi sẽ dịch trực tiếp dữ liệu tiếng Trung sang tiếng Pháp để đảm bảo giữ lại tối đa ý nghĩa bản dịch”.

Hiện tại M2M-100 vẫn chưa được tích hợp trong bất kỳ sản phẩm nào, nhưng các thử nghiệm cho thấy nó có thể hỗ trợ nhiều loại bản dịch khác nhau trên Facebook, nơi mọi người vẫn từng giờ từng phút đăng tải các nội dung bằng hơn 160 ngôn ngữ.

Thứ Ba, 27/10/2020 22:05
31 👨 168
0 Bình luận
Sắp xếp theo