Facebook tạo ra AI có thể dịch 100 ngôn ngữ khác nhau, không cần thông qua tiếng Anh trước tiên

Phạm Hải

Facebook vừa mở nguồn một mô hình AI sở hữu khả năng dịch thuật ấn tượng, lên đến 100 loại ngôn ngữ bất kỳ mà không cần dịch chúng sang tiếng Anh trước như một bước trung gian vốn thường thấy trên các công cụ dịch thuật dựa trên trí tuệ nhân tạo hiện nay.

Mô hình AI này có tên gọi M2M-100, và hiện mới chỉ dừng lại ở cấp độ dự án nghiên cứu. Tuy nhiên sau khi các giai đoạn phát triển hoàn tất (trong tương lai gần), nó có có thể được sử dụng để giải quyết triệt để nhiệm vụ dịch các bài đăng cũng như bình luận của người dùng Facebook - đến từ nhiều loại ngôn ngữ khác nhau trên toàn thế giới. Theo thống kê mới nhất, hiện tại có hơn 2/3 người dùng Facebook không sử dụng tiếng Anh để giao tiếp trên nền tảng mạng xã hội này.

“Các nhà nghiên cứu AI của chúng tôi đã làm việc tích cực trong suốt nhiều năm ròng để xây dựng và phát triển nên một mô hình chung duy nhất có thể hiểu được nhiều loại ngôn ngữ trong nhiều tình huống, nhiệm vụ khác nhau. Một mô hình duy nhất hỗ trợ tất cả các ngôn ngữ, phương ngữ, và các bản dịch được cập nhật, tối ưu liên tục sẽ giúp chúng tôi đem đến trải nghiệm tuyệt vời hơn cho hàng tỷ người dùng Facebook”, nhà nghiên cứu AI Facebook Angela Fan cho biết trong một bài đặt trên blogpost.al.

Mô hình AI mới có thể hỗ trợ nhiều loại bản dịch khác nhau trên Facebook

M2M-100 được đào tạo dựa trên tập dữ liệu bao gồm 7,5 tỷ cặp câu phổ biến tới từ 100 loại ngôn ngữ khác nhau, tất cả đều được thu thập từ internet. Facebook cho biết nguồn tài nguyên này đều là nguồn mở và họ sử dụng dữ liệu công khai.

Để quản lý kho dữ liệu đào tạo với quy mô lớn như vậy, các nhà nghiên cứu AI Facebook chủ yếu tập trung vào các bản dịch ngôn ngữ được yêu cầu phổ biến nhất, đồng thời hạn chế các câu từ cũng như ngôn ngữ hiếm gặp. Sau đó, họ sẽ nhóm các ngôn ngữ này thành 14 nhóm khác nhau, dựa trên những điểm tương đồng về ngôn ngữ, địa lý và văn hóa. Cách tiếp cận này được cho là tối ưu hơn cả vì những người ở các quốc gia cùng chia sẻ các đặc điểm chung nêu trên sẽ được hưởng lợi hơn từ các bản dịch được tối ưu hóa trong một nhóm ngôn ngữ nhất định.

Các ngôn ngữ thuộc những nhóm khác nhau sẽ được kết nối thông qua một số ít các ngôn ngữ cầu nối. Trong ví dụ về nhóm ngôn ngữ Ấn Độ, tiếng Hindi, tiếng Bengali và tiếng Tamil đóng vai trò là ngôn ngữ cầu nối cho các ngôn ngữ Indo-Aryan. Qua toàn bộ quá trình thu thập và chọn lọc, các nhà nghiên cứu đã nắm trong tay thành quả là một tập dữ liệu bao gồm 7,5 tỷ câu song song, tương ứng với 2.200 hướng dịch.

Đối với những ngôn ngữ thiếu dữ liệu dịch chất lượng, các nhà nghiên cứu đã sử dụng một phương pháp gọi là dịch ngược để tạo ra các bản dịch tổng hợp có thể bổ sung cho dữ liệu đã khai thác.

Nhìn chung, sự kết hợp của các kỹ thuật này đã dẫn đến thành quả là một mô hình dịch máy đa ngôn ngữ (MMT) đầu tiên trên thế giới có thể dịch giữa bất kỳ 100 ngôn ngữ nào mà không cần dựa vào dữ liệu tiếng Anh làm chuẩn, theo tuyên bố từ Facebook.

"Chẳng hạn thông thường, khi dịch từ tiếng Trung sang tiếng Pháp, hầu hết các mô hình dịch thuật đa ngôn ngữ hiện nay sẽ lấy tiếng Anh làm trung tâm, chúng sẽ dịch tiếng Trung sang tiếng Anh và từ tiếng Anh sang tiếng Pháp, bởi vì dữ liệu đào tạo tiếng Anh là có sẵn cũng như phổ biến nhất. Thay vì tuân theo mô-típ này, mô hình của chúng tôi sẽ dịch trực tiếp dữ liệu tiếng Trung sang tiếng Pháp để đảm bảo giữ lại tối đa ý nghĩa bản dịch”.

Hiện tại M2M-100 vẫn chưa được tích hợp trong bất kỳ sản phẩm nào, nhưng các thử nghiệm cho thấy nó có thể hỗ trợ nhiều loại bản dịch khác nhau trên Facebook, nơi mọi người vẫn từng giờ từng phút đăng tải các nội dung bằng hơn 160 ngôn ngữ.

Thứ Năm, 22/10/2020 16:29

3 ★ 1 👨 502

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Facebook tạo ra AI có thể dịch 100 ngôn ngữ khác nhau, không cần thông qua tiếng Anh trước tiên

Phạm Hải

Bạn nên đọc

Cách sử dụng Gemini giúp đội nhóm làm việc hiệu quả hơn trong doanh nghiệp

Facebook thử nghiệm mạng xã hội mini cho các hàng xóm "tắt lửa tối đèn có nhau"

Facebook triệt phá đường dây hack tài khoản để chạy Ad, gây thiệt hại hàng triệu USD

Trải nghiệm duyệt web kiểu mới với AI Mode trên Chrome

Nếu AI có thể làm mọi thứ, tại sao chúng ta vẫn cần học?

Mẹo nhập Context hiệu quả trong Cursor

Hướng dẫn cách sao lưu n8n Workflow

Facebook Messenger được cập nhật logo và giao diện mới bóng bẩy hơn

Second Brain AI là gì? Xây dựng hệ thống ghi nhớ hiệu quả trong thời đại AI

Cũ vẫn chất

Cách tạo bảng trong Canva

Kí tự đặc biệt ϟ, ✿, \˚ㄥ˚\, ☎,☂, ☁ ký tự đặc biệt hay

Cách tính điểm trung bình môn HK 1, HK 2, cả năm

Lời chúc sinh nhật cho bản thân, stt viết cho ngày sinh nhật của mình

Cách tạo Slide Master trên PowerPoint

6 cách siêu dễ thêm phụ đề, caption vào video

Công thức tính diện tích xung quanh hình nón, diện tích toàn phần hình nón, thể tích hình nón, V nón

Những ứng dụng hoán đổi khuôn mặt tốt nhất

Hướng dẫn 5 cách chuyển số thành chữ trong Excel

Những bài thơ tán gái theo tên, thơ làm quen bạn gái vừa duyên vừa mặn