Google Translate thêm hỗ trợ cho 110 ngôn ngữ mới, bao gồm cả tiếng Quảng Đông

Google Translate (Google Dịch) hiện đang có “sự mở rộng lớn nhất từ ​​trước đến nay” với 110 ngôn ngữ mới. Google ghi nhận mô hình ngôn ngữ lớn PaLM 2 của mình (từ năm 2023 trước Gemini) vì đã biến điều này thành hiện thực:

PaLM 2 là một phần quan trọng của câu đố, giúp Translate học các ngôn ngữ có liên quan chặt chẽ với nhau hiệu quả hơn, bao gồm các ngôn ngữ gần với tiếng Hindi, như Awadhi và Marwadi, cũng như các ngôn ngữ creole của Pháp như Seychellois Creole và Mauritian Creole.

Những bổ sung này mang lại lợi ích cho hơn 614 triệu người, do đó “mở ra các bản dịch cho khoảng 8% dân số thế giới”. Đây là lần mở rộng ngôn ngữ Châu Phi lớn nhất của Google cho đến nay, chiếm 1/4 số tùy chọn bổ sung.

Một số ngôn ngữ lớn trên thế giới với hơn 100 triệu người nói. Những ngôn ngữ khác được các cộng đồng nhỏ của người bản địa sử dụng. Một số ít ngôn ngữ gần như không còn người bản xứ sử dụng nhưng đang được nỗ lực khôi phục tích cực.

  • Afar là ngôn ngữ có thanh điệu được nói ở Djibouti, Eritrea và Ethiopia. Trong số tất cả các ngôn ngữ trong lần ra mắt này, Afar có nhiều đóng góp cộng đồng tình nguyện nhất.
  • Tiếng Quảng Đông từ lâu đã là một trong những ngôn ngữ được yêu cầu nhiều nhất đối với Google Translate. Vì tiếng Quảng Đông thường trùng lặp với tiếng Quan Thoại trong văn viết nên rất khó để tìm dữ liệu và đào tạo mô hình.
  • Manx là ngôn ngữ Celtic của Đảo Man. Nó gần như tuyệt chủng sau cái chết của người bản xứ cuối cùng vào năm 1974. Nhưng nhờ phong trào hồi sinh trên toàn hòn đảo, hiện nay có hàng nghìn người nói tiếng này.
  • NKo là một dạng chuẩn hóa của các ngôn ngữ Manding Tây Phi, hợp nhất nhiều phương ngữ thành một ngôn ngữ chung. Bảng chữ cái độc đáo của NKo được phát minh vào năm 1949 và có một cộng đồng nghiên cứu tích cực phát triển tài nguyên và công nghệ cho nó ngày nay.
  • Tiếng Punjabi (Shahmukhi) là một dạng tiếng Punjabi được viết bằng chữ Ba Tư-Ả Rập (Shahmukhi), và là ngôn ngữ được nói nhiều nhất ở Pakistan.
  • Tamazight (Amazigh) là ngôn ngữ Berber được sử dụng trên khắp Bắc Phi. Mặc dù có nhiều phương ngữ nhưng hình thức viết nhìn chung vẫn có sự tương đồng. Nó được viết bằng chữ Latinh và chữ Tifinagh, cả hai đều được Google Translate hỗ trợ.
  • Tok Pisin là một ngôn ngữ creole gốc tiếng Anh và là ngôn ngữ chung của Papua New Guinea. Nếu nói tiếng Anh, hãy thử dịch sang Tok Pisin - bạn có thể hiểu được ý nghĩa!

Trong tương lai, Google muốn “hỗ trợ nhiều loại ngôn ngữ và quy ước chính tả hơn nữa theo thời gian”. Mục tiêu rộng hơn là “xây dựng các mô hình AI hỗ trợ 1.000 ngôn ngữ được sử dụng nhiều nhất trên toàn thế giới”.

Thứ Sáu, 28/06/2024 10:11
4,47 👨 1.476
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ