Các nhà khoa học tại Đại học Chicago mới đây đang phát triển thành công một hệ thống trí tuệ nhân tạo, dựa trên công nghệ học máy có thể phân tích và biên dịch đoạn văn bản cổ đại, được tìm thấy trên những viên đất sét cổ hàng ngàn năm tuổi sang ngôn ngữ hiện đại.
Mô hình học máy này có tên DeepScribe, được đào tạo để có thể đọc hiểu được hệ thống chữ viết Cuneiform - loại chữ viết được sử dụng phổ biến ở thời kỳ Đế chế Achaemenid trong lịch sử Iran cổ đại (năm 550-330 trước Công nguyên), theo báo cáo của Đại học Chicago.
Chữ viết Cuneiform thực sự là một thách thức với các chuyên gia phân tích chữ viết dù là giàu kinh nghiệm, do sự phức tạp của bố cục chữ cũng như từng ký tự cấu thành nên chữ. Trong trường hợp này lại càng khó khăn hơn bởi các đoạn văn bản Cuneiform được khắc trên những viên đất sét cổ thay vì viết trên giấy như thông thường, khiến việc nhận diện chữ vô cùng mất thời gian. Đó là lý do các nhà nghiên cứu cần đến sự giúp đỡ từ một hệ thống học máy như DeepScribe.
Để xây dựng mô hình AI phân tích chữ viết tiên tiến này, nhóm nghiên cứu đã phải dùng đến kho dữ liệu đào tạo khổng lồ, với 6.000 hình ảnh chú thích từ các tài liệu cổ đại về Cuneiform thu được ở khu vực di tích Persepolis, cách 60 km về phía đông bắc của thành phố hiện đại Shiraz, thuộc tỉnh Fars, Iran. Nhóm nghiên cứu tin rằng DeepScribe có thể giúp khám phá những bí mật mới về lịch sử, xã hội và ngôn ngữ Ba Tư (Iran) cổ đại.
Dữ liệu đào tạo sau đó được biên tập lại dựa trên một từ điển ngôn ngữ được phát triển bởi các nhà nghiên cứu và cơ sở dữ liệu gồm hơn 100.000 ký tự riêng lẻ cấu thành nên các chữ cái Cuneiform. Kết quả bước đầu cho thấy DeepScribe có thể biên dịch các đoạn văn bản cổ với độ chính xác khoảng 80% - kém hơn so với các chuyên gia phân tích chữ viết “thủ công”, nhưng thời gian lại được cải thiện vô cùng đáng kể. Ngoài ra, mức độ chính xác này hoàn toàn có thể được cải thiện theo thời gian khi dữ liệu đào tạo tăng thêm.
Trong tương lai, DeepScribe thậm chí còn có thể được sử dụng để xác định nguồn gốc của các cổ vật được tìm thấy ở những khu vực di tích quan trọng, giúp xóa bỏ đáng kể khó khăn mà các nhà khảo cổ học thường gặp phải.