Mô hình AI mới của Google có thể đọc hiểu toàn bộ một cuốn sách

Phạm Hải

Một trong những thách thức lớn nhất của các mô hình trí tuệ nhân tạo (AI) trong xử lý ngôn ngữ hiện nay là hiểu rõ bối cảnh, ngữ cảnh của từng phân đoạn cụ thể, từ đó nắm được nội dung của cả đoạn văn bản, hay rộng hơn là ý nghĩa của cả tác phẩm một cách chính xác - thay vì chỉ đơn giản là hiểu nghĩa từng từ riêng lẻ như hiện nay.

Để giải quyết vấn đề này, Google đã giới thiệu một mô hình học máy mới có tên Reformer, có thể hiểu được nội dung, ngữ cảnh của tác phẩm dài 1 triệu dòng - tương đương một cuốn tiểu thuyết, trong khi chỉ phải sử dụng khoảng 16GB dung lượng lưu trữ. Reformer được phát triển để khắc phục nhược điểm trên Transformer - một mạng lưới thần kinh kiểu cũ hoạt động trên nguyên tắc so sánh các từ trong đoạn văn với nhau để hiểu mối quan hệ giữa chúng.

Mô hình AI mới của Google có thể đọc hiểu toàn bộ một cuốn sách

Tuy nhiên vì hoạt động theo phương thức kết hợp - ghép cặp, Transformer sẽ chiếm rất nhiều không gian dữ liệu trong trường hợp nó phải xử lý những đoạn văn bản nhiều hơn vài nghìn từ. Điểm yếu này khiến việc sử dụng Transformer để xử lý các bài viết dài hoặc một cuốn sách trở nên cực kỳ kém khả thi.

Google đã phát triển Reformer để giải quyết cả 2 vấn đề chính như đã nói: Khả năng xử lý văn bản dài và mức độ tiêu thụ bộ nhớ của mô hình cũ.

Để giải quyết vấn đề đầu tiên, mô hình mới của Google sử dụng một phương pháp có tên locality-sensitive-hashing (LSH). Tức là thay vì so sánh tất cả các từ với nhau như trước, mô hình mới sẽ sử dụng hàm băm để nối các từ tương tự lại với nhau trong một nhóm, sau đó so sánh các từ trong cùng một nhóm hoặc trong các nhóm lân cận, giúp hạn chế tình trạng xử lý quá tải, đồng thời cho khả năng xử lý lượng văn bản lớn hơn.

Để giải quyết vấn đề về mức tiêu thụ bộ nhớ, các nhà nghiên cứu sử dụng kỹ thuật gọi là Mạng dư có thể đảo ngược (Reversible Residual Network - RevNet). RevNet được phát triển từ Deep Residual Networks (ResNets) - một công nghệ hoạt động theo cơ chế tăng hiệu suất khi các mạng phát triển sâu hơn và rộng hơn. RevNets sở hữu các lớp (layers), trong đó dữ liệu đầu ra của mỗi lớp có thể được xây dựng lại và sử dụng trong một lớp khác. Do đó, dữ liệu đầu ra cho hầu hết các lớp gần như không cần phải được lưu trữ trong bộ nhớ ở quá trình truyền ngược.

Để kiểm tra tính hiệu quả của mô hình này, Google đã cung cấp cho Reformer một số hình ảnh cắt nhỏ lẻ và nó đã tạo ra được bức ảnh toàn khung hình từ đó.

Các kỹ sư của Google cho biết mô hình mới có thể dễ dàng xử lý toàn bộ một cuốn sách với độ chính xác cao, mở ra tiềm năng trong xử lý văn bản quy mô lớn.

Thứ Sáu, 31/01/2020 09:56

1 ★ 1 👨 519