Các hệ thống học sâu (deep learning) hoạt động theo cơ chế chọn ra các mẫu thống kê trong dữ liệu - đó là cách thức mà chúng diễn giải thế giới quan của chính mình. Tuy nhiên, phương thức học thống kê này lại đòi hỏi lượng dữ liệu đầu vào khá lớn, và cũng không đặc biệt hữu ích trong việc giúp các hệ thống học sâu áp dụng kiến thức từ quá khứ vào những tình huống mới, không giống như phương thức AI biểu tượng (symbolic AI), cho phép ghi lại chuỗi các bước đã được thực hiện để đưa ra quyết định với ít dữ liệu hơn so với những phương pháp truyền thống.
Một nghiên cứu mới được thực hiện bởi nhóm các nhà khoa học trí tuệ nhân tạo tại MIT, MIT-IBM Watson AI Lab và DeepMind cho thấy tiềm năng của phương thức đào tạo symbolic AI khi được áp dụng cho một nhiệm vụ cụ thể, ví dụ như nắm bắt ý nghĩa của các hình ảnh. Theo đó, trong các thử nghiệm, mô hình AI của các nhà khoa học đã tiếp thu được những khái niệm liên quan đến đối tượng như màu sắc và hình dạng, rồi sử dụng kiến thức đó để tạo ra các mối quan hệ giữa nhiều đối tượng trong một cảnh, trong khi chỉ yêu cầu dữ liệu đào tạo tối thiểu và không cần phải được lập trình rõ ràng.
“Chúng ta đều biết rằng sử dụng kết hợp giữa câu từ và hình ảnh minh họa là một phương thức hiệu quả để giúp các em nhỏ học và ghi nhớ một khái niệm cụ thể. Ý tưởng của chúng tôi về mô hình symbolic AI này cũng vậy. Nhờ đó, hệ thống sẽ cần ít dữ liệu đào tạo hơn, đồng thời có khả năng chuyển kiến thức mà mình đã tiếp thu được sang các tình huống mới tốt hơn”, nhà khoa học máy tính Jiayuan Mao, người đứng đầu công trình nghiên cứu chia sẻ.
Về cơ bản, mô hình AI này bao gồm một thành phần tiếp nhận thông tin, giúp chuyển các hình ảnh thành hình thức diễn giải dựa trên đối tượng, và một lớp ngôn ngữ có nhiệm vụ trích xuất ý nghĩa từ các từ và câu, sau đó tạo ra “các chương trình biểu tượng (symbolic programs)” giúp AI biết cách trả lời câu hỏi. Ngoài ra, sẽ có thêm một mô-đun thứ ba chạy các chương trình biểu tượng trên nền và đưa ra câu trả lời, cập nhật kiến thức cho mô hình AI khi nó mắc lỗi.
Các nhà nghiên cứu đã đào tạo mô hình AI này trên những hình ảnh được kết hợp với nhiều câu hỏi và trả lời có liên quan. Khả năng hiểu hình ảnh của AI sau đó được giám sát bởi Đại học Stanford. Nhìn chung, AI phải trả lời được các câu hỏi dạng như: Màu sắc của vật thể là gì? Có bao nhiêu vật thể ở bên cạnh một vật thể khác? Hoặc vật thể này được làm từ chất liệu gì? Độ phức tạp của các câu hỏi đương nhiên sẽ ngày càng gia tăng theo mức độ tiếp thu của mô hình AI, và khi thành thạo các khái niệm cấp đối tượng, mô hình AI sẽ được học cách liên kết giữa nhiều đối tượng và các thuộc tính của chúng với nhau, đây có thể được coi là giai đoạn nâng cao.
Trong các thí nghiệm, mô hình AI này cho thấy nó có thể diễn giải các cảnh vật và khái niệm mới gần như hoàn hảo, hoàn toàn vượt trội so với những hệ thống AI tiên tiến khác, trong khi chỉ sử dụng tới 5.000 hình ảnh và 100.000 câu hỏi (so với khoảng 70.000 hình ảnh và 700.000 câu hỏi của các mô hình AI thông thường). Trong tương lai, công việc chính của các nhà nghiên cứu sẽ là cải thiện hiệu suất của mô hình AI trong việc hiểu những bức ảnh trong thế giới thực, sau đó dần tiến tới đối tượng là video và thao tác robot.