Các nhà nghiên cứu Google cho AI chơi game để cải thiện khả năng học tăng cường

Học tăng cường (reinforcement learning) - một lĩnh vực con của học máy (machine learning) - có liên quan đến kỹ thuật đào tạo AI sử dụng các “phần thưởng” để thúc đẩy chính sách phần mềm hướng tới những mục tiêu mục tiêu cụ thể. Nói cách khác, đây là quá trình mà AI sẽ thử các hành động khác nhau, tìm hiểu từng phản hồi cho dù hành động đó có mang lại kết quả tốt hơn hay không, và sau đó củng cố các hành động đã phát huy tác dụng, tức là làm lại và sửa đổi các thuật toán của nó một cách tự động qua nhiều lần lặp mang lại kết quả tốt nhất. Trong thời gian qua, học tăng cường đã được khai thác để mô hình hóa tác động của các quy tắc xã hội, nhằm tạo ra những mô hình AI có khả năng chơi game cực kỳ tốt, hay những robot lập trình có thể tự phục hồi hoạt động sau các sự cố khó chịu về phần mềm.

Học tăng cường

Mặc dù sở hữu tính linh hoạt cao, có thể được áp dụng trong nhiều mô hình và mục đích khác nhau, kỹ thuật học tăng cường lại chứa đựng một thiếu sót đáng tiếc: Nó kém hiệu quả. Để đào tạo một mô hình AI theo kỹ thuật học tăng cường đòi hỏi cực nhiều tương tác khác nhau trong môi trường mô phỏng hoặc thế giới thực, tức hơn rất nhiều so với khi con người cần học một nhiệm vụ nhất định. Để khắc phục phần nào vấn đề này, đặc biệt là trong lĩnh vực trò chơi điện tử, các nhà nghiên cứu trí tuệ nhân tạo tại Google gần đây đã đề xuất sử dụng một thuật toán mới có tên Simulated Policy Learning (viết tắt là SimPLe), trong đó sử dụng các mô hình trò chơi điện tử đơn giản để tìm hiểu cũng như cải thiện những chính sách chất lượng trong lựa chọn hành động của kỹ thuật học tăng cường.

Các nhà nghiên cứu đã mô tả thuật toán này trong một bài báo in mới được xuất bản với tiêu đề “Model-Based Reinforcement Learning for Atari” (tạm dịch: Học tăng cường dựa trên mô hình cho Atari), và đồng thời trong một tài liệu đi kèm với mã nguồn mở.

“Ở cấp độ cao, ý tưởng của các nhà nghiên cứu trong việc phát triển thuật toán SimPLe là nhằm xen kẽ giữa việc thiết lập một mô hình về các đặc điểm, đặc tính của trò chơi và sử dụng mô hình đó để tối ưu hóa một chính sách (với kỹ thuật học tập tăng cường không có mô hình) trong môi trường mô phỏng trò chơi. Các nguyên tắc cơ bản đằng sau thuật toán này đã được thiết lập tốt và sử dụng trong nhiều phương pháp học tăng cường dựa trên mô hình gần đây”, Các nhà khoa học Łukasz Kaiser và Dumitru Erhan thuộc đội ngũ Google AI chia sẻ.

Như hai nhà nghiên cứu đã giải thích, việc đào tạo một hệ thống AI để chơi trò chơi đòi hỏi phải dự đoán được các kết cấu khung hình tiếp theo của trò chơi mục tiêu, vốn được đưa ra bởi một chuỗi các khung và lệnh kết hợp (ví dụ như “bên trái”, “bên trong”, “bên phải”, “hướng về phía trước”, “quay ngược trở lại”). Bên cạnh đó, các nhà nghiên cứu cũng chỉ ra rằng một mô hình thành công có thể tạo ra những “quỹ đạo” sử dụng được trong việc huấn luyện chính sách chương trình đại lý trò chơi, điều này sẽ làm giảm nhu cầu phải dựa vào các chuỗi tính toán phức tạp trong trò chơi.

Thuật toán SimPLe áp dụng trong game

Thuật toán SimPLe thực hiện chính xác điều này. Phải mất 4 khung hình làm dữ liệu đầu vào để dự đoán khung hình tiếp theo cùng với phần thưởng, và sau khi được đào tạo đầy đủ, thuật toán sẽ tạo ra các bản “rollouts” - trình tự mẫu của chuỗi hành động, quan sát và kết quả - được sử dụng để cải thiện chính sách (2 chuyên gia Kaiser và Erhan lưu ý rằng thuật toán SimPLe chỉ sử dụng các bản rollout có độ dài trung bình để giảm thiểu lỗi dự đoán).

Trong các thử nghiệm kéo dài tương đương với 2 giờ chơi (100.000 tương tác), các chương trình đại lý (agents) với chính sách được điều chỉnh của SimPLe đã đạt được số điểm tối đa trong hai trò chơi thử nghiệm (Pong và Freeway), đồng thời tạo ra được những dự đoán gần như hoàn hảo lên đến 50 bước trong tương lai.

Mục tiêu chính của các phương pháp học tăng cường dựa trên mô hình là trong những môi trường nơi các tương tác tỏ ra phức tạp

Đôi khi 2 nhà nghiên cứu cũng cố gắng thu thập các chi tiết nhỏ nhưng có tính liên quan cao trong các trò chơi, kết quả là gặp thất bại. Kaiser và Erhan thừa nhận rằng thuật toán này vẫn chưa thực sự phù hợp với hiệu suất của các phương pháp học tăng cường tiêu chuẩn. Tuy nhiên, SimPLe lại có thể cho hiệu quả hơn gấp hai lần về mặt đào tạo, và nhóm nghiên cứu hy vọng các nghiên cứu tiếp theo trong tương lai sẽ giúp cải thiện hiệu suất của thuật toán một cách đáng kể.

“Mục tiêu chính của các phương pháp học tăng cường dựa trên mô hình là trong những môi trường nơi các tương tác tỏ ra phức tạp, chậm hoặc yêu cầu ghi nhãn của con người, ví dụ như trong nhiều tác vụ robot chẳng hạn. Trong môi trường như vậy, một trình giả lập sẽ cho phép chúng ta hiểu rõ hơn về môi trường của các chương trình đại lý, và từ đó có thể dẫn đến những phương thức mới, tốt hơn và nhanh hơn hướng tới thực hiện việc học tăng cường đa tác vụ”.

Thứ Ba, 26/03/2019 22:58
4,33 👨 152