Libratus - trí tuệ nhân tạo vừa đánh bại 4 cao thủ trong trò chơi poker

Nga Bùi

Trí tuệ nhân tạo Libratus vừa đánh bại 4 cao thủ trong trò chơi poker, chính là nhờ một phương pháp đào tạo AI mới, thay vì các kỹ thuật thông thường ở hiện tại.

Trong gần ba tuần, Dong Kim ngồi tại một casino ở Pittsburgh và chơi poker với một chiếc máy. Tuy nhiên, Dong Kim không chỉ là một người chơi poker bình thường và chiếc máy anh đang chơi cũng không phải là một chiếc máy poker bình thường như những máy khác.

Dong Kim, năm nay 28 tuổi, là một trong những người chơi poker giỏi nhất trên thế giới. Trong khi đó, chiếc máy chơi poker kia - Libratus được tạo ra bởi hai nhà nghiên cứu khoa học máy tính tại trường Đại học Carnegie Mellon, chỉ là một hệ thống trí tuệ nhân tạo chạy trên một siêu máy tính Pittsburgh. Trong 20 ngày liên tiếp, 4 cao thủ trong trò chơi poker đã đấu trí với Libratus trong Texas Hold'Em no-limit (không giới hạn), một dạng poker đặc biệt phức tạp, trong đó có các chiến lược đặt cược giúp người chơi phải vượt qua hàng chục lần hạ bài.

Trí tuệ nhân tạo Libratus

Sau nửa thời gian cuộc đấu, Dong Kim bắt đầu cảm thấy dường như chiếc máy chơi poker Libratus có thể nhìn thấy được bài của mình. "Tôi không cho rằng nó gian lận. Chỉ là tôi nghĩ nó rất giỏi." Dong Kim cho biết. Điều đó thật tuyệt, trên thực tế, Libratus không chỉ đánh bại Dong Kim mà còn đánh bại 3 người chơi poker đứng đầu thế giới khác nữa – đây là lần đầu tiên một trí tuệ nhân tạo có thể làm như vậy.

Trong suốt cuộc thi đấu, những người tạo ra Libratus vẫn luôn ngại chia sẻ về cách hệ thống trí tuệ nhân tạo này hoạt động – làm thế nào mà nó có thể thành công đến vậy, làm thế nào nó có thể bắt chước được trực giác con người theo cách mà không có cỗ máy nào làm được từ trước đến nay. Tuy nhiên, theo những gì mà các nhà nghiên cứu tiết lộ, Libratus đã đạt đến mức độ không chỉ là một AI đơn thuần, mà nó dựa trên ba hệ thống khác biệt nhưng lại làm việc cùng với nhau.

Lưu ý rằng các trí thông minh nhân tạo AI hiện đại ngày nay được vận hành bằng nhiều công nghệ cùng một lúc chứ không phải một công nghệ. Các mạng lưới thần kinh sâu (deep neural networks) đang nhận được nhiều sự chú ý trong những ngày gần đây và vì lý do tích cực: "Chúng cung cấp sức mạnh cho mọi thứ từ nhận diện hình ảnh đến dịch ngôn ngữ hay tìm kiếm những sản phẩm chủ đạo của các công ty công nghệ lớn nhất thế giới. Tuy nhiên, thành công của mạng lưới thần kinh nhân tạo cũng mang một làn gió mới cho rất nhiều các kỹ thuật AI khác, nhằm giúp máy tính bắt chước hoặc thậm chí là vượt qua tài năng của con người".

Tuy nhiên, Libratus lại không sử dụng mạng lưới thần kinh nhân tạo này. Libratus chủ yếu dựa trên một hình thức AI khác, còn được biết đến với tên "Reinforcement Learning - Học tăng cường", một phương pháp thử nghiệm và báo lỗi vô cùng khắt khe. Về cơ bản, chiếc máy poker Libratus tự chơi trò chơi này với chính bản thân hết lần này đến lần khác.

Libratus tự chơi trò chơi này với chính bản thân hết lần này đến lần khác

Phòng thí nghiệm Deep Mind của Google đã sử dụng phương pháp học tăng cường trong việc xây dựng AlphaGo, hệ thống đã đánh bại kỳ thủ thế giới Lee Sedol vào đầu năm ngoái. Tuy nhiên, giữa hai hệ thống này có một điểm khác biệt quan trọng. AlphaGo học chơi cờ vây từ việc phân tích 30 triệu nước đi của con người, trước khi định hình nên kỹ năng của mình bằng cách tự chơi với chính nó. Nhưng Libratus thì ngược lại, nó học chơi poker hoàn toàn từ đầu.

Thông qua một thuật toán có tên gọi Counterfactual Regret Minimization (giảm thiểu tổn thất đối chứng), nó bắt đầu bằng cách chơi ngẫu nhiên và cuối cùng, sau nhiều tháng luyện tập với hàng nghìn tỷ ván bài poker, nó đã đạt tới trình độ không chỉ thách thức với người chơi giỏi nhất, mà còn chơi theo cách mà những người chơi giỏi nhất không thể làm được – chơi với phạm vi đặt cược rộng hơn và ngẫu nhiên hóa các lần đặt cược này. Do vậy các đối thủ chơi cùng sẽ khó khăn hơn trong việc đoán được những con bài mà Libratus đang cầm.

"Chúng tôi cung cấp cho AI một bản mô tả trò chơi. Chúng tôi không nói cho nó biết chơi như thế nào. Sau đó nó tự phát triển một chiến lược hoàn toàn độc lập với cách chơi của con người và có thể rất khác biệt so với cách con người chơi trò chơi này", Noam Brown, học viên cao học tại trường Đại học Carmegie Mellon – CMU, người tạo ra hệ thống AI này cùng với giáo sư của mình, Tuomas Sandholm cho biết.

Nghiên cứu hệ thống trí tuệ nhân tạo

Tuy nhiên, đó chỉ là giai đoạn đầu tiên. Trong trận đấu ở Pittsburgh, một hệ thống thứ hai sẽ phân tích tình trạng trận đấu và tập trung vào các chú ý của hệ thống đầu tiên. Với sự trợ giúp từ hệ thống thứ hai này, một chi tiết "người kết thúc trò chơi" trong một bài nghiên cứu Sandholm và Brown đưa ra, hệ thống đầu tiên không phải chạy thử toàn bộ các kịch bản mà nó có thể khám phá ra trong quá khứ. Và nó chỉ cần chạy thử qua một vài kịch bản đó. Điều đặc biệt là Libratus không chỉ học trước trận đấu, nó tiếp tục học ngay cả khi đang chơi.

Mặc dù chỉ cần riêng hai hệ thống này đã quá đủ để chơi poker một cách hiệu quả. Nhưng Dong Kim và những người chơi khác vẫn tìm thấy các mô hình trong cách chơi của máy tính và khai thác nó. Đó là lý do vì sao Brown và Sandholm tạo ra một hệ thống thứ ba. Mỗi tối, Brown sẽ chạy một thuật toán có thể xác định được các mô hình đó và loại bỏ chúng. "Nó có thể tính toán việc này qua đêm và mọi thứ sẽ sẵn sàng vào ngày hôm sau", Brown cho biết.

Poker

Nếu cảm thấy điều này có vẻ không công bằng thì bạn vẫn phải chấp nhận thôi, bởi đó là cách AI hoạt động. Tuy nhiên, không chỉ AI làm như vậy mà con người cũng có thể thường xuyên kết hợp các quá trình, tích cực cải thiện, chạy và tăng cường AI. Nói tóm lại, Libratus thực sự là một cột mốc quan trọng, nó cho chúng ta thấy được một loại AI mới có thể đóng vai trò quan trọng xuất hiện trong mọi thứ từ các giao dịch trên phố Wall cho tới an ninh mạng hay cả các phiên đấu giá và đàm phán chính trị.

"Poker là một trong những trò chơi khó nhất mà AI đột phá vào, bởi vì bạn chỉ nhìn thấy một phần thông tin về trạng thái của trò chơi này. Không có bước di chuyển tối ưu đơn lẻ nào. Thay vào đó, AI sẽ phải ngẫu nhiên hóa hành động của mình để làm các đối thủ không chắc chắn khi nó đánh lừa họ", Andrews Ng - người hỗ trợ phòng thí nghiệm AI trung tâm của Google và giờ là nhà khoa học trưởng tại Baidu.

Libratus đã thực hiện được điều này một cách tốt nhất. Nó thực hiện ngẫu nhiên hóa cách đặt cược của mình đến mức vượt ra ngoài suy nghĩ của những người chơi giỏi nhất. Còn nếu cách đó không hiệu quả, thuật toán chạy thâu đêm của Brown sẽ lấp đầy các kẽ hở đó. Một người giao dịch tài chính có thể làm việc theo cùng một cách như vậy. Điều tương tự cũng xảy ra với một nhà ngoại giao. Do vậy Libratus đang là một lời tuyên bố mạnh mẽ: Một cỗ máy cũng có thể đánh lừa một con người.

Tham khảo thêm một số bài viết:

Chúc các bạn vui vẻ!

Thứ Năm, 09/02/2017 10:15

4 ★ 1 👨 1.484

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!