Phía sau chiếc hộp đen: Khi AI có thể diễn giải được (Explainable AI - XAI)

Minh Mũm Mĩm

Năm 2016, một phần mềm tên COMPAS được tòa án ở nhiều bang của Mỹ sử dụng để dự đoán khả năng tái phạm của tội nhân, một yếu tố ảnh hưởng trực tiếp đến quyết định ân xá hoặc tiếp tục giam giữ. COMPAS đưa ra điểm số từ 1 đến 10.

Tòa án dựa vào đó để phán quyết. Nhưng khi ProPublica điều tra, họ phát hiện điều gây chấn động: hệ thống này phân loại người da đen có nguy cơ tái phạm cao gấp đôi người da trắng dù cùng hồ sơ phạm tội. Và không ai - kể cả những người lập trình nó, có thể giải thích chính xác tại sao.

Đây không phải trường hợp ngoại lệ. Đây là bản chất của vấn đề.

Các mạng thần kinh nhân tạo sâu (Deep Neural Networks) hiện đại – nền tảng của mọi hệ thống AI từ chẩn đoán ung thư đến nhận diện khuôn mặt – có thể chứa hàng trăm tỷ tham số. Chúng đưa ra dự đoán với độ chính xác vượt trội con người. Nhưng quá trình từ dữ liệu đầu vào đến kết quả đầu ra diễn ra bên trong một "chiếc hộp đen" mà ngay cả kỹ sư tạo ra chúng cũng không thể lần theo từng bước suy luận.

Dữ liệu đi vào → Thuật toán xử lý bí ẩn → Kết quả đi ra. Đơn giản như vậy. Và nguy hiểm như vậy.

Trong suốt thập niên 2010, giới công nghệ có thể xoa dịu lo ngại bằng lý lẽ thực dụng: "Miễn là nó hoạt động đúng, sao cần phải hiểu tại sao?" Nhưng bước sang thập niên 2020, với AI ngày càng len lỏi vào những quyết định sinh tử, phẫu thuật hay không, cho vay hay từ chối, tha bổng hay giam tiếp, câu hỏi "tại sao" không còn là sự tò mò học thuật nữa. Nó là đòi hỏi pháp lý, đạo đức, và tồn vong.

Đây là bối cảnh ra đời của Explainable AI (XAI) – lĩnh vực nghiên cứu và thực tiễn đang trở thành một trong những ưu tiên hàng đầu của ngành trí tuệ nhân tạo toàn cầu năm 2026.

Khi sự mơ hồ của AI đánh đổi bằng mạng sống

Để hiểu vì sao XAI không phải là vấn đề học thuật thuần túy, cần nhìn vào ba lĩnh vực mà sự thiếu minh bạch của AI đã và đang gây ra hậu quả thực tế, đo được bằng con người, bằng tiền, bằng tự do.

Lĩnh vực y tế: 99% chính xác và 1% không ai biết

Một nghiên cứu đăng trên Nature Medicine năm 2019 cho thấy một mô hình AI phát hiện ung thư da với độ chính xác 91%, vượt trội nhóm bác sĩ da liễu có kinh nghiệm. Nghe có vẻ đột phá. Nhưng khi các nhà nghiên cứu kiểm tra sâu hơn, họ phát hiện mô hình đang "nhìn" vào thước đo da bên cạnh tổn thương, vật dụng thường xuất hiện trong ảnh chụp lâm sàng ở bệnh viện. Nó không thực sự học được đặc điểm của ung thư; nó học được đặc điểm của môi trường ảnh chụp chuyên nghiệp.

Một đánh giá hệ thống về XAI trong y tế công bố năm 2026 trên tạp chí Frontiers in Artificial Intelligence chỉ ra rằng nhiều nghiên cứu trình bày heatmap hoặc biểu đồ feature importance nhưng rất ít trong số đó đánh giá một cách có hệ thống về độ chính xác, độ ổn định, và tác động thực tế đến hiệu suất làm việc của bác sĩ lâm sàng.

Điều này đặt ra câu hỏi không thoải mái: nếu bác sĩ không thể kiểm tra tại sao AI đưa ra chẩn đoán, làm sao họ phát hiện khi AI sai vì lý do sai? Một AI chẩn đoán ung thư chính xác 99% nhưng rơi vào 1% sai sót không thể giải thích được là mối nguy không kém một AI sai 10% nhưng sai vì lý do rõ ràng có thể khắc phục.

Nghiên cứu năm 2024 công bố trên Nature Communications về chẩn đoán melanoma cho thấy các giải thích dạng "dermatologist-like" - mô phỏng cách bác sĩ da liễu thực sự suy luận, giúp tăng đáng kể niềm tin và sự tự tin của bác sĩ trong việc chẩn đoán ung thư hắc tố so với chỉ đưa ra kết quả nhị phân có/không.

Lĩnh vực pháp lý và tài chính: Định kiến ẩn trong dữ liệu

Quay lại COMPAS, câu chuyện không kết thúc ở đó. Sau khi ProPublica công bố điều tra, nhà sản xuất phần mềm Northpointe phản bác rằng hệ thống của họ "cân bằng" vì tỷ lệ tái phạm thực tế giữa hai nhóm chủng tộc đều khớp với dự đoán. Nhưng định nghĩa "cân bằng" đó che giấu một bất công có thể đo lường: người da đen vô tội bị đánh giá nguy cơ cao với tần suất gấp đôi người da trắng vô tội.

Đây là vấn đề cốt lõi của AI bias (định kiến AI): khi mô hình học từ dữ liệu lịch sử chứa đựng bất bình đẳng xã hội, nó tái sản xuất và khuếch đại những bất bình đẳng đó. Và vì không ai có thể nhìn vào bên trong hộp đen, định kiến này ẩn náu mà không bị phát hiện cho đến khi gây ra tổn hại đủ lớn để thu hút sự chú ý.

Trong lĩnh vực tài chính, Amazon từng sử dụng mô hình AI để sàng lọc hồ sơ xin việc. Năm 2018, công ty phải hủy bỏ hệ thống sau khi phát hiện nó tự động hạ điểm hồ sơ có chứa từ "phụ nữ" (như "đội trưởng câu lạc bộ phụ nữ"), vì nó học từ 10 năm dữ liệu tuyển dụng nơi đàn ông chiếm đa số. Không ai ra lệnh cho AI phân biệt giới tính. Nó tự học điều đó từ dữ liệu, trong im lặng, bên trong hộp đen.

Lĩnh vực quân sự: Khi sai lầm đồng nghĩa với thảm sát

Hệ quả nghiêm trọng nhất của AI hộp đen có lẽ nằm ở chiến trường tự động hóa. Các hệ thống vũ khí tự chủ (Lethal Autonomous Weapon Systems – LAWS) ngày càng được phát triển để nhận diện và tấn công mục tiêu mà không có sự phê duyệt tức thì của con người. Nếu một hệ thống như vậy phân loại nhầm xe cứu thương thành xe quân sự địch, ai chịu trách nhiệm pháp lý? Và quan trọng hơn, làm sao ngăn chặn sai lầm tiếp theo nếu không ai hiểu tại sao sai lầm đầu tiên xảy ra?

DARPA (Cơ quan Nghiên cứu Dự án Quốc phòng Tiên tiến Mỹ) đã nhận thức được vấn đề này từ sớm. DARPA đã khởi động một chương trình XAI quy mô lớn, huy động 11 đội từ các trường đại học và công nghiệp quốc phòng để nghiên cứu từ lý thuyết giải thích, khung đánh giá, yêu cầu tâm lý học, giao diện người máy đến các kỹ thuật giải thích post-hoc mới. Đây là thừa nhận thực tế: trong môi trường quân sự, "tôi không biết tại sao nó quyết định vậy" không phải là câu trả lời có thể chấp nhận được.

XAI hoạt động như thế nào: Bắt AI giải trình bằng công nghệ

Bản chất kỹ thuật của XAI là tập hợp các phương pháp giúp con người "nhìn vào" – hoặc "đoán ra" – cách mô hình AI đưa ra quyết định. Không có một giải pháp duy nhất; XAI là một hộp công cụ với nhiều kỹ thuật phục vụ các mục đích khác nhau.

Feature Importance – AI nói ra trọng số của từng yếu tố

SHAP (SHapley Additive Explanations) là một trong những công cụ XAI phổ biến nhất hiện nay, dựa trên lý thuyết trò chơi (game theory) từ toán học. Ý tưởng cốt lõi: mỗi đặc trưng dữ liệu đầu vào được tính điểm đóng góp vào kết quả cuối cùng, tương tự cách chia thưởng công bằng cho các thành viên trong một đội theo đóng góp thực tế.

SHAP đã nổi lên như một công cụ tiêu chuẩn khi GDPR có hiệu lực, giúp các tổ chức không chỉ tuân thủ quy định mà còn hiểu rõ các yếu tố nào thực sự thúc đẩy quyết định thuật toán của họ.

Trong thực tế, một mô hình dùng SHAP có thể giải thích: "Chúng tôi từ chối khoản vay vì lịch sử thanh toán trễ chiếm 70% lý do. Thu nhập thấp đóng góp 20%. Địa chỉ thường trú đóng góp 10%." Điều này không chỉ cho người dùng biết họ bị từ chối vì lý do gì, nó còn giúp phát hiện nếu "địa chỉ thường trú" thực chất là proxy cho sắc tộc hoặc vùng địa lý bị phân biệt đối xử.

LIME – Giải phẫu hộp đen bằng thí nghiệm

LIME (Local Interpretable Model-Agnostic Explanations) tiếp cận vấn đề theo cách khác: thay vì cố hiểu toàn bộ mô hình, LIME tạo ra hàng nghìn biến thể nhỏ của dữ liệu đầu vào và quan sát xem kết quả thay đổi ra sao. Từ đó, nó xây dựng một mô hình đơn giản hơn, thường là hồi quy tuyến tính, có thể giải thích được, để xấp xỉ hành vi của mô hình lớn trong vùng không gian dữ liệu cụ thể đó.

Ví dụ: để hiểu tại sao AI từ chối hồ sơ vay vốn của một cá nhân, LIME thử hàng nghìn biến thể hồ sơ tương tự (thay đổi thu nhập, lịch sử tín dụng, tuổi tác) và quan sát quyết định thay đổi thế nào. Kết quả là một bản giải thích cục bộ, không phải giải thích toàn cầu về mô hình, mà là giải thích cho quyết định cụ thể này.

Attention Maps – AI chỉ ra nó "nhìn" vào đâu

Trong thị giác máy tính, kỹ thuật Grad-CAM (Gradient-weighted Class Activation Mapping) và các biến thể tạo ra bản đồ nhiệt (heatmap) tô sáng những vùng ảnh mà mô hình tập trung chú ý nhất khi đưa ra phân loại. Nếu AI chẩn đoán viêm phổi từ X-quang ngực, Grad-CAM cho thấy nó đang nhìn vào đúng vùng phổi, hay đang nhìn vào chú thích văn bản ở góc ảnh.

Đây chính là kỹ thuật đã phát hiện vấn đề "thước đo da" trong ví dụ ung thư da ở trên. Khi bác sĩ thấy heatmap hiển thị AI đang tô sáng vật dụng y tế chứ không phải tổn thương, đó là tín hiệu rõ ràng mô hình đang học sai thứ.

XAI ảnh hưởng thế nào đến cách con người đang dùng AI hiện nay

Sự thay đổi từ "công cụ làm thuê" sang "cộng sự có trách nhiệm"

Năm 2026 đánh dấu một điểm uốn thực sự trong lịch sử triển khai AI thương mại. Năm 2026 là "XAI Reckoning" – điểm mà explainability và trustworthiness chuyển từ "tốt nếu có" sang yêu cầu bắt buộc, khi các quy định pháp lý, kiểm toán, và khách hàng đều đòi hỏi bằng chứng rằng hệ thống AI minh bạch, công bằng và có thể bảo vệ được.

Điều này thay đổi căn bản cách các tổ chức xây dựng và triển khai AI. Trước đây, quy trình phát triển AI thường kết thúc khi mô hình đạt độ chính xác đủ cao trên tập test. Bây giờ, câu hỏi thứ hai phải được đặt ra song song: "Mô hình này có thể giải thích không? Và nếu không, làm sao chúng ta biết nó đúng vì lý do đúng?"

EU AI Act quy định tại Điều 13 rằng các hệ thống AI rủi ro cao phải được thiết kế để minh bạch, đi kèm hướng dẫn sử dụng rõ ràng giải thích khả năng, giới hạn, và rủi ro tiềm ẩn – bao gồm thông tin giúp nhà triển khai diễn giải đầu ra của hệ thống một cách phù hợp. Với các hệ thống từ chối khoản vay hay phân loại ưu tiên chăm sóc y tế, câu trả lời "thuật toán quyết định" không còn được pháp luật chấp nhận.

EU AI Act có hiệu lực từ tháng 8/2024 với thời hạn tuân thủ đầy đủ vào tháng 8/2026, thiết lập khung minh bạch AI toàn diện đầu tiên trên thế giới với các hình phạt đáng kể cho vi phạm.

Trong thực tế, điều này tạo ra áp lực chưa từng có đối với các công ty công nghệ lớn. Microsoft, Google, và IBM đã phát triển các bộ công cụ XAI riêng (InterpretML, What-If Tool, AI Explainability 360) – không phải từ thiện, mà vì nhu cầu thị trường và tuân thủ pháp lý đang tăng nhanh hơn khả năng phát triển giải pháp nội bộ.

Tác động đến người dùng AI hàng ngày – từ bệnh nhân đến công dân

XAI không chỉ là vấn đề của các nhà khoa học dữ liệu. Nó ảnh hưởng trực tiếp đến quyền lợi của từng cá nhân tương tác với hệ thống AI trong cuộc sống hàng ngày.

Các khung pháp lý như GDPR của Liên minh châu Âu đã hợp pháp hóa "quyền giải thích" đối với các quyết định tự động. XAI đã chuyển hóa từ một nghiên cứu học thuật thành đòi hỏi xã hội và pháp lý.

Tòa án Công lý Châu Âu đã tiến thêm một bước trong vụ SCHUFA, mở ra tranh luận về sự tồn tại của "quyền giải thích" cho các quyết định AI, điều này sẽ thúc đẩy phát triển và triển khai các phương pháp XAI. Điều đó có thể làm tăng chi phí và nỗ lực phát triển, nhưng cuối cùng sẽ tăng cường tính minh bạch và sự chấp nhận AI về lâu dài.

Ở mức độ cụ thể, quyền giải thích có nghĩa là: nếu ngân hàng dùng AI từ chối đơn vay của bạn, bạn có quyền yêu cầu giải thích tại sao. Nếu bảo hiểm y tế dùng AI từ chối chi trả điều trị, bạn có quyền biết lý do. Nếu nhà tuyển dụng dùng AI loại hồ sơ của bạn, bạn có quyền được thông báo và thách thức quyết định đó.

Đây không phải quyền trừu tượng. Ở những quốc gia đã thực thi GDPR nghiêm túc, đây là quyền có thể thực thi trước tòa án.

Tư duy "Sau đó thì sao?": Ba tầng ý nghĩa của XAI

Tuy nhiên, nhìn XAI chỉ như công cụ tuân thủ pháp lý là nhìn quá hẹp. Phân tích đa tầng tiết lộ những hệ quả sâu xa hơn nhiều.

Tầng 1 – Con người hiểu AI: Khi XAI được triển khai thành công, bác sĩ hiểu tại sao AI đề xuất chẩn đoán cụ thể, thẩm phán hiểu tại sao phần mềm đánh giá rủi ro tái phạm cao, nhà tư vấn tài chính hiểu tại sao thuật toán cảnh báo rủi ro đầu tư. Niềm tin tăng lên có cơ sở – không phải niềm tin mù quáng, mà niềm tin dựa trên hiểu biết.
Tầng 2 – Xã hội hợp pháp hóa AI trong các ngành nghề quan trọng: Khi niềm tin có cơ sở, các ngành luật pháp, y tế, tài chính có thể chính thức hóa việc dùng AI ở quy mô lớn mà không vấp phải phản đối. Cuộc khủng hoảng trách nhiệm pháp lý, "ai chịu trách nhiệm khi AI sai?", có lời giải: người có thể giải thích quyết định AI phải chịu trách nhiệm về quyết định đó.
Tầng 3 – AI trở thành thầy giáo của con người: Đây là hệ quả ít được thảo luận nhất nhưng có lẽ quan trọng nhất. Khi con người hiểu được logic của AI, họ không chỉ kiểm soát được AI – họ còn học từ AI. Một mô hình XAI trong y tế có thể chỉ ra các mối tương quan giữa các chỉ số sinh học mà y văn chưa từng ghi nhận. Một mô hình XAI trong vật lý có thể gợi ý các mối quan hệ toán học mà nhà khoa học chưa từng đặt giả thuyết.

DeepMind's AlphaFold không chỉ giải quyết bài toán gấp protein – nó đang giúp các nhà sinh hóa hiểu được những quy luật cấu trúc mà 50 năm nghiên cứu thủ công chưa đủ để phát hiện. Đây là phiên bản sơ khai của tương lai mà XAI hướng tới: AI không chỉ là công cụ làm thuê, mà là đối tác nghiên cứu có thể dạy lại con người những gì nằm ngoài tầm nhìn của bộ não người.

Giới hạn của XAI – sự thỏa hiệp không thể tránh khỏi

Bức tranh sẽ không hoàn chỉnh nếu không thừa nhận những giới hạn thực tế của XAI.

Thứ nhất, có sự đánh đổi căn bản giữa hiệu suất và diễn giải được. Các mô hình đơn giản, minh bạch như cây quyết định (decision tree) dễ giải thích nhưng thường kém chính xác hơn mạng thần kinh sâu phức tạp. Nhiều kỹ thuật XAI – như LIME và SHAP – là công cụ giải thích hậu kỳ (post-hoc), tức là chúng tạo ra lý giải sau khi mô hình đã đưa ra quyết định, không phải phản ánh cơ chế nội tại thực sự của mô hình.

Thứ hai, các giải thích XAI có thể bị lạm dụng để tạo vỏ bọc hợp pháp hóa cho những quyết định vẫn mang định kiến. Nếu một mô hình phân biệt đối xử, và SHAP giải thích điều đó bằng các yếu tố trung gian nghe có vẻ trung lập (ví dụ: "tỷ lệ vay-thu nhập" thay vì "chủng tộc"), giải thích đó trở thành công cụ che giấu bất công thay vì phát lộ nó.

Các kỹ thuật XAI có thể hữu ích cho các chuyên gia được đào tạo như nhà phát triển hoặc kiểm toán viên, nhưng có thể gây nguy hiểm khi trình bày cho người dùng chưa qua đào tạo. XAI sẽ hầu như không bao giờ cung cấp giải pháp duy nhất phù hợp cho mọi đối tượng.

Thứ ba, bản thân việc đo lường chất lượng của một lời giải thích vẫn là bài toán mở. Làm sao biết giải thích XAI là trung thực, không phải hợp lý hóa? Làm sao đảm bảo giải thích dành cho bác sĩ, thẩm phán, và người dùng phổ thông đều đúng với cùng mức độ phù hợp?

Kết luận: Từ "lời sấm truyền" đến "cộng sự thông thái"

Cuộc đua AI của thập kỷ này không chỉ là cuộc đua xem mô hình nào lớn hơn, mạnh hơn, rẻ hơn. Nó là cuộc đua xem mô hình nào đáng tin cậy hơn, theo nghĩa sâu xa nhất của từ này: không chỉ tin vì nó đúng, mà tin vì chúng ta hiểu tại sao nó đúng, và biết cách phát hiện khi nào nó sai.

Con người tự nhiên hoài nghi với những hệ thống mà họ không thể hiểu, đặc biệt khi những hệ thống đó ảnh hưởng đến sức khỏe và tương lai cá nhân. Sự thiếu giải thích tạo ra nỗi sợ. Sự minh bạch xoa dịu nỗi sợ đó bằng cách cho phép con người nhìn thấy không chỉ kết quả mà còn con đường suy luận đến kết quả đó.

Hành trình từ hộp đen sang hộp kính, nơi con người có thể quan sát, chất vấn, và học hỏi từ AI – vẫn còn dài và không bằng phẳng. Nhưng hướng đi đã rõ. Năm 2026, với EU AI Act chính thức có hiệu lực, với GDPR ngày càng được thực thi nghiêm túc, với các tổ chức y tế, tài chính, và tư pháp ngày càng bị kiểm soát chặt chẽ hơn về trách nhiệm giải trình – XAI không còn là lựa chọn. Nó là điều kiện tồn tại của AI trong xã hội dân chủ.

Trí tuệ nhân tạo tối thượng không phải là một vị thần đưa ra những lời sấm truyền không thể giải thích. Nó phải là một cộng sự thông thái, có thể đối thoại, có thể bị chất vấn, và cuối cùng, có thể được tin cậy vì lý do đúng.

Thứ Bảy, 06/06/2026 11:25

3 ★ 1 👨 137

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.