Trong vài năm gần đây, generative AI đã trở thành chủ đề xuất hiện gần như ở khắp mọi nơi. Người ta liên tục nói về khả năng của các large language model, diffusion model hay AI agent với sự tò mò xen lẫn kinh ngạc. Một mô hình AI có thể viết kernel driver? Có thể. AI sáng tác bài hát về chú mèo của bạn? Hoàn toàn có thể. AI tạo hình ảnh phi hành gia thời trung cổ chân thực tới mức khó tin? Cũng có thể.
Nhưng câu hỏi quan trọng hơn lại là: liệu kết quả đó có thực sự tốt và đáng tin hay không?
Đây chính là điểm nhiều người thường bỏ qua khi đánh giá AI hiện đại. Trong thực tế, “có thể làm được” là một tiêu chuẩn khá thấp với các hệ thống xác suất. Trong một không gian mẫu đủ lớn, gần như mọi thứ đều có thể xảy ra ít nhất một lần. Điều quan trọng không nằm ở việc một kết quả có khả năng xuất hiện hay không, mà là xác suất để kết quả đó xuất hiện ổn định và lặp lại được bao nhiêu lần. Và đó cũng là khác biệt lớn nhất giữa một demo AI gây ấn tượng và một hệ thống production AI thực sự. Demo thường "sống" nhờ những edge case thú vị, còn production system lại phụ thuộc vào tính nhất quán.

Không gian xác suất của AI lớn hơn con người tưởng rất nhiều
Để hiểu vì sao reliability vẫn là vấn đề rất khó với AI, cần nhìn vào kích thước của “không gian khả năng” mà mô hình đang hoạt động. Với ví dụ đơn giản như tung đồng xu, không gian mẫu chỉ có hai khả năng: ngửa hoặc sấp. Con người hoàn toàn có thể hình dung trực quan toàn bộ hệ thống đó.
Nhưng với một language model tạo chuỗi 512 token từ vocabulary khoảng 50.000 token, số lượng khả năng đầu ra gần như vượt ngoài khả năng tưởng tượng. Điều này tạo ra một thực tế khá quan trọng: trong “đại dương” kết quả mà model có thể sinh ra, phần thực sự hữu ích, logic và đúng sự thật có thể chỉ là một vùng rất nhỏ. Hay nói cách khác, cái “có thể xảy ra” thì gần như vô hạn, nhưng cái “thường xuyên đúng” lại rất nhỏ.
Đó cũng là lý do hallucination (ảo giác) xuất hiện. Hallucination không hẳn là bug phần mềm theo kiểu truyền thống. Nó xảy ra vì model đang sampling từ những vùng của phân phối xác suất có xác suất khác 0 nhưng gần như không có giá trị thực tế. Nhiều người nghĩ rằng chỉ cần thêm nhiều dữ liệu thì hallucination sẽ biến mất, nhưng vấn đề nằm ở chỗ bất kỳ hệ thống probabilistic nào cũng luôn tồn tại khả năng sampling vào vùng xác suất thấp. Đây là đặc tính tự nhiên của mô hình chứ không đơn thuần là thiếu dữ liệu.
AI không hoạt động như những phép thử độc lập
Khi đánh giá AI system, thường tồn tại hai góc nhìn rất khác nhau. Một bên gần với tư duy frequentist: chạy benchmark hàng nghìn lần rồi tính accuracy trung bình. Ví dụ, nếu model giải đúng 850 trên 1000 bài test, người ta gọi nó là hệ thống có độ chính xác 85%.
Nhưng góc nhìn còn lại mang màu sắc lý thuyết hơn. Con người thường hình thành kỳ vọng về cách một hệ thống thông minh nên hoạt động, sau đó điều chỉnh niềm tin khi gặp các failure bất ngờ. Điểm khác biệt này rất quan trọng vì prompt không phải những sự kiện độc lập. Nếu model giải đúng 9 bài toán liên tiếp, nhiều người sẽ mặc định rằng xác suất giải đúng câu thứ 10 cũng tương tự. Nhưng LLM không hoạt động như chuỗi Bernoulli trial độc lập. Output của chúng phụ thuộc vào context trước đó, hidden representation và mật độ ví dụ liên quan trong training distribution. Điều đó khiến hiệu suất của model mang tính “điều kiện” hơn là một con số cố định.
Confidence không đồng nghĩa với sự chắc chắn
Một trong những hiểu nhầm phổ biến nhất về AI nằm ở confidence score. Trong machine learning, Softmax thường được dùng để biến output thành xác suất. Nếu model cho “0.90” với nhãn “cat”, nhiều người sẽ hiểu rằng AI “chắc chắn 90%”. Nhưng thực tế phức tạp hơn nhiều.
Softmax sử dụng hàm mũ nên chỉ một khác biệt rất nhỏ giữa các logit cũng có thể bị khuếch đại mạnh. Điều này dẫn tới tình huống model trông cực kỳ tự tin không phải vì nó “thật sự biết”, mà chỉ vì một token tình cờ có logit nhỉnh hơn một chút so với các token còn lại.
Khi ChatGPT dự đoán từ tiếp theo, điều nó thực sự đang làm là chọn token có xác suất lớn nhất sau Softmax. Vấn đề là hệ thống không thực sự hiểu khái niệm “tôi không chắc”. Đó là lý do xuất hiện hiện tượng “confident fool” — AI khẳng định điều sai với giọng điệu cực kỳ chắc chắn vì nó chưa học được cách biểu đạt sự bất định.
Nhiều dữ liệu hơn không đồng nghĩa với nhiều “sự thật” hơn
Luật số lớn (Law of Large Numbers) cho rằng khi kích thước mẫu tăng lên, giá trị quan sát sẽ dần tiến gần tới kỳ vọng. Đây cũng là lý do nhiều hệ thống AI hiện đại được train trên lượng dữ liệu khổng lồ. Ý tưởng nghe rất hợp lý: nếu model nhìn thấy đủ nhiều ví dụ, cuối cùng nó sẽ học được “sự thật”.
Nhưng có một giả định quan trọng thường bị bỏ quên: phân phối dữ liệu nền phải tương đối ổn định. Trong khi đó, ngôn ngữ và tri thức con người thì không ổn định. Chúng thay đổi liên tục, chứa đầy mâu thuẫn, bias và cả thông tin sai lệch. Ngay cả trong cùng một thành phố, con người cũng có thể dùng cùng một từ theo những cách hoàn toàn khác nhau.
Vì vậy, model không nhất thiết hội tụ về “truth”. Nó hội tụ về “pattern phổ biến nhất”. Nếu một hiểu lầm xuất hiện đủ thường xuyên trong dữ liệu, model hoàn toàn có thể học nhầm điều đó vì về mặt thống kê, nó trở thành continuation có xác suất cao nhất.
“Sáng tạo” đôi khi chỉ là sampling vào vùng xác suất thấp
Nhiều người mô tả AI là “sáng tạo” khi nó tạo ra kết quả bất ngờ. Nhưng dưới góc nhìn xác suất, điều đang xảy ra có thể đơn giản hơn nhiều. Temperature sampling (tham số giúp điều chỉnh độ ngẫu nhiên, sáng tạo hoặc độ chính xác trong câu trả lời của AI) thay đổi xác suất model chọn những token ít khả năng hơn. Temperature thấp tạo output an toàn, dễ đoán và ổn định hơn. Temperature cao khiến output đa dạng hơn nhưng đồng thời tăng nguy cơ hallucination.
Về bản chất, tăng temperature đồng nghĩa với việc “làm phẳng” phân phối xác suất, khiến các outcome ít khả năng xảy ra được sample thường xuyên hơn. Điều mà con người đôi khi gọi là “creativity” thực chất có thể chỉ là model đang khám phá những vùng ít xác suất hơn trong distribution.
Từ “có thể” sang “đáng tin cậy”
Nếu mục tiêu là xây dựng AI system hoạt động ổn định trong môi trường thực tế, việc chỉ chứng minh “model có thể làm được” là chưa đủ. Điều cần tập trung hơn là độ tin cậy. Có nhiều hướng tiếp cận đang được sử dụng để tăng độ tin cậy cho AI system.
Một số kỹ thuật như Platt Scaling hoặc Isotonic Regression giúp điều chỉnh confidence score gần hơn với hiệu suất thực tế. Các phương pháp như Bayesian neural network hoặc Monte Carlo Dropout giúp mô hình thể hiện tốt hơn phần “nó không biết”. Ngoài ra, nhiều production system hiện đại cũng sử dụng external validation layer để kiểm tra cấu trúc output thay vì tin tưởng tuyệt đối rằng model sẽ luôn tự tuân thủ quy tắc.
Nói cách khác, thay vì giả định AI sẽ luôn hành xử đúng, hệ thống production hiện đại bắt đầu được thiết kế dựa trên giả định rằng AI cuối cùng rồi cũng sẽ sai ở đâu đó.
Vài năm trước, việc AI có thể dự đoán từ tiếp theo đã đủ khiến mọi người kinh ngạc. Nhưng hiện tại, ngành AI bắt đầu nhận ra rằng đó mới chỉ là một nửa vấn đề. Thách thức lớn hơn nhiều là liệu AI có thể dự đoán đúng một cách ổn định và lặp lại được hay không.
Trong thế giới gần như vô hạn khả năng, gần như mọi thứ đều có thể xảy ra ít nhất một lần. Nhưng engineering chưa bao giờ xoay quanh chuyện “điều gì có thể xảy ra”. Engineering xoay quanh chuyện điều gì đủ đáng tin để xảy ra lần nữa.
Hướng dẫn AI
Học IT
AI
Hàm Excel