Test, triển khai và giám sát AI Agent tùy chỉnh

Trần Mến

Bài trước

Bài sau

Xây dựng một agent chỉ mất một buổi chiều. Duy trì hoạt động ổn định của nó lại cần một chiến lược.

🔄 Tóm tắt nhanh: Trong Bài học 6, bạn đã học cách xây dựng quy trình làm việc nhiều bước với các nhánh, vòng lặp, xử lý song song và xử lý lỗi. Những trình xử lý lỗi mà bạn đã thêm vào thì sao? Chúng là tuyến phòng thủ đầu tiên của bạn trong môi trường sản xuất. Bài học này sẽ bao gồm mọi thứ khác.

Hầu hết các agent không cần code đều thất bại không phải vì chúng được xây dựng sai, mà vì chúng được triển khai mà không được kiểm thử đúng cách và bị bỏ quên mà không được giám sát. Đừng trở thành người xây dựng như vậy.

Kiểm thử: Không chỉ là "Nó đã hoạt động một lần"

Kiểm thử diễn ra trong ba giai đoạn, và hầu hết mọi người bỏ qua hai giai đoạn cuối.

Giai đoạn 1: Kiểm thử trường hợp thành công (5 phút)

Đây là những gì bạn đã làm trong Bài học 4 - gửi một vài đầu vào rõ ràng và xác nhận rằng agent xử lý chúng chính xác. Email hỗ trợ nhận được phản hồi hỗ trợ. Email bán hàng nhận được phản hồi bán hàng.

Kiểm thử trường hợp thành công xác nhận logic cơ bản hoạt động. Nó không xác nhận rằng agent đã sẵn sàng cho môi trường sản xuất.

Giai đoạn 2: Kiểm thử các trường hợp ngoại lệ (20 phút)

Các trường hợp ngoại lệ là những dữ liệu đầu vào bất thường mà agent của bạn chắc chắn sẽ gặp phải trong môi trường sản xuất. Hãy kiểm thử những trường hợp này:

Trường hợp ngoại lệ	Tại sao điều đó lại quan trọng?
Email trống (không có nội dung, chỉ có tiêu đề)	AI không thể phân loại gì cả
Email rất dài (hơn 3.000 từ)	Giới hạn token, xử lý chậm
Email bằng tiếng nước ngoài	Độ chính xác phân loại giảm
Trả lời tự động từ một bot khác	Có thể tạo ra vòng lặp phản hồi vô hạn
Email chỉ có file đính kèm	Không có văn bản nào để phân loại
Thư rác có chứa các liên kết đáng ngờ	Agent không nên tham gia
Email có ký tự đặc biệt (é, ñ, 中文)	Các vấn đề về mã hóa
Email trùng lặp (đã gửi hai lần)	Agent không nên xử lý hai lần

Đối với mỗi trường hợp ngoại lệ, hãy ghi lại những gì đã xảy ra và liệu phản hồi có thể chấp nhận được hay không.

✅ Kiểm tra nhanh: Agent của bạn tự động trả lời email đến. Một công ty khác cũng có agent tự động trả lời. Điều gì xảy ra khi họ gửi email cho nhau?

Câu trả lời: Một vòng lặp vô hạn. Agent A tự động trả lời agent B. Agent B tự động trả lời agent A. Cứ thế tiếp diễn mãi mãi - cho đến khi tài khoản của bạn bị gắn cờ là thư rác hoặc bạn đạt đến giới hạn số lượng email gửi đi. Cách khắc phục: thêm bộ lọc bỏ qua email từ các địa chỉ tự động trả lời đã biết, hoặc kiểm tra tiêu đề "tự động trả lời".

Giai đoạn 3: Kiểm tra khối lượng (10 phút)

Gửi 20-30 email liên tiếp nhanh chóng. Điều này sẽ cho thấy:

Giới hạn số lượng: Nền tảng của bạn có bị hạn chế sau 10 lần kích hoạt nhanh chóng không?
Thứ tự: Email có được xử lý theo thứ tự hay ngẫu nhiên?
Xử lý trùng lặp: Nếu cùng một email được kích hoạt hai lần, agent có xử lý nó hai lần không?
Chi phí: 30 lần chạy đã tốn bao nhiêu chi phí cho các cuộc gọi API và hoạt động trên nền tảng?

Triển khai lên môi trường sản xuất

Agent của bạn đã vượt qua kiểm thử. Đã đến lúc đưa vào hoạt động chính thức. Nhưng không phải cùng một lúc.

Triển khai từng bước

Tuần 1: Chế độ ẩn. Agent chạy trên tất cả các email đến nhưng không gửi phản hồi. Nó ghi lại những gì đáng lẽ nó sẽ gửi. Bạn xem xét nhật ký hàng ngày và phát hiện sự cố trước khi khách hàng nhìn thấy chúng.

Tuần 2: 10% lưu lượng truy cập. Chuyển hướng 10% email đến agent (sử dụng bộ lọc — chỉ email từ các địa chỉ kết thúc bằng A-C, chẳng hạn). Giám sát chặt chẽ. Khắc phục mọi sự cố.

Tuần 3: 50% lưu lượng truy cập. Nếu tuần 2 diễn ra tốt đẹp, hãy tăng lên một nửa. Vẫn tiếp tục giám sát.

Tuần 4: 100% lưu lượng truy cập. Triển khai đầy đủ. Nhưng việc giám sát không bao giờ dừng lại.

Không thể triển khai từng bước? Ít nhất, hãy chạy chế độ ẩn trong 2-3 ngày trước khi đưa vào hoạt động chính thức. Nó giúp phát hiện các vấn đề rõ ràng nhất mà không ảnh hưởng đến khách hàng.

Danh sách kiểm tra trước khi vận hành

Trước khi bật công tắc:

[ ] Đã kiểm thử với hơn 20 đầu vào đa dạng, bao gồm cả các trường hợp ngoại lệ
[ ] Trình xử lý lỗi được thiết lập cho mọi lệnh gọi API bên ngoài
[ ] Ghi nhật ký được kích hoạt (mọi email đã xử lý đều được ghi vào bảng tính)
[ ] Phản hồi dự phòng được cấu hình khi AI gặp lỗi
[ ] Giới hạn tỷ lệ đã được kiểm tra (nền tảng sẽ không hạn chế bạn)
[ ] Ngăn chặn vòng lặp trả lời tự động đã được thiết lập
[ ] Có đường dẫn chuyển tiếp cho người dùng (agent không thể xử lý mọi thứ)
[ ] Kill switch sẵn sàng (bạn có thể vô hiệu hóa agent trong 30 giây)

✅ Kiểm tra nhanh: "Kill switch" cho agent là gì?

Câu trả lời: Một cách để dừng ngay lập tức agent xử lý các đầu vào mới. Trên Zapier, hãy tắt Zap. Trên Make, hãy hủy kích hoạt kịch bản. Trên n8n, hãy vô hiệu hóa quy trình làm việc. Bạn cần điều này trong trường hợp khẩn cấp — nếu agent bắt đầu gửi phản hồi sai, bạn cần dừng nó nhanh chóng. Hãy biết vị trí của nút tắt trước khi đưa vào hoạt động.

Giám sát: Cuộc chơi dài hạn

Agent của bạn đã hoạt động. Bây giờ thì sao?

Ba chỉ số quan trọng

1. Tỷ lệ chính xác. Agent phân loại chính xác bao nhiêu phần trăm email? Xem lại bảng tính nhật ký của bạn hàng tuần. Kiểm tra ngẫu nhiên 10 phân loại. Nếu độ chính xác giảm xuống dưới 85%, hãy điều tra.

2. Thời gian phản hồi. Mất bao lâu từ khi nhận email đến khi gửi phản hồi? Hầu hết các nền tảng đều hiển thị thời gian thực thi trong nhật ký của chúng. Nếu quy trình làm việc bắt đầu mất hơn 30 giây, bạn có thể gặp phải tắc nghẽn API hoặc mô hình AI bị quá tải.

3. Tỷ lệ lỗi. Tỷ lệ phần trăm các lần chạy quy trình làm việc bị lỗi là bao nhiêu? Kiểm tra bảng điều khiển lỗi của nền tảng. Bất kỳ tỷ lệ lỗi nào trên 5% đều cần được điều tra. Nguyên nhân thường gặp: Sự cố API, mã xác thực hết hạn, định dạng dữ liệu thay đổi.

Quy trình rà soát hàng tuần (15 phút)

Mỗi thứ Hai, hãy dành 15 phút cho việc này:

Mở bảng tính nhật ký của bạn. Quét tìm bất kỳ điều gì bất thường — phân loại không mong muốn, dữ liệu bị thiếu, các mục trùng lặp.
Kiểm tra nhật ký lỗi nền tảng. Có bất kỳ lần chạy nào thất bại không? Nguyên nhân là gì?
Xem xét 5-10 tương tác ngẫu nhiên của agent từ đầu đến cuối. Khách hàng có nhận được phản hồi chính xác không?
Ghi chú bất kỳ mẫu nào. Thứ Hai có phải là ngày có khối lượng giao dịch cao không? Có phải một số loại email nhất định luôn bị phân loại sai?

Thói quen 15 phút này giúp phát hiện các vấn đề trước khi chúng trở thành khủng hoảng.

Khi nào cần cập nhật agent

Agent của bạn không phải là công cụ "cài đặt một lần và quên đi". Cập nhật khi:

Độ chính xác phân loại giảm — cần tinh chỉnh prompt AI
Xuất hiện các danh mục email mới — doanh nghiệp của bạn đã thêm dòng sản phẩm mới
Số lượng khiếu nại của khách hàng tăng — có điều gì đó không ổn
Lỗi quy trình làm việc tăng đột biến — API đã thay đổi, token đã hết hạn
Các quy tắc kinh doanh thay đổi — SLA mới, giá cả mới, chính sách mới

Quy trình cập nhật an toàn: Sao chép quy trình làm việc → thực hiện thay đổi trên bản sao → kiểm tra với hơn 20 đầu vào → so sánh kết quả với bản gốc → chỉ thay thế khi phiên bản mới tốt hơn.

Những rủi ro trong sản xuất

Vấn đề	Triệu chứng	Sửa lỗi
Token hết hạn	Quy trình làm việc bị lỗi cứ sau 30 ngày.	Đặt lời nhắc trên lịch để làm mới OAuth token
Giới hạn tỷ lệ API	Lỗi xảy ra trong điều kiện lưu lượng truy cập cao	Thêm độ trễ giữa các lệnh gọi API trong vòng lặp
Mô hình AI thay đổi	Độ chính xác phân loại giảm đột ngột	Nên ghim vào phiên bản model cụ thể nếu có thể
Vòng lặp vô hạn	Hàng nghìn lượt chạy trong vài phút	Thêm tính năng phát hiện vòng lặp — nếu agent nhìn thấy email của chính nó, hãy dừng lại
Chi phí vượt quá dự kiến	Hóa đơn hàng tháng bất ngờ	Thiết lập cảnh báo chi tiêu trên nền tảng, sử dụng các mô hình giá rẻ

Tạo bộ kiểm thử trước khi ra mắt

Đừng tung ra thị trường cho đến khi bạn đã chạy thử nghiệm với các agent gây hại. Mở ChatGPT, Claude hoặc Gemini:

Đóng vai trò là kỹ sư kiểm thử chất lượng cho các AI agent. Thiết kế cho tôi một bộ kiểm thử trước khi ra mắt gồm 25 đầu vào đa dạng cho agent của tôi, bao gồm cả các trường hợp ngoại lệ có khả năng gây lỗi.

Agent của tôi:
- Mục đích: [mô tả trong một câu]
- Kích hoạt: [điều gì bắt đầu một lần chạy — ví dụ: email mới, gửi biểu mẫu, đã lên lịch]
- Các hành động chính: [các bước theo thứ tự]
- Công cụ được kết nối: [danh sách các dịch vụ bên ngoài]
- Định dạng đầu vào dự kiến: [ví dụ: "Email tiếng Anh, 50-500 từ, từ khách hàng bên ngoài"]
- Đầu ra chấp nhận được trông như thế nào: [ví dụ: "được phân loại là hỗ trợ/bán hàng/thư rác + thư trả lời nháp nếu không phải thư rác"]
- Chế độ lỗi nghiêm trọng nhất: [ví dụ: "gửi sai số tiền hoàn trả", "trả lời email lừa đảo có dữ liệu khách hàng"]

Thiết kế bộ kiểm thử với 25 đầu vào thuộc các danh mục này:

TRƯỜNG HỢP THUẬN LỢI (5 đầu vào) — các trường hợp rõ ràng mà agent nên xử lý thành công. Đối với mỗi trường hợp: đầu vào, đầu ra dự kiến, tiêu chí đạt.

CÁC TRƯỜNG HỢP NGOẠI LỆ (10 đầu vào) — kỳ lạ nhưng thực tế. Tối thiểu bao gồm:
- Đầu vào trống/tối thiểu
- Độ dài cực lớn (gấp 3-5 lần bình thường)
- Nội dung không phải tiếng Anh
- Đầu vào có định dạng phức tạp (bảng, khối mã, biểu tượng cảm xúc)
- Đầu vào tự động trả lời / do bot tạo ra
- Đầu vào có hướng dẫn nhúng cố gắng chèn lời nhắc
- Bản sao của một đầu vào gần đây (kiểm tra tính bất biến)

KIỂM TRA GIỚI HẠN (5 đầu vào) — những thứ nằm ngay ngoài phạm vi dự định của agent. Liệu nó nên từ chối một cách lịch sự hay thử và thất bại?

KIỂM TRA THẤT BẠI (5 đầu vào) — cố tình làm hỏng các công cụ. Điều gì xảy ra nếu API CRM bị lỗi? Điều gì xảy ra nếu phản hồi của AI là JSON bị lỗi? Điều gì xảy ra nếu trường giữ chỗ bị trống?

Đối với mỗi bài kiểm tra, hãy xuất ra dưới dạng bảng: TEST_ID | CATEGORY | INPUT | EXPECTED_BEHAVIOR | HOW_I_KNOW_IT_PASSED.

Cuối cùng: xếp hạng 3 bài kiểm tra QUAN TRỌNG NHẤT mà tôi phải vượt qua trước khi triển khai — những bài kiểm tra bảo vệ tôi khỏi các chế độ lỗi có rủi ro cao nhất ở trên.

Những gì bạn sẽ thấy: Một bộ kiểm thử gồm 25 đầu vào mà bạn có thể sao chép vào bảng tính và chạy qua agent của mình trước khi đưa vào hoạt động. Hầu hết các công cụ xây dựng không cần code đều được phát hành sau khi kiểm thử 3 đầu vào thành công và phát hiện ra một cách khó khăn rằng agent của họ lặp vô hạn khi gửi phản hồi tự động.

Chạy tất cả 25 đầu vào ở chế độ ẩn — agent xử lý chúng nhưng không gửi phản hồi. Xem xét từng đầu vào so với cột hành vi dự kiến. Chỉ đưa vào hoạt động sau khi ít nhất 22/25 đầu vào vượt qua và 3 bài kiểm thử quan trọng vượt qua 100%.

Những điểm chính cần ghi nhớ

Kiểm thử có ba giai đoạn: Trường hợp bình thường (cơ bản), trường hợp ngoại lệ (đầu vào bất thường) và quy mô lớn (mức độ) — đừng bỏ qua hai giai đoạn cuối
Triển khai dần dần: Chế độ thử nghiệm → 10% → 50% → 100%, phát hiện sự cố trước khi khách hàng gặp phải
Theo dõi ba chỉ số hàng tuần: Tỷ lệ chính xác, thời gian phản hồi và tỷ lệ lỗi
Không bao giờ sửa đổi trực tiếp quy trình làm việc đang hoạt động — sao chép, kiểm thử, so sánh, sau đó thay thế
Thiết lập một quy trình đánh giá hàng tuần 15 phút — đó là sự khác biệt giữa một agent hoạt động bền bỉ và một agent bị lỗi âm thầm

Câu 1:
Bạn muốn cập nhật prompt phân loại của agent. Cách an toàn nhất để triển khai thay đổi là gì?
- A. Hãy yêu cầu AI tự cập nhật
- B. Cập nhật prompt và hy vọng điều tốt nhất - trong những điều kiện rất cụ thể, điều này có thể áp dụng, nhưng xét về tổng quát thì lời khuyên này không hiệu quả
- C. Tạo một bản sao của quy trình làm việc, kiểm tra prompt mới với hơn 20 đầu vào khác nhau, so sánh kết quả với phiên bản cũ, sau đó chỉ thay thế quy trình làm việc đang hoạt động sau khi phiên bản mới hoạt động tốt hơn hoặc bằng phiên bản cũ
GIẢI THÍCH:

Không bao giờ sửa đổi trực tiếp quy trình làm việc đang hoạt động. Mô hình an toàn: Sao chép, kiểm tra, so sánh, thay thế. Điều này được gọi là triển khai xanh-đỏ trong kỹ thuật - bạn giữ cho phiên bản cũ hoạt động trong khi kiểm tra phiên bản mới. Nếu phiên bản mới hoạt động kém hơn, bạn không làm hỏng gì cả. Nếu nó tốt hơn, hãy thay thế nó.
Câu 2:
Agent của bạn đã hoạt động được một tuần. Làm thế nào để bạn biết nó đang hoạt động tốt?
- A. Nếu không ai phàn nàn, nghĩa là hệ thống hoạt động tốt - nhầm lẫn giữa tương quan và nguyên nhân ở đây sẽ dẫn đến các chiến lược không hiệu quả.
- B. Kiểm tra ba chỉ số: Tỷ lệ chính xác (% phân loại đúng), thời gian phản hồi (nhanh như thế nào) và tỷ lệ lỗi (% lỗi). Thiết lập bảng điều khiển hoặc xem xét bảng tính nhật ký hàng tuần.
- C. Chạy lại 5 email thử nghiệm tương tự.
GIẢI THÍCH:

Không có khiếu nại không có nghĩa là không có vấn đề. Khách hàng thường chỉ rời đi thay vì phàn nàn. Giám sát chủ động có nghĩa là theo dõi độ chính xác (phân loại có chính xác không?), tốc độ (phản hồi trong thời gian chấp nhận được không?) và lỗi (quy trình làm việc có bị lỗi âm thầm không?). Bảng tính nhật ký của bạn từ Bài học 5 cung cấp cho bạn dữ liệu này - hãy xem xét nó hàng tuần.
Câu 3:
Bạn đã thử nghiệm agent của mình với 5 email và mọi thứ đều hoạt động. Đồng nghiệp của bạn nói rằng nó đã sẵn sàng để đưa vào sản xuất. Cách tiếp cận này có vấn đề gì?
- A. 5 bài kiểm tra chỉ bao gồm các trường hợp thuận lợi. Lưu lượng truy cập sản xuất bao gồm những trường hợp ngoại lệ mà bạn chưa tưởng tượng ra.
- B. Không có gì sai cả — 5 bài kiểm tra là đủ nếu tất cả đều vượt qua — đây là một niềm tin phổ biến nhưng không ổn khi xem xét kỹ hơn.
- C. Bạn cần chính xác 100 bài kiểm tra trước khi triển khai.
GIẢI THÍCH:

5 email hoạt động tốt là những email đơn giản. Sản phẩm sẽ gặp lỗi với những email kỳ lạ: Email có file đính kèm 50MB, vòng lặp trả lời tự động từ một bot khác, email bằng tiếng Nhật trong khi agent của bạn chỉ xử lý tiếng Anh, email chỉ có dòng tiêu đề mà không có nội dung. Kiểm tra đa dạng sẽ phát hiện ra những lỗi này trước khi khách hàng của bạn gặp phải. Thư rác, email trống, ngôn ngữ nước ngoài, file đính kèm lớn, trả lời tự động và dữ liệu không đúng định dạng. Kiểm tra với tối thiểu 20-30 đầu vào đa dạng.

Thứ Ba, 19/05/2026 07:30

3 ★ 1 👨 178

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

AI Agents

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Test, triển khai và giám sát AI Agent tùy chỉnh

Kiểm thử: Không chỉ là "Nó đã hoạt động một lần"

Giai đoạn 1: Kiểm thử trường hợp thành công (5 phút)

Giai đoạn 2: Kiểm thử các trường hợp ngoại lệ (20 phút)

Giai đoạn 3: Kiểm tra khối lượng (10 phút)

Triển khai lên môi trường sản xuất

Triển khai từng bước

Danh sách kiểm tra trước khi vận hành

Giám sát: Cuộc chơi dài hạn

Ba chỉ số quan trọng

Quy trình rà soát hàng tuần (15 phút)

Khi nào cần cập nhật agent

Những rủi ro trong sản xuất

Tạo bộ kiểm thử trước khi ra mắt

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Hàng rào bảo vệ, tính an toàn và sự tham gia của con người trong quá trình vận hành AI Agent

Suy luận và lập kế hoạch nhiều bước để xây dựng AI agent

Sử dụng công cụ: Cung cấp khả năng cho các agent

Cách thức hoạt động thực tế của AI Agent

Xây dựng agent đầu tiên của bạn

Các agent framework và việc điều phối

4 thành phần trong cấu trúc AI agent

Xây dựng hệ thống agent sản xuất

Sử dụng công cụ: Tăng thêm sức mạnh cho AI agent