Các mô hình kiến trúc cho bạn biết cần xây dựng cái gì. Điều phối cho bạn biết cách vận hành nó. Và việc vận hành các hệ thống multi-agent trong môi trường sản xuất là nơi phát sinh hầu hết các vấn đề khó khăn — thời gian chờ, lỗi, thử lại, kiểm soát chi phí và đảm bảo toàn bộ hệ thống không bị sụp đổ khi một agent gặp sự cố.
🔄 Tóm tắt nhanh: Trong Bài học 4, bạn đã học rằng schema có cấu trúc giúp ngăn ngừa lỗi giao tiếp. Bây giờ, bạn sẽ học cách quản lý việc thực thi — đảm bảo các agent chạy theo đúng thứ tự, đúng thời điểm, với những phương án dự phòng phù hợp khi có sự cố xảy ra.
Công việc của trình điều phối
Trình điều phối là người chỉ huy hệ thống multi-agent của bạn. Nó quyết định:
Cái gì chạy khi nào — agent nào sẽ được kích hoạt và theo thứ tự nào
Phải làm gì khi có lỗi — thử lại, bỏ qua, sử dụng phương án dự phòng hoặc chuyển giao
Khi nào dừng lại — thời gian chờ, ngân sách token, ngưỡng chất lượng
Cái gì sẽ được chuyển tiếp — lọc và định tuyến giữa các agent
Trong CrewAI, việc điều phối hầu hết là tự động. Trong LangGraph, bạn phải xây dựng nó một cách rõ ràng. Trong AutoGen, nó xuất hiện từ các quy tắc hội thoại. Nhưng những nguyên tắc thì vẫn giống nhau.
Điều phối tuần tự trong thực tế
Điều phối tuần tự là điều cơ bản và dễ thực hiện. Nhưng các quy trình tuần tự trong môi trường sản xuất cần nhiều hơn là "Agent A rồi Agent B".
Checkpoint: Lưu kết quả đầu ra của mỗi agent trước khi chuyển sang agent tiếp theo. Nếu Agent 3 gặp lỗi, bạn có thể khởi động lại từ đầu vào của Agent 3 — chứ không phải bắt đầu lại từ đầu.
📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc hội thoại mới.
📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.
✏️ Cách điền thông tin chi tiết của bạn: Thay thế mỗi dấu ngoặc vuông [] và trình giữ chỗ trong ngoặc bằng các chi tiết cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả đầu ra mơ hồ — hãy cụ thể.
👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa trên prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.
📌 Nên làm gì với kết quả đầu ra: Lưu phản hồi vào file Notes. Chọn gợi ý có tác động cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm tất cả mọi thứ cùng một lúc.
⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."
Nếu Agent 3 gặp lỗi, bạn vẫn còn lưu trữ kết quả đầu ra của Agent 1 và 2. Hãy thử lại Agent 3 mà không cần thực hiện lại toàn bộ pipeline.
Chiến lược thử lại: Khi một agent gặp lỗi, đừng chỉ thử lại cùng một thao tác. Hãy sử dụng phương pháp từng bước:
Thử lại như cũ (lỗi API tạm thời sẽ nhanh chóng được khắc phục)
Thử lại với prompt đơn giản hơn (có thể prompt ban đầu quá phức tạp)
Thử lại với một mô hình khác (chuyển từ GPT-4 sang Claude, hoặc ngược lại)
Nâng cao mức độ hỗ trợ (lưu checkpoint, thông báo cho người dùng)
Hầu hết các lỗi đều là tạm thời — lỗi hết thời gian chờ API, giới hạn tốc độ, sự cố mạng. Một lần thử lại duy nhất sẽ khắc phục được 70-80% sự cố.
✅ Kiểm tra nhanh: Pipeline 5 agent của bạn gặp lỗi ở Agent 4. Agent 1, 2 và 3 hoạt động tốt. Nếu bạn không có tính năng lưu checkpoint, điều gì sẽ xảy ra?
Câu trả lời: Bạn khởi động lại toàn bộ quy trình từ Agent 1, chạy lại 3 agent đã tạo ra kết quả tốt. Điều đó lãng phí thời gian, token và tiền bạc. Việc tạo checkpoint có nghĩa là bạn lưu lại kết quả đầu ra của mỗi agent và chỉ khởi động lại từ điểm xảy ra lỗi. Đối với các hệ thống sản xuất, việc tạo checkpoint không phải là tùy chọn — mà là bắt buộc.
Điều phối song song trong thực tế
Chạy các agent song song rất nhanh nhưng lại tạo ra những thách thức mới.
Giới hạn phân bổ: Không nên chạy 50 agent cùng lúc. Giới hạn tốc độ API, bộ nhớ và chi phí đều tăng tuyến tính. Giới hạn việc thực thi song song của bạn ở mức 5-10 agent mỗi loạt.
Quản lý thời gian chờ: Đặt thời hạn. Nếu một agent song song vẫn đang chạy khi các agent khác đã hoàn thành, đừng chờ đợi mãi mãi. Hãy xử lý những gì bạn có.
Thời gian chờ: 30 giây
Agent A: ✅ hoàn thành trong 5 giây
Agent B: ✅ hoàn thành trong 12 giây
Agent C: ⏰ vẫn đang chạy sau 30 giây → đánh dấu là chưa hoàn thành
→ Trình kết hợp xử lý A + B, ghi chú C không khả dụng
Chuẩn hóa kết quả: Ngay cả với schema, các agent chạy song song có thể trả về những mức độ chi tiết khác nhau. Trình kết hợp của bạn cần xử lý sự khác biệt - Agent A viết 200 từ, Agent B viết 800 từ, Agent C chỉ trả về các gạch đầu dòng. Chuẩn hóa trước khi kết hợp.
Nhận thức về chi phí: 3 agent chạy song song tốn gấp 3 lần một agent. Nếu bạn thực hiện 100 tác vụ mỗi ngày, đó là 300 lần gọi agent. Lập ngân sách cho phù hợp. Đôi khi chạy 3 agent song song là lựa chọn đúng đắn, nhưng 10 agent chạy song song là quá mức cần thiết cho cùng một tác vụ.
Điều phối phân cấp trong thực tế
Supervisor agent là bộ điều phối mạnh nhất — và dễ gặp lỗi nhất.
Giai đoạn lập kế hoạch: Supervisor chia nhiệm vụ thành các nhiệm vụ nhỏ hơn trước khi giao việc. Một gợi ý tốt từ Supervisor bao gồm:
<instructions>
1. Phân tích nhiệm vụ được giao
2. Chia nhiệm vụ thành 2-5 nhiệm vụ nhỏ (không nhiều hơn)
3. Phân công mỗi nhiệm vụ nhỏ cho worker phù hợp nhất
4. Sau khi worker hoàn thành, hãy xem xét chất lượng
5. Nếu chất lượng không đạt yêu cầu, hãy phân công lại hoặc cung cấp phản hồi
6. Kết hợp các kết quả thành sản phẩm cuối cùng
</instructions>
Các mô hình giám sát: Supervisor thực hiện mức độ kiểm soát như thế nào?
Mức độ
Mô tả
Sử dụng khi nào
Delegator
Phân công nhiệm vụ, thu thập kết quả, xem xét tối thiểu
Worker đáng tin cậy, nhiệm vụ được xác định rõ ràng
Reviewer
Phân công nhiệm vụ, xem xét từng kết quả, yêu cầu chỉnh sửa
Các nhiệm vụ quan trọng về chất lượng
Micro-manager
Xem xét kỹ lưỡng từng bước và cung cấp phản hồi ở mỗi giai đoạn
Hệ thống mới, giai đoạn gỡ lỗi
Hãy bắt đầu với vai trò Micro-manager trong quá trình xây dựng. Chuyển sang vai trò Delegator khi bạn đã tin tưởng các agent. Mô hình Micro-manager giúp phát hiện vấn đề sớm. Mô hình Delegator giúp quá trình vận hành nhanh hơn.
✅ Kiểm tra nhanh: Supervisor agent của bạn liên tục chia nhỏ nhiệm vụ thành hơn 10 nhiệm vụ con, tạo ra nhiều công việc hơn mức cần thiết. Làm thế nào để khắc phục điều này?
Câu trả lời: Thêm một ràng buộc rõ ràng vào prompt của Supervisor: "Chia nhiệm vụ thành không quá 5 nhiệm vụ con. Nếu một nhiệm vụ có vẻ cần nhiều hơn, hãy kết hợp các công việc liên quan thành những nhiệm vụ con lớn hơn." Đồng thời cung cấp các ví dụ về việc phân chia nhiệm vụ tốt để Supervisor hiểu được mức độ chi tiết mà bạn mong muốn. Ít nhiệm vụ con hơn nhưng lớn hơn sẽ giảm chi phí phối hợp.
Quản lý chi phí và token
Hệ thống multi-agent rất cần token. Một quy trình 5 agent có thể sử dụng số token gấp 5-10 lần so với một agent đơn lẻ. Quản lý chi phí là trách nhiệm của điều phối.
Ngân sách token cho mỗi agent: Đặt giới hạn token tối đa cho phản hồi của mỗi agent. Một agent nghiên cứu không cần đến 10.000 token — hãy giới hạn ở mức 2.000. Một agent tóm tắt? Tối đa 500 token.
Lựa chọn mô hình cho mỗi agent: Không phải agent nào cũng cần mô hình đắt nhất của bạn. Một mô hình phổ biến:
Vai trò của agent
Mô hình
Lý do
Phân loại/Điều hướng
Nhanh, rẻ (Haiku)
Phân loại đơn giản
Nghiên cứu
Trung cấp (Sonnet)
Đủ tốt cho việc tổng hợp tìm kiếm
Phân tích
Hàng đầu (Opus/GPT-4)
Cần có khả năng suy luận phức tạp
Định dạng
Nhanh, rẻ (Haiku)
Nhiệm vụ cơ học
Chiến lược "kết hợp mô hình" này có thể giảm chi phí từ 40-60% so với việc chạy mọi agent trên mô hình đắt nhất của bạn.
Dừng sớm: Nếu trình điều phối xác định nhiệm vụ đã hoàn thành trước khi đến agent cuối cùng, hãy dừng lại. Không nên chạy các agent chỉ vì mục đích chạy chúng. Một Supervisor theo cấp bậc nên kiểm tra: "Tôi đã có đủ đầu ra chất lượng để trả lời câu hỏi ban đầu chưa?" Nếu có, hãy bỏ qua các agent còn lại.
Tổng hợp lại: Quy trình sản xuất nội dung
Đây là cách một hệ thống sản xuất nội dung thực tế có thể hoạt động với sự điều phối hợp lý:
1. Supervisor nhận yêu cầu "Viết một bài đăng blog về X"
2. Supervisor lập kế hoạch: Nghiên cứu → Dàn ý → Bản nháp → Chỉnh sửa → SEO
3. Research Agent (Sonnet, giới hạn 2000 từ, thời gian chờ 30 giây)
→ Lưu checkpoint
4. Outline Agent (Haiku, giới hạn 500 từ, thời gian chờ 10 giây)
→ Lưu checkpoint
5. Draft Agent (Opus, giới hạn 4000 từ, thời gian chờ 60 giây)
→ Lưu checkpoint
6. Edit Agent (Sonnet, giới hạn 3000 từ, thời gian chờ 30 giây)
→ Nếu điểm chất lượng < 0.7, thử lại với phản hồi
7. SEO Agent (Haiku, giới hạn 500 từ, thời gian chờ 10 giây)
→ Kết quả cuối cùng
Mỗi agent có một mô hình, một ngân sách token, thời gian chờ và checkpoint. Bước chỉnh sửa có cổng kiểm soát chất lượng. Toàn bộ quy trình có chi phí thấp hơn khoảng 60% so với việc chạy từng bước trên Opus.
✅ Kiểm tra nhanh: Bạn đang xây dựng một quy trình và muốn sử dụng mô hình rẻ nhất cho mỗi bước để tiết kiệm chi phí. Tại sao điều này có thể phản tác dụng?
Câu trả lời: Các mô hình giá rẻ hoạt động tốt cho những tác vụ đơn giản — định tuyến, định dạng, tóm tắt. Nhưng đối với các suy luận phức tạp — phân tích, viết sáng tạo, những quyết định tinh tế — chúng tạo ra đầu ra chất lượng thấp hơn, cần sự chỉnh sửa của con người hoặc làm gián đoạn quy trình. Chi phí sửa chữa đầu ra kém thường vượt quá khoản tiết kiệm từ việc sử dụng mô hình rẻ hơn. Hãy lựa chọn mô hình phù hợp với độ khó của nhiệm vụ.
Những điểm chính cần ghi nhớ
Việc lưu checkpoint giúp lưu lại đầu ra của mỗi agent để các lỗi không làm khởi động lại toàn bộ quy trình
Chiến lược thử lại: Cùng một đầu vào → prompt đơn giản hóa → mô hình khác → chuyển giao
Giới hạn song song: Giới hạn ở 5-10 agent, đặt thời gian chờ, chuẩn hóa kết quả trước khi kết hợp
Các agent giám sát cần có giới hạn nhiệm vụ phụ rõ ràng và tiêu chí chất lượng rõ ràng
Việc kết hợp các mô hình giúp giảm chi phí 40-60% — chỉ sử dụng các mô hình đắt tiền khi độ phức tạp yêu cầu
Ngân sách token cho mỗi agent ngăn ngừa chi phí vượt quá tầm kiểm soát
Việc kết thúc sớm giúp tiết kiệm tiền — dừng lại khi nhiệm vụ hoàn thành, không chạy thêm agent
Câu 1:
Tại sao bạn nên tránh chạy quá nhiều agent song song?
GIẢI THÍCH:
Thực thi song song có những hạn chế thực tế. Giới hạn tốc độ API giới hạn số lượng yêu cầu đồng thời bạn có thể thực hiện. Mỗi agent sử dụng token (và tiền). Và agent kết hợp có giới hạn cửa sổ ngữ cảnh riêng — 20 báo cáo nghiên cứu có thể vượt quá khả năng xử lý cùng một lúc của nó. Một trình điều phối tốt sẽ giới hạn các agent song song và hàng loạt công việc để duy trì trong giới hạn.
Câu 2:
Trong một quy trình xử lý tuần tự, Agent 2 thất bại sau khi Agent 1 thành công. Chiến lược phục hồi tốt nhất là gì?
GIẢI THÍCH:
Đầu ra của Agent 1 đã hoàn thành — không cần làm lại. Thử lại Agent 2 trước (lỗi tạm thời thường xảy ra với các lệnh gọi API). Nếu vẫn tiếp tục thất bại, prompt đơn giản hơn có thể hiệu quả. Nếu vẫn thất bại, hãy lưu lại đầu ra của Agent 1 và chuyển cho người xem xét. Nguyên tắc chính: Không bao giờ làm lại công việc đã hoàn thành.
Câu 3:
Hệ thống phân phối song song của bạn gửi cùng một tác vụ đến 3 agent. Agent A trả về kết quả sau 5 giây, agent B sau 12 giây, agent C sau 45 giây. Bộ điều phối của bạn nên làm gì?
GIẢI THÍCH:
Thời gian chờ ngăn một agent chậm làm đình trệ mọi thứ. Trong trường hợp này, agent A và B đã trả về dữ liệu tốt. Agent C có thể bị kẹt ở một truy vấn phức tạp hoặc gặp sự cố API. Một bộ điều phối thông minh sẽ xử lý những gì nó có, đánh dấu C là chưa hoàn thành và quyết định dựa trên chính sách: Thử lại, bỏ qua hoặc sử dụng kết quả được lưu trong bộ nhớ cache/dự phòng.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây: