Sau 7 bài học, bạn đã học về kiến trúc, so sánh các nền tảng, thiết kế hội thoại, viết prompt tối ưu hóa giọng nói, khám phá những trường hợp sử dụng và thiết lập thử nghiệm. Giờ là lúc bạn xây dựng Voice Agent của riêng mình.
🔄 Tóm tắt nhanh: Đây là những gì bạn đã học - thị trường Voice AI và lý do tại sao năm 2026 là bước ngoặt (Bài học 1), quy trình STT-LLM-TTS và phân tích độ trễ (Bài học 2), so sánh các nền tảng Vapi, Retell, Bland và Synthflow (Bài học 3), các nguyên tắc thiết kế hội thoại như tối đa 3 câu và xử lý gián đoạn (Bài học 4), prompt hệ thống 5 phần với INSTRUCTIONS và COMMANDS (Bài học 5), 4 trường hợp sử dụng có ROI cao với số liệu thực tế (Bài học 6) và chấm điểm cuộc gọi 100% với bộ kiểm thử tiêu chuẩn vàng (Bài học 7). Bài học cuối cùng này sẽ tổng hợp tất cả lại.
Bước 1: Chọn trường hợp sử dụng và nền tảng
Đừng cố gắng xây dựng một agent đa năng làm mọi thứ. Hãy chọn một trường hợp sử dụng. Hãy làm cho nó hoạt động hoàn hảo. Sau đó hãy mở rộng.
Chọn trường hợp sử dụng của bạn:
Trường hợp sử dụng
Tốt nhất cho
Độ phức tạp
Đặt lịch hẹn
Nha khoa, y tế, thẩm mỹ viện, dịch vụ ô tô
Trung bình
Câu hỏi thường gặp + định tuyến
Thương mại điện tử, viễn thông, tiện ích
Trung bình thấp
Sàng lọc khách hàng tiềm năng
Phần mềm B2B dạng dịch vụ (SaaS), bất động sản, bảo hiểm
Trung bình
Nhắc nhở thanh toán
Bất kỳ doanh nghiệp nào có hóa đơn định kỳ
Thấp
Bắt đầu từ con số không? Hãy chọn hệ thống đặt lịch hẹn hoặc hỏi đáp tự động. Chúng có mô hình hội thoại dễ dự đoán nhất và thời gian tạo ra giá trị nhanh nhất.
Chọn nền tảng của bạn:
Nếu bạn...
Chọn
Lý do
Muốn kiểm soát hoàn toàn API
Vapi
Linh hoạt nhất, 0,05 USD/phút, tài liệu tuyệt vời
Bạn muốn tốc độ + trình tạo trực quan
Retell
Thiết lập nhanh nhất, độ trễ thấp nhất
Muốn không cần viết code
Synthflow
Thao tác kéo và thả, không cần kỹ năng kỹ thuật
Muốn đơn giản hết mức có thể
Bland
Cấu hình tối thiểu, hoạt động trơn tru
Nếu bạn vẫn chưa chắc chắn, hãy bắt đầu với trình tạo trực quan của Retell hoặc trình chỉnh sửa không cần code của Synthflow. Bạn luôn có thể chuyển đổi sau này - kỹ năng thiết kế prompt và hội thoại có thể áp dụng trên mọi nền tảng.
Bước 2: Thiết kế luồng hội thoại
Lập kế hoạch cho toàn bộ cuộc gọi trước khi bạn sử dụng bất kỳ nền tảng nào. Sử dụng framework này:
LỜI CHÀO
└── Xác định mục đích
├── Mục đích A (ví dụ: Đặt lịch mới)
│ ├── Thu thập thông tin (tên, ngày, dịch vụ)
│ ├── Xác nhận chi tiết
│ └── Xác nhận + kết thúc
├── Mục đích B (ví dụ: Thay đổi lịch hẹn)
│ ├── Tra cứu lịch hẹn hiện có
│ ├── Đề xuất các lựa chọn thay thế
│ └── Xác nhận + kết thúc
├── Mục đích C (ví dụ: Câu hỏi/Câu hỏi thường gặp)
│ ├── Trả lời từ kho kiến thức
│ └── Kết thúc hoặc định tuyến
└── Ngoài phạm vi
└── Chuyển tiếp cho người thật
TẠM BIỆT
Các quy tắc từ Bài học 4:
Chào hỏi: Dưới 10 giây. Giới thiệu bản thân và hỏi xem bạn có thể giúp gì.
Mỗi lượt: Tối đa 3 câu. Ngắn gọn hơn thì tốt hơn.
Phân nhánh: Không quá 3-4 ý định ở cấp độ cao nhất.
Chuyển tiếp: Xác định chính xác thời điểm nhân viên chuyển giao. Sau 2 lần thử không thành công? Khi người gọi yêu cầu được nói chuyện với người thật? Khi một chủ đề cụ thể được đề cập?
Tạm biệt: Xác nhận những gì đã hoàn thành, hỏi xem còn gì nữa không, kết thúc một cách thân thiện.
Hãy viết quy trình này ra giấy hoặc vào tài liệu trước khi chuyển sang Bước 3. Mỗi phút dành ra ở đây sẽ tiết kiệm được 10 phút gỡ lỗi sau này.
Bước 3: Viết prompt hệ thống
Sử dụng cấu trúc 5 phần từ Bài học 5:
Phần 1: Vai trò
Bạn là [Tên], [vai trò] tại [Công ty].
Bạn [chức năng chính — đặt lịch hẹn / trả lời câu hỏi / sàng lọc khách hàng tiềm năng].
Bạn có giọng nói [tính cách — ấm áp, chuyên nghiệp, năng động, điềm tĩnh].
Phần 2: Mục tiêu
Mục tiêu của bạn (theo thứ tự ưu tiên):
1. [Mục tiêu chính — giải quyết yêu cầu của người gọi]
2. [Mục tiêu phụ — thu thập thông tin cần thiết]
3. [Mục tiêu thứ ba — duy trì hiệu quả cuộc gọi]
Phần 3: Hướng dẫn
Hướng dẫn:
- Giữ câu trả lời tối đa 1-3 câu
- Sử dụng tên của người gọi sau khi họ cho biết
- [Hướng dẫn về giọng điệu]
- [Hướng dẫn về tốc độ nói]
Phần 4: Mệnh lệnh
Mệnh lệnh:
- LUÔN LUÔN [hành động không thể thương lượng]
- KHÔNG BAO GIỜ [hành động bị cấm]
- KHÔNG ĐƯỢC [hành động bị cấm khác]
- LUÔN LUÔN [hành động bắt buộc khác]
Phần 5: Giới hạn an toàn
Giới hạn an toàn:
- [Chủ đề nằm ngoài phạm vi] → [Cách xử lý]
- [Người gọi bực bội] → [Cách xử lý]
- [Hệ thống gặp sự cố] → [Cách xử lý] [Im lặng > 5 giây] → [Cách xử lý]
Sau đó thêm quy trình từng bước của bạn từ Bước 2. Hãy rõ ràng. Đừng viết "xử lý đặt chỗ" - hãy viết "Hỏi ngày khách hàng muốn đặt, sau đó đề xuất 2-3 khung giờ có sẵn".
Kiểm tra chất lượng: Đọc to từng câu trả lời của agent trong quy trình của bạn. Nếu mất hơn 8-10 giây để nói, hãy rút ngắn lại.
✅ Kiểm tra nhanh: Bạn đã viết một prompt hệ thống và câu trả lời đầu tiên của agent dài 4 câu. Bạn nên làm gì?
Câu trả lời: Rút ngắn xuống còn 2-3 câu. Hãy nhớ quy tắc từ Bài học 5 - tối đa 35 từ mỗi câu trả lời. Đọc to lên. Nếu mất hơn 8 giây, thì quá dài để đọc bằng giọng nói.
Bước 4: Cấu hình quy trình STT / LLM / TTS
Từ Bài học 2, hãy nhớ 3 thành phần và tác động của chúng đến độ trễ:
Thành phần
Các tùy chọn
Độ trễ
Yếu tố chi phí
STT
Deepgram, AssemblyAI, Whisper
100-500ms
Thấp
LLM
GPT-4o, Claude 3.5, Gemini
200-2000ms
Cao nhất
TTS
ElevenLabs, PlayHT, Deepgram
200-800ms
Trung bình
Cấu hình khởi đầu được đề xuất:
STT: Deepgram Nova-2 - nhanh, chính xác, xử lý giọng nói tốt
LLM: GPT-4o-mini hoặc Claude 3.5 Haiku - đủ nhanh cho giọng nói, đủ thông minh cho hội thoại
TTS: ElevenLabs hoặc PlayHT - giọng nói tự nhiên, độ trễ thấp với tính năng stream
Các cài đặt quan trọng cần cấu hình:
Thời gian chờ phản hồi - thời gian chờ sau khi người gọi ngừng nói trước khi trả lời. Quá ngắn (200ms) sẽ làm gián đoạn. Quá dài (1500ms) sẽ gây ra sự im lặng khó xử. Bắt đầu ở mức 500-700ms và điều chỉnh.
Xử lý gián đoạn - điều gì xảy ra khi người gọi nói chen vào lời người điều hành. Hầu hết các nền tảng đều hỗ trợ chế độ "dừng và nghe". Hãy bật chế độ này.
Thời gian chờ im lặng - thời gian chờ trong khoảng lặng trước khi nhắc người gọi. 5-8 giây là tiêu chuẩn.
Thời lượng cuộc gọi tối đa - đặt giới hạn cứng. 10 phút cho hầu hết các trường hợp sử dụng. Ngăn chặn các cuộc gọi kéo dài quá lâu.
Bước 5: Kiểm tra với 10 cuộc gọi mẫu
Trước khi chia sẻ điều này với bất kỳ người gọi thực sự nào, hãy tự mình kiểm tra. Gọi cho agent của bạn 10 lần, đóng các vai khác nhau:
Danh sách kiểm tra cuộc gọi thử nghiệm
#
Kịch bản
Những điều cần kiểm tra
1
Quy trình thông thường — yêu cầu tiêu chuẩn
Liệu toàn bộ quy trình có hoạt động trơn tru từ đầu đến cuối?
2
Quy trình thông thường — ý định khác
Định tuyến ý định có hoạt động không?
3
Yêu cầu không rõ ràng
Agent có đặt câu hỏi làm rõ vấn đề không?
4
Thay đổi ý định giữa chừng cuộc gọi
Liệu agent có xử lý các thao tác xoay trục một cách mượt mà không?
5
Câu hỏi nằm ngoài phạm vi
Agent sẽ chuyển hướng hay chuyển giao vấn đề?
6
Giọng điệu bực bội/thiếu kiên nhẫn
Liệu agent có thừa nhận và thích ứng không?
7
Nói lắp bắp/không rõ ràng
STT có xử lý việc này không? Agent có yêu cầu nhắc lại không?
8
Im lặng kéo dài (không nói gì trong 10 giây)
Liệu agent có đặt câu hỏi sau khi im lặng không?
9
Ngắt lời (nói chen vào lời agent)
Liệu agent có dừng lại và lắng nghe không?
10
Đối kháng (cố gắng phá vỡ prompt)
Giới hạn bảo vệ có xử lý được các tình huống không?
Với mỗi cuộc gọi, hãy chấm điểm:
Agent đã hoàn thành nhiệm vụ chưa? (Có/Không)
Độ trễ có chấp nhận được không? (<1 giây cho từ đầu tiên)
Có câu trả lời nào quá dài không? (>3 câu)
Agent có bịa đặt thông tin gì không? (Thông tin bịa đặt)
Bạn có hài lòng nếu là người gọi thực sự không? (Thang điểm 1-5)
Khắc phục mọi sự cố trước khi tiếp tục. Các vấn đề thường gặp ở vòng đầu tiên:
Agent nói quá nhiều → Rút ngắn prompt. Thêm "Giữ câu trả lời trong 1-2 câu".
Độ trễ cao → Chuyển sang LLM nhanh hơn (GPT-4o-mini thay vì GPT-4o).
Agent không xử lý được giọng địa phương → Chuyển sang nhà cung cấp STT hoặc thêm gợi ý phát âm.
Agent nói ngoài kịch bản → Thêm nhiều COMMANDS và giới hạn an toàn.
Bước 6: Giám sát và lặp lại
Thử nghiệm với một nhóm nhỏ trước. Chuyển 10-20% cuộc gọi đến agent, phần còn lại chuyển cho người thật. Sau đó:
Tuần 1: Đánh giá hàng ngày - Nghe 10 cuộc gọi ngẫu nhiên mỗi ngày - Kiểm tra tỷ lệ hoàn thành nhiệm vụ (mục tiêu: >80%) - Xem xét mọi trường hợp cần chuyển giao - liệu có cần thiết không? - Khắc phục lỗi thường gặp nhất
Tuần 2-4: Mở rộng quy mô - Tăng lên 50% số cuộc gọi nếu các chỉ số của Tuần 1 vẫn giữ nguyên - Thiết lập cảnh báo tự động (từ Bài học 7) - Chạy bộ kiểm thử tiêu chuẩn vàng sau mỗi lần thay đổi prompt - Theo dõi xu hướng hàng tuần
Tháng 2 trở đi: Tối ưu hóa - Chuyển 100% cuộc gọi đủ điều kiện cho agent - Kiểm tra hàng tháng - Mở rộng sang các trường hợp sử dụng khác - Kiểm thử A/B các biến thể prompt
Danh sách tự đánh giá
Trước khi kết thúc, hãy đảm bảo bạn có thể:
[ ] Giải thích quy trình STT-LLM-TTS và cách độ trễ cộng dồn
[ ] So sánh ít nhất 3 nền tảng Voice AI và chọn nền tảng phù hợp cho một kịch bản cụ thể
[ ] Thiết kế luồng hội thoại với lời chào, định tuyến ý định và các hướng chuyển giao
[ ] Viết prompt hệ thống được tối ưu hóa bằng giọng nói với tất cả 5 phần (Vai trò, Mục tiêu, Hướng dẫn, Lệnh, Giới hạn)
[ ] Giữ phản hồi của agent dưới 35 từ / 3 câu
[ ] Xác định trường hợp sử dụng nào trong 4 trường hợp phù hợp với một doanh nghiệp cụ thể
[ ] Xây dựng bộ kiểm thử tiêu chuẩn vàng với các trường hợp thành công, trường hợp ngoại lệ và chế độ lỗi
[ ] Thiết lập giám sát với ngưỡng cảnh báo cho ảo giác, hoàn thành và độ trễ
[ ] Tính toán ROI cho việc triển khai agent giọng nói
[ ] Ra mắt agent giọng nói với quá trình triển khai theo từng giai đoạn (10% → 50% → 100%)
Nếu hoàn thành tất cả 10 mục, bạn đã sẵn sàng. Hãy xây dựng thứ gì đó mà mọi người thực sự sẽ tương tác.
Những điểm chính cần ghi nhớ
Bắt đầu với một trường hợp sử dụng - đặt lịch hẹn hoặc hỏi đáp tự động là những triển khai an toàn nhất đầu tiên
Thiết kế luồng hội thoại trên giấy trước khi sử dụng bất kỳ nền tảng nào
Sử dụng cấu trúc prompt hệ thống 5 phần: Vai trò, Mục tiêu, Hướng dẫn, Lệnh, Giới hạn
Cấu hình STT/LLM/TTS ưu tiên tốc độ - người gọi sẽ không chờ quá một giây
Kiểm tra với 10 cuộc gọi theo kịch bản bao gồm các trường hợp thuận lợi, trường hợp ngoại lệ và đầu vào bất lợi
Triển khai theo từng giai đoạn: 10% cuộc gọi trước, sau đó mở rộng dựa trên số liệu
Theo dõi hàng ngày trong tuần đầu tiên, hàng tuần sau đó, với cảnh báo tự động cho các lỗi
Sự khác biệt giữa một voice agent tuyệt vời và một agent tầm thường nằm ở thiết kế hội thoại và prompt - chứ không phải nền tảng hay giọng nói
Câu 1:
Yếu tố quan trọng nhất nào phân biệt các voice agent xuất sắc với những agent bình thường?
GIẢI THÍCH:
Pipeline STT-LLM-TTS là điều kiện tiên quyết - mọi nền tảng đều cung cấp nó. Chất lượng giọng nói đang ngày càng được cải thiện. Điều làm nên sự khác biệt giữa một voice agent được người gọi yêu thích và một agent khiến họ cúp máy chính là cách thiết kế cuộc hội thoại: Độ dài phản hồi, cấu trúc luồng, xử lý tình huống mơ hồ, các rào cản và lộ trình chuyển giao vấn đề. Tất cả đều thuộc về kỹ thuật xử lý prompt và thiết kế hội thoại.
Câu 2:
Bạn đã ra mắt voice agent của mình. Sau 100 cuộc gọi, tỷ lệ hoàn thành tác vụ là 72% - thấp hơn mục tiêu 85%. Bạn nên làm gì?
GIẢI THÍCH:
Không bao giờ chuyển đổi nền tảng hoặc hạ thấp tiêu chuẩn trước khi chẩn đoán vấn đề. Tỷ lệ lỗi 28% có một quy luật - có thể agent không xử lý được yêu cầu lên lịch lại, hoặc người gọi có giọng địa phương gây ra lỗi STT, hoặc một bước nào đó trong quy trình hội thoại của bạn gây nhầm lẫn. Tìm ra quy luật, sửa prompt hoặc quy trình, kiểm tra lại và lặp lại.
Câu 3:
Bạn đang xây dựng voice agent đầu tiên của mình. Điều quan trọng nhất cần làm đúng trước khi viết bất kỳ dòng cấu hình nào là gì?
GIẢI THÍCH:
Việc lựa chọn nền tảng và giọng nói rất quan trọng, nhưng đó là những quyết định ở giai đoạn sau. Nếu bạn chưa xác định rõ ràng agent nên xử lý những gì, nên từ chối những gì và khi nào nên chuyển giao, bạn sẽ xây dựng một thứ nghe có vẻ tốt nhưng lại thất bại trong thực tế. Xác định phạm vi trước, mọi thứ khác sau.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây: