Xây dựng Voice Agent của riêng bạn

Trần Mến

Bài trước

Bài sau

Sau 7 bài học, bạn đã học về kiến trúc, so sánh các nền tảng, thiết kế hội thoại, viết prompt tối ưu hóa giọng nói, khám phá những trường hợp sử dụng và thiết lập thử nghiệm. Giờ là lúc bạn xây dựng Voice Agent của riêng mình.

🔄 Tóm tắt nhanh: Đây là những gì bạn đã học - thị trường Voice AI và lý do tại sao năm 2026 là bước ngoặt (Bài học 1), quy trình STT-LLM-TTS và phân tích độ trễ (Bài học 2), so sánh các nền tảng Vapi, Retell, Bland và Synthflow (Bài học 3), các nguyên tắc thiết kế hội thoại như tối đa 3 câu và xử lý gián đoạn (Bài học 4), prompt hệ thống 5 phần với INSTRUCTIONS và COMMANDS (Bài học 5), 4 trường hợp sử dụng có ROI cao với số liệu thực tế (Bài học 6) và chấm điểm cuộc gọi 100% với bộ kiểm thử tiêu chuẩn vàng (Bài học 7). Bài học cuối cùng này sẽ tổng hợp tất cả lại.

Bước 1: Chọn trường hợp sử dụng và nền tảng

Đừng cố gắng xây dựng một agent đa năng làm mọi thứ. Hãy chọn một trường hợp sử dụng. Hãy làm cho nó hoạt động hoàn hảo. Sau đó hãy mở rộng.

Chọn trường hợp sử dụng của bạn:

Trường hợp sử dụng	Tốt nhất cho	Độ phức tạp
Đặt lịch hẹn	Nha khoa, y tế, thẩm mỹ viện, dịch vụ ô tô	Trung bình
Câu hỏi thường gặp + định tuyến	Thương mại điện tử, viễn thông, tiện ích	Trung bình thấp
Sàng lọc khách hàng tiềm năng	Phần mềm B2B dạng dịch vụ (SaaS), bất động sản, bảo hiểm	Trung bình
Nhắc nhở thanh toán	Bất kỳ doanh nghiệp nào có hóa đơn định kỳ	Thấp

Bắt đầu từ con số không? Hãy chọn hệ thống đặt lịch hẹn hoặc hỏi đáp tự động. Chúng có mô hình hội thoại dễ dự đoán nhất và thời gian tạo ra giá trị nhanh nhất.

Chọn nền tảng của bạn:

Nếu bạn...	Chọn	Lý do
Muốn kiểm soát hoàn toàn API	Vapi	Linh hoạt nhất, 0,05 USD/phút, tài liệu tuyệt vời
Bạn muốn tốc độ + trình tạo trực quan	Retell	Thiết lập nhanh nhất, độ trễ thấp nhất
Muốn không cần viết code	Synthflow	Thao tác kéo và thả, không cần kỹ năng kỹ thuật
Muốn đơn giản hết mức có thể	Bland	Cấu hình tối thiểu, hoạt động trơn tru

Nếu bạn vẫn chưa chắc chắn, hãy bắt đầu với trình tạo trực quan của Retell hoặc trình chỉnh sửa không cần code của Synthflow. Bạn luôn có thể chuyển đổi sau này - kỹ năng thiết kế prompt và hội thoại có thể áp dụng trên mọi nền tảng.

Bước 2: Thiết kế luồng hội thoại

Lập kế hoạch cho toàn bộ cuộc gọi trước khi bạn sử dụng bất kỳ nền tảng nào. Sử dụng framework này:

LỜI CHÀO
  └── Xác định mục đích
        ├── Mục đích A (ví dụ: Đặt lịch mới)
        │     ├── Thu thập thông tin (tên, ngày, dịch vụ)
        │     ├── Xác nhận chi tiết
        │     └── Xác nhận + kết thúc
        ├── Mục đích B (ví dụ: Thay đổi lịch hẹn)
        │     ├── Tra cứu lịch hẹn hiện có
        │     ├── Đề xuất các lựa chọn thay thế
        │     └── Xác nhận + kết thúc
        ├── Mục đích C (ví dụ: Câu hỏi/Câu hỏi thường gặp)
        │     ├── Trả lời từ kho kiến thức
        │     └── Kết thúc hoặc định tuyến
        └── Ngoài phạm vi
              └── Chuyển tiếp cho người thật
TẠM BIỆT

Các quy tắc từ Bài học 4:

Chào hỏi: Dưới 10 giây. Giới thiệu bản thân và hỏi xem bạn có thể giúp gì.
Mỗi lượt: Tối đa 3 câu. Ngắn gọn hơn thì tốt hơn.
Phân nhánh: Không quá 3-4 ý định ở cấp độ cao nhất.
Chuyển tiếp: Xác định chính xác thời điểm nhân viên chuyển giao. Sau 2 lần thử không thành công? Khi người gọi yêu cầu được nói chuyện với người thật? Khi một chủ đề cụ thể được đề cập?
Tạm biệt: Xác nhận những gì đã hoàn thành, hỏi xem còn gì nữa không, kết thúc một cách thân thiện.

Hãy viết quy trình này ra giấy hoặc vào tài liệu trước khi chuyển sang Bước 3. Mỗi phút dành ra ở đây sẽ tiết kiệm được 10 phút gỡ lỗi sau này.

Bước 3: Viết prompt hệ thống

Sử dụng cấu trúc 5 phần từ Bài học 5:

Phần 1: Vai trò

Bạn là [Tên], [vai trò] tại [Công ty].
Bạn [chức năng chính — đặt lịch hẹn / trả lời câu hỏi / sàng lọc khách hàng tiềm năng].
Bạn có giọng nói [tính cách — ấm áp, chuyên nghiệp, năng động, điềm tĩnh].

Phần 2: Mục tiêu

Mục tiêu của bạn (theo thứ tự ưu tiên):
1. [Mục tiêu chính — giải quyết yêu cầu của người gọi]
2. [Mục tiêu phụ — thu thập thông tin cần thiết]
3. [Mục tiêu thứ ba — duy trì hiệu quả cuộc gọi]

Phần 3: Hướng dẫn

Hướng dẫn:
- Giữ câu trả lời tối đa 1-3 câu
- Sử dụng tên của người gọi sau khi họ cho biết
- [Hướng dẫn về giọng điệu]
- [Hướng dẫn về tốc độ nói]

Phần 4: Mệnh lệnh

Mệnh lệnh:
- LUÔN LUÔN [hành động không thể thương lượng]
- KHÔNG BAO GIỜ [hành động bị cấm]
- KHÔNG ĐƯỢC [hành động bị cấm khác]
- LUÔN LUÔN [hành động bắt buộc khác]

Phần 5: Giới hạn an toàn

Giới hạn an toàn:
- [Chủ đề nằm ngoài phạm vi] → [Cách xử lý]
- [Người gọi bực bội] → [Cách xử lý]
- [Hệ thống gặp sự cố] → [Cách xử lý] [Im lặng > 5 giây] → [Cách xử lý]

Sau đó thêm quy trình từng bước của bạn từ Bước 2. Hãy rõ ràng. Đừng viết "xử lý đặt chỗ" - hãy viết "Hỏi ngày khách hàng muốn đặt, sau đó đề xuất 2-3 khung giờ có sẵn".

Kiểm tra chất lượng: Đọc to từng câu trả lời của agent trong quy trình của bạn. Nếu mất hơn 8-10 giây để nói, hãy rút ngắn lại.

✅ Kiểm tra nhanh: Bạn đã viết một prompt hệ thống và câu trả lời đầu tiên của agent dài 4 câu. Bạn nên làm gì?

Câu trả lời: Rút ngắn xuống còn 2-3 câu. Hãy nhớ quy tắc từ Bài học 5 - tối đa 35 từ mỗi câu trả lời. Đọc to lên. Nếu mất hơn 8 giây, thì quá dài để đọc bằng giọng nói.

Bước 4: Cấu hình quy trình STT / LLM / TTS

Từ Bài học 2, hãy nhớ 3 thành phần và tác động của chúng đến độ trễ:

Thành phần	Các tùy chọn	Độ trễ	Yếu tố chi phí
STT	Deepgram, AssemblyAI, Whisper	100-500ms	Thấp
LLM	GPT-4o, Claude 3.5, Gemini	200-2000ms	Cao nhất
TTS	ElevenLabs, PlayHT, Deepgram	200-800ms	Trung bình

Cấu hình khởi đầu được đề xuất:

STT: Deepgram Nova-2 - nhanh, chính xác, xử lý giọng nói tốt
LLM: GPT-4o-mini hoặc Claude 3.5 Haiku - đủ nhanh cho giọng nói, đủ thông minh cho hội thoại
TTS: ElevenLabs hoặc PlayHT - giọng nói tự nhiên, độ trễ thấp với tính năng stream

Các cài đặt quan trọng cần cấu hình:

Thời gian chờ phản hồi - thời gian chờ sau khi người gọi ngừng nói trước khi trả lời. Quá ngắn (200ms) sẽ làm gián đoạn. Quá dài (1500ms) sẽ gây ra sự im lặng khó xử. Bắt đầu ở mức 500-700ms và điều chỉnh.
Xử lý gián đoạn - điều gì xảy ra khi người gọi nói chen vào lời người điều hành. Hầu hết các nền tảng đều hỗ trợ chế độ "dừng và nghe". Hãy bật chế độ này.
Thời gian chờ im lặng - thời gian chờ trong khoảng lặng trước khi nhắc người gọi. 5-8 giây là tiêu chuẩn.
Thời lượng cuộc gọi tối đa - đặt giới hạn cứng. 10 phút cho hầu hết các trường hợp sử dụng. Ngăn chặn các cuộc gọi kéo dài quá lâu.

Bước 5: Kiểm tra với 10 cuộc gọi mẫu

Trước khi chia sẻ điều này với bất kỳ người gọi thực sự nào, hãy tự mình kiểm tra. Gọi cho agent của bạn 10 lần, đóng các vai khác nhau:

Danh sách kiểm tra cuộc gọi thử nghiệm

#	Kịch bản	Những điều cần kiểm tra
1	Quy trình thông thường — yêu cầu tiêu chuẩn	Liệu toàn bộ quy trình có hoạt động trơn tru từ đầu đến cuối?
2	Quy trình thông thường — ý định khác	Định tuyến ý định có hoạt động không?
3	Yêu cầu không rõ ràng	Agent có đặt câu hỏi làm rõ vấn đề không?
4	Thay đổi ý định giữa chừng cuộc gọi	Liệu agent có xử lý các thao tác xoay trục một cách mượt mà không?
5	Câu hỏi nằm ngoài phạm vi	Agent sẽ chuyển hướng hay chuyển giao vấn đề?
6	Giọng điệu bực bội/thiếu kiên nhẫn	Liệu agent có thừa nhận và thích ứng không?
7	Nói lắp bắp/không rõ ràng	STT có xử lý việc này không? Agent có yêu cầu nhắc lại không?
8	Im lặng kéo dài (không nói gì trong 10 giây)	Liệu agent có đặt câu hỏi sau khi im lặng không?
9	Ngắt lời (nói chen vào lời agent)	Liệu agent có dừng lại và lắng nghe không?
10	Đối kháng (cố gắng phá vỡ prompt)	Giới hạn bảo vệ có xử lý được các tình huống không?

Với mỗi cuộc gọi, hãy chấm điểm:

Agent đã hoàn thành nhiệm vụ chưa? (Có/Không)
Độ trễ có chấp nhận được không? (<1 giây cho từ đầu tiên)
Có câu trả lời nào quá dài không? (>3 câu)
Agent có bịa đặt thông tin gì không? (Thông tin bịa đặt)
Bạn có hài lòng nếu là người gọi thực sự không? (Thang điểm 1-5)

Khắc phục mọi sự cố trước khi tiếp tục. Các vấn đề thường gặp ở vòng đầu tiên:

Agent nói quá nhiều → Rút ngắn prompt. Thêm "Giữ câu trả lời trong 1-2 câu".
Độ trễ cao → Chuyển sang LLM nhanh hơn (GPT-4o-mini thay vì GPT-4o).
Agent không xử lý được giọng địa phương → Chuyển sang nhà cung cấp STT hoặc thêm gợi ý phát âm.
Agent nói ngoài kịch bản → Thêm nhiều COMMANDS và giới hạn an toàn.

Bước 6: Giám sát và lặp lại

Thử nghiệm với một nhóm nhỏ trước. Chuyển 10-20% cuộc gọi đến agent, phần còn lại chuyển cho người thật. Sau đó:

Tuần 1: Đánh giá hàng ngày - Nghe 10 cuộc gọi ngẫu nhiên mỗi ngày - Kiểm tra tỷ lệ hoàn thành nhiệm vụ (mục tiêu: >80%) - Xem xét mọi trường hợp cần chuyển giao - liệu có cần thiết không? - Khắc phục lỗi thường gặp nhất

Tuần 2-4: Mở rộng quy mô - Tăng lên 50% số cuộc gọi nếu các chỉ số của Tuần 1 vẫn giữ nguyên - Thiết lập cảnh báo tự động (từ Bài học 7) - Chạy bộ kiểm thử tiêu chuẩn vàng sau mỗi lần thay đổi prompt - Theo dõi xu hướng hàng tuần

Tháng 2 trở đi: Tối ưu hóa - Chuyển 100% cuộc gọi đủ điều kiện cho agent - Kiểm tra hàng tháng - Mở rộng sang các trường hợp sử dụng khác - Kiểm thử A/B các biến thể prompt

Danh sách tự đánh giá

Trước khi kết thúc, hãy đảm bảo bạn có thể:

[ ] Giải thích quy trình STT-LLM-TTS và cách độ trễ cộng dồn
[ ] So sánh ít nhất 3 nền tảng Voice AI và chọn nền tảng phù hợp cho một kịch bản cụ thể
[ ] Thiết kế luồng hội thoại với lời chào, định tuyến ý định và các hướng chuyển giao
[ ] Viết prompt hệ thống được tối ưu hóa bằng giọng nói với tất cả 5 phần (Vai trò, Mục tiêu, Hướng dẫn, Lệnh, Giới hạn)
[ ] Giữ phản hồi của agent dưới 35 từ / 3 câu
[ ] Xác định trường hợp sử dụng nào trong 4 trường hợp phù hợp với một doanh nghiệp cụ thể
[ ] Xây dựng bộ kiểm thử tiêu chuẩn vàng với các trường hợp thành công, trường hợp ngoại lệ và chế độ lỗi
[ ] Thiết lập giám sát với ngưỡng cảnh báo cho ảo giác, hoàn thành và độ trễ
[ ] Tính toán ROI cho việc triển khai agent giọng nói
[ ] Ra mắt agent giọng nói với quá trình triển khai theo từng giai đoạn (10% → 50% → 100%)

Nếu hoàn thành tất cả 10 mục, bạn đã sẵn sàng. Hãy xây dựng thứ gì đó mà mọi người thực sự sẽ tương tác.

Những điểm chính cần ghi nhớ

Bắt đầu với một trường hợp sử dụng - đặt lịch hẹn hoặc hỏi đáp tự động là những triển khai an toàn nhất đầu tiên
Thiết kế luồng hội thoại trên giấy trước khi sử dụng bất kỳ nền tảng nào
Sử dụng cấu trúc prompt hệ thống 5 phần: Vai trò, Mục tiêu, Hướng dẫn, Lệnh, Giới hạn
Cấu hình STT/LLM/TTS ưu tiên tốc độ - người gọi sẽ không chờ quá một giây
Kiểm tra với 10 cuộc gọi theo kịch bản bao gồm các trường hợp thuận lợi, trường hợp ngoại lệ và đầu vào bất lợi
Triển khai theo từng giai đoạn: 10% cuộc gọi trước, sau đó mở rộng dựa trên số liệu
Theo dõi hàng ngày trong tuần đầu tiên, hàng tuần sau đó, với cảnh báo tự động cho các lỗi
Sự khác biệt giữa một voice agent tuyệt vời và một agent tầm thường nằm ở thiết kế hội thoại và prompt - chứ không phải nền tảng hay giọng nói

Câu 1:
Yếu tố quan trọng nhất nào phân biệt các voice agent xuất sắc với những agent bình thường?
- A. Thiết kế hội thoại và kỹ thuật tạp prompt - pipeline là cơ sở hạ tầng, nhưng những gì bạn đưa vào prompt và cách bạn cấu trúc cuộc hội thoại sẽ quyết định liệu người gọi kết thúc cuộc gọi với sự hài lòng hay thất vọng
- B. Sử dụng mô hình AI đắt tiền nhất - điều này thoạt nhìn có vẻ hợp lý nhưng nghiên cứu chỉ ra một hướng khác
- C. Sở hữu giọng nói chân thực nhất
GIẢI THÍCH:

Pipeline STT-LLM-TTS là điều kiện tiên quyết - mọi nền tảng đều cung cấp nó. Chất lượng giọng nói đang ngày càng được cải thiện. Điều làm nên sự khác biệt giữa một voice agent được người gọi yêu thích và một agent khiến họ cúp máy chính là cách thiết kế cuộc hội thoại: Độ dài phản hồi, cấu trúc luồng, xử lý tình huống mơ hồ, các rào cản và lộ trình chuyển giao vấn đề. Tất cả đều thuộc về kỹ thuật xử lý prompt và thiết kế hội thoại.
Câu 2:
Bạn đã ra mắt voice agent của mình. Sau 100 cuộc gọi, tỷ lệ hoàn thành tác vụ là 72% - thấp hơn mục tiêu 85%. Bạn nên làm gì?
- A. Xem xét lại 28% cuộc gọi bị lỗi để xác định các mẫu - chúng có bị lỗi ở một ý định cụ thể, một loại người gọi cụ thể hoặc ở một bước cụ thể trong quy trình không? Khắc phục lỗi thường gặp nhất trước tiên
- B. Chuyển sang nền tảng khác - một hiểu lầm thường xuyên dẫn đến kết quả không tối ưu
- C. Hạ mục tiêu xuống 72%
GIẢI THÍCH:

Không bao giờ chuyển đổi nền tảng hoặc hạ thấp tiêu chuẩn trước khi chẩn đoán vấn đề. Tỷ lệ lỗi 28% có một quy luật - có thể agent không xử lý được yêu cầu lên lịch lại, hoặc người gọi có giọng địa phương gây ra lỗi STT, hoặc một bước nào đó trong quy trình hội thoại của bạn gây nhầm lẫn. Tìm ra quy luật, sửa prompt hoặc quy trình, kiểm tra lại và lặp lại.
Câu 3:
Bạn đang xây dựng voice agent đầu tiên của mình. Điều quan trọng nhất cần làm đúng trước khi viết bất kỳ dòng cấu hình nào là gì?
- A. Chọn nền tảng rẻ nhất - nhầm lẫn giữa mối tương quan và nguyên nhân ở đây sẽ dẫn đến các chiến lược không hiệu quả
- B. Chọn giọng nói tốt nhất
- C. Xác định trường hợp sử dụng, phạm vi cuộc hội thoại và tiêu chí chuyển giao - nếu không có ranh giới rõ ràng, agent sẽ cố gắng xử lý mọi thứ và không làm tốt bất cứ điều gì
GIẢI THÍCH:

Việc lựa chọn nền tảng và giọng nói rất quan trọng, nhưng đó là những quyết định ở giai đoạn sau. Nếu bạn chưa xác định rõ ràng agent nên xử lý những gì, nên từ chối những gì và khi nào nên chuyển giao, bạn sẽ xây dựng một thứ nghe có vẻ tốt nhưng lại thất bại trong thực tế. Xác định phạm vi trước, mọi thứ khác sau.

Thứ Hai, 04/05/2026 08:53

5 ★ 1 👨 111

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

AI Agents

Giấy phép Mạng Xã Hội số 362/GP-BTTTT. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Xây dựng Voice Agent của riêng bạn

Bước 1: Chọn trường hợp sử dụng và nền tảng

Bước 2: Thiết kế luồng hội thoại

Bước 3: Viết prompt hệ thống

Phần 1: Vai trò

Phần 2: Mục tiêu

Phần 3: Hướng dẫn

Phần 4: Mệnh lệnh

Phần 5: Giới hạn an toàn

Bước 4: Cấu hình quy trình STT / LLM / TTS

Bước 5: Kiểm tra với 10 cuộc gọi mẫu

Bước 6: Giám sát và lặp lại

Danh sách tự đánh giá

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Thiết kế hội thoại cho AI Voice Agent

Suy luận và lập kế hoạch nhiều bước để xây dựng AI agent

Xây dựng agent đầu tiên của bạn

Lựa chọn nền tảng cho AI Voice Agent

Test, giám sát và đảm bảo chất lượng AI Voice Agent

Các trường hợp sử dụng AI Voice Agent: Hỗ trợ, bán hàng và lập lịch

Hàng rào bảo vệ, tính an toàn và sự tham gia của con người trong quá trình vận hành AI Agent

Xây dựng hệ thống agent sản xuất

Kỹ thuật viết prompt cho AI Voice Agent