Thiết kế hội thoại cho AI Voice Agent

Trần Mến

Bài trước

Bài sau

🔄 Tóm tắt: Trong bài học 3, bạn đã đánh giá các nền tảng dựa trên khả năng kỹ thuật, khối lượng cuộc gọi, nhu cầu về độ trễ và ngân sách. Giờ bạn đã có một nền tảng trong đầu. Nhưng vấn đề là – nền tảng chỉ là động cơ. Thiết kế hội thoại mới là vô lăng.

Một cuộc hội thoại được thiết kế tồi trên nền tảng tốt nhất sẽ khiến người gọi khó chịu. Một cuộc hội thoại được thiết kế tốt trên một nền tảng cơ bản sẽ làm họ hài lòng. Vì vậy, hãy thiết kế cho đúng.

Voice AI không phải là trò chuyện bằng văn bản

Đây là điều quan trọng nhất cần hiểu về Voice AI, và hầu hết mọi người đều hiểu sai. Họ lấy các prompt bằng văn bản của chatbot, đưa chúng vào voice agent và tự hỏi tại sao người gọi lại ghét nó.

Đây là lý do tại sao giọng nói khác biệt với chat bằng văn bản về cơ bản:

Chat bằng văn bản	Giọng nói
Người dùng có thể cuộn lên và đọc lại	Người gọi không thể tua lại - những gì đã nói sẽ mất
Trả lời dài cũng được	Những câu trả lời dài dòng khiến người gọi mất tập trung
Người dùng tự điều khiển tốc độ	Cuộc trò chuyện diễn ra trong thời gian thực
Im lặng = người dùng đang gõ	Im lặng = có điều gì đó không ổn
Dễ dàng chia sẻ liên kết và danh sách	Không thể chia sẻ nội dung hình ảnh
Người dùng có thể thực hiện nhiều tác vụ cùng lúc	Người gọi thường tập trung vào cuộc gọi

Tác động của việc này rất lớn. Hãy cùng xem xét từng yếu tố thiết kế.

Thiết kế lời chào: 5 giây đầu tiên

Lời chào của bạn sẽ tạo nên không khí cho toàn bộ cuộc gọi. Nếu sai, người gọi sẽ cúp máy. Nếu đúng, họ sẽ thoải mái hơn trong cuộc trò chuyện.

Quy tắc 1: Tiết lộ trạng thái AI

Luôn luôn nói với người gọi rằng họ đang nói chuyện với AI. Không phải vì đó là yêu cầu pháp lý ở mọi nơi. Bởi vì điều đó xây dựng lòng tin và thiết lập kỳ vọng.

Khi người gọi nghĩ rằng họ đang nói chuyện với con người và sau đó nhận ra không phải, họ cảm thấy bị lừa dối. Khi họ biết trước, họ thực sự kiên nhẫn hơn với những hạn chế của AI.

Lời chào tệ:

"Cảm ơn bạn đã gọi đến Riverside Dental. Tên tôi là Sarah. Tôi có thể giúp gì cho bạn hôm nay?"

Người gọi nghĩ rằng Sarah là người. Khi "Sarah" không hiểu điều gì đó, người gọi sẽ bực bội - bởi vì con người thì nên biết.

Lời chào tốt:

"Chào bạn! Cảm ơn bạn đã gọi đến Riverside Dental. Tôi là trợ lý AI và tôi có thể giúp bạn giải đáp thắc mắc về việc đặt lịch hẹn, giờ làm việc và các câu hỏi chung. Tôi có thể giúp gì cho bạn?"

Ba điều xảy ra ở đây: Tiết lộ là AI, nêu rõ khả năng (để người gọi biết cần hỏi về điều gì), và một câu hỏi mở để bắt đầu cuộc trò chuyện.

Quy tắc 2: Giữ lời chào dưới 8 giây

Lời chào của bạn cần phải nhanh chóng. Người gọi thường thiếu kiên nhẫn - đặc biệt nếu họ đã phải điều hướng qua menu điện thoại để đến đây. Hãy đi thẳng vào vấn đề.

Quá dài:

"Cảm ơn bạn rất nhiều vì đã gọi đến Riverside Dental. Chúng tôi rất vui vì bạn đã liên hệ hôm nay. Tôi là trợ lý AI của Riverside Dental, và tôi ở đây để giúp bạn tìm hiểu về nhiều chủ đề khác nhau bao gồm đặt lịch hẹn, kiểm tra giờ làm việc của phòng khám, chỉ đường đến địa điểm của chúng tôi hoặc trả lời bất kỳ câu hỏi nào bạn có thể có về các dịch vụ nha khoa của chúng tôi. Tôi có thể giúp gì cho bạn hôm nay?"

Mất 15 giây nói chuyện trước khi người gọi có thể nói bất cứ điều gì. Họ đã bắt đầu hình thành yêu cầu trong đầu rồi mà bạn vẫn cứ thao thao bất tuyệt.

Vừa phải:

"Xin chào, đây là Riverside Dental - Tôi là trợ lý AI. Tôi có thể giúp bạn giải đáp thắc mắc về lịch hẹn, giờ làm việc hoặc các câu hỏi chung. Bạn cần giúp gì?"

4 giây là xong!

✅ Kiểm tra nhanh: Ba điều mà một lời chào Voice AI tốt nên bao gồm là gì?

Đáp án: Giới thiệu về AI, nêu bật khả năng và một câu hỏi để người gọi bắt đầu nói.

Độ dài phản hồi: Quy tắc 3 câu

Đây là một quy tắc sẽ giúp bạn tránh được 80% lỗi thiết kế hội thoại:

Giữ mỗi phản hồi dưới 3 câu. Mục tiêu khoảng 35 từ.

Tại sao? Bởi vì giọng nói có tính tuần tự. Trong văn bản, người dùng có thể lướt qua một phản hồi dài và nắm bắt phần họ cần. Với giọng nói, họ phải nghe từng từ theo thứ tự. Nếu agent của bạn đưa ra phản hồi 100 từ, người gọi sẽ quên phần đầu khi họ nghe đến phần cuối.

Quá dài:

"Tôi rất vui được giúp bạn đặt lịch hẹn. Chúng tôi có một vài lựa chọn. Thứ Ba, chúng tôi có các khung giờ trống lúc 9 giờ sáng, 11 giờ sáng và 3 giờ chiều. Thứ Tư, chúng tôi có các khung giờ trống lúc 10 giờ sáng, 1 giờ chiều và 4 giờ chiều. Thứ Năm, chúng tôi có các khung giờ trống lúc 9 giờ sáng và 2 giờ chiều. Ngày và giờ nào phù hợp nhất với bạn? Xin lưu ý rằng các cuộc hẹn buổi sáng thường đúng giờ hơn".

Người gọi đã ngừng lắng nghe sau thứ Tư. Họ không thể xử lý quá nhiều lựa chọn.

Vừa phải:

"Tôi có thể giúp bạn! Tôi có các khung giờ trống vào thứ Ba, thứ Tư và thứ Năm. Ngày nào phù hợp với bạn?"

Sau khi họ chọn một ngày:

"Tuyệt vời, bạn chọn thứ Ba. Tôi có các khung giờ trống lúc 9 giờ sáng, 11 giờ sáng hoặc 3 giờ chiều. Bạn thích khung giờ nào hơn?"

Chia nhỏ cuộc trò chuyện. Hãy để người gọi chọn từng lựa chọn một.

Luân phiên lượt nói: Xử lý sự gián đoạn

Các cuộc hội thoại thực tế không phải là một cuộc trao đổi độc thoại lịch sự. Mọi người thường ngắt lời. Họ nói "ừ" trong khi bạn đang nói. Họ chen vào giữa câu vì họ đã biết bạn đang muốn nói gì.

Voice agent của bạn cần xử lý điều này. Nó được gọi là "xen ngang", và đó là một trong những tính năng tạo nên sự khác biệt giữa voice agent tốt với voice agent tệ.

Điều gì nên xảy ra khi người gọi ngắt lời?

Agent phát hiện giọng nói trong khi nó đang trả lời.
Agent ngừng nói ngay lập tức (hoặc trong vòng 200ms).
Agent lắng nghe những gì người gọi nói.
Agent phản hồi lại sự gián đoạn, chứ không phải những gì nó đã nói trước đó.

Hầu hết các nền tảng hiện đại đều tự động xử lý việc phát hiện xen ngang. Nhưng bạn cần thiết kế các prompt của mình để xử lý nó một cách khéo léo. Prompt hệ thống nên bao gồm điều gì đó như:

"Nếu người gọi ngắt lời bạn, hãy ngừng nói ngay lập tức. Xác nhận những gì họ đã nói và phản hồi lại thông tin mới của họ. Không quay lại câu trả lời trước đó của bạn trừ khi họ yêu cầu."

Các cụm từ đệm: Xử lý thời gian xử lý

Đôi khi hệ thống LLM cần một chút thời gian để suy nghĩ - có thể nó đang gọi API để kiểm tra tình trạng lịch hẹn. Sự im lặng chết chóc khiến cuộc trò chuyện bị gián đoạn. Vì vậy, hãy sử dụng các cụm từ đệm:

"Để tôi kiểm tra giúp bạn..."
"Chờ một chút trong khi tôi tra cứu..."
"Chắc chắn rồi, tôi đang xem xét việc đó ngay bây giờ..."

Những câu này giúp câu giờ và báo hiệu cho người gọi rằng nhân viên đang làm việc, chứ không phải đang bị đứng hình.

✅ Kiểm tra nhanh: "Xen ngang" là gì và tại sao nó lại quan trọng?

Câu trả lời: Xen ngang là khi người gọi ngắt lời nhân viên tổng đài giữa chừng câu nói. Xử lý tốt tình huống này nghĩa là nhân viên tổng đài ngừng nói, lắng nghe và phản hồi lại việc ngắt lời - khiến cuộc trò chuyện trở nên tự nhiên thay vì máy móc.

Khi nào cần chuyển giao cho người thật?

Đây là điểm mà nhiều hệ thống Voice AI thất bại. Không phải vì AI không thể xử lý cuộc gọi, mà vì nó cố gắng xử lý những cuộc gọi không nên xử lý.

Khi nào cần chuyển giao

Căng thẳng về mặt cảm xúc. Người gọi đang khóc, tức giận hoặc rõ ràng là khó chịu. Khả năng thấu cảm của AI có giới hạn.
Hiểu nhầm lặp đi lặp lại. Nếu agent không hiểu người gọi hơn 3 lần, hãy ngừng cố gắng. Chuyển máy cho người khác.
Yêu cầu rõ ràng. "Tôi có thể nói chuyện với một người thật được không?". Luôn luôn đáp ứng yêu cầu này. Ngay lập tức.
Tình huống phức tạp. Các câu hỏi pháp lý, tư vấn y tế, tranh chấp tài chính - bất cứ điều gì mà việc xử lý sai có thể dẫn đến hậu quả nghiêm trọng.
Cần có thẩm quyền. Người gọi cần người quản lý hoặc người có thể đưa ra ngoại lệ đối với chính sách.

Cách chuyển tiếp cuộc gọi một cách khéo léo

Sai:

"Tôi không thể giúp bạn giải quyết vấn đề đó. Tôi sẽ chuyển máy cho người khác." [nhạc chờ]

Tốt:

"Tôi muốn đảm bảo bạn nhận được sự hỗ trợ tốt nhất. Hãy để tôi chuyển máy cho một người khác trong nhóm có thể hỗ trợ. Chỉ mất một chút thời gian thôi."

Bạn có nhận thấy sự khác biệt không? Phiên bản tốt giải thích lý do tại sao cần chuyển máy, thiết lập kỳ vọng và không khiến người gọi cảm thấy như họ đã làm hỏng hệ thống.

Mẫu prompt chuyển tiếp cuộc gọi

Thêm đoạn này vào prompt hệ thống của bạn:

"Chuyển tiếp cuộc gọi cho nhân viên hỗ trợ khi: (1) người gọi yêu cầu được nói chuyện trực tiếp với người thật, (2) bạn không hiểu họ 3 lần liên tiếp, (3) người gọi có vẻ bực bội hoặc khó chịu, hoặc (4) câu hỏi liên quan đến tư vấn y tế, pháp lý hoặc tài chính. Khi chuyển tiếp, hãy giải thích ngắn gọn lý do bạn chuyển máy và người gọi cần giúp đỡ về vấn đề gì".

Khắc phục lỗi: "Tôi không nghe rõ"

Người gọi nói điều gì đó và hệ thống STT không thể hiểu được. Hoặc hệ thống LLM không hiểu ý định. Điều xảy ra tiếp theo sẽ quyết định người gọi có tiếp tục nghe máy hay cúp máy.

Phương pháp ba lần lỗi

Lần lỗi đầu tiên: Diễn đạt lại và thử lại. "Xin lỗi, tôi không nghe rõ. Anh/chị có thể nói lại được không?"
Lần lỗi thứ hai: Đưa ra các lựa chọn cụ thể. "Tôi đang gặp khó khăn trong việc hiểu. Anh/chị gọi về việc đặt lịch hẹn, hỏi về hóa đơn hay điều gì khác?"
Lần lỗi thứ ba: Chuyển vấn đề lên cấp cao hơn. "Tôi xin lỗi - tôi không thể hiểu được. Hãy để tôi kết nối anh/chị với người có thể giúp đỡ."

Đừng bao giờ lặp lại. Nếu bạn hỏi "Anh/chị có thể nhắc lại được không?" 4 lần, người gọi sẽ ném điện thoại đi.

Và cũng xử lý cả sự im lặng - nếu người gọi im lặng hơn 5 giây, hãy nói điều gì đó: "Anh/chị vẫn còn ở đó chứ? Không sao cả - chỉ cần cho tôi biết tôi có thể giúp gì cho anh/chị".

✅ Kiểm tra nhanh: Voice agent nên làm gì sau khi không hiểu người gọi 3 lần?

Đáp án: Chuyển tiếp cho nhân viên hỗ trợ là người thật. Không bao giờ lặp lại - ba lần không hiểu và chuyển tiếp.

Bài tập: Thiết kế cuộc hội thoại đầu tiên

Hãy cùng nhau thiết kế lời chào và ba lượt nói đầu tiên cho nhân viên đặt lịch hẹn tại phòng khám thú y.

Các thông số của bạn:

Tên phòng khám: Happy Paws Vet
Dịch vụ có sẵn: Khám sức khỏe định kỳ, tiêm phòng, khám bệnh, tư vấn phẫu thuật
Giờ làm việc: Thứ Hai - Thứ Sáu 8 giờ sáng - 6 giờ chiều, Thứ Bảy 9 giờ sáng - 1 giờ chiều
Có thể đặt lịch hẹn trong ngày nếu có sẵn

Thiết kế 4 yếu tố sau:

Lời chào (dưới 8 giây, tiết lộ về AI, nêu bật khả năng)
Phản hồi đầu tiên (sau khi người gọi nói nhu cầu của họ - giữ dưới 35 từ)
Câu hỏi tiếp theo (làm rõ chi tiết)
Xác nhận (lặp lại những gì đã được đặt lịch)

Hãy thử viết của bạn trước khi đọc ví dụ bên dưới.

Ví dụ thiết kế:

Lời chào: "Chào Happy Paws Vet! Tôi là trợ lý AI và tôi có thể giúp bạn đặt lịch hẹn. Thú cưng của bạn cần gì - khám sức khỏe định kỳ, tiêm phòng, khám bệnh hay tư vấn phẫu thuật?"

Người gọi: "Mèo của tôi bị nôn cả sáng nay."

Agent: "Tôi rất tiếc khi nghe điều đó. Chúng ta hãy cho mèo của bạn được khám hôm nay. Tôi có một khung giờ khám bệnh lúc 2 giờ chiều và một khung giờ khác lúc 4:30. Khung giờ nào phù hợp hơn?"

Người gọi: "2 giờ chiều."

Agent: "Được. Tên của bạn và chú mèo là gì?"

Người gọi: "Tôi là Maria. Con mèo tên là Whiskers."

Agent: "Xong rồi, Maria. Tôi đã đặt lịch khám bệnh cho Whiskers hôm nay lúc 2 giờ chiều tại Happy Paws Vet. Bạn sẽ nhận được tin nhắn xác nhận trong thời gian ngắn. Còn gì nữa không?"

Những lượt trao đổi ngắn gọn. Lựa chọn rõ ràng. Sự đồng cảm mà không quá lố. Xác nhận ở cuối với tất cả các chi tiết được nhắc lại.

Thử ngay: Kịch bản hội thoại ưu tiên giọng nói

Mở ChatGPT, Claude hoặc Gemini và dán prompt này:

Đóng vai trò là người thiết kế hội thoại cho voice agent của tôi. Tôi sẽ mô tả trường hợp sử dụng; bạn sẽ tạo ra một luồng hội thoại được viết sẵn, tối ưu hóa cho giọng nói (không phải chat).

Thông tin về agent:
- Ngành nghề / vai trò: []
- Mục tiêu chính của cuộc gọi (đặt lịch / sàng lọc / xác minh / hỗ trợ): []
- Hồ sơ người gọi (lần đầu / quay lại / bực bội / người cao tuổi / đa ngôn ngữ): []
- Thời lượng cuộc gọi trung bình mục tiêu (giây): []
- Thông tin cần tiết lộ (tiết lộ về AI, đồng ý ghi âm, quy tắc cụ thể của từng tiểu bang): []
- Kích hoạt chuyển giao (khi nào chuyển cho người thật): []
- Dữ liệu tôi cần thu thập (những trường nào, theo thứ tự nào): []

Tạo theo thứ tự này:

1. Lời chào (≤ 8 giây, tiết lộ về AI, mô tả những gì nó có thể làm)

2. Luồng hội thoại được viết sẵn: 4-6 lượt. Mỗi lượt nói phải bao gồm:
  - Câu thoại của tổng đài viên (≤ 35 từ)
  - 2-3 câu trả lời dự kiến từ người gọi
  - Hướng xử lý của tổng đài viên cho mỗi câu trả lời
  - Dữ liệu mà agent thu thập được trong lượt nói này

3. Ba kịch bản xử lý lỗi:
  - Không hiểu người gọi (diễn đạt lại)
  - Người gọi lạc đề (chuyển hướng)
  - Thất bại lần thứ ba liên tiếp (chuyển tiếp - không lặp lại)

4. Quy tắc xử lý ngắt lời (khi nào nên ngừng nói và lắng nghe)

5. Các yếu tố kích hoạt chuyển giao - liệt kê mọi cụm từ, cảm xúc hoặc kiểu mẫu kết thúc luồng AI và chuyển sang người thật

6. Lượt xác nhận: Agent đọc lại tất cả những gì đã thu thập được trước khi kết thúc cuộc gọi

7. Những lỗi thường gặp khi hỏi đáp bằng giọng nói: menu dài, câu hỏi nhiều phần, bất cứ điều gì yêu cầu người gọi phải nhớ nhiều hơn 2 mục

QUY TẮC BẮT BUỘC:
- Giữ mỗi câu thoại của agent dưới 35 từ — chia thông tin phức tạp thành nhiều lượt nói
- Tiết lộ trạng thái của AI trong lời chào. "Tôi là trợ lý AI" — nói rõ ràng, không nói giảm nói tránh
- Không bao giờ yêu cầu người gọi cung cấp số an sinh xã hội, thông tin thẻ tín dụng đầy đủ hoặc mật khẩu trong cuộc gọi thoại — hãy đánh dấu nếu trường hợp sử dụng yêu cầu những thông tin đó và đề xuất kênh liên lạc an toàn
- Không bao giờ thiết kế một quy trình mà không có cách chuyển giao cho người thật
- Nếu trường hợp sử dụng liên quan đến chăm sóc sức khỏe, pháp lý, tư vấn tài chính hoặc khủng hoảng, hãy thêm thông báo: "Tôi có thể giúp về việc lên lịch/thông tin nhưng không thể đưa ra quyết định lâm sàng/pháp lý/tài chính"
- Tôn trọng luật ghi âm của địa phương — yêu cầu người gọi nói "có" trước khi ghi âm ở những khu vực có cả hai bên tham gia

Những gì bạn sẽ thấy: Một quy trình được lập trình sẵn mà bạn có thể dán vào Vapi/Retell/Synthflow, với các nhánh thực tế, khả năng phục hồi lỗi và khả năng chuyển giao rõ ràng - không phải là một đoạn độc thoại bị gián đoạn ngay lần đầu tiên người gọi nói lại.

Những điểm chính cần ghi nhớ

Giao tiếp bằng giọng nói không giống như trò chuyện bằng văn bản - người gọi không thể cuộn lại, vì vậy hãy giữ câu trả lời ngắn gọn và tuần tự
Lời chào nên nêu rõ trạng thái của AI, mô tả khả năng và không quá 8 giây
Quy tắc 3 câu: Giữ mỗi câu trả lời tối đa khoảng 35 từ - chia thông tin phức tạp thành nhiều lượt
Xử lý tình huống bị ngắt lời - ngừng nói khi bị gián đoạn, phản hồi lại thông tin mới
Nâng cao mức độ căng thẳng khi gặp phải sự hiểu lầm từ 3 lần trở lên, yêu cầu rõ ràng hoặc các chủ đề phức tạp/nhạy cảm
Khắc phục lỗi ba lần - diễn đạt lại, đưa ra các lựa chọn, sau đó chuyển tiếp. Không bao giờ lặp lại.

Thứ Tư, 29/04/2026 13:53

5 ★ 2 👨 73

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

AI Agents

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Thiết kế hội thoại cho AI Voice Agent

Voice AI không phải là trò chuyện bằng văn bản

Thiết kế lời chào: 5 giây đầu tiên

Quy tắc 1: Tiết lộ trạng thái AI

Quy tắc 2: Giữ lời chào dưới 8 giây

Độ dài phản hồi: Quy tắc 3 câu

Luân phiên lượt nói: Xử lý sự gián đoạn

Điều gì nên xảy ra khi người gọi ngắt lời?

Các cụm từ đệm: Xử lý thời gian xử lý

Khi nào cần chuyển giao cho người thật?

Khi nào cần chuyển giao

Cách chuyển tiếp cuộc gọi một cách khéo léo

Mẫu prompt chuyển tiếp cuộc gọi

Khắc phục lỗi: "Tôi không nghe rõ"

Phương pháp ba lần lỗi

Bài tập: Thiết kế cuộc hội thoại đầu tiên

Thử ngay: Kịch bản hội thoại ưu tiên giọng nói

Những điểm chính cần ghi nhớ

Kết quả luyện tập

Bạn nên đọc

Hàng rào bảo vệ, tính an toàn và sự tham gia của con người trong quá trình vận hành AI Agent

Xây dựng hệ thống agent sản xuất

Các agent framework và việc điều phối

Sử dụng công cụ: Cung cấp khả năng cho các agent

Xây dựng AI voice agent

Lựa chọn nền tảng cho AI Voice Agent

Suy luận và lập kế hoạch nhiều bước để xây dựng AI agent

Xây dựng agent đầu tiên của bạn

Cách thức hoạt động của Voice AI