'Xen ngang' trong Voice AI là gì?
Xen ngang là khi người gọi bắt đầu nói trong khi agent vẫn đang nói. Các voice agent tốt sẽ phát hiện ra điều này, ngừng nói và lắng nghe những gì người gọi muốn nói - giống như một con người.
🔄 Tóm tắt: Trong bài học 3, bạn đã đánh giá các nền tảng dựa trên khả năng kỹ thuật, khối lượng cuộc gọi, nhu cầu về độ trễ và ngân sách. Giờ bạn đã có một nền tảng trong đầu. Nhưng vấn đề là – nền tảng chỉ là động cơ. Thiết kế hội thoại mới là vô lăng.
Một cuộc hội thoại được thiết kế tồi trên nền tảng tốt nhất sẽ khiến người gọi khó chịu. Một cuộc hội thoại được thiết kế tốt trên một nền tảng cơ bản sẽ làm họ hài lòng. Vì vậy, hãy thiết kế cho đúng.
Đây là điều quan trọng nhất cần hiểu về Voice AI, và hầu hết mọi người đều hiểu sai. Họ lấy các prompt bằng văn bản của chatbot, đưa chúng vào voice agent và tự hỏi tại sao người gọi lại ghét nó.
Đây là lý do tại sao giọng nói khác biệt với chat bằng văn bản về cơ bản:
| Chat bằng văn bản | Giọng nói |
|---|---|
| Người dùng có thể cuộn lên và đọc lại | Người gọi không thể tua lại - những gì đã nói sẽ mất |
| Trả lời dài cũng được | Những câu trả lời dài dòng khiến người gọi mất tập trung |
| Người dùng tự điều khiển tốc độ | Cuộc trò chuyện diễn ra trong thời gian thực |
| Im lặng = người dùng đang gõ | Im lặng = có điều gì đó không ổn |
| Dễ dàng chia sẻ liên kết và danh sách | Không thể chia sẻ nội dung hình ảnh |
| Người dùng có thể thực hiện nhiều tác vụ cùng lúc | Người gọi thường tập trung vào cuộc gọi |
Tác động của việc này rất lớn. Hãy cùng xem xét từng yếu tố thiết kế.
Lời chào của bạn sẽ tạo nên không khí cho toàn bộ cuộc gọi. Nếu sai, người gọi sẽ cúp máy. Nếu đúng, họ sẽ thoải mái hơn trong cuộc trò chuyện.
Luôn luôn nói với người gọi rằng họ đang nói chuyện với AI. Không phải vì đó là yêu cầu pháp lý ở mọi nơi. Bởi vì điều đó xây dựng lòng tin và thiết lập kỳ vọng.
Khi người gọi nghĩ rằng họ đang nói chuyện với con người và sau đó nhận ra không phải, họ cảm thấy bị lừa dối. Khi họ biết trước, họ thực sự kiên nhẫn hơn với những hạn chế của AI.
Lời chào tệ:
"Cảm ơn bạn đã gọi đến Riverside Dental. Tên tôi là Sarah. Tôi có thể giúp gì cho bạn hôm nay?"
Người gọi nghĩ rằng Sarah là người. Khi "Sarah" không hiểu điều gì đó, người gọi sẽ bực bội - bởi vì con người thì nên biết.
Lời chào tốt:
"Chào bạn! Cảm ơn bạn đã gọi đến Riverside Dental. Tôi là trợ lý AI và tôi có thể giúp bạn giải đáp thắc mắc về việc đặt lịch hẹn, giờ làm việc và các câu hỏi chung. Tôi có thể giúp gì cho bạn?"
Ba điều xảy ra ở đây: Tiết lộ là AI, nêu rõ khả năng (để người gọi biết cần hỏi về điều gì), và một câu hỏi mở để bắt đầu cuộc trò chuyện.
Lời chào của bạn cần phải nhanh chóng. Người gọi thường thiếu kiên nhẫn - đặc biệt nếu họ đã phải điều hướng qua menu điện thoại để đến đây. Hãy đi thẳng vào vấn đề.
Quá dài:
"Cảm ơn bạn rất nhiều vì đã gọi đến Riverside Dental. Chúng tôi rất vui vì bạn đã liên hệ hôm nay. Tôi là trợ lý AI của Riverside Dental, và tôi ở đây để giúp bạn tìm hiểu về nhiều chủ đề khác nhau bao gồm đặt lịch hẹn, kiểm tra giờ làm việc của phòng khám, chỉ đường đến địa điểm của chúng tôi hoặc trả lời bất kỳ câu hỏi nào bạn có thể có về các dịch vụ nha khoa của chúng tôi. Tôi có thể giúp gì cho bạn hôm nay?"
Mất 15 giây nói chuyện trước khi người gọi có thể nói bất cứ điều gì. Họ đã bắt đầu hình thành yêu cầu trong đầu rồi mà bạn vẫn cứ thao thao bất tuyệt.
Vừa phải:
"Xin chào, đây là Riverside Dental - Tôi là trợ lý AI. Tôi có thể giúp bạn giải đáp thắc mắc về lịch hẹn, giờ làm việc hoặc các câu hỏi chung. Bạn cần giúp gì?"
4 giây là xong!
✅ Kiểm tra nhanh: Ba điều mà một lời chào Voice AI tốt nên bao gồm là gì?
Đáp án: Giới thiệu về AI, nêu bật khả năng và một câu hỏi để người gọi bắt đầu nói.
Đây là một quy tắc sẽ giúp bạn tránh được 80% lỗi thiết kế hội thoại:
Giữ mỗi phản hồi dưới 3 câu. Mục tiêu khoảng 35 từ.
Tại sao? Bởi vì giọng nói có tính tuần tự. Trong văn bản, người dùng có thể lướt qua một phản hồi dài và nắm bắt phần họ cần. Với giọng nói, họ phải nghe từng từ theo thứ tự. Nếu agent của bạn đưa ra phản hồi 100 từ, người gọi sẽ quên phần đầu khi họ nghe đến phần cuối.
Quá dài:
"Tôi rất vui được giúp bạn đặt lịch hẹn. Chúng tôi có một vài lựa chọn. Thứ Ba, chúng tôi có các khung giờ trống lúc 9 giờ sáng, 11 giờ sáng và 3 giờ chiều. Thứ Tư, chúng tôi có các khung giờ trống lúc 10 giờ sáng, 1 giờ chiều và 4 giờ chiều. Thứ Năm, chúng tôi có các khung giờ trống lúc 9 giờ sáng và 2 giờ chiều. Ngày và giờ nào phù hợp nhất với bạn? Xin lưu ý rằng các cuộc hẹn buổi sáng thường đúng giờ hơn".
Người gọi đã ngừng lắng nghe sau thứ Tư. Họ không thể xử lý quá nhiều lựa chọn.
Vừa phải:
"Tôi có thể giúp bạn! Tôi có các khung giờ trống vào thứ Ba, thứ Tư và thứ Năm. Ngày nào phù hợp với bạn?"
Sau khi họ chọn một ngày:
"Tuyệt vời, bạn chọn thứ Ba. Tôi có các khung giờ trống lúc 9 giờ sáng, 11 giờ sáng hoặc 3 giờ chiều. Bạn thích khung giờ nào hơn?"
Chia nhỏ cuộc trò chuyện. Hãy để người gọi chọn từng lựa chọn một.
Các cuộc hội thoại thực tế không phải là một cuộc trao đổi độc thoại lịch sự. Mọi người thường ngắt lời. Họ nói "ừ" trong khi bạn đang nói. Họ chen vào giữa câu vì họ đã biết bạn đang muốn nói gì.
Voice agent của bạn cần xử lý điều này. Nó được gọi là "xen ngang", và đó là một trong những tính năng tạo nên sự khác biệt giữa voice agent tốt với voice agent tệ.
Hầu hết các nền tảng hiện đại đều tự động xử lý việc phát hiện xen ngang. Nhưng bạn cần thiết kế các prompt của mình để xử lý nó một cách khéo léo. Prompt hệ thống nên bao gồm điều gì đó như:
"Nếu người gọi ngắt lời bạn, hãy ngừng nói ngay lập tức. Xác nhận những gì họ đã nói và phản hồi lại thông tin mới của họ. Không quay lại câu trả lời trước đó của bạn trừ khi họ yêu cầu."
Đôi khi hệ thống LLM cần một chút thời gian để suy nghĩ - có thể nó đang gọi API để kiểm tra tình trạng lịch hẹn. Sự im lặng chết chóc khiến cuộc trò chuyện bị gián đoạn. Vì vậy, hãy sử dụng các cụm từ đệm:
Những câu này giúp câu giờ và báo hiệu cho người gọi rằng nhân viên đang làm việc, chứ không phải đang bị đứng hình.
✅ Kiểm tra nhanh: "Xen ngang" là gì và tại sao nó lại quan trọng?
Câu trả lời: Xen ngang là khi người gọi ngắt lời nhân viên tổng đài giữa chừng câu nói. Xử lý tốt tình huống này nghĩa là nhân viên tổng đài ngừng nói, lắng nghe và phản hồi lại việc ngắt lời - khiến cuộc trò chuyện trở nên tự nhiên thay vì máy móc.
Đây là điểm mà nhiều hệ thống Voice AI thất bại. Không phải vì AI không thể xử lý cuộc gọi, mà vì nó cố gắng xử lý những cuộc gọi không nên xử lý.
Sai:
"Tôi không thể giúp bạn giải quyết vấn đề đó. Tôi sẽ chuyển máy cho người khác." [nhạc chờ]
Tốt:
"Tôi muốn đảm bảo bạn nhận được sự hỗ trợ tốt nhất. Hãy để tôi chuyển máy cho một người khác trong nhóm có thể hỗ trợ. Chỉ mất một chút thời gian thôi."
Bạn có nhận thấy sự khác biệt không? Phiên bản tốt giải thích lý do tại sao cần chuyển máy, thiết lập kỳ vọng và không khiến người gọi cảm thấy như họ đã làm hỏng hệ thống.
Thêm đoạn này vào prompt hệ thống của bạn:
"Chuyển tiếp cuộc gọi cho nhân viên hỗ trợ khi: (1) người gọi yêu cầu được nói chuyện trực tiếp với người thật, (2) bạn không hiểu họ 3 lần liên tiếp, (3) người gọi có vẻ bực bội hoặc khó chịu, hoặc (4) câu hỏi liên quan đến tư vấn y tế, pháp lý hoặc tài chính. Khi chuyển tiếp, hãy giải thích ngắn gọn lý do bạn chuyển máy và người gọi cần giúp đỡ về vấn đề gì".
Người gọi nói điều gì đó và hệ thống STT không thể hiểu được. Hoặc hệ thống LLM không hiểu ý định. Điều xảy ra tiếp theo sẽ quyết định người gọi có tiếp tục nghe máy hay cúp máy.
Đừng bao giờ lặp lại. Nếu bạn hỏi "Anh/chị có thể nhắc lại được không?" 4 lần, người gọi sẽ ném điện thoại đi.
Và cũng xử lý cả sự im lặng - nếu người gọi im lặng hơn 5 giây, hãy nói điều gì đó: "Anh/chị vẫn còn ở đó chứ? Không sao cả - chỉ cần cho tôi biết tôi có thể giúp gì cho anh/chị".
✅ Kiểm tra nhanh: Voice agent nên làm gì sau khi không hiểu người gọi 3 lần?
Đáp án: Chuyển tiếp cho nhân viên hỗ trợ là người thật. Không bao giờ lặp lại - ba lần không hiểu và chuyển tiếp.
Hãy cùng nhau thiết kế lời chào và ba lượt nói đầu tiên cho nhân viên đặt lịch hẹn tại phòng khám thú y.
Các thông số của bạn:
Thiết kế 4 yếu tố sau:
Hãy thử viết của bạn trước khi đọc ví dụ bên dưới.
Ví dụ thiết kế:
Lời chào: "Chào Happy Paws Vet! Tôi là trợ lý AI và tôi có thể giúp bạn đặt lịch hẹn. Thú cưng của bạn cần gì - khám sức khỏe định kỳ, tiêm phòng, khám bệnh hay tư vấn phẫu thuật?"
Người gọi: "Mèo của tôi bị nôn cả sáng nay."
Agent: "Tôi rất tiếc khi nghe điều đó. Chúng ta hãy cho mèo của bạn được khám hôm nay. Tôi có một khung giờ khám bệnh lúc 2 giờ chiều và một khung giờ khác lúc 4:30. Khung giờ nào phù hợp hơn?"
Người gọi: "2 giờ chiều."
Agent: "Được. Tên của bạn và chú mèo là gì?"
Người gọi: "Tôi là Maria. Con mèo tên là Whiskers."
Agent: "Xong rồi, Maria. Tôi đã đặt lịch khám bệnh cho Whiskers hôm nay lúc 2 giờ chiều tại Happy Paws Vet. Bạn sẽ nhận được tin nhắn xác nhận trong thời gian ngắn. Còn gì nữa không?"Những lượt trao đổi ngắn gọn. Lựa chọn rõ ràng. Sự đồng cảm mà không quá lố. Xác nhận ở cuối với tất cả các chi tiết được nhắc lại.
Mở ChatGPT, Claude hoặc Gemini và dán prompt này:
Đóng vai trò là người thiết kế hội thoại cho voice agent của tôi. Tôi sẽ mô tả trường hợp sử dụng; bạn sẽ tạo ra một luồng hội thoại được viết sẵn, tối ưu hóa cho giọng nói (không phải chat).
Thông tin về agent:
- Ngành nghề / vai trò: []
- Mục tiêu chính của cuộc gọi (đặt lịch / sàng lọc / xác minh / hỗ trợ): []
- Hồ sơ người gọi (lần đầu / quay lại / bực bội / người cao tuổi / đa ngôn ngữ): []
- Thời lượng cuộc gọi trung bình mục tiêu (giây): []
- Thông tin cần tiết lộ (tiết lộ về AI, đồng ý ghi âm, quy tắc cụ thể của từng tiểu bang): []
- Kích hoạt chuyển giao (khi nào chuyển cho người thật): []
- Dữ liệu tôi cần thu thập (những trường nào, theo thứ tự nào): []
Tạo theo thứ tự này:
1. Lời chào (≤ 8 giây, tiết lộ về AI, mô tả những gì nó có thể làm)
2. Luồng hội thoại được viết sẵn: 4-6 lượt. Mỗi lượt nói phải bao gồm:
- Câu thoại của tổng đài viên (≤ 35 từ)
- 2-3 câu trả lời dự kiến từ người gọi
- Hướng xử lý của tổng đài viên cho mỗi câu trả lời
- Dữ liệu mà agent thu thập được trong lượt nói này
3. Ba kịch bản xử lý lỗi:
- Không hiểu người gọi (diễn đạt lại)
- Người gọi lạc đề (chuyển hướng)
- Thất bại lần thứ ba liên tiếp (chuyển tiếp - không lặp lại)
4. Quy tắc xử lý ngắt lời (khi nào nên ngừng nói và lắng nghe)
5. Các yếu tố kích hoạt chuyển giao - liệt kê mọi cụm từ, cảm xúc hoặc kiểu mẫu kết thúc luồng AI và chuyển sang người thật
6. Lượt xác nhận: Agent đọc lại tất cả những gì đã thu thập được trước khi kết thúc cuộc gọi
7. Những lỗi thường gặp khi hỏi đáp bằng giọng nói: menu dài, câu hỏi nhiều phần, bất cứ điều gì yêu cầu người gọi phải nhớ nhiều hơn 2 mục
QUY TẮC BẮT BUỘC:
- Giữ mỗi câu thoại của agent dưới 35 từ — chia thông tin phức tạp thành nhiều lượt nói
- Tiết lộ trạng thái của AI trong lời chào. "Tôi là trợ lý AI" — nói rõ ràng, không nói giảm nói tránh
- Không bao giờ yêu cầu người gọi cung cấp số an sinh xã hội, thông tin thẻ tín dụng đầy đủ hoặc mật khẩu trong cuộc gọi thoại — hãy đánh dấu nếu trường hợp sử dụng yêu cầu những thông tin đó và đề xuất kênh liên lạc an toàn
- Không bao giờ thiết kế một quy trình mà không có cách chuyển giao cho người thật
- Nếu trường hợp sử dụng liên quan đến chăm sóc sức khỏe, pháp lý, tư vấn tài chính hoặc khủng hoảng, hãy thêm thông báo: "Tôi có thể giúp về việc lên lịch/thông tin nhưng không thể đưa ra quyết định lâm sàng/pháp lý/tài chính"
- Tôn trọng luật ghi âm của địa phương — yêu cầu người gọi nói "có" trước khi ghi âm ở những khu vực có cả hai bên tham giaNhững gì bạn sẽ thấy: Một quy trình được lập trình sẵn mà bạn có thể dán vào Vapi/Retell/Synthflow, với các nhánh thực tế, khả năng phục hồi lỗi và khả năng chuyển giao rõ ràng - không phải là một đoạn độc thoại bị gián đoạn ngay lần đầu tiên người gọi nói lại.
'Xen ngang' trong Voice AI là gì?
Xen ngang là khi người gọi bắt đầu nói trong khi agent vẫn đang nói. Các voice agent tốt sẽ phát hiện ra điều này, ngừng nói và lắng nghe những gì người gọi muốn nói - giống như một con người.
Khi nào voice agent nên chuyển tiếp cuộc gọi cho người thật?
Các dấu hiệu cần chuyển cuộc gọi lên cấp cao hơn bao gồm căng thẳng về cảm xúc, hiểu lầm lặp đi lặp lại (3 vòng lặp trở lên), yêu cầu rõ ràng và các tình huống liên quan đến sự phức tạp về pháp lý, y tế hoặc tài chính. Mục tiêu không phải là không có sự tiếp xúc với con người - mà là liên hệ đúng lúc, đúng chỗ.
Tại sao Voice AI agent cần phải tiết lộ rằng nó là AI?
Việc tiết lộ trạng thái AI xây dựng lòng tin và thiết lập kỳ vọng. Khi người gọi biết họ đang nói chuyện với AI, họ sẽ dễ tha thứ hơn với những hạn chế và sẵn sàng hợp tác hơn với các quy trình có cấu trúc.
Độ dài tối đa được khuyến nghị cho phản hồi bằng Voice AI là bao nhiêu?
Phản hồi bằng giọng nói nên dài tối đa 3 câu, khoảng 35 từ. Phản hồi dài hơn khiến người gọi mất tập trung hoặc ngắt lời, vì họ không thể 'cuộn lại' để đọc lại những gì họ đã bỏ lỡ.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:









