Chọn phương pháp đánh giá agent

Trần Mến

Bài trước

Bài sau

Khi tạo bộ công cụ test, hãy chọn từ các phương pháp thử nghiệm khác nhau để đánh giá phản hồi của agent. Mỗi phương pháp thử nghiệm đều có những ưu điểm riêng và phù hợp với các loại đánh giá khác nhau.

Phương pháp test	Đo lường	Loại bộ công cụ test	Chấm điểm	Cấu hình
General quality	Phản hồi của trường hợp kiểm thử tốt đến mức nào dựa trên các đặc tính cụ thể	Phản hồi đơn lẻ hoặc cuộc hội thoại	Điểm số trên thang điểm 100%	Không
Compare meaning	Mức độ phù hợp giữa ý nghĩa của câu trả lời trong trường hợp kiểm thử và câu trả lời mong đợi	Phản hồi đơn lẻ	Điểm số trên thang điểm 100%	Điểm đạt, câu trả lời dự kiến
Capability use	Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ tài nguyên nào được dự kiến hay không	Phản hồi đơn lẻ	Đạt/Không đạt	Khả năng dự kiến
Keyword match	Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ từ khóa hoặc cụm từ nào được mong đợi hay không	Phản hồi đơn lẻ hoặc cuộc hội thoại	Đạt/Không đạt	Các từ khóa hoặc cụm từ dự kiến
Text similarity	Mức độ phù hợp giữa nội dung câu trả lời của bài kiểm thử và câu trả lời mong đợi	Phản hồi đơn lẻ	Điểm số trên thang điểm 100%	Điểm đạt, câu trả lời dự kiến
Exact match	Liệu kết quả của trường hợp kiểm thử có khớp chính xác với kết quả mong đợi hay không	Phản hồi đơn lẻ	Đạt/Không đạt	Câu trả lời dự kiến
Custom	Liệu phản hồi của trường hợp thử nghiệm có đáp ứng các tiêu chí hoặc kỳ vọng đã định của bạn hay không	Phản hồi đơn lẻ hoặc cuộc hội thoại	Đạt/Không đạt (đáp ứng các tiêu chí nhãn đã định nghĩa)	Tên, hướng dẫn đánh giá, nhãn

Thêm phương pháp test

1. Khi tạo hoặc chỉnh sửa bộ công cụ test, hãy chọn Add test method.

2. Chọn tất cả các phương pháp bạn muốn kiểm thử, sau đó chọn OK. Bạn có thể thêm nhiều phương pháp.

a. Một số phương pháp yêu cầu điểm đạt. Điểm đạt xác định điểm nào dẫn đến đạt hoặc không đạt. Đặt điểm, sau đó chọn OK.

b. Một số phương pháp kiểm thử yêu cầu nhiều tiêu chí hơn.

3. Chọn Save để lưu các thay đổi của bạn vào bộ công cụ test.

Chọn một phương pháp kiểm thử hiện có để chỉnh sửa tiêu chí của phương pháp đó hoặc xóa phương pháp đó.

General quality

Có sẵn cho bộ công cụ test phản hồi đơn và đàm thoại, General quality giúp bạn quyết định xem phản hồi của agent có đáp ứng tiêu chuẩn của bạn hay không. Nó sử dụng mô hình ngôn ngữ lớn (LLM) để đánh giá mức độ hiệu quả của agent trong việc trả lời câu hỏi của người dùng.

General quality đặc biệt hữu ích khi không có câu trả lời chính xác nào được mong đợi. Nó cung cấp một cách linh hoạt và có thể mở rộng để đánh giá phản hồi dựa trên các tài liệu được truy xuất và luồng hội thoại.

Nó sử dụng các tiêu chí chính này và áp dụng một prompt nhất quán để hướng dẫn chấm điểm:

Mức độ liên quan: Phản hồi của agent giải quyết câu hỏi đến mức độ nào. Ví dụ, câu trả lời của agent có bám sát chủ đề và trả lời trực tiếp câu hỏi không?
Tính dựa trên ngữ cảnh: Câu trả lời của agent dựa trên ngữ cảnh được cung cấp đến mức độ nào. Ví dụ, câu trả lời của agent có tham chiếu hoặc dựa vào thông tin được cung cấp trong ngữ cảnh, thay vì đưa ra thông tin không liên quan hoặc không được hỗ trợ không?
Tính đầy đủ: Câu trả lời của agent cung cấp tất cả thông tin cần thiết đến mức độ nào. Ví dụ, câu trả lời của agent có bao quát tất cả các khía cạnh của câu hỏi và cung cấp đủ chi tiết không?
Tính cố gắng: Agent có cố gắng trả lời câu hỏi hay không.

Để được coi là chất lượng cao, một câu trả lời phải đáp ứng tất cả các tiêu chí chính này. Nếu một tiêu chí không được đáp ứng, câu trả lời sẽ được đánh dấu để cải thiện. Phương pháp chấm điểm này đảm bảo rằng chỉ những câu trả lời vừa đầy đủ vừa được hỗ trợ tốt mới nhận được điểm cao nhất. Ngược lại, những câu trả lời không đầy đủ hoặc thiếu bằng chứng hỗ trợ sẽ nhận được điểm thấp hơn.

Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn General quality. Tất cả các bộ công cụ test đều bắt đầu với phương pháp này theo mặc định.

Bạn không cần thêm câu trả lời dự kiến vào các trường hợp kiểm thử để hoàn thành đánh giá chất lượng chung.

Lưu ý: Việc giảm số lượng nguồn kiến thức cho agent không đảm bảo cải thiện điểm chất lượng tổng thể trong quá trình đánh giá agent. Hạn chế này tồn tại vì lượng kiến thức được truy xuất (kiến thức mà mô hình cho là phù hợp với một trường hợp kiểm thử cụ thể) có thể quá lớn.

Compare meaning

Có sẵn cho các bộ kiểm thử phản hồi đơn, Compare meaning đánh giá mức độ phản hồi của agent phản ánh ý nghĩa dự định của phản hồi mong đợi. Thay vì tập trung vào từ ngữ chính xác, nó sử dụng sự tương đồng về ý định, nghĩa là nó so sánh các ý tưởng và ý nghĩa đằng sau các từ, để đánh giá mức độ phù hợp của phản hồi với những gì bạn mong đợi.

Giống như chất lượng tổng thể, Compare meaning đặc biệt hữu ích khi không có câu trả lời chính xác nào được mong đợi. Nó cung cấp một cách linh hoạt và có thể mở rộng để đánh giá các phản hồi dựa trên những tài liệu được truy xuất và luồng hội thoại.

Bạn có thể đặt ngưỡng để xác định điểm đạt cho một câu trả lời. Điểm đạt mặc định là 50. Phương pháp kiểm thử Compare meaning hữu ích khi một câu trả lời có thể được diễn đạt theo nhiều cách đúng khác nhau, nhưng ý nghĩa hoặc ý định tổng thể vẫn cần được truyền đạt.

1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Compare meaning.

2. Đặt điểm đạt cho phương pháp này.

3. Thêm câu trả lời mong đợi. Bất kỳ trường hợp kiểm thử nào không có câu trả lời mong đợi sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm thử này.

Chọn một trường hợp kiểm thử.
Thêm câu trả lời bạn mong đợi.
Chọn Apply để lưu câu trả lời mong đợi.
Lặp lại cho tất cả các trường hợp kiểm thử bạn muốn kiểm tra bằng phương pháp này.

Tool use

Có sẵn cho các bộ công cụ test phản hồi đơn, Capability use xem agent có sử dụng các công cụ hoặc chủ đề cụ thể để tạo ra câu trả lời hay không. Nếu có, nó đạt. Nếu không, nó thất bại.

1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Tool use.

2. Thêm các công cụ hoặc chủ đề dự kiến. Bất kỳ trường hợp kiểm thử nào không có câu trả lời dự kiến sẽ tạo ra kết quả Không hợp lệ cho phương pháp kiểm thử này.

Chọn một trường hợp kiểm thử. Để thêm cùng một công cụ và chủ đề dự kiến cho tất cả các trường hợp kiểm thử, hãy chọn biểu tượng Edit trong tiêu đề cột Tool use.
Trong ngăn Edit test case, hãy chọn các công cụ mà bạn mong đợi agent của mình sẽ sử dụng cho trường hợp kiểm thử đó.
Chọn OK.
Chọn Apply để lưu các thay đổi.
Lặp lại cho tất cả các trường hợp kiểm thử mà bạn muốn kiểm tra việc sử dụng công cụ.

Keyword match

Có sẵn cho các bộ công cụ test phản hồi đơn và đàm thoại, Keyword match kiểm tra xem câu trả lời của agent có chứa một số hoặc tất cả các từ hoặc cụm từ từ phản hồi dự kiến mà bạn xác định hay không. Nếu có, nó đạt. Nếu không, nó thất bại.

Bạn có thể chọn xem một bài kiểm tra yêu cầu bất kỳ từ khóa nào hoặc tất cả từ khóa. Chọn Any có nghĩa là nếu ít nhất một từ hoặc cụm từ khớp, trường hợp kiểm tra sẽ đạt. Chọn All có nghĩa là tất cả các từ hoặc cụm từ dự kiến phải khớp để trường hợp kiểm tra đạt.

1. Khi thêm hoặc chỉnh sửa phương pháp kiểm tra, hãy chọn Keyword match.

2. Chọn xem một trường hợp kiểm tra cần bất kỳ từ khóa nào hoặc tất cả từ khóa để khớp.

3. Thêm các từ khóa dự kiến. Bất kỳ trường hợp kiểm tra nào không có từ khóa dự kiến sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm tra này.

Chọn một trường hợp kiểm tra.
Trong ngăn Edit test case, hãy thêm một từ khóa hoặc cụm từ mà bạn mong đợi câu trả lời của trường hợp đó sẽ có.
Chọn + Add để thêm nhiều từ khóa hoặc cụm từ hơn. Để xóa một từ khóa hoặc cụm từ, hãy chọn biểu tượng Delete.
Chọn Apply để lưu các từ khóa dự kiến.
Lặp lại cho tất cả các trường hợp kiểm tra mà bạn muốn kiểm tra sự khớp từ khóa.

Text similarity

Có sẵn cho các bộ kiểm tra phản hồi đơn, phương pháp kiểm tra Text similarity so sánh độ tương đồng của những phản hồi từ agent với các phản hồi dự kiến mà bạn xác định trong bộ kiểm tra của mình. Phương pháp này hữu ích khi câu trả lời có thể được diễn đạt theo nhiều cách đúng khác nhau, nhưng ý nghĩa hoặc mục đích tổng thể vẫn cần được truyền đạt.

Nó sử dụng chỉ số tương đồng cosine để đánh giá mức độ tương đồng giữa câu trả lời của agent với cách diễn đạt và ý nghĩa của câu trả lời mong đợi và xác định điểm số. Điểm số nằm trong khoảng từ 0 đến 1, trong đó 1 cho biết câu trả lời gần khớp và 0 cho biết không khớp. Bạn có thể đặt ngưỡng điểm đạt để xác định điểm đạt cho một câu trả lời.

1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Text similarity.

2. Đặt điểm đạt cho phương pháp này.

3. Thêm các câu trả lời mong đợi. Bất kỳ trường hợp kiểm thử nào không có câu trả lời mong đợi sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm thử này.

Chọn một trường hợp kiểm thử.
Thêm câu trả lời bạn mong đợi.
Chọn Apply để lưu câu trả lời mong đợi.
Lặp lại cho tất cả các trường hợp test bạn muốn kiểm thử bằng phương pháp này.

Exact match

Có sẵn cho các bộ kiểm thử phản hồi đơn, Exact match xem câu trả lời của agent có khớp chính xác với câu trả lời dự kiến trong bài kiểm tra hay không: Từng ký tự, từng từ. Nếu giống nhau, bài kiểm tra đạt. Nếu có bất kỳ sự khác biệt nào, bài kiểm tra sẽ thất bại. Kiểm tra khớp chính xác hữu ích cho các câu trả lời ngắn gọn, chính xác như số, mã hoặc cụm từ cố định. Nó không phù hợp với các câu trả lời mà mọi người có thể diễn đạt theo nhiều cách đúng.

1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Exact match.

2. Thêm câu trả lời dự kiến. Bất kỳ trường hợp kiểm thử nào không có câu trả lời dự kiến sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm thử này.

Chọn một trường hợp kiểm thử.
Thêm câu trả lời bạn mong đợi.
Chọn Apply để lưu câu trả lời dự kiến.
Lặp lại cho tất cả các trường hợp kiểm thử bạn muốn test bằng phương pháp này.

Custom

Custom là một phương pháp kiểm thử có thể tùy chỉnh. Nó cho phép bạn kiểm thử và gắn nhãn câu trả lời của agent bằng các tiêu chí riêng của bạn. Ví dụ, bạn có thể tạo một bài kiểm thử tuân thủ cho HR agent để gắn nhãn câu trả lời kiểm thử là tuân thủ hoặc không tuân thủ mô tả về vấn đề nhân sự của bạn.

Một bài kiểm tra tùy chỉnh có hai thành phần để bạn cấu hình:

Hướng dẫn đánh giá: Mô tả mục tiêu bạn muốn đạt được với bài kiểm tra này. Bạn muốn bài kiểm tra tìm hiểu điều gì về câu trả lời của agent?

Hướng dẫn đánh giá tốt cần:

Hướng đến mục tiêu.
Chỉ sử dụng các ký tự được cho phép.
Sử dụng dấu chấm đầu dòng và tiêu đề để sắp xếp.

Ví dụ:

Đánh giá câu trả lời của agent về việc tuân thủ chính sách nhân sự.

Những điều cần kiểm tra:
- Xác định xem câu trả lời có bảo vệ quyền riêng tư và tránh tiết lộ hoặc yêu cầu dữ liệu nhạy cảm hay không.
- Tránh phân biệt đối xử, thiên vị hoặc phán xét không phù hợp.
- Cung cấp hướng dẫn an toàn, trung lập và phù hợp với chính sách nhân sự.
- Không đưa ra lời khuyên pháp lý hoặc đưa ra tuyên bố dứt khoát.

Nhãn: Mô tả kết quả được gán cho mỗi câu trả lời bằng cách sử dụng bài kiểm tra tùy chỉnh. Nhãn cũng có các chỉ định đạt/không đạt, được tính vào tỷ lệ đạt của bộ bài kiểm tra cho phương pháp kiểm tra này.

Nhãn có tên và mô tả. Một mô tả tốt cần phải:

Ngắn gọn.
Chứa các thuộc tính bạn đang tìm kiếm trong những câu trả lời phù hợp.

Một chiến lược cho nhãn là sử dụng hai nhãn: Một nhãn dành cho các câu trả lời đáp ứng thành công những tiêu chí bạn đang tìm kiếm, và nhãn còn lại dành cho các câu trả lời không đáp ứng. Ví dụ, một bài kiểm tra tùy chỉnh về tuân thủ chính sách nhân sự có thể có hai nhãn là Compliant và Non-Compliant.

1. Khi thêm hoặc chỉnh sửa phương pháp kiểm tra, hãy chọn Custom.

2. Nhập tên cho bài kiểm tra tùy chỉnh này.

3. Thêm hướng dẫn đánh giá.

4. Thêm hai hoặc nhiều nhãn. Mỗi nhãn có một tên và một mô tả.

Để thêm nhiều nhãn hơn, hãy chọn Add label.

Tiêu đề nhãn chỉ có thể sử dụng chữ cái, số, dấu cách, dấu gạch ngang -, dấu gạch dưới _, dấu gạch chéo /, dấu và &, dấu cộng +, và dấu chấm ..

5. Đặt kết quả Pass hoặc Fail cho mỗi nhãn.

6. Chọn OK.

Thứ Năm, 14/05/2026 10:28

5 ★ 1 👨 91

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Copilot Studio

Học Copilot Studio

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Chọn phương pháp đánh giá agent

Thêm phương pháp test

General quality

Compare meaning

Tool use

Keyword match

Text similarity

Exact match

Custom

Bạn nên đọc

Chỉnh sửa các trường hợp kiểm thử trong bộ công cụ test

Thay đổi các chi tiết của bộ công cụ test

Tìm kiếm trong agent

Dữ liệu, quyền riêng tư và bảo mật cho tìm kiếm web

Bảo mật và lưu trữ dữ liệu theo vị trí địa lý trong Copilot Studio

Tự động hóa việc đánh giá agent bằng Power Platform API

Tổng quan về đánh giá agent

Vị trí dữ liệu trong Copilot Studio

Đảm bảo tuân thủ các quy định của Copilot Studio