Chọn phương pháp đánh giá agent
Khi tạo bộ công cụ test, hãy chọn từ các phương pháp thử nghiệm khác nhau để đánh giá phản hồi của agent. Mỗi phương pháp thử nghiệm đều có những ưu điểm riêng và phù hợp với các loại đánh giá khác nhau.
| Phương pháp test | Đo lường | Loại bộ công cụ test | Chấm điểm | Cấu hình |
|---|---|---|---|---|
| General quality | Phản hồi của trường hợp kiểm thử tốt đến mức nào dựa trên các đặc tính cụ thể | Phản hồi đơn lẻ hoặc cuộc hội thoại | Điểm số trên thang điểm 100% | Không |
| Compare meaning | Mức độ phù hợp giữa ý nghĩa của câu trả lời trong trường hợp kiểm thử và câu trả lời mong đợi | Phản hồi đơn lẻ | Điểm số trên thang điểm 100% | Điểm đạt, câu trả lời dự kiến |
| Capability use | Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ tài nguyên nào được dự kiến hay không | Phản hồi đơn lẻ | Đạt/Không đạt | Khả năng dự kiến |
| Keyword match | Liệu trường hợp thử nghiệm có sử dụng tất cả hoặc bất kỳ từ khóa hoặc cụm từ nào được mong đợi hay không | Phản hồi đơn lẻ hoặc cuộc hội thoại | Đạt/Không đạt | Các từ khóa hoặc cụm từ dự kiến |
| Text similarity | Mức độ phù hợp giữa nội dung câu trả lời của bài kiểm thử và câu trả lời mong đợi | Phản hồi đơn lẻ | Điểm số trên thang điểm 100% | Điểm đạt, câu trả lời dự kiến |
| Exact match | Liệu kết quả của trường hợp kiểm thử có khớp chính xác với kết quả mong đợi hay không | Phản hồi đơn lẻ | Đạt/Không đạt | Câu trả lời dự kiến |
| Custom | Liệu phản hồi của trường hợp thử nghiệm có đáp ứng các tiêu chí hoặc kỳ vọng đã định của bạn hay không | Phản hồi đơn lẻ hoặc cuộc hội thoại | Đạt/Không đạt (đáp ứng các tiêu chí nhãn đã định nghĩa) | Tên, hướng dẫn đánh giá, nhãn |
Thêm phương pháp test
1. Khi tạo hoặc chỉnh sửa bộ công cụ test, hãy chọn Add test method.
2. Chọn tất cả các phương pháp bạn muốn kiểm thử, sau đó chọn OK. Bạn có thể thêm nhiều phương pháp.
a. Một số phương pháp yêu cầu điểm đạt. Điểm đạt xác định điểm nào dẫn đến đạt hoặc không đạt. Đặt điểm, sau đó chọn OK.
b. Một số phương pháp kiểm thử yêu cầu nhiều tiêu chí hơn.
3. Chọn Save để lưu các thay đổi của bạn vào bộ công cụ test.
Chọn một phương pháp kiểm thử hiện có để chỉnh sửa tiêu chí của phương pháp đó hoặc xóa phương pháp đó.
General quality
Có sẵn cho bộ công cụ test phản hồi đơn và đàm thoại, General quality giúp bạn quyết định xem phản hồi của agent có đáp ứng tiêu chuẩn của bạn hay không. Nó sử dụng mô hình ngôn ngữ lớn (LLM) để đánh giá mức độ hiệu quả của agent trong việc trả lời câu hỏi của người dùng.
General quality đặc biệt hữu ích khi không có câu trả lời chính xác nào được mong đợi. Nó cung cấp một cách linh hoạt và có thể mở rộng để đánh giá phản hồi dựa trên các tài liệu được truy xuất và luồng hội thoại.
Nó sử dụng các tiêu chí chính này và áp dụng một prompt nhất quán để hướng dẫn chấm điểm:
- Mức độ liên quan: Phản hồi của agent giải quyết câu hỏi đến mức độ nào. Ví dụ, câu trả lời của agent có bám sát chủ đề và trả lời trực tiếp câu hỏi không?
- Tính dựa trên ngữ cảnh: Câu trả lời của agent dựa trên ngữ cảnh được cung cấp đến mức độ nào. Ví dụ, câu trả lời của agent có tham chiếu hoặc dựa vào thông tin được cung cấp trong ngữ cảnh, thay vì đưa ra thông tin không liên quan hoặc không được hỗ trợ không?
- Tính đầy đủ: Câu trả lời của agent cung cấp tất cả thông tin cần thiết đến mức độ nào. Ví dụ, câu trả lời của agent có bao quát tất cả các khía cạnh của câu hỏi và cung cấp đủ chi tiết không?
- Tính cố gắng: Agent có cố gắng trả lời câu hỏi hay không.
Để được coi là chất lượng cao, một câu trả lời phải đáp ứng tất cả các tiêu chí chính này. Nếu một tiêu chí không được đáp ứng, câu trả lời sẽ được đánh dấu để cải thiện. Phương pháp chấm điểm này đảm bảo rằng chỉ những câu trả lời vừa đầy đủ vừa được hỗ trợ tốt mới nhận được điểm cao nhất. Ngược lại, những câu trả lời không đầy đủ hoặc thiếu bằng chứng hỗ trợ sẽ nhận được điểm thấp hơn.
Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn General quality. Tất cả các bộ công cụ test đều bắt đầu với phương pháp này theo mặc định.
Bạn không cần thêm câu trả lời dự kiến vào các trường hợp kiểm thử để hoàn thành đánh giá chất lượng chung.
Lưu ý: Việc giảm số lượng nguồn kiến thức cho agent không đảm bảo cải thiện điểm chất lượng tổng thể trong quá trình đánh giá agent. Hạn chế này tồn tại vì lượng kiến thức được truy xuất (kiến thức mà mô hình cho là phù hợp với một trường hợp kiểm thử cụ thể) có thể quá lớn.
Compare meaning
Có sẵn cho các bộ kiểm thử phản hồi đơn, Compare meaning đánh giá mức độ phản hồi của agent phản ánh ý nghĩa dự định của phản hồi mong đợi. Thay vì tập trung vào từ ngữ chính xác, nó sử dụng sự tương đồng về ý định, nghĩa là nó so sánh các ý tưởng và ý nghĩa đằng sau các từ, để đánh giá mức độ phù hợp của phản hồi với những gì bạn mong đợi.
Giống như chất lượng tổng thể, Compare meaning đặc biệt hữu ích khi không có câu trả lời chính xác nào được mong đợi. Nó cung cấp một cách linh hoạt và có thể mở rộng để đánh giá các phản hồi dựa trên những tài liệu được truy xuất và luồng hội thoại.
Bạn có thể đặt ngưỡng để xác định điểm đạt cho một câu trả lời. Điểm đạt mặc định là 50. Phương pháp kiểm thử Compare meaning hữu ích khi một câu trả lời có thể được diễn đạt theo nhiều cách đúng khác nhau, nhưng ý nghĩa hoặc ý định tổng thể vẫn cần được truyền đạt.
1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Compare meaning.
2. Đặt điểm đạt cho phương pháp này.
3. Thêm câu trả lời mong đợi. Bất kỳ trường hợp kiểm thử nào không có câu trả lời mong đợi sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm thử này.
- Chọn một trường hợp kiểm thử.
- Thêm câu trả lời bạn mong đợi.
- Chọn Apply để lưu câu trả lời mong đợi.
- Lặp lại cho tất cả các trường hợp kiểm thử bạn muốn kiểm tra bằng phương pháp này.
Tool use
Có sẵn cho các bộ công cụ test phản hồi đơn, Capability use xem agent có sử dụng các công cụ hoặc chủ đề cụ thể để tạo ra câu trả lời hay không. Nếu có, nó đạt. Nếu không, nó thất bại.
1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Tool use.
2. Thêm các công cụ hoặc chủ đề dự kiến. Bất kỳ trường hợp kiểm thử nào không có câu trả lời dự kiến sẽ tạo ra kết quả Không hợp lệ cho phương pháp kiểm thử này.
- Chọn một trường hợp kiểm thử. Để thêm cùng một công cụ và chủ đề dự kiến cho tất cả các trường hợp kiểm thử, hãy chọn biểu tượng Edit trong tiêu đề cột Tool use.
- Trong ngăn Edit test case, hãy chọn các công cụ mà bạn mong đợi agent của mình sẽ sử dụng cho trường hợp kiểm thử đó.
- Chọn OK.
- Chọn Apply để lưu các thay đổi.
- Lặp lại cho tất cả các trường hợp kiểm thử mà bạn muốn kiểm tra việc sử dụng công cụ.
Keyword match
Có sẵn cho các bộ công cụ test phản hồi đơn và đàm thoại, Keyword match kiểm tra xem câu trả lời của agent có chứa một số hoặc tất cả các từ hoặc cụm từ từ phản hồi dự kiến mà bạn xác định hay không. Nếu có, nó đạt. Nếu không, nó thất bại.
Bạn có thể chọn xem một bài kiểm tra yêu cầu bất kỳ từ khóa nào hoặc tất cả từ khóa. Chọn Any có nghĩa là nếu ít nhất một từ hoặc cụm từ khớp, trường hợp kiểm tra sẽ đạt. Chọn All có nghĩa là tất cả các từ hoặc cụm từ dự kiến phải khớp để trường hợp kiểm tra đạt.
1. Khi thêm hoặc chỉnh sửa phương pháp kiểm tra, hãy chọn Keyword match.
2. Chọn xem một trường hợp kiểm tra cần bất kỳ từ khóa nào hoặc tất cả từ khóa để khớp.
3. Thêm các từ khóa dự kiến. Bất kỳ trường hợp kiểm tra nào không có từ khóa dự kiến sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm tra này.
- Chọn một trường hợp kiểm tra.
- Trong ngăn Edit test case, hãy thêm một từ khóa hoặc cụm từ mà bạn mong đợi câu trả lời của trường hợp đó sẽ có.
- Chọn + Add để thêm nhiều từ khóa hoặc cụm từ hơn. Để xóa một từ khóa hoặc cụm từ, hãy chọn biểu tượng Delete.
- Chọn Apply để lưu các từ khóa dự kiến.
- Lặp lại cho tất cả các trường hợp kiểm tra mà bạn muốn kiểm tra sự khớp từ khóa.
Text similarity
Có sẵn cho các bộ kiểm tra phản hồi đơn, phương pháp kiểm tra Text similarity so sánh độ tương đồng của những phản hồi từ agent với các phản hồi dự kiến mà bạn xác định trong bộ kiểm tra của mình. Phương pháp này hữu ích khi câu trả lời có thể được diễn đạt theo nhiều cách đúng khác nhau, nhưng ý nghĩa hoặc mục đích tổng thể vẫn cần được truyền đạt.
Nó sử dụng chỉ số tương đồng cosine để đánh giá mức độ tương đồng giữa câu trả lời của agent với cách diễn đạt và ý nghĩa của câu trả lời mong đợi và xác định điểm số. Điểm số nằm trong khoảng từ 0 đến 1, trong đó 1 cho biết câu trả lời gần khớp và 0 cho biết không khớp. Bạn có thể đặt ngưỡng điểm đạt để xác định điểm đạt cho một câu trả lời.
1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Text similarity.
2. Đặt điểm đạt cho phương pháp này.
3. Thêm các câu trả lời mong đợi. Bất kỳ trường hợp kiểm thử nào không có câu trả lời mong đợi sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm thử này.
- Chọn một trường hợp kiểm thử.
- Thêm câu trả lời bạn mong đợi.
- Chọn Apply để lưu câu trả lời mong đợi.
- Lặp lại cho tất cả các trường hợp test bạn muốn kiểm thử bằng phương pháp này.
Exact match
Có sẵn cho các bộ kiểm thử phản hồi đơn, Exact match xem câu trả lời của agent có khớp chính xác với câu trả lời dự kiến trong bài kiểm tra hay không: Từng ký tự, từng từ. Nếu giống nhau, bài kiểm tra đạt. Nếu có bất kỳ sự khác biệt nào, bài kiểm tra sẽ thất bại. Kiểm tra khớp chính xác hữu ích cho các câu trả lời ngắn gọn, chính xác như số, mã hoặc cụm từ cố định. Nó không phù hợp với các câu trả lời mà mọi người có thể diễn đạt theo nhiều cách đúng.
1. Khi thêm hoặc chỉnh sửa phương pháp kiểm thử, hãy chọn Exact match.
2. Thêm câu trả lời dự kiến. Bất kỳ trường hợp kiểm thử nào không có câu trả lời dự kiến sẽ tạo ra kết quả không hợp lệ cho phương pháp kiểm thử này.
- Chọn một trường hợp kiểm thử.
- Thêm câu trả lời bạn mong đợi.
- Chọn Apply để lưu câu trả lời dự kiến.
- Lặp lại cho tất cả các trường hợp kiểm thử bạn muốn test bằng phương pháp này.
Custom
Custom là một phương pháp kiểm thử có thể tùy chỉnh. Nó cho phép bạn kiểm thử và gắn nhãn câu trả lời của agent bằng các tiêu chí riêng của bạn. Ví dụ, bạn có thể tạo một bài kiểm thử tuân thủ cho HR agent để gắn nhãn câu trả lời kiểm thử là tuân thủ hoặc không tuân thủ mô tả về vấn đề nhân sự của bạn.
Một bài kiểm tra tùy chỉnh có hai thành phần để bạn cấu hình:
Hướng dẫn đánh giá: Mô tả mục tiêu bạn muốn đạt được với bài kiểm tra này. Bạn muốn bài kiểm tra tìm hiểu điều gì về câu trả lời của agent?
Hướng dẫn đánh giá tốt cần:
- Hướng đến mục tiêu.
- Chỉ sử dụng các ký tự được cho phép.
- Sử dụng dấu chấm đầu dòng và tiêu đề để sắp xếp.
Ví dụ:
Đánh giá câu trả lời của agent về việc tuân thủ chính sách nhân sự.
Những điều cần kiểm tra:
- Xác định xem câu trả lời có bảo vệ quyền riêng tư và tránh tiết lộ hoặc yêu cầu dữ liệu nhạy cảm hay không.
- Tránh phân biệt đối xử, thiên vị hoặc phán xét không phù hợp.
- Cung cấp hướng dẫn an toàn, trung lập và phù hợp với chính sách nhân sự.
- Không đưa ra lời khuyên pháp lý hoặc đưa ra tuyên bố dứt khoát.Nhãn: Mô tả kết quả được gán cho mỗi câu trả lời bằng cách sử dụng bài kiểm tra tùy chỉnh. Nhãn cũng có các chỉ định đạt/không đạt, được tính vào tỷ lệ đạt của bộ bài kiểm tra cho phương pháp kiểm tra này.
Nhãn có tên và mô tả. Một mô tả tốt cần phải:
- Ngắn gọn.
- Chứa các thuộc tính bạn đang tìm kiếm trong những câu trả lời phù hợp.
Một chiến lược cho nhãn là sử dụng hai nhãn: Một nhãn dành cho các câu trả lời đáp ứng thành công những tiêu chí bạn đang tìm kiếm, và nhãn còn lại dành cho các câu trả lời không đáp ứng. Ví dụ, một bài kiểm tra tùy chỉnh về tuân thủ chính sách nhân sự có thể có hai nhãn là Compliant và Non-Compliant.
1. Khi thêm hoặc chỉnh sửa phương pháp kiểm tra, hãy chọn Custom.
2. Nhập tên cho bài kiểm tra tùy chỉnh này.
3. Thêm hướng dẫn đánh giá.
4. Thêm hai hoặc nhiều nhãn. Mỗi nhãn có một tên và một mô tả.
Để thêm nhiều nhãn hơn, hãy chọn Add label.
Tiêu đề nhãn chỉ có thể sử dụng chữ cái, số, dấu cách, dấu gạch ngang -, dấu gạch dưới _, dấu gạch chéo /, dấu và &, dấu cộng +, và dấu chấm ..
5. Đặt kết quả Pass hoặc Fail cho mỗi nhãn.
6. Chọn OK.
Bạn nên đọc
-
Viết hướng dẫn cho agent
-
Quét bảo mật tự động trong Copilot Studio
-
Sử dụng các thực thể và điền vào chỗ trống trong agent
-
Tự động hóa việc đánh giá agent bằng Power Platform API
-
Vị trí dữ liệu trong Copilot Studio
-
Thay đổi các chi tiết của bộ công cụ test
-
Trạng thái bảo vệ Agent runtime
-
Tạo bộ kiểm thử đàm thoại
-
Kiểm tra Copilot Studio agent
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Cách tạo tài khoản ChatGPT nhanh
3 ngày 82 -

Code Murder Mystery 2 mới nhất và cách nhập
3 ngày 9 -

Tổng hợp code Yong Heroes 2: Phong Vân Tái Khởi
4 ngày -

Stt thay đổi bản thân, cap thay đổi bản thân tạo động lực trong cuộc sống
3 ngày -

Những câu nói bá đạo của học sinh khiến ai cũng nhớ tới một thời cắp sách tới trường
3 ngày -

Cách hủy đăng ký Telegram Premium
3 ngày 1 -

Cách download Windows 10, tải file ISO Windows 10 từ Microsoft
3 ngày 20 -

8 cách chuyển ảnh từ iPhone sang iPhone nhanh chóng
4 ngày -

Xem quá trình lắp cấu trúc nặng 600 tấn của máy dò hạt ma tại đài quan sát dưới lòng đất
4 ngày -

Diện tích hình trụ: Diện tích xung quanh hình trụ, diện tích toàn phần hình trụ
3 ngày 7
Hướng dẫn AI
Học IT
Hàm Excel
Download