Hệ thống AI của Amazon giúp cắt giảm 15% lỗi nhận dạng giọng nói trên Alexa

Vài tháng trước, Amazon đã từng nêu thông tin chi tiết về một số vấn đề khiến Alexa không thể đưa ra phản hồi chính xác khi người dùng đánh thức trợ lý ảo này trên một số model TV, trong quảng cáo trên internet hoặc trên radio. Suy cho cùng thì vấn đề chính ở đây là làm thế nào để trợ lý giọng nói của Amazon có thể lọc bỏ một cách hiệu quả tiếng ồn nền từ môi trường để qua đó đưa ra phản hồi chính xác hơn với người dùng. Mới đây, trong một bài đăng trên blog và tài liệu nghiên cứu đi kèm có tên End-to-End Anchored Speech Recognition, các kỹ sư của Amazon đã trình bày cụ thể một kỹ thuật cô lập tiếng ồn mới dựa trên trí tuệ nhân tạo, có thể giúp cải thiện khả năng nhận dạng giọng nói cũng như các câu lệnh của Alexa thêm 15%. Thông tin chi tiết hơn về cách thức hoạt động của hệ thống này dự kiến sẽ được trình bày tại Hội nghị quốc tế về âm thanh, giọng nói và xử lý tín hiệu tổ chức tại Brighton cuối năm nay.

Trợ lý ảo Alexa

“Trên thực tế, chúng tôi luôn cố gắng cải thiện hiệu suất của Alexa là bằng cách dạy cho cô trợ lý ảo này cách làm thế nào để “bỏ ngoài tai” những câu lệnh không phải dành cho mình, hay nói cách khác là biết cách chọn lọc câu lệnh trong vô số những tiếng ồn ào phát ra từ môi trường xung quanh. Để làm được như vậy, chúng tôi giả định rằng người nói kích hoạt một thiết bị hỗ trợ Alexa bằng cách nói ra một vài cụm từ cụ thể nào đó để đánh thức trợ lý ảo này (wake word) - thường là “Alexa” - và đây chính là cụm từ khóa mà trợ lý ảo phải cô lập và nhận diện được trong một mớ hỗn độn âm thanh từ môi trường bên ngoài. Về cơ bản, kỹ thuật của chúng tôi sẽ hỗ trợ “nắm bắt” một cách nhanh chóng âm thanh có thể là wake word (thường là dựa trên sự giống nhau về ngữ điệu hay âm vị) và tiến hành so sánh với wake word chuẩn để nhận dạng chính xác câu nói. Sau đó, câu nói có các yếu tố trùng khớp nhất với wake word chuẩn sẽ được Alexa hiểu là câu lệnh, còn những câu nói khác sẽ được coi là tiếng ồn nền”, Xin Fan, trưởng nhóm các nhà khoa học phụ trách về Alexa AI giải thích.

Thay vì đào tạo một hệ thống AI riêng biệt nhằm phân biệt giữa tiếng ồn nền và wake word, Xin Fan cùng đồng nghiệp đã tiến hành hợp nhất cơ chế khớp từ ngữ của họ với một mô hình nhận dạng giọng nói dựa trên trí tuệ nhân tạo tiêu chuẩn.

Thay vì đào tạo một hệ thống AI riêng biệt nhằm phân biệt giữa tiếng ồn nền và wake word, Xin Fan cùng đồng nghiệp đã tiến hành hợp nhất cơ chế khớp từ ngữ của họ với một mô hình nhận dạng giọng nói dựa trên trí tuệ nhân tạo tiêu chuẩn. Các nhà khoa học đã thử nghiệm 2 biến thể trên kiến trúc AI của bộ giải mã theo trình tự - nghĩa là sử dụng một kiến trúc xử lý dữ liệu đầu vào (các mẫu chụp nhanh tín hiệu âm thanh dài một phần nghìn giây) để tạo ra một chuỗi đầu ra tương ứng (kết xuất âm vị của âm thanh) - và, như với hầu hết các kỹ thuật mã hóa-giải mã thông thường, thành phần mã hóa sẽ tóm tắt dữ liệu đầu vào như một vectơ có độ dài cố định (một chuỗi số) và chuyển đổi nó thành dữ liệu đầu ra. Trong khi đó, một cơ chế chú ý đặc biệt, được “đào tạo” để phát hiện một số đặc điểm cơ bản của wake word trong một hoặc nhiều chuỗi lời nói từ môi trường xung quanh sẽ có nhiệm vụ “hướng dẫn” bộ giải mã chú ý hơn tới những đặc điểm đó trong vectơ.

Trong một thử nghiệm, các nhà nghiên cứu đã đào tạo một trong các mô hình AI của mình nhằm nhấn mạnh hơn nữa vào khả năng nhận dạng phát âm của từ

Trong một thử nghiệm, các nhà nghiên cứu đã đào tạo một trong các mô hình AI của mình nhằm nhấn mạnh hơn nữa vào khả năng nhận dạng phát âm của từ, trước tiên bằng cách thêm một thành phần so sánh trực tiếp âm thanh của wake word với nhiều cách thức phát âm khác nhau và sau đó sử dụng dữ liệu này kết quả làm đầu vào cho một thành phần riêng biệt khác đã được đào tạo để nén các bit của vectơ mã hóa. Kết quả thật thú vị, mô hình này đã giúp giảm tỷ lệ lỗi xuống 13% so với 15%.

Thứ Ba, 23/04/2019 22:03
53 👨 50