Hệ thống AI của Amazon giúp cắt giảm 15% lỗi nhận dạng giọng nói trên Alexa

Phạm Hải

Vài tháng trước, Amazon đã từng nêu thông tin chi tiết về một số vấn đề khiến Alexa không thể đưa ra phản hồi chính xác khi người dùng đánh thức trợ lý ảo này trên một số model TV, trong quảng cáo trên internet hoặc trên radio. Suy cho cùng thì vấn đề chính ở đây là làm thế nào để trợ lý giọng nói của Amazon có thể lọc bỏ một cách hiệu quả tiếng ồn nền từ môi trường để qua đó đưa ra phản hồi chính xác hơn với người dùng. Mới đây, trong một bài đăng trên blog và tài liệu nghiên cứu đi kèm có tên End-to-End Anchored Speech Recognition, các kỹ sư của Amazon đã trình bày cụ thể một kỹ thuật cô lập tiếng ồn mới dựa trên trí tuệ nhân tạo, có thể giúp cải thiện khả năng nhận dạng giọng nói cũng như các câu lệnh của Alexa thêm 15%. Thông tin chi tiết hơn về cách thức hoạt động của hệ thống này dự kiến sẽ được trình bày tại Hội nghị quốc tế về âm thanh, giọng nói và xử lý tín hiệu tổ chức tại Brighton cuối năm nay.

Trợ lý ảo Alexa

Mô hình AI của Disney tạo ra phân cảnh hoạt hình từ các kịch bản

“Trên thực tế, chúng tôi luôn cố gắng cải thiện hiệu suất của Alexa là bằng cách dạy cho cô trợ lý ảo này cách làm thế nào để “bỏ ngoài tai” những câu lệnh không phải dành cho mình, hay nói cách khác là biết cách chọn lọc câu lệnh trong vô số những tiếng ồn ào phát ra từ môi trường xung quanh. Để làm được như vậy, chúng tôi giả định rằng người nói kích hoạt một thiết bị hỗ trợ Alexa bằng cách nói ra một vài cụm từ cụ thể nào đó để đánh thức trợ lý ảo này (wake word) - thường là “Alexa” - và đây chính là cụm từ khóa mà trợ lý ảo phải cô lập và nhận diện được trong một mớ hỗn độn âm thanh từ môi trường bên ngoài. Về cơ bản, kỹ thuật của chúng tôi sẽ hỗ trợ “nắm bắt” một cách nhanh chóng âm thanh có thể là wake word (thường là dựa trên sự giống nhau về ngữ điệu hay âm vị) và tiến hành so sánh với wake word chuẩn để nhận dạng chính xác câu nói. Sau đó, câu nói có các yếu tố trùng khớp nhất với wake word chuẩn sẽ được Alexa hiểu là câu lệnh, còn những câu nói khác sẽ được coi là tiếng ồn nền”, Xin Fan, trưởng nhóm các nhà khoa học phụ trách về Alexa AI giải thích.

Trí tuệ nhân tạo OpenAI đánh bại đội tuyển đương kim vô địch thế giới Dota 2

Thay vì đào tạo một hệ thống AI riêng biệt nhằm phân biệt giữa tiếng ồn nền và wake word, Xin Fan cùng đồng nghiệp đã tiến hành hợp nhất cơ chế khớp từ ngữ của họ với một mô hình nhận dạng giọng nói dựa trên trí tuệ nhân tạo tiêu chuẩn. Các nhà khoa học đã thử nghiệm 2 biến thể trên kiến trúc AI của bộ giải mã theo trình tự - nghĩa là sử dụng một kiến trúc xử lý dữ liệu đầu vào (các mẫu chụp nhanh tín hiệu âm thanh dài một phần nghìn giây) để tạo ra một chuỗi đầu ra tương ứng (kết xuất âm vị của âm thanh) - và, như với hầu hết các kỹ thuật mã hóa-giải mã thông thường, thành phần mã hóa sẽ tóm tắt dữ liệu đầu vào như một vectơ có độ dài cố định (một chuỗi số) và chuyển đổi nó thành dữ liệu đầu ra. Trong khi đó, một cơ chế chú ý đặc biệt, được “đào tạo” để phát hiện một số đặc điểm cơ bản của wake word trong một hoặc nhiều chuỗi lời nói từ môi trường xung quanh sẽ có nhiệm vụ “hướng dẫn” bộ giải mã chú ý hơn tới những đặc điểm đó trong vectơ.

Trong một thử nghiệm, các nhà nghiên cứu đã đào tạo một trong các mô hình AI của mình nhằm nhấn mạnh hơn nữa vào khả năng nhận dạng phát âm của từ

EU: Các hệ thống AI nên được xây dựng và triển khai một cách minh bạch và có trách nhiệm

Trong một thử nghiệm, các nhà nghiên cứu đã đào tạo một trong các mô hình AI của mình nhằm nhấn mạnh hơn nữa vào khả năng nhận dạng phát âm của từ, trước tiên bằng cách thêm một thành phần so sánh trực tiếp âm thanh của wake word với nhiều cách thức phát âm khác nhau và sau đó sử dụng dữ liệu này kết quả làm đầu vào cho một thành phần riêng biệt khác đã được đào tạo để nén các bit của vectơ mã hóa. Kết quả thật thú vị, mô hình này đã giúp giảm tỷ lệ lỗi xuống 13% so với 15%.

Thứ Ba, 23/04/2019 09:50

5 ★ 3 👨 220

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Hệ thống AI của Amazon giúp cắt giảm 15% lỗi nhận dạng giọng nói trên Alexa

Phạm Hải

Bạn nên đọc

Phát hiện lỗ hổng trong trợ lý ảo Amazon Alexa khiến dữ liệu người dùng có nguy cơ bị đánh cắp

NotebookLM đang trở thành “studio sáng tạo” toàn diện như thế nào

Hướng dẫn Import Template có sẵn vào Workspace trên n8n

Hướng dẫn tạo ảnh cá nhân hóa bằng Gemini cực đơn giản

Hướng dẫn tạo bài giảng tích hợp AI bằng Claude AI

YOLO Mode trong Cursor là gì? Hướng dẫn kích hoạt để AI tự động hóa lập trình 100%

Magic: The Gathering - tựa game "khó nhai" nhất với cả các mô hình AI

Tạo kế hoạch giảng dạy tích hợp AI trên NotebookLM

Cũ vẫn chất

Cách sửa lỗi gõ tiếng Việt trên Word, Excel

Cách tạo Slide Master trên PowerPoint

Những ứng dụng hoán đổi khuôn mặt tốt nhất

Cách xem số thẻ MBBank trên ứng dụng

5 cách mở cài đặt âm thanh trên PC Windows

Cách kiểm tra số dư tài khoản Sacombank rất đơn giản

Cách khóa và mở khóa file Powerpoint để chỉnh sửa

3133 là gì? 3133 là số điện thoại của tổng đài nào? Có phải lừa đảo không?

Bluestacks

6 cách siêu dễ thêm phụ đề, caption vào video