Tính năng nhận dạng giọng nói hoạt động như thế nào?

Hà Nguyễn

Đôi khi, bạn nhận thấy mình nói với các thiết bị kỹ thuật số nhiều hơn là với những người khác. Các trợ lý kỹ thuật số trên thiết bị sử dụng tính năng nhận dạng giọng nói để hiểu những gì người dùng đang nói. Do đó, bạn có thể quản lý nhiều khía cạnh của cuộc sống chỉ bằng cách trò chuyện với điện thoại hoặc loa thông minh của mình.

Mặc dù nhận dạng giọng nói là một phần quan trọng trong cuộc sống, nhưng ít người trong chúng ta quan tâm đến cách nó hoạt động. Rất nhiều điều diễn ra trong tính năng nhận dạng giọng nói. Cùng Quantrimang.com tìm hiểu chi tiết qua bài viết sau đây nhé!

Nhận dạng giọng nói là gì?

Các thiết bị hiện đại thường được trang bị trợ lý kỹ thuật số, một chương trình sử dụng tính năng nhận dạng giọng nói để thực hiện các tác vụ nhất định trên thiết bị. Nhận dạng giọng nói là một tập hợp các thuật toán mà trợ lý ảo này sử dụng để chuyển giọng nói của bạn thành tín hiệu kỹ thuật số và xác định bạn đang nói gì. Các chương trình như Microsoft Word sử dụng tính năng nhận dạng giọng nói để giúp nhập từ.

Nhận dạng giọng nói đã trở thành một phần tất yếu trong công nghệ hiện đại

Hệ thống nhận dạng giọng nói đầu tiên

Hệ thống nhận dạng giọng nói đầu tiên được gọi là hệ thống Audrey, rút gọn của cụm từ "Automated Digit Recognition". Được phát minh vào năm 1952 bởi Phòng thí nghiệm Bell, Audrey có thể nhận dạng các chữ số. Người nói sẽ nói một số và Audrey sẽ thắp sáng một trong 10 bóng đèn tương ứng.

Phát minh này mang tính đột phá nhưng nó không được đón nhận nồng nhiệt. Bản thân hệ thống máy tính này cao tới khoảng 6 feet (1,8m) và chiếm một lượng lớn không gian. Tuy nhiên với kích thước khổng lồ này, nó chỉ có thể giải mã các con số 0 - 9. Ngoài ra, chỉ người có loại giọng cụ thể mới có thể sử dụng Audrey, vì vậy nó được điều khiển chủ yếu bởi một người duy nhất.

Mặc dù chưa thực sự hoàn thiện, nhưng Audrey là bước đầu tiên trong hành trình dài để tạo ra công nghệ nhận dạng giọng nói như ngày nay. Không mất nhiều thời gian trước khi hệ thống nhận dạng giọng nói tiếp theo xuất hiện, hệ thống này có thể hiểu các chuỗi từ.

Nhận dạng giọng nói bắt đầu với việc chuyển đổi âm thanh thành tín hiệu kỹ thuật số

Hệ thống nhận dạng giọng nói phải trải qua các bước nhất định để tìm ra những gì con người đang nói. Khi micro của thiết bị thu âm thanh, nó sẽ được chuyển đổi thành dòng điện truyền xuống bộ chuyển đổi tín hiệu analog thành kỹ thuật số (ADC). Như tên gọi cho thấy, ADC chuyển đổi dòng điện (tức là tín hiệu analog) thành tín hiệu nhị phân kỹ thuật số.

Khi dòng điện chạy đến ADC, nó sẽ lấy mẫu của dòng điện và giải mã điện áp tại một số thời điểm nhất định. Điện áp tại một thời điểm nhất định được gọi là một mẫu (sample). Mỗi mẫu chỉ dài vài phần nghìn giây. Dựa trên điện áp của mẫu, ADC sẽ gán một chuỗi tám chữ số nhị phân (một byte dữ liệu).

Âm thanh được xử lý để trở nên rõ ràng

Để thiết bị hiểu rõ hơn về người nói, âm thanh cần được xử lý để cải thiện độ rõ. Thiết bị đôi khi được giao nhiệm vụ giải mã giọng nói trong môi trường ồn ào; do đó, một số bộ lọc nhất định được áp dụng vào âm thanh để giúp loại bỏ tiếng ồn xung quanh. Đối với một số hệ thống nhận dạng giọng nói, các tần số cao hơn và thấp hơn phạm vi nghe của con người sẽ bị lọc bỏ.

Hệ thống không chỉ loại bỏ các tần số không mong muốn; một số tần số nhất định trong âm thanh cũng được nhấn mạnh để máy tính có thể nhận dạng giọng nói tốt hơn và tách nó khỏi tiếng ồn xung quanh. Một số hệ thống nhận dạng giọng nói thực sự chia âm thanh thành nhiều tần số riêng biệt.

Các khía cạnh khác, chẳng hạn như tốc độ và âm lượng của âm thanh, được điều chỉnh để phù hợp hơn với các mẫu âm thanh tham chiếu mà hệ thống nhận dạng giọng nói sử dụng để so sánh. Các quá trình lọc và khử nhiễu này thực sự giúp cải thiện độ chính xác tổng thể.

Sau đó, hệ thống nhận dạng giọng nói bắt đầu tạo từ

Có hai cách phổ biến mà hệ thống nhận dạng phân tích giọng nói. Một được gọi là mô hình Markov ẩn, và phương pháp còn lại là thông qua mạng nơ-ron.

Phương pháp mô hình Markov ẩn

Mô hình Markov ẩn là phương pháp được sử dụng trong hầu hết các hệ thống nhận dạng giọng nói. Một phần quan trọng của quá trình này là chia nhỏ các từ được nói thành âm vị của chúng (yếu tố nhỏ nhất của ngôn ngữ). Có một số lượng hữu hạn các âm vị trong mỗi ngôn ngữ, đó là lý do tại sao phương pháp mô hình Markov ẩn hoạt động rất tốt.

Có khoảng 40 âm vị trong ngôn ngữ tiếng Anh. Khi hệ thống nhận dạng giọng nói xác định một âm vị, nó sẽ xác định xác suất âm vị tiếp theo có thể là gì.

Ví dụ, nếu người nói phát ra âm thanh "ta", thì có một xác suất nhất định rằng âm vị tiếp theo sẽ là "p" để tạo thành từ "tap". Cũng có khả năng âm vị tiếp theo sẽ là "s", nhưng khả năng đó ít hơn nhiều. Nếu âm vị tiếp theo giống với "p" thì hệ thống có thể giả định chắc chắn rằng từ đó là "tap".

Có hai cách phổ biến mà hệ thống nhận dạng phân tích giọng nói

Phương pháp mạng nơ-ron

Mạng nơ-ron giống như một bộ não kỹ thuật số học được nhiều điều giống như cách mà bộ não con người đang làm. Mạng nơ-ron là công cụ trong sự phát triển của trí tuệ nhân tạo và Deep Learning.

Loại mạng nơ-ron mà tính năng nhận dạng giọng nói sử dụng được gọi là Recurrent Neural Network (RNN). Theo GeeksforGeeks, RNN là một mạng trong đó "đầu ra từ (các) bước trước đó được đưa tới làm đầu vào cho bước hiện tại". Điều này có nghĩa là khi RNN xử lý một bit dữ liệu, nó sẽ sử dụng dữ liệu đó để ảnh hưởng đến những gì sẽ thực hiện với bit dữ liệu tiếp theo - về cơ bản nó sẽ học hỏi từ kinh nghiệm.

RNN càng tiếp xúc nhiều với một ngôn ngữ nhất định thì khả năng nhận dạng giọng nói càng chính xác. Nếu hệ thống xác định âm "ta" 100 lần và theo sau là âm "p" trong 90 lần đó, thì về cơ bản mạng có thể biết rằng "p" thường đứng sau "ta".

Do đó, khi hệ thống nhận dạng giọng nói xác định âm vị, nó sẽ sử dụng dữ liệu đã tích lũy để dự đoán âm vị nào có khả năng xuất hiện tiếp theo. Bởi vì RNN liên tục học hỏi, nên càng sử dụng nhiều thì khả năng nhận dạng giọng nói càng chính xác.

Sau khi hệ thống nhận dạng giọng nói xác định các từ (cho dù với mô hình Marvok ẩn hay với RNN), thông tin đó sẽ được gửi đến bộ xử lý. Sau đó, hệ thống thực hiện nhiệm vụ mà nó phải làm.

Nhận dạng giọng nói đã trở thành một phần tất yếu trong công nghệ hiện đại

Nhận dạng giọng nói đã trở thành một phần quan trọng trong bối cảnh công nghệ hiện đại. Nó đã được triển khai vào một số ngành công nghiệp và dịch vụ trên toàn thế giới. Trên thực tế, nhiều người kiểm soát toàn bộ cuộc sống của họ bằng trợ lý giọng nói. Bạn có thể tìm thấy các trợ lý như Siri ngay trên Apple Watch của mình. Những gì chỉ là một giấc mơ vào năm 1952 đã trở thành hiện thực và vẫn sẽ tiếp tục phát triển trong tương lai.

Thứ Sáu, 10/09/2021 09:48

5 ★ 1 👨 471