AI của Microsoft tạo ra giọng nói giống thật chỉ với 200 mẫu đào tạo

Các thuật toán chuyển văn bản thành giọng nói hiện đại sở hữu những khả năng đáng kinh ngạc. Bằng chứng rõ nét nhất chính là 2 công cụ nguồn mở có tên SpecAugment và Translatotron, mới được Google phát hành gần đây. Đặc biệt trong đó, Translatotron hoàn toàn có thể dịch trực tiếp lời nói của một người sang ngôn ngữ khác trong khi vẫn giữ được âm điệu cũng như ngữ điệu của câu nói. Tuy nhiên, sức sáng tạo trong công nghệ là vô hạn và vẫn luôn có chỗ cho những điều phi thường hơn.

Các thuật toán chuyển văn bản thành giọng nói hiện đại sở hữu những khả năng đáng kinh ngạc

Các nhà nghiên cứu trí tuệ nhân tạo tại Microsoft gần đây đã trình bày một bài báo có tiêu đề “Almost Unsupervised Text to Speech and Automatic Speech Recognition“, trong đó nêu chi tiết về một hệ thống AI thúc đẩy việc học tập không giám sát (unsupervised learning) - một nhánh của công nghệ học máy, giúp AI có khả năng tìm hiểu kiến thức từ những dữ liệu kiểm tra không được gắn nhãn, phân loại, cũng như chưa được định dạng. Hệ thống AI này của Microsoft đã gây tiếng vang lớn khi đạt được độ chính xác trong khả năng đọc hiểu, xử lý ngôn từ lên tới 99.84%, và đồng thời khả năng mô phỏng giọng nói tự động cũng được cải thiện đến 11.7%. Ấn tượng hơn, mô hình học máy tiên tiến này chỉ cần sử dụng 200 clip âm thanh và phiên âm tương ứng làm dữ liệu đào tạo đầu vào.

Chìa khóa cho việc phát triển mô hình AI này chính là Transformers, một loại kiến trúc thần kinh được xây dựng bởi đội ngũ các nhà khoa học tại Google Brain, bộ phận nghiên cứu AI của Google, và đã từng được giới thiệu trong một bài báo công nghệ chuyên sâu vào năm 2017. Cũng như tất cả các mạng nơ-ron sâu (deep neural networks) khác, Transformers có chứa các nơ-ron (các hàm toán học được mô hình hóa một cách “lỏng lẻo” theo dạng nơ-ron thần kinh sinh học) được sắp xếp trong các lớp có khả năng liên kết với nhau nhằm truyền “tín hiệu” từ dữ liệu đầu vào và từ từ điều chỉnh cường độ tiếp hợp (synaptic strength) - trọng số - của mỗi kết nối (đó là cách thức các mô hình trích xuất tính năng và học cách đưa ra dự đoán). Tuy nhiên, Transformers còn sở hữu một đặc điểm “độc nhất vô nhị”, đó là mọi yếu tố đầu ra sẽ được kết nối với tất cả các yếu tố đầu vào và trọng số giữa chúng được tính toán cực kỳ linh hoạt.

Microsoft đã tiến hành kết hợp một thành phần Transformer vào thiết kế hệ thống AI

Từ thực tế này, các nhà nghiên cứu của Microsoft đã tiến hành kết hợp một thành phần Transformer vào thiết kế hệ thống AI của họ, giúp nó có thể thu nhận lời nói hoặc văn bản làm dữ liệu đầu vào hoặc đầu ra. Và các nhà nghiên cứu đã quyết định lấy nguồn dữ liệu LJSpeech có sẵn công khai - trong đó có chứa 13.100 trích đoạn thu âm tiếng Anh và bản ghi tương ứng (transcript) - làm dữ liệu đào tạo cho hệ thống AI. Tiếp theo, nhóm nghiên cứu đã chọn ngẫu nhiên 200 trong tổng số 13.100 trích đoạn thu âm nói trên để tạo lập lên một tập dữ liệu huấn luyện, đồng thời họ cũng tận dụng một thành phần mã hóa tự động khử nhiễu để tái cấu trúc lời nói và văn bản bị hỏng.

Kết quả thu được không tệ chút nào. Xem xét đến từng trích đoạn nhỏ, các nhà nghiên cứu nhận thấy rằng nó cho kết quả tốt hơn so với các thuật toán cơ bản được sử dụng trong các thử nghiệm. Và một vài trong số các mẫu kết quả nghe có vẻ khá giống như được tạo ra bởi con người.

Ví dụ câu: "the forms of printed letters should be beautiful and that their arrangement on the page should be reasonable and a help to the shapeliness of the letters themselves" sẽ được đọc như sau:

Hay câu: "especially as no more time is occupied or cost incurred in casting setting or printing beautiful letters":

Trong tương lai, mục tiêu của các nhà nghiên cứu là đẩy lùi mọi giới hạn trong công nghệ học tập không giám sát bằng cách tận dụng hoàn toàn lượng dữ liệu văn bản và lời nói không ghép nối, với sự trợ giúp của các phương pháp đào trước có sẵn. “Đối với nhiệm vụ này, chúng tôi đã đề xuất phương pháp gần như không giám sát nhằm chuyển văn bản thành giọng nói và nhận dạng giọng nói tự động, trong đó chỉ sử dụng một vài dữ liệu văn bản và lời nói được ghép nối và một lượng nhỏ dữ liệu không ghép nối bổ sung. Như đã chứng minh trong các thí nghiệm, những thành phần thiết kế của chúng tôi sẽ là yếu tố cần thiết để phát triển khả năng chuyển đổi giọng nói và văn bản với một vài dữ liệu được ghép nối” đại diện nhóm nghiên cứu cho biết.

Chi tiết về dự án này sẽ được Microsoft trình bày tại hội nghị quốc tế về học máy (International Conference on Machine Learning) diễn ra tại Long Beach, California từ này 10 đến 15 tháng 6, đồng thời nhóm nghiên cứu cũng dự định sẽ phát hành mã nguồn mở trong vài tuần tới.

Thứ Hai, 27/05/2019 10:14
52 👨 763
0 Bình luận
Sắp xếp theo
    ❖ Trí tuệ nhân tạo (AI)