AI của Microsoft mất ba giây để bắt chước giọng nói của bất kỳ ai

Phạm Văn Quỳnh

Vall-E, AI do Microsoft tạo ra, có thể bắt chước âm sắc và cách nói của người thật bằng cách lắng nghe giọng của họ trong ba giây dù âm thanh vẫn sẽ hơi giống giọng nói robot.

AI Vall-E của Microsoft. Ảnh minh họa: VallE-Demo.

Hệ thống AI này của Microsoft có tên gọi là "Mô hình ngôn ngữ codec thần kinh". Codec là công cụ sử dụng các thuật toán để xử lý video và lưu trữ trong một luồng byte. File âm thanh hoặc video được thu nhỏ và sau đó giải nén cho các mục đích khác nhau.

Vall-E được Microsoft xây dựng trên nền tảng EnCodec, một codec âm thanh sử dụng kỹ thuật máy học được phát triển năm 2022 bởi Meta. Vall-E tạo codec âm thanh riêng biệt bằng cách thu nhận và phân tích âm thanh của mỗi người, sau đó thông tin được chia nhỏ thành các phần gọi là "token" thông qua EnCodec. Cách này khác với các phương pháp chuyển văn bản thành giọng nói trước đây thường ở dạng sóng.

Sau đó, Vall-E sử dụng dữ liệu huấn luyện để khớp với những gì nó "biết" về ngữ điệu giọng nói, từ đó có thể nói các cụm từ khác theo đúng những gì "học" được.

Toàn bộ quá trình bắt chước giọng nói này được thực hiện trong ba giây - chưa từng có hệ thống AI bắt chước ngôn ngữ nào hiện nay đạt được.

Microsoft sử dụng một thư viện chứa 60.000 giờ nói tiếng Anh từ hơn 7.000 người để huấn luyện Vall-E. Thư viện này sẽ được bổ sung theo thời gian và nhiều ngôn ngữ khác.

Microsoft hy vọng Vall-E sẽ được ứng dụng trong phần mềm chuyển văn bản thành giọng nói chất lượng cao.

Tuy nhiên, Vall-E khiến giới chuyên gia lo ngại nó có thể bị dùng cho mục đích xấu. AI này có thể bị kẻ xấu lợi dụng để giả dạng giọng cho mục đích lừa đảo, thực hiện hành vi tống tiền. Nếu AI này kết hợp với video deepfake, mức độ nguy hiểm có thể nhân lên nhiều lần.

Thứ Tư, 01/02/2023 08:05

1 ★ 1 👨 1.613

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

AI của Microsoft mất ba giây để bắt chước giọng nói của bất kỳ ai

Phạm Văn Quỳnh

Bạn nên đọc

Nếu AI có thể làm mọi thứ, tại sao chúng ta vẫn cần học?

Lập trình viên tạo 'vợ ảo' có thể tương tác như người thật bằng ChatGPT

Họa sĩ người Việt bị khóa tài khoản vì vẽ quá giống AI

Train-to-Test Scaling là gì? Cách tối ưu chi phí AI từ training đến inference

Cách tạo sổ ghi chú mới ngay trong Gemini

Hướng dẫn tạo website cơ bản trên Cursor

Cách tạo website cơ bản trên Cursor

Hướng dẫn chuyển file PDF kiểm tra thành slide bài giảng bằng Gemini

Luật sư AI đầu tiên trên thế giới sẽ bào chữa cho con người trước tòa

Cũ vẫn chất

Công thức tính diện tích xung quanh hình nón, diện tích toàn phần hình nón, thể tích hình nón, V nón

Cách sửa lỗi gõ tiếng Việt trên Word, Excel

Hướng dẫn 5 cách chuyển số thành chữ trong Excel

Cách tính điểm trung bình môn HK 1, HK 2, cả năm

Những ứng dụng hoán đổi khuôn mặt tốt nhất

Cap đi du lịch hay, stt du lịch hay giúp bạn ghi lại nhật ký hành trình của mình

Cách tạo Slide Master trên PowerPoint

Cách tạo bảng trong Canva

Những bài thơ tán gái theo tên, thơ làm quen bạn gái vừa duyên vừa mặn

6 cách siêu dễ thêm phụ đề, caption vào video