Ngày 2/8 vừa qua, Meta Platforms đã chính thức trình làng công cụ trí tuệ nhân tạo (AI) nguồn mở cho phép người dùng tạo nhạc và âm thanh chuyên nghiệp dựa trên đoạn văn bản đầu vào mô tả nội dung cần thực hiện (text prompt), có tên là AudioCraft.
Theo Meta, AudioCraft tích hợp ba nền tảng AI của hãng gồm MusicGen, AudioGen và EnCodec đem lại khả năng tạo nhạc, âm thanh và nén âm thanh.
MusicGen là AI có khả năng tạo âm nhạc từ văn bản đầu vào được Meta phát triển từ năm 2022. Con AudioGen chuyên về tạo âm thanh và hiệu ứng âm thanh từ văn bản, chẳng hạn mô phỏng tiếng chó sủa, còi xe, bước chân trên sàn gỗ.
EnCodec được giới thiệu tháng 10/2022, là bộ giải mã âm thanh dựa trên AI hỗ trợ nén và giải nén các tệp âm thanh mà không làm giảm chất lượng. Meta đã sử dụng cơ sở dữ liệu hơn 20.000 giờ âm nhạc để huấn luyện EnCodec. Nguồn dữ liệu này do hãng sở hữu hoặc được cấp phép đặc biệt cho mục đích huấn luyện AI.
MusicGen, AudioGen và EnCodec được gói gọn trong AudioCraft, giúp ứng dụng AI này tạo âm thanh chất lượng cao, tính nhất quán lâu dài và dễ sử dụng.
Đến nay, các công cụ AI tạo sinh (loại AI dùng để sinh ra nội dung mới sau khi đã huấn luyện trên những dữ liệu đã có) đã có thể tạo ra hình ảnh và video từ văn bản với độ chân thực rất cao. Trong khi đó, lĩnh vực âm thanh do độ khó cao hơn nên đang tụt lại phía sau.
Tuy nhiên, các công cụ này sau khi ra mắt đã gây tranh cãi. Nhiều người cho rằng việc các nghệ sĩ sử dụng công cụ AI là hành vi vi phạm bản quyền, một số khác lại cho rằng việc này giúp giảm thời gian cho công việc.