Generative AI đang mở rộng sang các lĩnh vực trong ngành công nghiệp sáng tạo, bắt đầu với các công cụ tạo tác phẩm nghệ thuật bằng AI và sau đó là dùng AI để viết nội dung. Bây giờ, chúng ta có thể thêm âm nhạc vào danh sách này.
Trong tương lai gần, âm nhạc do AI tạo ra sẽ trở thành hiện thực. Trên thực tế, điều đó đã diễn ra với Jukebox, mô hình AI tạo nhạc của OpenAI. Nó chưa có sẵn dưới dạng một ứng dụng dễ sử dụng và chưa thực sự hoàn hảo, nhưng các thuật toán cơ bản đã được hình thành.
Đây là những gì bạn cần biết về Jukebox của OpenAI và mọi thứ bạn có thể làm với nó.
Jukebox: AI tạo nhạc dưới dạng âm thanh thô
Jukebox là một mạng nơ-ron nhân tạo có thể tạo nhạc ở dạng âm thanh thô khi bạn cung cấp thông tin đầu vào như thể loại, nghệ sĩ hoặc lời bài hát. Nó được phát hành vào tháng 4 năm 2020 bởi OpenAI, công ty đã mang đến cho chúng ta công cụ tạo các tác phẩm nghệ thuật AI có tên Dall-E và chatbot AI có tên ChatGPT.
Không giống như Dall-E, công cụ đã lan truyền nhanh chóng trên toàn thế giới và khiến AI trở thành một chủ đề gây sốt trên các phương tiện truyền thông và tin tức, Jukebox không thu hút được nhiều sự quan tâm sau khi phát hành. Một lý do cho điều này là nó không có ứng dụng web thân thiện với người dùng - hay ít nhất là chưa.
Bạn có thể tìm thấy code trên trang web OpenAI, cùng với phần giải thích chuyên sâu về cách hoạt động của quy trình mã hóa và giải mã.
Một lý do có khả năng khác là Jukebox cần một lượng lớn thời gian và sức mạnh tính toán. Để bạn dễ hình dung, chỉ 1 phút âm thanh có thể mất 9 giờ xử lý. Bạn sẽ cần sẵn sàng khám phá mô hình ở dạng code của nó, cộng với rất nhiều sự kiên nhẫn nếu muốn xem mô hình AI này làm thế nào để tạo ra những bản nhạc.
Hoặc, bạn có thể ghé qua Jukebox Sample Explorer. Đây là nơi OpenAI đăng tải các thử nghiệm của mình từ việc tạo những bài hát giống như Ella Fitzgerald hay 2Pac.
Rõ ràng, có các công cụ tạo nhạc bằng AI khác tồn tại để giúp bạn tạo một bài hát, nhưng chúng không tạo âm thanh từ đầu. Thay vào đó, chúng kết hợp các sample được ghi trước hoặc tạo thông tin MIDI được đưa qua synthesizer kỹ thuật số.
Chất lượng âm thanh do Jukebox tạo ra như thế nào?
Kết quả do Jukebox tạo ra có chút kỳ lạ. Không khó để nhận ra thể loại nhạc, nhưng âm thanh đầu ra có nhiều tạp âm.
Có thể nói rằng Jukebox không tạo ra loại âm thanh có độ trung thực cao mà bạn sẽ nghe thấy từ một cặp tai nghe tốt. Nó giống như nghe nhạc từ một đài phát thanh không được điều chỉnh đúng tần số. Một số bài hát được thể hiện lại, trong khi những bài khác là phần tiếp theo của các bài hát hiện có. Ngoài ra còn có một danh mục dành cho các nghệ sĩ và phong cách mới lạ cũng như lời bài hát chưa từng xuất hiện.
Bỏ qua chất lượng âm thanh, những người thử nghiệm ban đầu cho biết họ bị thực sự kinh ngạc bởi tính mới lạ của âm nhạc do Jukebox tạo ra.
Hiện tại, kết quả chưa thể đủ tốt để sử dụng, hoặc thậm chí thay thế âm nhạc do con người tạo ra, nhưng công nghệ đang phát triển nhanh chóng và chẳng bao lâu nữa, các mô hình như Jukebox sẽ có thể đạt được những kỳ tích đó.
Jukebox của OpenAI đã được đào tạo như thế nào?
Một phần trong cách Jukebox có thể tạo ra những bản nhạc chưa từng tồn tại trước đây là nó được đào tạo dựa trên tác phẩm của những nhạc sĩ thực thụ. OpenAI giải thích rằng:
"Để đào tạo mô hình này, chúng tôi đã thu thập thông tin trên web để tạo thành bộ dữ liệu mới gồm 1,2 triệu bài hát (600.000 bài hát trong số đó bằng tiếng Anh), ghép nối với lời bài hát và siêu dữ liệu tương ứng từ LyricWiki".
Thu thập dữ liệu là một phương pháp được một số công ty AI sử dụng để tạo tập dữ liệu mà mô hình AI có thể sử dụng để học hỏi và đưa ra quyết định khi tạo hình ảnh, văn bản - hoặc trong trường hợp này là - âm nhạc. Các bộ dữ liệu được tạo bằng cách thu thập thông tin đang gây tranh cãi vì việc này không nhận được sự đồng ý từ chủ sở hữu dữ liệu ngay từ đầu. Mặc dù vậy, một số nền tảng cho phép bạn loại bỏ nội dung của mình khỏi bộ dữ liệu.
Bạn có thể nghĩ rằng 1,2 triệu bài hát là rất nhiều, nhưng con số này chẳng thấm tháp gì khi so sánh với Dall-E 2, mô hình được đào tạo trên hàng trăm triệu cặp hình ảnh-văn bản từ Internet. Chính vì vậy, Jukebox có những hạn chế của nó.
Tập dữ liệu dùng cho đào tạo tương đối nhỏ của Jukebox rõ ràng chưa thể nắm bắt được hết sự phong phú và đa dạng của âm nhạc nhân loại. OpenAI đã tuyên bố rằng Jukebox chủ yếu được đào tạo về âm nhạc phương Tây, thể hiện rõ ràng về loại nhạc mà nó có khả năng tạo ra.
Bạn có thể làm gì với Jukebox?
Vậy với những hạn chế như vậy, bạn có thể làm gì với Jukebox? Một cách nhanh chóng để trả lời câu hỏi đó là tìm hiểu những gì bạn không thể làm với Jukebox.
Bởi vì phải mất gần nửa ngày để hiển thị một phút nhạc nên Jukebox không hữu ích lắm cho việc sản xuất nhạc - ít nhất là theo nghĩa truyền thống.
Thông thường, các nhạc sĩ chuyển đổi qua lại giữa việc chơi một nhạc cụ (ngẫu hứng) và lên kế hoạch cho cấu trúc của một bài hát. Kiểu thử nghiệm tương tự không thể thực hiện được với Jukebox.
Vì không dễ để tạo một bài hát bằng Jukebox ở giai đoạn này, nên bạn có thể tận dụng nó nhiều hơn như một cách mới lạ để tạo các sample. Khi bạn đã tạo âm thanh mà mình thích, bạn có thể sử dụng âm thanh đó trong các dự án sáng tạo của mình như bình thường.
Video dưới đây là kết quả của việc một người sử dụng nhạc được tạo bằng Jukebox để làm nền cho một đoạn phim ngắn được dựng.
Trí tuệ nhân tạo cũng có nhiều ứng dụng ngoài các ứng dụng sáng tạo, đó là lý do tại sao cần hiểu AI là gì và những mối nguy hiểm mà nó gây ra.