Có lẽ bạn đã từng nghe nói về FaceApp, ứng dụng chỉnh sửa ảnh di động vốn đang nhận được sự quan tâm lớn trên toàn thế giới với khả năng ứng dụng trí tuệ nhân tạo (AI) nhằm chỉnh sửa những bức ảnh tự sướng với độ chân thực cực cao. Hay This Person Does Not Exist, một ứng dụng chỉnh sửa ảnh khác có thể tạo ra những bức ảnh chân dung thú vị dựa trên nhân vật đồ họa hư cấu do máy tính tạo ra. Đó chỉ là 2 trong số rất nhiều ứng dụng tuyệt vời với sự góp mặt của AI trong các tác vụ liên quan đến chỉnh sửa, sáng tạo ảnh. Vậy trong chỉnh sửa video thì sao?
Mới đây, DeepMind, một công ty con của Alphabet, hoạt động chủ yếu trong lĩnh vực phát triển trí tuệ nhân tạo đã công bố một phát minh hoàn toàn mới với tên gọi “Efficient Video Generation on Complex Datasets” (tạm dịch: Dựng video một cách hiệu quả dựa trên các bộ dữ liệu phức tạp), hứa hẹn sẽ mang đến nhiều thay đổi ở lĩnh vực dựng cũng như chỉnh sửa hậu kỳ video trong tương lai. Đây về cơ bản là một thuật toán AI có thể học cách tự tạo ra những đoạn clip đơn giản từ các video đã được tiếp cận qua trong quá trình đào tạo.
DVD-GAN hiện đã có thể tự tạo ra các đoạn video mẫu sở hữu đầy đủ bố cục vật thể
Các nhà nghiên cứu tại DeepMind cho biết mô hình hoạt động tốt nhất của họ hiện nay - Dual Video Discriminator GAN (DVD-GAN) - đã có thể tạo ra các đoạn video ở độ phân giải 256 x 256 pixel, kết hợp với độ trung thực rất đáng khen cùng độ dài lên tới 48 khung hình.
“Việc tạo ra những đoạn video với mức độ tự nhiên, chân thực cao chính là thách thức lớn nhất đối với các mô hình AI hiện nay. Trong đó, những yếu tố gây trở gây trở ngại đáng kể nhất không gì khác ngoài sự phức tạp trong khâu thu thập dữ liệu và yêu cầu tính toán. Cũng chính bởi lý do này, nhiều công việc liên quan đến tạo dựng video trước đây thường chủ yếu xoay quanh các tập dữ liệu tương đối đơn giản, hoặc những tác vụ có sẵn thông tin theo thời gian thực. Hiện tại, chúng tôi đang tập trung vào các nhiệm vụ tổng hợp và dự đoán video, đồng thời nhắm mục tiêu đến việc mở rộng kết quả của các mô hình AI sáng tạo hình ảnh hàng đầu hiện nay sang video - khía cạnh phức tạp hơn rất nhiều”, đại diện nhóm nghiên cứu cho biết.
Nhóm nghiên cứu đã xây dựng hệ thống của họ xung quanh một kiến trúc AI tiên tiến, đồng thời giới thiệu một số tinh chỉnh dành riêng cho video, từ đó cho phép quy trình đào tạo được tiến hành dựa trên Kinetic-600 - một bộ dữ liệu bao gồm các video “tự nhiên”, sở hữu quy mô lớn hơn rất nhiều so với thông thường. Cụ thể, các nhà nghiên cứu đã tận dụng những mô hình mạng đối xứng tạo sinh (generative adversarial networks - GANs).
Một bộ các video clip tổng hợp 4 giây được đào tạo trên 12 khung hình 128 × 128 từ Kinetic-600.
Nếu bạn chưa biết thì GAN là hệ thống AI gồm 2 phần riêng biệt: Thứ nhất là Generative network (mạng sinh), giúp tạo ra các mẫu đào tạo (data giả), với mục tiêu làm sao tạo ra được những dữ liệu đào tạo giống thật nhất. Và thứ hai là Discriminative network (mạng phân biệt): có nhiệm vụ cố gắng phân biệt giữa dữ liệu thật và dữ liệu giả mạo. Các hệ thống GAN đã từng được áp dụng trong nhiều tác vụ chuyên sâu như chuyển đổi chú thích thành các câu chuyện theo từng bối cảnh, đặc biệt là tạo ra những bức ảnh nhân tạo với độ chân thực cực cao.
DVD-GAN chứa các Discriminative network kép: Thuật toán phân biệt có thể chỉ ra sự khác biệt trong nội dung và cấu trúc của một khung hình đơn bằng cách lấy mẫu ngẫu nhiên các khung hình có độ phân giải đầy đủ, sau đó xử lý chúng riêng lẻ và phân biệt theo thời gian cung cấp tín hiệu học tập để tạo chuyển động. Một mô-đun đơn lẻ - tên Transformer - cho phép phân phối dữ liệu, thông tin đã học được trên toàn bộ mô hình AI.
Đối với kho dữ liệu đào tạo Kinetic-600, đây về cơ bản là một tập dữ liệu khổng lồ, được tổng hợp từ hơn 500.000 clip YouTube có độ phân giải cao với thời lượng không quá 10 giây. Những video này ban đầu được quản lý để nhận dạng hành động của con người, các nhà nghiên cứu mô tả kho dữ liệu này là “đa dạng” và “không bị ràng buộc”, những yếu tố đặc biệt phù hợp trong đào tạo các mô hình mở tương tự như DVD-GAN của DeepMind. (Trong lĩnh vực học máy, có một thuật ngữ là “overfitting”, được sử dụng để đề cập đến các mô hình tương xứng quá gần với một tập hợp dữ liệu cụ thể và kết quả là không dự đoán được các quan sát trong tương lai một cách đáng tin cậy).
Theo báo cáo của nhóm nghiên cứu, sau khi được đào tạo liên tục bởi hệ thống Tensor Processing Units thế hệ thứ 3 của Google trong khoảng thời gian từ 12 đến 96 giờ, DVD-GAN hiện đã có thể tự tạo ra các đoạn video mẫu sở hữu đầy đủ bố cục vật thể, chuyển động và thậm chí cả các kết cấu phức tạp như bóng phản chiếu trên mặt sông, sân băng… DVD-GAN đã phải “vật lộn” để tạo ra những vật thể phức hợp ở độ phân giải cao hơn, trong đó chuyển động bao hàm số lượng pixel lớn hơn rất nhiều. Tuy nhiên các nhà nghiên cứu lưu ý rằng, sau khi được đánh giá trên UCF-101 (một bộ dữ liệu nhỏ hơn gồm 13.320 video về hành động của con người), các mẫu video mà DVD-GAN tạo ra đã đạt được điểm số Inception Score là 32.97 - không tồi chút nào.
Mẫu video mà DVD-GAN tạo ra đạt điểm số Inception Score 32.97
“Trong tương lai, chúng tôi muốn nhấn mạnh hơn nữa về lợi ích của việc đào tạo các mô hình tổng quát dựa trên những tập dữ liệu video lớn và phức tạp, chẳng hạn như Kinetic-600. Mặc dù vẫn còn rất nhiều việc phải làm trước khi các video thực tế có thể được tạo một cách nhất quán trong một phạm vi thiết lập không bị giới hạn, tuy nhiên chúng tôi tin rằng DVD-GAN là bước đệm hoàn hảo để hiện thực hóa giấc mơ này”, đại diện nhóm nghiên cứu cho biết.
Bạn có suy nghĩ gì về mô hình AI DVD-GAN của DeepMind? Hãy để lại ý kiến bình luận bên dưới nhé!