Có một số công cụ biến văn bản thành video AI và mặc dù công nghệ này thực sự ấn tượng, nhưng luôn có điều gì đó trong kết quả cuối cùng có cảm giác không ổn. Phải mất một thời gian để xác định vấn đề, nhưng cuối cùng tất cả đều quy về một điều: Hiệu ứng thung lũng kỳ lạ.
Mặc dù bạn có thể sử dụng một số công cụ hỗ trợ AI để tạo hiệu ứng hình ảnh trong các dự án video của mình, nhưng không nên tự mình sử dụng AI để tạo cảnh quay video vì nó trông quá kỳ lạ.
Vấn đề lớn nhất với công cụ biến văn bản thành video AI
Việc tạo video AI đã có những bước tiến lớn trong một thời gian ngắn nhờ những tiến bộ trong Deep Learning. Vào năm 2023 khi việc tạo video AI bùng nổ, bạn có thể nhớ đoạn clip Will Smith ăn mì spaghetti này đang được lan truyền. Mặc dù loại công nghệ này mang tính đột phá vào thời điểm đó, nhưng không thể phủ nhận rằng nó trông không tự nhiên và khó chịu như thế nào.
Vào năm 2024, các công cụ video AI tạo hình này đang trở nên hoàn thiện hơn, tạo ra hình ảnh mượt mà và chuyển động chân thực hơn. Hãy xem sự khác biệt giữa các video được tạo bằng Runway Gen-2 vào năm 2023 và các video mà OpenAI công bố vào năm 2024 để giới thiệu Sora AI. Sora vẫn chưa có sẵn để sử dụng công khai, nhưng chất lượng sẽ rất hứa hẹn:
Mặc dù đã được cải thiện, nhưng kết quả vẫn chưa thuyết phục. Thứ nhất, Sora vẫn chưa có sẵn để sử dụng, vì vậy chúng ta vẫn phải sử dụng các trình tạo ít tinh vi hơn, có thể tạo ra những kết quả rùng rợn giống như video spaghetti của Will Smith.
Chỉ cần xem video được tạo bằng PixVerse thông qua việc sử dụng prompt "A person walking through a park on a sunny day, smiling and waving at the camera. Birds are flying overhead, and trees are swaying gently in the breeze". (Tạm dịch: "Một người đi bộ qua công viên vào một ngày nắng, mỉm cười và vẫy tay với máy ảnh. Chim bay trên cao và cây cối đung đưa nhẹ trong gió").
Hai giây đầu trông ổn, cho đến khi ngón tay, tóc và khuôn mặt của người đó bắt đầu tan biến vào không khí! Ngay cả khi các công cụ tiên tiến hơn như Sora xuất hiện và cung cấp cho chúng ta những video chính xác và đẹp hơn, vẫn có điều gì đó đáng lo ngại về con người và cảnh quan do AI tạo ra.
Trong khi các mô hình cũ hơn thường tạo ra những video có sự tiết lộ rõ ràng của AI, như hình ảnh theo phong cách hoạt hình đất sét, thì những cải tiến từ các công cụ mới hơn trông gần như hoàn hảo quá mức.
Không tự nhiên, khó chịu và vô hồn. Đây chính xác là hiệu ứng thung lũng kỳ lạ - giống con người, nhưng không hoàn toàn.
Cho dù các công cụ này tốt đến đâu, hiệu ứng thung lũng kỳ lạ vẫn luôn tồn tại. Trừ khi bạn theo đuổi phong cách trừu tượng, siêu thực như những gì chỉ thấy trong mơ, bạn không nên dựa vào công cụ biến văn bản thành video AI cho bất kỳ dự án video nào của mình.