Sản phẩm chân thực, độ phân giải cao từ các sản phẩm của Sora gây ấn tượng đến mức một số người thậm chí còn dự đoán rằng Hollywood sẽ sớm biến mất. Những model mới nhất của Runway có thể tạo ra những đoạn phim ngắn cạnh tranh với những đoạn phim do các hãng hoạt hình bom tấn thực hiện. Midjourney và Stability AI là hai trong số những mô hình chuyển văn bản thành hình ảnh phổ biến nhất, hiện cũng đang nghiên cứu về video.
Một số công ty đang chạy đua để kinh doanh nhờ những đột phá này. Gary Lipkowitz, Giám đốc điều hành của Vyond, một công ty cung cấp nền tảng tổng hợp các video hoạt hình ngắn, cho biết: “Tôi thường xuyên hét lên: 'Chúa ơi, tuyệt quá' khi thử nghiệm với những công cụ này. “Nhưng làm sao bạn có thể sử dụng điều này tại nơi làm việc?”.
Dù câu trả lời có ra sao thì nó cũng có thể sẽ ảnh hưởng đến nhiều hoạt động kinh doanh và thay đổi vai trò của nhiều chuyên gia, từ nhà làm phim hoạt hình đến nhà quảng cáo. Những lo ngại về việc sử dụng sai mục đích cũng đang gia tăng. Khả năng tạo video giả sẽ khiến Internet tràn ngập các nội dung độc hại.
Sau đây là 4 điều cần suy ngẫm về hướng đi của việc làm phim bằng AI.
1. Sora chỉ là sự khởi đầu
Sora của OpenAI hiện đang dẫn đầu trong lĩnh vực tạo video. Nhưng các công ty khác đang nỗ lực để bắt kịp. Thị trường sẽ trở nên cực kỳ đông đúc trong vài tháng tới khi ngày càng có nhiều công ty cải tiến công nghệ của họ và bắt đầu tung ra các sản phẩm cạnh tranh với Sora.
Công ty khởi nghiệp Haiper có trụ sở tại Vương quốc Anh đã lộ diện trong tháng này. Nó được thành lập vào năm 2021 bởi các nhà nghiên cứu trước đây của Google DeepMind và TikTok, muốn nghiên cứu công nghệ được gọi là trường bức xạ thần kinh hay NeRF, có thể chuyển đổi hình ảnh 2D thành môi trường ảo 3D. Họ nghĩ rằng một công cụ biến ảnh chụp nhanh thành cảnh mà người dùng có thể bước vào sẽ hữu ích cho việc tạo video game.
Nhưng 6 tháng trước, Haiper đã chuyển hướng từ môi trường ảo sang video clip, điều chỉnh công nghệ của mình để phù hợp với những gì CEO Yishu Miao tin rằng sẽ là một thị trường thậm chí còn lớn hơn cả game. Miao nói: “Chúng tôi nhận ra rằng việc tạo video là một điều thú vị. Nhu cầu về nó sẽ rất cao”.
“Air Head” là một bộ phim ngắn được thực hiện bởi Shy Kids, một ban nhạc pop và tập thể làm phim có trụ sở tại Toronto, với sự trợ giúp của Sora.
Giống như Sora của OpenAI, công nghệ generative video của Haiper sử dụng mô hình diffusion để quản lý hình ảnh và một transformer (thành phần trong các mô hình ngôn ngữ lớn như GPT-4 giúp chúng dự đoán rất tốt điều gì sẽ xảy ra tiếp theo), để kiểm soát tính nhất quán giữa các khung hình. Miao cho biết: “Video là các chuỗi dữ liệu và công cụ biến đổi là mô hình tốt nhất để tìm hiểu các chuỗi dữ liệu”.
Tính nhất quán là một thách thức lớn đối với video generative và lý do chính khiến các công cụ hiện có chỉ tạo ra một vài giây video mỗi lần. Transformer để tạo video có thể nâng cao chất lượng và độ dài của clip. Nhược điểm là transformer tạo ra thứ gì đó hoặc gây ảo giác. Trong văn bản, điều này không phải lúc nào cũng rõ ràng. Trong video, nó có thể tạo ra một người có nhiều đầu. Việc duy trì hoạt động của transformer đòi hỏi phải có kho dữ liệu đào tạo khổng lồ.
Đó là lý do Irreverent Labs, được thành lập bởi các nhà nghiên cứu trước đây của Microsoft, đang thực hiện một cách tiếp cận khác. Giống như Haiper, Irreverent Labs bắt đầu tạo môi trường cho game trước khi chuyển sang tạo video đầy đủ. Nhưng công ty không muốn đi theo số đông bằng cách sao chép những gì OpenAI và các công ty khác đang làm. David Raskino, đồng sáng lập và CTO của Irreverent, cho biết: “Bởi vì khi đó sẽ là cuộc chiến về máy tính, một cuộc chiến tổng thể về GPU. Và chỉ có một người chiến thắng trong đó".
Thay vì sử dụng transformer, công nghệ của Irreverent kết hợp mô hình Diffusion với mô hình dự đoán nội dung trong khung hình tiếp theo dựa trên cơ sở vật lý thông thường, chẳng hạn như cách một quả bóng nảy lên hoặc cách nước bắn tung tóe trên sàn. Raskino cho biết phương pháp này giúp giảm cả chi phí đào tạo và số lượng ảo giác. Ông nói, mô hình vẫn tạo ra sự cố, nhưng chúng là những biến dạng vật lý (chẳng hạn như một quả bóng nảy không đi theo một đường cong mượt mà). Các sửa lỗi toán học đã biết có thể được áp dụng cho video sau khi nó được tạo.
Cách tiếp cận nào sẽ kéo dài vẫn còn phải xem xét. Miao đã so sánh công nghệ ngày nay với các mô hình ngôn ngữ lớn. 5 năm trước, mô hình đầu tiên mang tính đột phá của OpenAI đã khiến mọi người ngạc nhiên vì nó cho thấy những gì có thể thực hiện được. Nhưng phải mất vài năm nữa công nghệ này mới có thể thay đổi cuộc chơi. Với video cũng vậy, Miao nói: “Tất cả chúng ta đều đang ở dưới chân núi.”
2. Mọi người sẽ làm gì với video generative?
Video là phương tiện của Internet. YouTube, TikTok, phim thời sự, quảng cáo, video generative được mong đợi sẽ xuất hiện ở mọi nơi có video.
Ngành tiếp thị là một trong những ngành áp dụng nhiệt tình nhất công nghệ generative. Theo một cuộc khảo sát gần đây mà Adobe thực hiện ở Mỹ, hai phần ba các chuyên gia tiếp thị đã thử nghiệm Generative AI trong công việc, với hơn một nửa cho biết họ đã sử dụng công nghệ này để tạo ra hình ảnh.
Tiếp theo là video generative. Một số công ty tiếp thị đã thực hiện các bộ phim ngắn để chứng minh tiềm năng của công nghệ. Ví dụ mới nhất là “Somme Requiem” dài 2,5 phút do Myles thực hiện. Bạn có thể xem đoạn phim dưới đây trong tiết lộ độc quyền từ MIT Technology Review.
“Somme Requiem” là một bộ phim ngắn do công ty sản xuất Myles ở Los Angeles thực hiện. Mọi cảnh quay đều được tạo bằng mô hình Gen 2 của Runway. Các clip sau đó được chỉnh sửa bởi một nhóm biên tập video tại Myles.
“Somme Requiem” mô tả những người lính phủ đầy tuyết trong lệnh ngừng bắn vào Giáng sinh trong Thế chiến thứ nhất năm 1914. Bộ phim được tạo thành từ hàng chục cảnh quay khác nhau được sản xuất bằng mô hình video generative từ Runway, sau đó ghép lại với nhau, chỉnh màu và thêm nhạc bởi người biên tập video ở Myles. Người sáng lập và Giám đốc điều hành Josh Kahn cho biết: “Tương lai của việc kể chuyện sẽ là một quy trình làm việc kết hợp”.
Kahn đã chọn bối cảnh thời chiến để nêu quan điểm. Ông lưu ý rằng loạt phim Masters of the Air của Apple TV+, kể về một nhóm phi công trong Thế chiến thứ hai, có giá 250 triệu USD. Đội ngũ đằng sau bộ phim tài liệu về Thế chiến thứ nhất của Peter Jackson They Shall Not Grow Old đã dành 4 năm để giám tuyển và khôi phục hơn 100 giờ phim lưu trữ. Kahn nói: “Hầu hết các nhà làm phim chỉ có thể mơ ước có cơ hội kể một câu chuyện ở thể loại này".
“Việc làm phim độc lập gần như sắp bị khai tử”, ông nói thêm. “Tôi nghĩ điều này sẽ tạo ra một sự hồi sinh đáng kinh ngạc”.
“Thể loại phim kinh dị là nơi mọi người thử nghiệm những điều mới, thử những điều mới cho đến khi chúng thất bại”, Raskino nói. “Tôi nghĩ chúng ta sẽ được xem một bộ phim kinh dị bom tấn được tạo ra bởi 4 người trong một tầng hầm ở đâu đó bằng AI”.
Vậy video generative có phải sẽ hạ gục Hollywood không? Hiện tại thì chưa. Những cảnh quay trong “Somme Requiem” - khu rừng trống trải, trại quân sự hoang vắng - trông thật tuyệt. Nhưng những người trong đó vẫn có những ngón tay bị biến dạng và khuôn mặt méo mó, đặc trưng của sản phẩm AI. Video mang tính sáng tạo tốt nhất ở chế độ quay góc rộng hoặc quay cận cảnh kéo dài, điều này tạo ra bầu không khí kỳ lạ nhưng ít hành động. Nếu “Somme Requiem” kéo dài thêm nữa thì nó sẽ trở nên buồn tẻ.
Nhưng những cảnh quay bối cảnh xuất hiện trong các bộ phim dài tập hầu hết chỉ dài vài giây nhưng có thể mất hàng giờ để quay. Raskino gợi ý rằng các mô hình video generative có thể sớm được sử dụng để tạo ra những cảnh quay xen kẽ đó với chi phí thấp. Điều này cũng có thể được thực hiện nhanh chóng trong các giai đoạn sản xuất sau này mà không cần phải quay lại.
Michal Pechoucek, CTO tại Gen Digital, gã khổng lồ an ninh mạng đứng sau một loạt thương hiệu diệt virus bao gồm Norton và Avast, cũng đồng ý với ý kiến này. “Tôi nghĩ đây chính là nơi mà công nghệ đang hướng tới”, ông nói. “Chúng ta sẽ thấy nhiều mô hình khác nhau, mỗi mô hình được đào tạo đặc biệt trong một lĩnh vực sản xuất phim nhất định. Đây sẽ chỉ là những công cụ được sử dụng bởi các nhóm sản xuất video tài năng”.
Một vấn đề lớn với video generative là người dùng thiếu quyền kiểm soát đầu ra. Việc tạo ra hình ảnh tĩnh có thể bị lỗi; sản xuất một vài giây video thậm chí còn nguy hiểm hơn.
Miao nói: “Hiện tại, nó vẫn rất thú vị, bạn sẽ có được những khoảnh khắc tuyệt vời. Nhưng việc tạo ra video đúng như những gì bạn muốn là một vấn đề kỹ thuật rất khó khăn. Bằng cách nào đó, chúng tôi đang tìm cách tạo ra các video dài và nhất quán chỉ từ một lời nhắc duy nhất”.
Đó là lý do tại sao Lipkowitz của Vyond cho rằng công nghệ này vẫn chưa sẵn sàng cho hầu hết khách hàng doanh nghiệp. Ông nói, những người dùng này muốn có nhiều quyền kiểm soát hơn đối với giao diện của video so với những gì các công cụ hiện tại mang lại cho họ.
Hàng nghìn công ty trên khắp thế giới, bao gồm khoảng 65% công ty trong danh sách Fortune 500, sử dụng nền tảng của Vyond để tạo video hoạt hình cho hoạt động truyền thông nội bộ, đào tạo, tiếp thị, v.v... Vyond dựa trên một loạt các mô hình generative, bao gồm chuyển văn bản thành hình ảnh và chuyển văn bản thành giọng nói, nhưng cung cấp giao diện kéo và thả đơn giản cho phép người dùng ghép video lại với nhau thủ công, từng đoạn một, thay vì tạo ra một video clip đầy đủ với một cú nhấp chuột.
Lipkowitz nói: Chạy một mô hình sáng tạo giống như tung xúc xắc. Ông nói: “Đây là điều khó có thể xảy ra đối với hầu hết các nhóm sản xuất video, đặc biệt là trong khu vực doanh nghiệp nơi mọi thứ phải hoàn hảo đến từng pixel và phù hợp với thương hiệu”. “Video có thể trở nên rất tệ - như các nhân vật có quá nhiều ngón tay hoặc logo công ty bị sai màu - thật không may, đó là cách hoạt động của gen AI”.
Giải pháp là cung cấp nhiều dữ liệu hơn, đào tạo nhiều hơn, lặp đi lặp lại. “Tôi ước gì có thể một số thuật toán cho vấn đề nào”, Miao nói. “Nhưng không, mọi thứ chỉ nằm ở việc học hỏi nhiều hơn mà thôi”.
3. Thông tin sai lệch không phải là mới, nhưng deepfake sẽ khiến tình hình trở nên tồi tệ hơn
Thông tin sai lệch trực tuyến đã làm suy yếu niềm tin của chúng ta vào các phương tiện truyền thông, vào các tổ chức và vào nhau trong nhiều năm.
Pechoucek nói: “Chúng ta đang thay thế niềm tin bằng sự ngờ vực, bối rối, sợ hãi và căm ghét. Xã hội không có nền tảng sự thật sẽ trở nên suy thoái”.
Pechoucek đặc biệt lo lắng về việc sử dụng deepfake có mục đích xấu trong các cuộc bầu cử. Ví dụ, trong cuộc bầu cử năm ngoái ở Slovakia, những kẻ tấn công đã chia sẻ một video giả mạo cho thấy ứng cử viên hàng đầu đang thảo luận về kế hoạch thao túng cử tri. Video có chất lượng thấp và dễ bị phát hiện là video deepfake. Nhưng Pechoucek tin rằng như vậy là đủ để lật ngược kết quả có lợi cho ứng cử viên còn lại.
“Adventurous Puppies” là một đoạn clip ngắn được OpenAI thực hiện bằng cách sử dụng Sora.
John Wissinger, người đứng đầu nhóm chiến lược và đổi mới tại Blackbird AI, một công ty theo dõi và quản lý việc truyền bá thông tin sai lệch trực tuyến, tin rằng video fake sẽ thuyết phục nhất khi kết hợp giữa cảnh thật và cảnh giả. Quay hai video quay cảnh Tổng thống Joe Biden bước ngang qua sân khấu. Ở một nơi ông ấy vấp ngã, ở nơi khác thì không. Ai sẽ nói cái nào là thật?
Wissinger nói: “Giả sử một sự kiện thực sự đã xảy ra, nhưng cách nó được trình bày với tôi lại khác một cách tinh tế. Điều đó có thể ảnh hưởng đến phản ứng cảm xúc của tôi đối với nó”. Như Pechoucek đã lưu ý, một video fake thậm chí không cần phải quá hay mới tạo ra tác động. Wissinger cho biết, một video fake với ý đồ xấu phù hợp với những thành kiến hiện có sẽ gây ra nhiều thiệt hại hơn một sản phẩm bóng bẩy không phù hợp.
Đó là lý do tại sao Blackbird tập trung vào việc ai đang chia sẻ cái gì với ai. Theo một nghĩa nào đó, điều gì đó là đúng hay sai không quan trọng bằng việc nó đến từ đâu và nó được lan truyền như thế nào, Wissinger nói. Công ty của ông đã theo dõi thông tin sai lệch công nghệ thấp, chẳng hạn như các bài đăng trên mạng xã hội hiển thị hình ảnh thực tế ngoài ngữ cảnh. Ông nói, các công nghệ generative làm cho mọi thứ trở nên tồi tệ hơn, cộng thêm việc mọi người trình bày theo những cách gây hiểu lầm, dù cố tình hay không, không phải là mới.
Chia sẻ và quảng bá thông tin sai lệch trên mạng xã hội sẽ khiến mọi thứ trở nên lộn xộn. Chỉ cần biết rằng có nhiều phương tiện truyền thông giả mạo ở ngoài kia sẽ gieo mầm mống nghi ngờ vào các diễn ngôn thiếu thiện chí. Wissinger nói: “Bạn có thể thấy chẳng bao lâu nữa chúng ta sẽ không thể phân biệt được giữa cái gì là do AI tạo và cái gì là thật nữa”.
4. Chúng ta đang đối mặt với một thực tế trực tuyến mới
Các video fake sẽ sớm xuất hiện ở khắp mọi nơi, từ những chiến dịch đưa thông tin sai lệch, đến các điểm quảng cáo, cho đến những bộ phim bom tấn của Hollywood. Vậy chúng ta có thể làm gì để tìm ra đâu là thực và đâu chỉ là tưởng tượng? Có nhiều giải pháp nhưng không có giải pháp nào thực sự triệt để.
Ngành công nghệ đang giải quyết vấn đề này. Hầu hết các công cụ generative đều cố gắng thực thi các điều khoản sử dụng nhất định, chẳng hạn như ngăn mọi người tạo video về những nhân vật của công chúng. Tuy nhiên, có nhiều cách để vượt qua các bộ lọc này và những phiên bản nguồn mở của công cụ này có thể đi kèm với các chính sách dễ dàng hơn.
Các công ty cũng đang phát triển những tiêu chuẩn để tạo watermark cho các phương tiện do AI tạo ra và những công cụ để phát hiện nó. Nhưng không phải tất cả các công cụ đều thêm watermark và watermark có thể bị xóa khỏi siêu dữ liệu của video. Không có công cụ phát hiện đáng tin cậy nào tồn tại. Ngay cả khi những công cụ như vậy hoạt động, chúng sẽ trở thành một phần của trò chơi mèo vờn chuột nhằm cố gắng theo kịp những tiến bộ trong các mô hình mà chúng được thiết kế.
“Spaghetti Eat Will Smith” là một bộ phim ngắn do OpenAI thực hiện bằng Sora.
Các nền tảng trực tuyến như X và Facebook thường bị đánh giá kém về mặt kiểm duyệt. Và chúng ta không nên mong đợi những nền tảng này sẽ cải thiện một khi vấn đề trở nên khó khăn hơn. Miao từng làm việc tại TikTok với nhiệm vụ xây dựng một công cụ kiểm duyệt nhằm phát hiện các video upload lên vi phạm điều khoản sử dụng của TikTok. Ngay cả Miao cũng cảnh giác với những gì sắp xảy ra: “Có mối nguy hiểm thực sự ở đó. Đừng tin vào những thứ bạn nhìn thấy trên máy tính xách tay của mình”.
Blackbird đã phát triển một công cụ có tên Compass, cho phép bạn kiểm tra tính xác thực của các bài viết và bài đăng trên mạng xã hội. Dán một liên kết vào công cụ và một mô hình ngôn ngữ lớn sẽ tạo ra một bản giới thiệu được rút ra từ các nguồn trực tuyến đáng tin cậy (những nguồn này luôn mở để xem xét, Wissinger nói) cung cấp một số ngữ cảnh cho tài liệu được liên kết. Kết quả rất giống với các ghi chú cộng đồng đôi khi được đính kèm vào những bài đăng gây tranh cãi trên các trang như X, Facebook và Instagram.
Trong khi có nhiều người đặt liên kết vào một trang web xác minh tính xác thực, thì nhiều người khác có thể không biết những công cụ đó tồn tại hoặc không tin tưởng chúng. Thông tin sai lệch cũng có xu hướng lan rộng hơn bất kỳ sự điều chỉnh nào sau đó.
Pechoucek cho biết các công ty công nghệ cần mở rộng phần mềm của họ để tạo điều kiện cạnh tranh nhiều hơn về vấn đề an toàn và tin cậy. Điều đó cũng sẽ cho phép các công ty an ninh mạng phát triển phần mềm của bên thứ ba để giám sát công nghệ này. Đó là điều đã xảy ra cách đây 30 năm khi Windows gặp vấn đề với phần mềm độc hại, ông nói: “Microsoft đã cho phép các công ty diệt virus tham gia để giúp bảo vệ Windows. Kết quả là thế giới trực tuyến trở thành một nơi an toàn hơn”.
Nhưng Pechoucek không quá lạc quan. Ông nói: “Các nhà phát triển công nghệ cần xây dựng những công cụ của họ với mục tiêu hàng đầu là an toàn. Nhưng nhiều người nghĩ về cách làm cho công nghệ này trở nên mạnh mẽ hơn là lo lắng về cách làm cho nó an toàn hơn”.
Video được tạo bởi OpenAI bằng Sora.
Có một điệp khúc mang tính định mệnh phổ biến trong ngành công nghệ: Thay đổi đang đến, hãy đối phó với nó. Raskino nói: “Tôi không nghĩ các công ty công nghệ có thể gánh toàn bộ trách nhiệm. Suy cho cùng, cách bảo vệ tốt nhất chống lại bất kỳ công nghệ nào chính là giáo dục tốt cho tất cả mọi người. Không có đường tắt.”
Miao đồng ý rằng: “Việc chúng ta sẽ áp dụng rộng rãi công nghệ ganerative là điều không thể tránh khỏi. Nhưng đó cũng là trách nhiệm của toàn xã hội. Chúng ta cần phải giáo dục mọi người”.
Ông nói thêm: “Công nghệ sẽ tiến lên phía trước và chúng ta cần chuẩn bị cho sự thay đổi này”. “Chúng ta cần nhắc nhở cha mẹ, bạn bè của mình rằng những thứ họ nhìn thấy trên màn hình có thể không phải là thực. Điều này đặc biệt đúng đối với các thế hệ lớn tuổi". “Cha mẹ chúng ta cần nhận thức được mối nguy hiểm này. Tôi nghĩ mọi người nên làm việc cùng nhau”.
Chúng ta cần phải làm việc cùng nhau một cách nhanh chóng. Khi Sora ra mắt cách đây một tháng, thế giới công nghệ đã choáng váng trước tốc độ phát triển nhanh chóng của video. Nhưng đại đa số mọi người không biết loại công nghệ này thậm chí có tồn tại, Wissinger nói: “Họ chắc chắn không hiểu xu hướng mà chúng tôi đang theo đuổi. Tôi nghĩ nó sẽ gây bão trên toàn thế giới”.