Sora

OpenAI

Miễn phí 23/10/2025 0-100

5,0

Tải xuống

Hà Nguyễn

Sora giống như DALL·E phiên bản video - thậm chí được phát triển bởi cùng một nhóm người - và hiện đã có sẵn cho các thành viên ChatGPT Plus và Pro.

Với Sora, bạn nhập một đoạn văn bản, và mô hình AI sẽ cố gắng hết sức để tạo ra một video phù hợp. Điều này hoàn toàn hợp lý khi một khi các mô hình AI có thể tạo ra hình ảnh khá tốt, thì thách thức tiếp theo sẽ là làm cho chúng tạo ra những đoạn video chất lượng tốt - và đó là điều mà Sora đang hướng tới.

Mặc dù Sora rất ấn tượng, nhưng kết quả của nó đôi khi có chất lượng giống như trong video game nhưng lại khá siêu thực. Hãy đăng ký và dùng thử nếu bạn muốn tự mình đánh giá xem chúng có thực sự chân thực hay không. Nhưng trước tiên, hãy cùng xem Sora là gì, cách thức hoạt động của nó và cách nó có thể được sử dụng trong tương lai.

Sora là gì?

Sora là mô hình AI biến văn bản thành video của OpenAI. Điều này có nghĩa là bạn viết một prompt văn bản, và nó sẽ tạo ra một video khớp với mô tả của prompt đó.

Sora được phát triển bởi OpenAI, nhà phát triển của ChatGPT và DALL·E 3. OpenAI tuyên bố rằng nó "có thể tạo ra những cảnh chân thực và giàu trí tưởng tượng". Các video mà Sora tạo ra từ các prompt bằng văn bản trông rất tuyệt.

Ngoài việc sử dụng prompt văn bản, Sora cũng có thể lấy một hình ảnh và biến nó thành video, hoặc lấy một đoạn video và kéo dài nó về phía trước hoặc phía sau trong timeline. Điều này có tiềm năng hữu ích hơn nữa, mặc dù nó có thể làm nổi bật khả năng hiểu vật lý còn nhiều nghi vấn của mô hình.

Phiên bản hiện tại của Sora là Sora Turbo. Đây là phiên bản đầu tiên của mô hình được cung cấp cho công chúng. Khi ra mắt, Sora Turbo có thể tạo video với độ phân giải lên đến 1080p và độ dài tối đa 20 giây. Các video có thể có nhiều nhân vật, chuyển động máy quay và các chi tiết (phần nào) bền vững và chính xác. Nhờ quá trình huấn luyện, Sora có khả năng hiểu biết đáng ngạc nhiên về cách mọi thứ tồn tại trong thế giới thực - mặc dù không phải lúc nào cũng hiểu được cách chúng tương tác vật lý.

Quan trọng hơn, OpenAI cũng đã phát triển một trình chỉnh sửa video cơ bản cho phép bạn làm được nhiều hơn là chỉ tạo ra các đoạn video riêng lẻ:

Remix cho phép bạn thay đổi các yếu tố của bất kỳ video nào do AI tạo ra bằng một prompt văn bản.
Recut cho phép bạn trích xuất những phần tốt nhất của một video do AI tạo ra và tạo một video mới.
Storyboard cho phép bạn kết hợp nhiều đoạn video do AI tạo ra thành một video duy nhất.
Loop cho phép bạn tạo các video do AI tạo ra lặp lại một cách liền mạch.
Blend cho phép bạn kết hợp các yếu tố từ hai video khác nhau.

OpenAI cũng đã mượn một vài ý tưởng từ các ứng dụng Generative AI hướng đến cộng đồng hơn như Midjourney. Ví dụ, các tab Recent và Featured làm nổi bật các tác phẩm của người dùng khác. Bạn có thể nhấp vào bất kỳ video nào để xem prompt chính xác được sử dụng để tạo ra nó và thậm chí sử dụng nó làm cơ sở cho các tác phẩm của riêng bạn.

Những tính năng của Sora

Sora có một vài tính năng cho phép người dùng kiểm soát tốt hơn quá trình tạo video. Hãy cùng khám phá từng tính năng.

Remix

Tính năng Remix cho phép người dùng tái hiện lại các video hiện có bằng cách thay đổi các thành phần mà không làm mất đi bản chất của video gốc. Cho dù đó là thay đổi màu sắc, thay thế nền hay tinh chỉnh các yếu tố hình ảnh, Remix cung cấp một cách linh hoạt để thử nghiệm giao diện của video.

Tính năng này hoàn hảo cho những người sáng tạo muốn làm mới nội dung cũ, điều chỉnh video theo các chủ đề cụ thể hoặc khám phá các biến thể cho mục đích xây dựng thương hiệu.

Re-cut

Tính năng Re-cut cho phép người sáng tạo xác định và tách biệt các khung hình có tác động mạnh nhất trong video, mở rộng chúng theo cả hai hướng để tạo thành một cảnh hoàn chỉnh. Công cụ này hoàn hảo để tăng cường các khoảnh khắc quan trọng, thu hút sự chú ý vào những hình ảnh cụ thể hoặc đảm bảo sự liền mạch giữa các cảnh. Bằng cách tập trung vào những khung hình mạnh nhất, Re-cut giúp tinh chỉnh quá trình kể chuyện, đồng thời cho phép người sáng tạo kiểm soát nhịp độ và điểm nhấn tốt hơn.

Loop

Tính năng Loop giúp dễ dàng tạo ra các đoạn video lặp lại liền mạch. Lý tưởng cho hình ảnh nền, video âm nhạc hoặc hoạt ảnh thôi miên, công cụ này đảm bảo chuyển tiếp giữa các vòng lặp mượt mà và tự nhiên. Nó cho phép người sáng tạo kéo dài thời lượng của những khoảnh khắc hấp dẫn hoặc duy trì nhịp điệu nhất quán cho các video được thiết kế để phát liên tục.

Storyboard

Tính năng Storyboard cho phép người sáng tạo tạo ra các cảnh quay cụ thể tại những điểm khung hình được chỉ định dọc theo timeline, mang lại khả năng kiểm soát chính xác đối với câu chuyện trực quan.

Blend

Tính năng Blend cho phép bạn kết hợp các yếu tố video hoặc phong cách khác nhau để tạo ra những bố cục mới. Bằng cách kết hợp các cảnh quay, màu sắc hoặc những phương pháp nghệ thuật, nó hỗ trợ tạo ra hình ảnh mang lại cảm giác khác biệt và mới mẻ. Phương pháp này phù hợp cho các dự án thử nghiệm, mashup hoặc kể chuyện sáng tạo khám phá những ý tưởng độc đáo.

Style presets

Style presets cung cấp một bộ sưu tập các template thẩm mỹ được xác định trước có thể áp dụng cho video. Các cài đặt preset này giúp bạn dễ dàng đạt được một diện mạo cụ thể, dù là điện ảnh, sống động và vui tươi hay chuyên nghiệp.

Sora hoạt động như thế nào?

Sora được xây dựng dựa trên những ý tưởng đằng sau các mô hình khác của Open AI, cũng như rất nhiều cải tiến mới lạ.

Giống như các mô hình Generative AI biến văn bản thành hình ảnh như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch tán. Điều đó có nghĩa là nó bắt đầu với mỗi khung hình video bao gồm nhiễu tĩnh và sử dụng Machine Learning để dần dần chuyển đổi hình ảnh thành thứ gì đó giống với mô tả trong prompt.

Không đi sâu vào chi tiết kỹ thuật: Sora được huấn luyện trên một lượng video không xác định, dường như bao gồm mọi thứ từ video tự quay đến phim ảnh, chương trình truyền hình, cảnh quay thực tế, bản ghi video game, v.v... Tất cả các đoạn phim huấn luyện này đều được chú thích, chủ yếu bằng AI, để Sora có thể phát triển sự hiểu biết sâu sắc về ngôn ngữ tự nhiên và cách nó liên quan đến thế giới vật lý.

Giải quyết tính nhất quán theo thời gian

Một điểm cải tiến trong Sora là nó xử lý nhiều khung hình video cùng một lúc, điều này giải quyết vấn đề giữ cho các vật thể nhất quán khi chúng di chuyển vào và ra khỏi tầm nhìn.

Kết hợp mô hình khuếch tán và mô hình biến đổi

Sora kết hợp việc sử dụng mô hình khuếch tán với kiến trúc biến đổi, như được sử dụng bởi GPT.

Khi kết hợp hai loại mô hình này, Jack Qiao lưu ý rằng "các mô hình khuếch tán rất tốt trong việc tạo kết cấu cấp thấp nhưng lại kém trong việc tạo bố cục toàn cục, trong khi các mô hình biến đổi lại gặp vấn đề ngược lại". Nghĩa là, bạn cần một mô hình biến đổi giống GPT để xác định bố cục cấp cao của các khung hình video và một mô hình khuếch tán để tạo chi tiết.

Trong một bài viết kỹ thuật về việc triển khai Sora, OpenAI cung cấp một mô tả chi tiết về cách thức hoạt động của sự kết hợp này. Trong các mô hình khuếch tán, hình ảnh được chia thành những "miếng vá" hình chữ nhật nhỏ hơn. Đối với video, các miếng vá này là ba chiều vì chúng tồn tại theo thời gian. Các miếng vá có thể được coi tương đương với "token" trong những mô hình ngôn ngữ lớn: Thay vì là một thành phần của câu, chúng là thành phần của một tập hợp hình ảnh. Phần biến đổi của mô hình sắp xếp các miếng vá, và phần khuếch tán của mô hình tạo nội dung cho mỗi miếng vá.

Một điểm kỳ lạ khác của kiến trúc lai này là để việc tạo video khả thi về mặt tính toán, quá trình tạo các miếng vá sử dụng một bước giảm chiều để việc tính toán không cần phải diễn ra trên từng pixel cho mỗi khung hình.

Tăng độ trung thực của video bằng cách thêm chú thích

Để nắm bắt chính xác nội dung prompt của người dùng, Sora sử dụng kỹ thuật thêm chú thích cũng có trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại prompt của người dùng để bao gồm nhiều chi tiết hơn. Về cơ bản, đây là một hình thức thiết kế prompt tự động.

Phân tách dữ liệu hình ảnh bằng các mảng (patches)

Trong báo cáo kỹ thuật được phát hành vào tháng 2 năm 2024, các nhà nghiên cứu của OpenAI giải thích rằng họ được truyền cảm hứng từ cách những mô hình ngôn ngữ lớn (LLM) như GPT có thể trở nên cực kỳ thành thạo trong nhiều nhiệm vụ khác nhau chỉ bằng cách được huấn luyện trên một lượng dữ liệu khổng lồ.

Một phần lớn lý do là vì LLM mô hình hóa mối quan hệ giữa các "token" riêng lẻ — những đoạn văn bản có ý nghĩa dài khoảng 4 ký tự — trên các lĩnh vực khác nhau, bao gồm nhiều ngôn ngữ, toán học và mã máy tính. Khi được cung cấp hàng tỷ trang web, chúng có một cấu trúc mà chúng có thể sử dụng để phân loại và kết hợp mọi thứ.

Để đạt được một số lợi ích tương tự với video, OpenAI sử dụng "các mảng spacetime" (spacetime patches). Về bản chất, mỗi khung hình trong video được chia nhỏ thành một loạt những phân đoạn nhỏ hơn được gọi là các mảng. Cách mỗi phân đoạn thay đổi trong suốt chiều dài của video cũng được mã hóa trong mảng spacetime. Quan trọng là, điều này cho phép Sora được huấn luyện trên nhiều loại dữ liệu hình ảnh khác nhau, từ video dọc trên mạng xã hội đến phim màn ảnh rộng, vì mỗi đoạn video không cần phải cắt xén hoặc nén lại theo một kích thước cụ thể. Mọi thứ trở nên phức tạp rất nhanh.

5 ★ 3 👨 177

#AI

Tải Sora:

Tải về trên Google Play Tải về trên Apple Store

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Ứng dụng liên quan

Bạn nên đọc

Năng suất

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Sora

Sora

Sora

Hà Nguyễn

Sora là gì?

Những tính năng của Sora

Remix

Re-cut

Loop

Storyboard

Blend

Style presets

Sora hoạt động như thế nào?

Giải quyết tính nhất quán theo thời gian

Kết hợp mô hình khuếch tán và mô hình biến đổi

Tăng độ trung thực của video bằng cách thêm chú thích

Phân tách dữ liệu hình ảnh bằng các mảng (patches)

Tải Sora:

Ứng dụng liên quan

ChatGPT Atlas

Gamma AI

PocketPal AI

Topaz Video AI

Topaz Gigapixel AI

Bạn nên đọc

Adobe Reader DC (Acrobat Reader)

Coda

Sora

Smart Noter – Ghi chú bằng AI

Notability: AI Notes & PDF

Craft: Docs, Tasks & AI