Sora

OpenAI
Miễn phí 23/10/2025 0-100

Sora là gì?

Sora là mô hình AI biến văn bản thành video của OpenAI. Điều này có nghĩa là bạn viết một prompt văn bản, và nó sẽ tạo ra một video khớp với mô tả của prompt đó.

Những tính năng của Sora

Sora có một vài tính năng cho phép người dùng kiểm soát tốt hơn quá trình tạo video. Hãy cùng khám phá từng tính năng.

Remix

Tính năng Remix cho phép người dùng tái hiện lại các video hiện có bằng cách thay đổi các thành phần mà không làm mất đi bản chất của video gốc. Cho dù đó là thay đổi màu sắc, thay thế nền hay tinh chỉnh các yếu tố hình ảnh, Remix cung cấp một cách linh hoạt để thử nghiệm giao diện của video.

Tính năng này hoàn hảo cho những người sáng tạo muốn làm mới nội dung cũ, điều chỉnh video theo các chủ đề cụ thể hoặc khám phá các biến thể cho mục đích xây dựng thương hiệu.

Re-cut

Tính năng Re-cut cho phép người sáng tạo xác định và tách biệt các khung hình có tác động mạnh nhất trong video, mở rộng chúng theo cả hai hướng để tạo thành một cảnh hoàn chỉnh. Công cụ này hoàn hảo để tăng cường các khoảnh khắc quan trọng, thu hút sự chú ý vào những hình ảnh cụ thể hoặc đảm bảo sự liền mạch giữa các cảnh. Bằng cách tập trung vào những khung hình mạnh nhất, Re-cut giúp tinh chỉnh quá trình kể chuyện, đồng thời cho phép người sáng tạo kiểm soát nhịp độ và điểm nhấn tốt hơn.

Loop

Tính năng Loop giúp dễ dàng tạo ra các đoạn video lặp lại liền mạch. Lý tưởng cho hình ảnh nền, video âm nhạc hoặc hoạt ảnh thôi miên, công cụ này đảm bảo chuyển tiếp giữa các vòng lặp mượt mà và tự nhiên. Nó cho phép người sáng tạo kéo dài thời lượng của những khoảnh khắc hấp dẫn hoặc duy trì nhịp điệu nhất quán cho các video được thiết kế để phát liên tục.

Storyboard

Tính năng Storyboard cho phép người sáng tạo tạo ra các cảnh quay cụ thể tại những điểm khung hình được chỉ định dọc theo timeline, mang lại khả năng kiểm soát chính xác đối với câu chuyện trực quan.

Blend

Tính năng Blend cho phép bạn kết hợp các yếu tố video hoặc phong cách khác nhau để tạo ra những bố cục mới. Bằng cách kết hợp các cảnh quay, màu sắc hoặc những phương pháp nghệ thuật, nó hỗ trợ tạo ra hình ảnh mang lại cảm giác khác biệt và mới mẻ. Phương pháp này phù hợp cho các dự án thử nghiệm, mashup hoặc kể chuyện sáng tạo khám phá những ý tưởng độc đáo.

Style presets

Style presets cung cấp một bộ sưu tập các template thẩm mỹ được xác định trước có thể áp dụng cho video. Các cài đặt preset này giúp bạn dễ dàng đạt được một diện mạo cụ thể, dù là điện ảnh, sống động và vui tươi hay chuyên nghiệp.

Sora hoạt động như thế nào?

Giống như các mô hình Generative AI biến văn bản thành hình ảnh như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch tán. Điều đó có nghĩa là nó bắt đầu với mỗi khung hình video bao gồm nhiễu tĩnh và sử dụng Machine Learning để dần dần chuyển đổi hình ảnh thành thứ gì đó giống với mô tả trong prompt.

Giải quyết tính nhất quán theo thời gian

Một điểm cải tiến trong Sora là nó xử lý nhiều khung hình video cùng một lúc, điều này giải quyết vấn đề giữ cho các vật thể nhất quán khi chúng di chuyển vào và ra khỏi tầm nhìn.

Kết hợp mô hình khuếch tán và mô hình biến đổi

Sora kết hợp việc sử dụng mô hình khuếch tán với kiến ​​trúc biến đổi, như được sử dụng bởi GPT.

Khi kết hợp hai loại mô hình này, Jack Qiao lưu ý rằng "các mô hình khuếch tán rất tốt trong việc tạo kết cấu cấp thấp nhưng lại kém trong việc tạo bố cục toàn cục, trong khi các mô hình biến đổi lại gặp vấn đề ngược lại". Nghĩa là, bạn cần một mô hình biến đổi giống GPT để xác định bố cục cấp cao của các khung hình video và một mô hình khuếch tán để tạo chi tiết.

Trong một bài viết kỹ thuật về việc triển khai Sora, OpenAI cung cấp một mô tả chi tiết về cách thức hoạt động của sự kết hợp này. Trong các mô hình khuếch tán, hình ảnh được chia thành những "miếng vá" hình chữ nhật nhỏ hơn. Đối với video, các miếng vá này là ba chiều vì chúng tồn tại theo thời gian. Các miếng vá có thể được coi tương đương với "token" trong những mô hình ngôn ngữ lớn: Thay vì là một thành phần của câu, chúng là thành phần của một tập hợp hình ảnh. Phần biến đổi của mô hình sắp xếp các miếng vá, và phần khuếch tán của mô hình tạo nội dung cho mỗi miếng vá.

Một điểm kỳ lạ khác của kiến ​​trúc lai này là để việc tạo video khả thi về mặt tính toán, quá trình tạo các miếng vá sử dụng một bước giảm chiều để việc tính toán không cần phải diễn ra trên từng pixel cho mỗi khung hình.

Tăng độ trung thực của video bằng cách thêm chú thích

Để nắm bắt chính xác nội dung prompt của người dùng, Sora sử dụng kỹ thuật thêm chú thích cũng có trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại prompt của người dùng để bao gồm nhiều chi tiết hơn. Về cơ bản, đây là một hình thức thiết kế prompt tự động.

51 👨 29
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo