Sora

OpenAI
Miễn phí 23/10/2025 0-100

Sora là gì?

Sora là mô hình AI biến văn bản thành video của OpenAI. Điều này có nghĩa là bạn viết một prompt văn bản, và nó sẽ tạo ra một video khớp với mô tả của prompt đó.

Sora được phát triển bởi OpenAI, nhà phát triển của ChatGPT và DALL·E 3. OpenAI tuyên bố rằng nó "có thể tạo ra những cảnh chân thực và giàu trí tưởng tượng". Các video mà Sora tạo ra từ các prompt bằng văn bản trông rất tuyệt.

Ngoài việc sử dụng prompt văn bản, Sora cũng có thể lấy một hình ảnh và biến nó thành video, hoặc lấy một đoạn video và kéo dài nó về phía trước hoặc phía sau trong timeline. Điều này có tiềm năng hữu ích hơn nữa, mặc dù nó có thể làm nổi bật khả năng hiểu vật lý còn nhiều nghi vấn của mô hình.

Phiên bản hiện tại của Sora là Sora Turbo. Đây là phiên bản đầu tiên của mô hình được cung cấp cho công chúng. Khi ra mắt, Sora Turbo có thể tạo video với độ phân giải lên đến 1080p và độ dài tối đa 20 giây. Các video có thể có nhiều nhân vật, chuyển động máy quay và các chi tiết (phần nào) bền vững và chính xác. Nhờ quá trình huấn luyện, Sora có khả năng hiểu biết đáng ngạc nhiên về cách mọi thứ tồn tại trong thế giới thực - mặc dù không phải lúc nào cũng hiểu được cách chúng tương tác vật lý.

Quan trọng hơn, OpenAI cũng đã phát triển một trình chỉnh sửa video cơ bản cho phép bạn làm được nhiều hơn là chỉ tạo ra các đoạn video riêng lẻ:

  • Remix cho phép bạn thay đổi các yếu tố của bất kỳ video nào do AI tạo ra bằng một prompt văn bản.
  • Recut cho phép bạn trích xuất những phần tốt nhất của một video do AI tạo ra và tạo một video mới.
  • Storyboard cho phép bạn kết hợp nhiều đoạn video do AI tạo ra thành một video duy nhất.
  • Loop cho phép bạn tạo các video do AI tạo ra lặp lại một cách liền mạch.
  • Blend cho phép bạn kết hợp các yếu tố từ hai video khác nhau.

OpenAI cũng đã mượn một vài ý tưởng từ các ứng dụng Generative AI hướng đến cộng đồng hơn như Midjourney. Ví dụ, các tab Recent và Featured làm nổi bật các tác phẩm của người dùng khác. Bạn có thể nhấp vào bất kỳ video nào để xem prompt chính xác được sử dụng để tạo ra nó và thậm chí sử dụng nó làm cơ sở cho các tác phẩm của riêng bạn.

Những tính năng của Sora

Sora có một vài tính năng cho phép người dùng kiểm soát tốt hơn quá trình tạo video. Hãy cùng khám phá từng tính năng.

Remix

Tính năng Remix cho phép người dùng tái hiện lại các video hiện có bằng cách thay đổi các thành phần mà không làm mất đi bản chất của video gốc. Cho dù đó là thay đổi màu sắc, thay thế nền hay tinh chỉnh các yếu tố hình ảnh, Remix cung cấp một cách linh hoạt để thử nghiệm giao diện của video.

Tính năng này hoàn hảo cho những người sáng tạo muốn làm mới nội dung cũ, điều chỉnh video theo các chủ đề cụ thể hoặc khám phá các biến thể cho mục đích xây dựng thương hiệu.

Re-cut

Tính năng Re-cut cho phép người sáng tạo xác định và tách biệt các khung hình có tác động mạnh nhất trong video, mở rộng chúng theo cả hai hướng để tạo thành một cảnh hoàn chỉnh. Công cụ này hoàn hảo để tăng cường các khoảnh khắc quan trọng, thu hút sự chú ý vào những hình ảnh cụ thể hoặc đảm bảo sự liền mạch giữa các cảnh. Bằng cách tập trung vào những khung hình mạnh nhất, Re-cut giúp tinh chỉnh quá trình kể chuyện, đồng thời cho phép người sáng tạo kiểm soát nhịp độ và điểm nhấn tốt hơn.

Loop

Tính năng Loop giúp dễ dàng tạo ra các đoạn video lặp lại liền mạch. Lý tưởng cho hình ảnh nền, video âm nhạc hoặc hoạt ảnh thôi miên, công cụ này đảm bảo chuyển tiếp giữa các vòng lặp mượt mà và tự nhiên. Nó cho phép người sáng tạo kéo dài thời lượng của những khoảnh khắc hấp dẫn hoặc duy trì nhịp điệu nhất quán cho các video được thiết kế để phát liên tục.

Storyboard

Tính năng Storyboard cho phép người sáng tạo tạo ra các cảnh quay cụ thể tại những điểm khung hình được chỉ định dọc theo timeline, mang lại khả năng kiểm soát chính xác đối với câu chuyện trực quan.

Blend

Tính năng Blend cho phép bạn kết hợp các yếu tố video hoặc phong cách khác nhau để tạo ra những bố cục mới. Bằng cách kết hợp các cảnh quay, màu sắc hoặc những phương pháp nghệ thuật, nó hỗ trợ tạo ra hình ảnh mang lại cảm giác khác biệt và mới mẻ. Phương pháp này phù hợp cho các dự án thử nghiệm, mashup hoặc kể chuyện sáng tạo khám phá những ý tưởng độc đáo.

Style presets

Style presets cung cấp một bộ sưu tập các template thẩm mỹ được xác định trước có thể áp dụng cho video. Các cài đặt preset này giúp bạn dễ dàng đạt được một diện mạo cụ thể, dù là điện ảnh, sống động và vui tươi hay chuyên nghiệp.

Sora hoạt động như thế nào?

Giống như các mô hình Generative AI biến văn bản thành hình ảnh như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch tán. Điều đó có nghĩa là nó bắt đầu với mỗi khung hình video bao gồm nhiễu tĩnh và sử dụng Machine Learning để dần dần chuyển đổi hình ảnh thành thứ gì đó giống với mô tả trong prompt.

Giải quyết tính nhất quán theo thời gian

Một điểm cải tiến trong Sora là nó xử lý nhiều khung hình video cùng một lúc, điều này giải quyết vấn đề giữ cho các vật thể nhất quán khi chúng di chuyển vào và ra khỏi tầm nhìn.

Kết hợp mô hình khuếch tán và mô hình biến đổi

Sora kết hợp việc sử dụng mô hình khuếch tán với kiến ​​trúc biến đổi, như được sử dụng bởi GPT.

Khi kết hợp hai loại mô hình này, Jack Qiao lưu ý rằng "các mô hình khuếch tán rất tốt trong việc tạo kết cấu cấp thấp nhưng lại kém trong việc tạo bố cục toàn cục, trong khi các mô hình biến đổi lại gặp vấn đề ngược lại". Nghĩa là, bạn cần một mô hình biến đổi giống GPT để xác định bố cục cấp cao của các khung hình video và một mô hình khuếch tán để tạo chi tiết.

Trong một bài viết kỹ thuật về việc triển khai Sora, OpenAI cung cấp một mô tả chi tiết về cách thức hoạt động của sự kết hợp này. Trong các mô hình khuếch tán, hình ảnh được chia thành những "miếng vá" hình chữ nhật nhỏ hơn. Đối với video, các miếng vá này là ba chiều vì chúng tồn tại theo thời gian. Các miếng vá có thể được coi tương đương với "token" trong những mô hình ngôn ngữ lớn: Thay vì là một thành phần của câu, chúng là thành phần của một tập hợp hình ảnh. Phần biến đổi của mô hình sắp xếp các miếng vá, và phần khuếch tán của mô hình tạo nội dung cho mỗi miếng vá.

Một điểm kỳ lạ khác của kiến ​​trúc lai này là để việc tạo video khả thi về mặt tính toán, quá trình tạo các miếng vá sử dụng một bước giảm chiều để việc tính toán không cần phải diễn ra trên từng pixel cho mỗi khung hình.

Tăng độ trung thực của video bằng cách thêm chú thích

Để nắm bắt chính xác nội dung prompt của người dùng, Sora sử dụng kỹ thuật thêm chú thích cũng có trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại prompt của người dùng để bao gồm nhiều chi tiết hơn. Về cơ bản, đây là một hình thức thiết kế prompt tự động.

52 👨 82
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
    ❖ Năng suất