Mọi thứ bạn cần biết về GPT-4o

Chàng trai nhạt nhẽo

OpenAI ra mắt GPT-4o, một mô hình ngôn ngữ lớn đa phương thức hỗ trợ các cuộc trò chuyện thời gian thực, Hỏi & Đáp, tạo văn bản, v.v...

OpenAI là một trong những nhà cung cấp định hình kỷ nguyên Generative AI. Nền tảng cho sự thành công và phổ biến của OpenAI là họ mô hình ngôn ngữ lớn (LLM) GPT của công ty, bao gồm GPT-3 và GPT-4, cùng với dịch vụ AI đàm thoại ChatGPT của công ty.

OpenAI đã công bố GPT-4 Omni (GPT-4o) là mô hình ngôn ngữ đa phương thức hàng đầu mới của công ty vào ngày 13 tháng 5 năm 2024, trong sự kiện Spring Updates của công ty. Là một phần của sự kiện, OpenAI đã phát hành nhiều video trình bày khả năng phản hồi bằng giọng nói trực quan và khả năng đầu ra của mô hình.

Vào tháng 7 năm 2024, OpenAI đã ra mắt phiên bản nhỏ hơn của GPT-4o - GPT-4o mini. Đây là mô hình nhỏ tiên tiến nhất của công ty.

GPT-4o là gì?

GPT-4o là mô hình hàng đầu trong danh mục công nghệ LLM của OpenAI. O là viết tắt của Omni và không chỉ là một dạng cường điệu tiếp thị, mà đúng hơn là ám chỉ đến nhiều phương thức của mô hình cho văn bản, hình ảnh và âm thanh.

Mô hình GPT-4o đánh dấu một sự phát triển mới cho GPT-4 LLM mà OpenAI lần đầu tiên phát hành vào tháng 3 năm 2023. Đây cũng không phải là bản cập nhật đầu tiên cho GPT-4, vì mô hình này lần đầu tiên được thúc đẩy vào tháng 11 năm 2023, với sự ra mắt của GPT-4 Turbo. Từ viết tắt GPT là viết tắt của Generative Pre-Trained Transformer. Mô hình transformer là một yếu tố nền tảng của Generative AI, cung cấp kiến trúc mạng nơ-ron có khả năng hiểu và tạo ra các đầu ra mới.

GPT-4o vượt xa những gì GPT-4 Turbo cung cấp về cả khả năng và hiệu suất. Giống như các phiên bản tiền nhiệm GPT-4, GPT-4o có thể được sử dụng cho những trường hợp cần tạo văn bản, chẳng hạn như tóm tắt, câu hỏi và câu trả lời dựa trên kiến thức. Mô hình này cũng có khả năng lập luận, giải các bài toán phức tạp và lập trình.

Mô hình GPT-4o giới thiệu phản hồi đầu vào âm thanh nhanh mới - theo OpenAI - tương tự như con người, với thời gian phản hồi trung bình là 320 mili giây. Mô hình này cũng có thể phản hồi bằng giọng nói do AI tạo ra nghe giống giọng người.

Thay vì có nhiều mô hình riêng biệt hiểu âm thanh, hình ảnh - mà OpenAI gọi là thị giác - và văn bản, GPT-4o kết hợp các phương thức đó thành một mô hình duy nhất. Như vậy, GPT-4o có thể hiểu bất kỳ sự kết hợp nào của đầu vào văn bản, hình ảnh và âm thanh và phản hồi bằng đầu ra ở bất kỳ dạng nào trong số đó.

Lời hứa của GPT-4o và khả năng phản hồi đa phương thức âm thanh tốc độ cao của nó là cho phép mô hình tham gia vào các tương tác tự nhiên và trực quan hơn với người dùng.

GPT-4o mini là mô hình nhanh nhất của OpenAI và cung cấp các ứng dụng với chi phí thấp hơn. GPT-4o mini thông minh hơn GPT-3.5 Turbo và rẻ hơn 60%. Dữ liệu đào tạo kéo dài đến tháng 10 năm 2023. GPT-4o mini có sẵn trong các mô hình văn bản và thị giác dành cho nhà phát triển thông qua Assistants API, Chat Completions API và Batch API. Phiên bản mini cũng có sẵn trên ChatGPT, Free, Plus và Team dành cho người dùng.

GPT-4o có thể làm gì?

Vào thời điểm phát hành, GPT-4o là mô hình có khả năng nhất trong tất cả các mô hình OpenAI về cả chức năng và hiệu suất.

Nhiều thứ mà GPT-4o có thể làm bao gồm:

Tương tác thời gian thực. Mô hình GPT-4o có thể tham gia vào các cuộc trò chuyện bằng lời nói thời gian thực mà không có bất kỳ sự chậm trễ đáng chú ý nào.
Hỏi & đáp dựa trên kiến thức. Giống như tất cả các mô hình GPT-4 trước đây, GPT-4o đã được đào tạo bằng cơ sở kiến thức và có thể trả lời những câu hỏi.
Tóm tắt và tạo văn bản. Giống như tất cả các mô hình GPT-4 trước đó, GPT-4o có thể thực hiện những tác vụ LLM văn bản phổ biến bao gồm tóm tắt và tạo văn bản.
Lý luận và tạo đa phương thức. GPT-4o tích hợp văn bản, giọng nói và hình ảnh vào một mô hình duy nhất, cho phép xử lý và phản hồi kết hợp các loại dữ liệu. Mô hình có thể hiểu âm thanh, hình ảnh và văn bản với cùng tốc độ. Nó cũng có thể tạo phản hồi thông qua âm thanh, hình ảnh và văn bản.
Xử lý ngôn ngữ và âm thanh. GPT-4o có khả năng tiên tiến trong việc xử lý hơn 50 ngôn ngữ khác nhau.
Phân tích tình cảm. Mô hình hiểu được tình cảm của người dùng trên các phương thức khác nhau của văn bản, âm thanh và video.
Sắc thái giọng nói. GPT-4o có thể tạo ra giọng nói với sắc thái cảm xúc. Điều này làm cho nó hiệu quả đối với các ứng dụng yêu cầu giao tiếp nhạy cảm và sắc thái.
Phân tích nội dung âm thanh. Mô hình có thể tạo và hiểu ngôn ngữ nói, có thể được áp dụng trong các hệ thống kích hoạt bằng giọng nói, phân tích nội dung âm thanh và kể chuyện tương tác
Dịch thuật thời gian thực. Khả năng đa phương thức của GPT-4o có thể hỗ trợ dịch thuật thời gian thực từ ngôn ngữ này sang ngôn ngữ khác.
Hiểu hình ảnh và video. Mô hình có thể phân tích hình ảnh và video, cho phép người dùng upload lên nội dung trực quan mà GPT-4o có thể hiểu, giải thích và cung cấp phân tích.
Phân tích dữ liệu. Khả năng lập luận và tầm nhìn có thể cho phép người dùng phân tích dữ liệu có trong biểu đồ dữ liệu. GPT-4o cũng có thể tạo biểu đồ dữ liệu dựa trên phân tích hoặc lời nhắc.
Upload file lên. Ngoài ngưỡng kiến thức, GPT-4o hỗ trợ upload file lên, cho phép người dùng dữ liệu cụ thể để phân tích.
Nhận thức về ngữ cảnh và trí nhớ. GPT-4o có thể ghi nhớ các tương tác trước đó và duy trì ngữ cảnh trong những cuộc trò chuyện dài
Cửa sổ ngữ cảnh lớn. Với cửa sổ ngữ cảnh hỗ trợ tới 128.000 token, GPT-4o có thể duy trì tính nhất quán trong các cuộc trò chuyện hoặc tài liệu dài, giúp phù hợp để phân tích chi tiết.
Giảm ảo giác và cải thiện tính an toàn. Mô hình được thiết kế để giảm thiểu việc tạo ra thông tin không chính xác hoặc gây hiểu lầm. GPT-4o bao gồm các giao thức an toàn nâng cao để đảm bảo đầu ra phù hợp và an toàn cho người dùng.

Cách sử dụng GPT-4o

Có một số cách người dùng và tổ chức có thể sử dụng GPT-4o.

ChatGPT miễn phí. Mô hình GPT-4o được thiết lập để cung cấp miễn phí cho người dùng chatbot ChatGPT của OpenAI. Khi khả dụng, GPT-4o sẽ thay thế mặc định hiện tại cho người dùng ChatGPT Free. Người dùng ChatGPT Free sẽ bị hạn chế quyền truy cập tin nhắn và sẽ không được truy cập vào một số tính năng nâng cao bao gồm upload file lên và phân tích dữ liệu.
ChatGPT Plus. Người dùng dịch vụ trả phí của OpenAI dành cho ChatGPT sẽ được quyền truy cập đầy đủ vào GPT-4o, mà không có các hạn chế về tính năng dành cho người dùng miễn phí.
Quyền truy cập API. Các nhà phát triển có thể truy cập GPT-4o thông qua API của OpenAI. Điều này cho phép tích hợp vào những ứng dụng để tận dụng tối đa khả năng của GPT-4o cho các tác vụ.
Ứng dụng desktop. OpenAI đã tích hợp GPT-4o vào các ứng dụng desktop, bao gồm một ứng dụng mới cho macOS của Apple cũng đã được ra mắt vào ngày 13 tháng 5.
GPT tùy chỉnh. Các tổ chức có thể tạo những phiên bản GPT tùy chỉnh của GPT-4o phù hợp với nhu cầu kinh doanh hoặc phòng ban cụ thể. Mô hình tùy chỉnh có khả năng được cung cấp cho người dùng thông qua GPT Store của OpenAI.
Dịch vụ Microsoft OpenAI. Người dùng có thể khám phá khả năng của GPT-4o ở chế độ xem trước trong Microsoft Azure OpenAI Studio, được thiết kế riêng để xử lý các đầu vào đa phương thức bao gồm văn bản và thị giác. Bản phát hành ban đầu này cho phép khách hàng của Azure OpenAI Service thử nghiệm các chức năng của GPT-4o trong môi trường được kiểm soát, với kế hoạch mở rộng khả năng của nó trong tương lai.

Ngoài ra, bạn đọc có thể tham khảo thêm: Sự khác biệt giữa GPT-4, GPT-4 Turbo và GPT-4o.

Thứ Tư, 13/08/2025 22:03

3 ★ 2 👨 2.129

#ChatGPT

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!