OpenAI ra mắt GPT-4o, một mô hình ngôn ngữ lớn đa phương thức hỗ trợ các cuộc trò chuyện thời gian thực, Hỏi & Đáp, tạo văn bản, v.v...
OpenAI là một trong những nhà cung cấp định hình kỷ nguyên Generative AI. Nền tảng cho sự thành công và phổ biến của OpenAI là họ mô hình ngôn ngữ lớn (LLM) GPT của công ty, bao gồm GPT-3 và GPT-4, cùng với dịch vụ AI đàm thoại ChatGPT của công ty.
OpenAI đã công bố GPT-4 Omni (GPT-4o) là mô hình ngôn ngữ đa phương thức hàng đầu mới của công ty vào ngày 13 tháng 5 năm 2024, trong sự kiện Spring Updates của công ty. Là một phần của sự kiện, OpenAI đã phát hành nhiều video trình bày khả năng phản hồi bằng giọng nói trực quan và khả năng đầu ra của mô hình.
Vào tháng 7 năm 2024, OpenAI đã ra mắt phiên bản nhỏ hơn của GPT-4o - GPT-4o mini. Đây là mô hình nhỏ tiên tiến nhất của công ty.
Mục lục bài viết
GPT-4o là gì?
GPT-4o là mô hình hàng đầu trong danh mục công nghệ LLM của OpenAI. O là viết tắt của Omni và không chỉ là một dạng cường điệu tiếp thị, mà đúng hơn là ám chỉ đến nhiều phương thức của mô hình cho văn bản, hình ảnh và âm thanh.
Mô hình GPT-4o đánh dấu một sự phát triển mới cho GPT-4 LLM mà OpenAI lần đầu tiên phát hành vào tháng 3 năm 2023. Đây cũng không phải là bản cập nhật đầu tiên cho GPT-4, vì mô hình này lần đầu tiên được thúc đẩy vào tháng 11 năm 2023, với sự ra mắt của GPT-4 Turbo. Từ viết tắt GPT là viết tắt của Generative Pre-Trained Transformer. Mô hình transformer là một yếu tố nền tảng của Generative AI, cung cấp kiến trúc mạng nơ-ron có khả năng hiểu và tạo ra các đầu ra mới.
GPT-4o vượt xa những gì GPT-4 Turbo cung cấp về cả khả năng và hiệu suất. Giống như các phiên bản tiền nhiệm GPT-4, GPT-4o có thể được sử dụng cho những trường hợp cần tạo văn bản, chẳng hạn như tóm tắt, câu hỏi và câu trả lời dựa trên kiến thức. Mô hình này cũng có khả năng lập luận, giải các bài toán phức tạp và lập trình.
Mô hình GPT-4o giới thiệu phản hồi đầu vào âm thanh nhanh mới - theo OpenAI - tương tự như con người, với thời gian phản hồi trung bình là 320 mili giây. Mô hình này cũng có thể phản hồi bằng giọng nói do AI tạo ra nghe giống giọng người.
Thay vì có nhiều mô hình riêng biệt hiểu âm thanh, hình ảnh - mà OpenAI gọi là thị giác - và văn bản, GPT-4o kết hợp các phương thức đó thành một mô hình duy nhất. Như vậy, GPT-4o có thể hiểu bất kỳ sự kết hợp nào của đầu vào văn bản, hình ảnh và âm thanh và phản hồi bằng đầu ra ở bất kỳ dạng nào trong số đó.
Lời hứa của GPT-4o và khả năng phản hồi đa phương thức âm thanh tốc độ cao của nó là cho phép mô hình tham gia vào các tương tác tự nhiên và trực quan hơn với người dùng.
GPT-4o mini là mô hình nhanh nhất của OpenAI và cung cấp các ứng dụng với chi phí thấp hơn. GPT-4o mini thông minh hơn GPT-3.5 Turbo và rẻ hơn 60%. Dữ liệu đào tạo kéo dài đến tháng 10 năm 2023. GPT-4o mini có sẵn trong các mô hình văn bản và thị giác dành cho nhà phát triển thông qua Assistants API, Chat Completions API và Batch API. Phiên bản mini cũng có sẵn trên ChatGPT, Free, Plus và Team dành cho người dùng.
GPT-4o có thể làm gì?
Vào thời điểm phát hành, GPT-4o là mô hình có khả năng nhất trong tất cả các mô hình OpenAI về cả chức năng và hiệu suất.
Nhiều thứ mà GPT-4o có thể làm bao gồm:
- Tương tác thời gian thực. Mô hình GPT-4o có thể tham gia vào các cuộc trò chuyện bằng lời nói thời gian thực mà không có bất kỳ sự chậm trễ đáng chú ý nào.
- Hỏi & đáp dựa trên kiến thức. Giống như tất cả các mô hình GPT-4 trước đây, GPT-4o đã được đào tạo bằng cơ sở kiến thức và có thể trả lời những câu hỏi.
- Tóm tắt và tạo văn bản. Giống như tất cả các mô hình GPT-4 trước đó, GPT-4o có thể thực hiện những tác vụ LLM văn bản phổ biến bao gồm tóm tắt và tạo văn bản.
- Lý luận và tạo đa phương thức. GPT-4o tích hợp văn bản, giọng nói và hình ảnh vào một mô hình duy nhất, cho phép xử lý và phản hồi kết hợp các loại dữ liệu. Mô hình có thể hiểu âm thanh, hình ảnh và văn bản với cùng tốc độ. Nó cũng có thể tạo phản hồi thông qua âm thanh, hình ảnh và văn bản.
- Xử lý ngôn ngữ và âm thanh. GPT-4o có khả năng tiên tiến trong việc xử lý hơn 50 ngôn ngữ khác nhau.
- Phân tích tình cảm. Mô hình hiểu được tình cảm của người dùng trên các phương thức khác nhau của văn bản, âm thanh và video.
- Sắc thái giọng nói. GPT-4o có thể tạo ra giọng nói với sắc thái cảm xúc. Điều này làm cho nó hiệu quả đối với các ứng dụng yêu cầu giao tiếp nhạy cảm và sắc thái.
- Phân tích nội dung âm thanh. Mô hình có thể tạo và hiểu ngôn ngữ nói, có thể được áp dụng trong các hệ thống kích hoạt bằng giọng nói, phân tích nội dung âm thanh và kể chuyện tương tác
- Dịch thuật thời gian thực. Khả năng đa phương thức của GPT-4o có thể hỗ trợ dịch thuật thời gian thực từ ngôn ngữ này sang ngôn ngữ khác.
- Hiểu hình ảnh và video. Mô hình có thể phân tích hình ảnh và video, cho phép người dùng upload lên nội dung trực quan mà GPT-4o có thể hiểu, giải thích và cung cấp phân tích.
- Phân tích dữ liệu. Khả năng lập luận và tầm nhìn có thể cho phép người dùng phân tích dữ liệu có trong biểu đồ dữ liệu. GPT-4o cũng có thể tạo biểu đồ dữ liệu dựa trên phân tích hoặc lời nhắc.
- Upload file lên. Ngoài ngưỡng kiến thức, GPT-4o hỗ trợ upload file lên, cho phép người dùng dữ liệu cụ thể để phân tích.
- Nhận thức về ngữ cảnh và trí nhớ. GPT-4o có thể ghi nhớ các tương tác trước đó và duy trì ngữ cảnh trong những cuộc trò chuyện dài
- Cửa sổ ngữ cảnh lớn. Với cửa sổ ngữ cảnh hỗ trợ tới 128.000 token, GPT-4o có thể duy trì tính nhất quán trong các cuộc trò chuyện hoặc tài liệu dài, giúp phù hợp để phân tích chi tiết.
- Giảm ảo giác và cải thiện tính an toàn. Mô hình được thiết kế để giảm thiểu việc tạo ra thông tin không chính xác hoặc gây hiểu lầm. GPT-4o bao gồm các giao thức an toàn nâng cao để đảm bảo đầu ra phù hợp và an toàn cho người dùng.
Cách sử dụng GPT-4o
Có một số cách người dùng và tổ chức có thể sử dụng GPT-4o.
- ChatGPT miễn phí. Mô hình GPT-4o được thiết lập để cung cấp miễn phí cho người dùng chatbot ChatGPT của OpenAI. Khi khả dụng, GPT-4o sẽ thay thế mặc định hiện tại cho người dùng ChatGPT Free. Người dùng ChatGPT Free sẽ bị hạn chế quyền truy cập tin nhắn và sẽ không được truy cập vào một số tính năng nâng cao bao gồm upload file lên và phân tích dữ liệu.
- ChatGPT Plus. Người dùng dịch vụ trả phí của OpenAI dành cho ChatGPT sẽ được quyền truy cập đầy đủ vào GPT-4o, mà không có các hạn chế về tính năng dành cho người dùng miễn phí.
- Quyền truy cập API. Các nhà phát triển có thể truy cập GPT-4o thông qua API của OpenAI. Điều này cho phép tích hợp vào những ứng dụng để tận dụng tối đa khả năng của GPT-4o cho các tác vụ.
- Ứng dụng desktop. OpenAI đã tích hợp GPT-4o vào các ứng dụng desktop, bao gồm một ứng dụng mới cho macOS của Apple cũng đã được ra mắt vào ngày 13 tháng 5.
- GPT tùy chỉnh. Các tổ chức có thể tạo những phiên bản GPT tùy chỉnh của GPT-4o phù hợp với nhu cầu kinh doanh hoặc phòng ban cụ thể. Mô hình tùy chỉnh có khả năng được cung cấp cho người dùng thông qua GPT Store của OpenAI.
- Dịch vụ Microsoft OpenAI. Người dùng có thể khám phá khả năng của GPT-4o ở chế độ xem trước trong Microsoft Azure OpenAI Studio, được thiết kế riêng để xử lý các đầu vào đa phương thức bao gồm văn bản và thị giác. Bản phát hành ban đầu này cho phép khách hàng của Azure OpenAI Service thử nghiệm các chức năng của GPT-4o trong môi trường được kiểm soát, với kế hoạch mở rộng khả năng của nó trong tương lai.
Ngoài ra, bạn đọc có thể tham khảo thêm: Sự khác biệt giữa GPT-4, GPT-4 Turbo và GPT-4o.
GPT-4o hoạt động như thế nào?
Khi công bố GPT-4o, OpenAI đã công bố kết quả kiểm tra benchmark LLM, so sánh mô hình mới của họ với các đối thủ cạnh tranh. GPT-4 Turbo, GPT-4 khi mới ra mắt, Claude 3 Opus của Anthropic, Llama 3 400B của Meta và Gemini 1.5 Pro và Gemini 1.0 Ultra của Google đã được thử nghiệm cùng với GPT-4o trong một số bài kiểm tra benchmark hàng đầu.
Các bài kiểm tra bao gồm Massive Multitask Language Understanding (MMLU), đánh giá nền tảng kiến thức và kỹ năng giải quyết vấn đề, và HumanEval, một bài kiểm tra kiểm tra code. OpenAI đã không kiểm tra GPT-4o so với các mô hình của Google trong Graduate-Level Google-Proof Q&A (GPQA), một bài kiểm tra khoa học đòi hỏi tư duy lý luận sâu rộng. Llama 3 400B cũng không được đưa vào Multilingual Grade School Math (MGSM), một bài kiểm tra toán được thực hiện bằng 10 ngôn ngữ.
GPT-4o đứng đầu ở 4 trong số 6 bài kiểm tra, đứng thứ hai sau Claude 3 Opus trong MGSM và sau GPT-4 Turbo trong DROP (Discrete Reasoning Over Paragraphs), bài kiểm tra khả năng suy luận của mô hình trên nhiều đoạn văn.
Nhìn chung, GPT-4o không cho thấy sự cải thiện đáng kể về hiệu suất so với GPT-4 Turbo. Những tiến bộ so sánh của nó chủ yếu nằm ở khả năng đa phương thức và tốc độ được cải thiện.
Mọi người có thể truy cập GPT-4o như thế nào?
OpenAI đang cung cấp GPT-4o cho cả người dùng miễn phí và trả phí tại nhiều địa điểm và sản phẩm khác nhau:
- ChatGPT Plus, Teams và Enterprise
- ChatGPT miễn phí
- Ứng dụng desktop và thiết bị di động
- Ứng dụng AI
- Microsoft Azure OpenAI Studio
ChatGPT Plus, Teams và Enterprise
Người đăng ký dịch vụ ChatGPT trả phí của OpenAI có các mức độ truy cập khác nhau vào GPT-4o. Người dùng ChatGPT Plus có thể gửi tối đa 80 message mỗi 3 giờ trên GPT-4o, trong khi người dùng Team được hưởng nhiều quyền truy cập hơn. Người dùng Enterprise được truy cập không giới hạn vào GPT-4o.
ChatGPT miễn phí
Người dùng gói ChatGPT miễn phí có thể sử dụng GPT-4o làm mô hình mặc định cho chatbot khi nhu cầu cho phép. Khi người dùng miễn phí đạt đến giới hạn, họ sẽ được chuyển về GPT-4o mini3.
Ứng dụng desktop và di động
OpenAI đã phát hành một ứng dụng desktop macOS cùng với GPT-4o, tích hợp mô hình mới này với MacBook của người dùng. Ứng dụng di động ChatGPT của OpenAI cũng cấp quyền truy cập vào GPT-4o dựa trên gói đăng ký của người dùng.
Ứng dụng AI
Người dùng ChatGPT Plus, Teams và Enterprise có thể xây dựng các GPT tùy chỉnh, qua đó họ và những người khác có thể sử dụng các phiên bản GPT-4o chuyên biệt được thiết kế riêng cho những trường hợp sử dụng cụ thể. Các nhà phát triển cũng có thể kết nối với GPT-4o thông qua API để tạo những công cụ AI khác.
Microsoft Azure OpenAI Studio
GPT-4o và GPT-4o mini đều có sẵn trong Azure OpenAI Studio của Microsoft, một phần của nền tảng AI doanh nghiệp Azure của Microsoft. Tính đến thời điểm phát hành, Copilot vẫn tiếp tục cung cấp GPT-4 Turbo, mặc dù Microsoft đã thông báo vào tháng 5 năm 2024 rằng dịch vụ AI của họ sẽ sớm nhận được hỗ trợ GPT-4o.
Những rủi ro khi sử dụng GPT-4o
Để giảm thiểu khả năng bị sử dụng trong các vụ lừa đảo qua điện thoại, deepfake và những loại gian lận âm thanh khác, OpenAI đã giới hạn GPT-4o ở 4 giọng nói được cài đặt sẵn khi ra mắt. Tuy nhiên, giống như bất kỳ bản phát hành genAI nào, GPT-4o là một mô hình không hoàn hảo. Những rủi ro khi sử dụng nó bao gồm:
- Ảo giác: Giống như tất cả các mô hình Generative AI, GPT-4o có thể gây ảo giác - khi nó phát hiện những mẫu không tồn tại trong dữ liệu của mình, khiến nó hiển thị thông tin không chính xác như là sự thật. Không bao giờ nên sử dụng nội dung do AI tạo ra mà không kiểm tra hoặc xác minh thông tin trước.
- Vi phạm dữ liệu: OpenAI tiếp tục lưu trữ dữ liệu đầu vào do người dùng cung cấp và huấn luyện các mô hình của mình bằng dữ liệu đó. Người dùng nhập dữ liệu được bảo vệ vào ChatGPT có thể thấy dữ liệu của họ xuất hiện trong những phản hồi của mô hình cho người dùng khác.
- Vi phạm sở hữu trí tuệ: OpenAI huấn luyện các mô hình của mình dựa trên dữ liệu có sẵn trực tuyến, bao gồm tài liệu có bản quyền như bài báo. Những mô hình có thể vô tình tạo ra nội dung có bản quyền như một phần của phản hồi.
OpenAI đã phân loại GPT-4o là mô hình có rủi ro trung bình theo thang đo nội bộ. Các mô hình được đánh giá dựa trên 4 chỉ số về mối đe dọa - an ninh mạng, CBRN (mối đe dọa hóa học, sinh học, phóng xạ và hạt nhân), khả năng thuyết phục và tính tự chủ của mô hình. OpenAI đánh giá các mô hình dựa trên mức độ chúng có thể được sử dụng để thúc đẩy sự phát triển trong từng lĩnh vực đe dọa.
Sau khi được đánh giá, các mô hình được chấm điểm từ Thấp đến Nghiêm trọng trong mỗi lĩnh vực, sau đó được chỉ định điểm tổng thể tương ứng với mức độ đe dọa cao nhất của chúng sau khi xem xét bất kỳ biện pháp giảm thiểu nào.
GPT-4o đạt điểm Thấp ở 3 trong số 4 hạng mục, với điểm Trung bình ở hạng mục Thuyết phục. Điều này có nghĩa là nó “có thể tạo ra nội dung (có khả năng tương tác) với hiệu quả thuyết phục tương đương với nội dung do con người viết thông thường”. Ví dụ, về mặt lý thuyết, những kẻ xấu có thể sử dụng nó để tạo ra các bài viết thông tin sai lệch và nội dung social media.
Học IT










Công nghệ
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Hướng dẫn
Ô tô, Xe máy