ChatGPT hiện có thể suy luận bằng cách sử dụng hình ảnh người dùng upload

Vào ngày 16 tháng 4 năm 2025, OpenAI đã giới thiệu hai mô hình lý luận AI mới - o3 và o4-mini. Đây là bước nhảy vọt đáng kể trong khả năng AI của công ty, có lẽ không có gì rõ ràng hơn khả năng lý luận hình ảnh mới của họ.

Những mô hình mới này có thể "suy nghĩ" bằng hình ảnh

Menu chọn mô hình ChatGPT
Menu chọn mô hình ChatGPT

OpenAI cho biết những mô hình mới này có thể diễn giải bất kỳ hình ảnh nào bạn upload lên, chẳng hạn như bản phác thảo trên bảng trắng, sơ đồ sách giáo khoa hoặc file PDF đồ họa. Thông báo phát hành cho OpenAI o3 và o4-mini cho biết:

Chúng không chỉ nhìn thấy hình ảnh - mà còn suy nghĩ bằng hình ảnh. Điều này mở ra một lớp giải quyết vấn đề mới kết hợp lý luận trực quan và lý luận văn bản, được phản ánh trong hiệu suất tiên tiến của chúng trên các chuẩn mực đa phương thức.

Phân tích hình ảnh được đưa vào chuỗi lý luận suy nghĩ do các mô hình thực hiện. Các mô hình AI có thể phóng to, xoay hoặc cắt hình ảnh để cải thiện khả năng xử lý của chúng. Và chúng cũng thành thạo với hình ảnh chất lượng thấp.

ChatGPT o4-mini mô tả hình ảnh
ChatGPT o4-mini mô tả hình ảnh

Ví dụ, khi giải một bài toán khoa học liên quan đến sơ đồ, mô hình có thể phóng to một phần cụ thể của hình ảnh, chạy các phép tính bằng Python, sau đó tạo biểu đồ để giải thích những phát hiện của mình.

Trong khi suy luận, o3 và o4-mini có thể sử dụng động tất cả các công cụ ChatGPT khả dụng, bao gồm duyệt web, thực thi code Python và tạo hình ảnh. Khả năng agent này cho phép chúng tự động sử dụng công cụ ChatGPT lý tưởng cho một tác vụ nhất định. Người dùng và nhà phát triển có thể thực hiện các quy trình công việc nhiều bước và giải quyết những tác vụ phức tạp.

o4-mini-high là một biến thể của o4-mini dành nhiều thời gian và công sức tính toán hơn cho mỗi prompt để cung cấp kết quả chất lượng cao hơn. Một số tình huống hàng ngày có thể là:

  • Tạo và đánh giá các nghiên cứu trong lĩnh vực sinh học, kỹ thuật và những lĩnh vực STEM khác, cung cấp lý luận chi tiết từng bước và giải thích trực quan.
  • Tìm kiếm và đối chiếu thông tin từ nhiều nguồn, chẳng hạn như cơ sở dữ liệu trực tuyến, báo cáo tài chính, dữ liệu thị trường và biểu đồ, để tạo ra thông tin chi tiết về doanh nghiệp.

Các mô hình đã được đào tạo thông qua học tăng cường (một khái niệm chính trong AI). Giờ đây, chúng có thể xử lý các vấn đề tốt hơn vì chúng có thể lý giải khi nào nên sử dụng một công cụ cụ thể để có kết quả mong muốn.

Các mô hình o3, o4-mini và o4-mini-high có sẵn cho mọi người có tài khoản ChatGPT Plus, Pro và Team, với o3-pro dự kiến ​​sẽ ra mắt trong những tuần tới. Bạn có thể xem chúng trong menu chọn mô hình.

Người dùng miễn phí có thể thử nghiệm mô hình o4-mini bằng cách chọn tùy chọn Think trong trình soạn thảo trước khi gửi yêu cầu của họ.

Tại sao khả năng đa phương thức của ChatGPT lại tuyệt vời?

Bằng cách cho phép AI "suy nghĩ bằng hình ảnh", các mô hình mới của OpenAI có thể giải quyết những vấn đề thực tế đòi hỏi phải diễn giải bằng cả văn bản và hình ảnh. Điều này bao gồm gỡ lỗi code từ ảnh chụp màn hình, đọc văn bản viết tay, phân tích sơ đồ khoa học hoặc trích xuất thông tin chi tiết từ các biểu đồ phức tạp. Kết quả là ChatGPT đã có thể nhận thức ngữ cảnh tốt hơn.

Các mô hình hiện tự chủ hơn. Chúng cũng có thể hiệu quả hơn, tự động điều chỉnh một mô hình cụ thể cho một nhiệm vụ. Vì các AI agent tự động này có thể xử lý các nhiệm vụ phức tạp, nhiều bước, khả năng lý luận và trí thông minh trực quan của chúng khiến chúng trở nên quan trọng đối với các lĩnh vực như nghiên cứu, kinh doanh và công việc sáng tạo.

Thứ Sáu, 18/04/2025 09:53
52 👨 194
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo
❖
    ❖ ChatGPT
    Chia sẻ
    Chia sẻ FacebookChia sẻ Twitter
    Đóng