GPT-5 sắp ra mắt, tốt hơn đáng kể so với GPT-4

GPT-5, sản phẩm kế thừa cho mô hình AI thế hệ GPT-4 rất thành công sắp được OpenAI ra mắt.

OpenAI bắt đầu đào tạo mô hình tiếp theo; GPT-5 sắp ra mắt?

OpenAI gần đây đã sa lầy vào những tranh cãi. Sau khi Ilya Sutskever, nhà khoa học đứng đầu tại OpenAI rời công ty, Jan Leike, người đứng đầu bộ phận siêu liên kết tại OpenAI, cũng từ chức sau khi đạt đến “điểm đột phá” với vai trò lãnh đạo về tính toán cho nghiên cứu an toàn. Giờ đây, để xoa dịu nỗi sợ hãi về những lo ngại liên quan đến an toàn, OpenAI đã thành lập ủy ban An toàn và Bảo mật.

OpenAI cho biết trên blog của mình: “Ủy ban mới này chịu trách nhiệm đưa ra các khuyến nghị về những quyết định quan trọng liên quan đến an toàn và bảo mật cho tất cả các dự án OpenAI”. Cùng với đó, OpenAI tiết lộ rằng họ “gần đây đã bắt đầu đào tạo mô hình tiếp theo của mình”.

OpenAI cho biết mô hình tiếp theo (không có khả năng được gọi là GPT-5) sẽ xác định lại ranh giới của các khả năng AI và công ty đang dự đoán rằng “những hệ thống tạo ra sẽ đưa chúng ta lên cấp độ tiếp theo trên con đường hướng tới AGI”.

Trước thông báo này, trong buổi ra mắt ChatGPT 4o, OpenAI CTO, Mira Murati đã nói rằng điều quan trọng tiếp theo sẽ đến vào cuối sự kiện. Và có vẻ như OpenAI đang tìm cách phát hành mô hình tiếp theo của mình vào khoảng năm 2024.

Về phần Ủy ban An toàn và Bảo mật, bao gồm Sam Altman, Bret Taylor, Adam D'Angelo và Nicole Seligman. Ngoài ra, các thành viên kỹ thuật của OpenAI cũng sẽ tham gia ủy ban. Trong 90 ngày tới, ủy ban sẽ đánh giá các mô hình sắp ra mắt và chia sẻ những đề xuất với hội đồng OpenAI.

Bên cạnh đó, cần lưu ý rằng OpenAI gần đây đã loại bỏ giọng nói của ‘Sky’ khỏi ChatGPT, giọng nói này nghe giống một cách kỳ lạ với giọng của Scarlett Johansson trong phim ‘Her’. OpenAI có thể đang xem xét một vụ kiện tiềm năng trong bối cảnh mối lo ngại ngày càng tăng về các hoạt động đạo đức của công ty, do Giám đốc điều hành Sam Altman đứng đầu.

4 tính năng mới mà người dùng muốn thấy ở GPT-5

Có khá nhiều điều chỉ là suy đoán vào thời điểm này. Nhưng có một số điều chúng ta hy vọng thấy được và khá tự tin sẽ nhìn thấy trong mô hình mới.

1. Đa phương thức hơn

Công cụ biến văn bản thành video OpenAI Sora

Một trong những cải tiến thú vị nhất đối với dòng mô hình AI GPT là tính đa phương thức. Nói rõ hơn, đa phương thức là khả năng xử lý nhiều thứ không chỉ là văn bản mà còn cả các loại đầu vào khác như hình ảnh, âm thanh và video của mô hình AI. Đa phương thức sẽ là một chuẩn mực tiến bộ quan trọng cho dòng mô hình GPT trong tương lai.

Với GPT-4 đã thành thạo trong việc xử lý đầu vào và đầu ra hình ảnh, những cải tiến bao gồm xử lý âm thanh và video là cột mốc quan trọng tiếp theo cho OpenAI và GPT-5 là một nơi tốt để bắt đầu. Google đã đạt được những bước tiến nghiêm túc với loại hình đa phương thức này trong mô hình Gemini AI của mình. Sẽ không có gì đặc biệt nếu OpenAI không phản hồi. Trong podcast Unconfuse Me, Bill Gates đã hỏi Giám đốc điều hành OpenAI Sam Altman về những cột mốc quan trọng mà ông dự đoán cho loạt GPT trong hai năm tới. Câu trả lời đầu tiên của vị CEO này là xử lý video.

Vì vậy, đối với GPT-5, hy vọng chúng ta có thể sử dụng video - upload video lên dưới dạng lời nhắc, tạo video khi đang di chuyển, chỉnh sửa video bằng lời nhắc văn bản, trích xuất các phân đoạn từ video và tìm những cảnh cụ thể từ các file video lớn. Chúng ta hy vọng có thể làm được những điều tương tự với các file âm thanh. Đó là một câu hỏi lớn. Nhưng xét đến tốc độ phát triển AI nhanh như thế nào thì đó là một kỳ vọng rất hợp lý.

2. Cửa sổ ngữ cảnh lớn và hiệu quả hơn

Màn hình trên bàn có logo OpenAI

Mặc dù là một trong những mô hình AI phức tạp nhất trên thị trường, dòng mô hình AI GPT có một trong những cửa sổ ngữ cảnh nhỏ nhất. Ví dụ, Claude 3 của Anthropic tự hào có cửa sổ ngữ cảnh chứa 200.000 token, trong khi Gemini của Google có thể xử lý 1 triệu token đáng kinh ngạc (128.000 cho mức sử dụng tiêu chuẩn). Ngược lại, GPT-4 có cửa sổ ngữ cảnh tương đối nhỏ hơn với 128.000 token, với khoảng 32.000 token hoặc ít hơn có sẵn trên thực tế để sử dụng trên các giao diện như ChatGPT.

Với tính đa phương thức tiên tiến xuất hiện, việc cải thiện cửa sổ ngữ cảnh là điều gần như không thể tránh khỏi. Có thể tăng gấp 2 hoặc 4 lần là đủ, nhưng chúng ta hy vọng sẽ thấy tới hệ số 10. Điều này sẽ cho phép GPT-5 xử lý nhiều thông tin theo cách hiệu quả hơn nhiều. Bây giờ, cửa sổ ngữ cảnh lớn hơn không phải lúc nào cũng có nghĩa là tốt hơn. Vì vậy, thay vì chỉ tăng cửa sổ ngữ cảnh, chúng ta muốn thấy hiệu quả xử lý ngữ cảnh tăng lên.

Bạn thấy đấy, một mô hình có thể có cửa sổ ngữ cảnh 1 triệu token (dung lượng khoảng 700.000 từ) nhưng không thể tạo ra bản tóm tắt toàn diện khi được yêu cầu tóm tắt một cuốn sách 500.000 từ vì nó không thể xử lý đầy đủ toàn bộ ngữ cảnh, mặc dù về mặt lý thuyết, nó có khả năng làm được điều đó. Việc bạn có thể đọc một cuốn sách 500 nghìn từ không có nghĩa là bạn có thể nhớ lại mọi thứ trong đó hoặc xử lý nó một cách hợp lý.

3. GPT Agents

ChatGPT được truy cập trên điện thoại thông minh

Có lẽ một trong những khả năng thú vị nhất của bản phát hành GPT-5 là sự ra mắt của GPT Agents. Mặc dù thuật ngữ "người thay đổi cuộc chơi" có lẽ đã được sử dụng quá mức trong AI, nhưng GPT Agents sẽ thực sự là người thay đổi cuộc chơi theo mọi nghĩa thực tế. Nhưng điều này sẽ thay đổi cuộc chơi như thế nào?

Hiện tại, các mô hình AI như GPT-4 có thể giúp bạn hoàn thành một nhiệm vụ. Chúng có thể viết email, kể một câu chuyện cười, giải một bài toán hoặc soạn thảo một bài đăng trên blog cho bạn. Tuy nhiên, chúng chỉ có thể thực hiện nhiệm vụ cụ thể đó và không thể hoàn thành một loạt nhiệm vụ liên quan cần thiết để hoàn thành công việc của bạn.

Giả sử bạn là một nhà phát triển web. Là một phần công việc của bạn, bạn phải làm nhiều việc: thiết kế, viết code, khắc phục sự cố, v.v... Hiện tại, bạn chỉ có thể ủy thác một phần nhiệm vụ này cho các mô hình AI tại một thời điểm. Có lẽ bạn có thể yêu cầu mô hình GPT-4 viết code cho trang chủ, sau đó yêu cầu nó làm như vậy cho trang liên hệ và sau đó cho trang About, v.v... Bạn sẽ cần phải hoàn thành các tác vụ này nhiều lần. Và có những nhiệm vụ mà các mô hình không thể hoàn thành.

Quá trình lặp đi lặp lại nhằm nhắc nhở các mô hình AI thực hiện những nhiệm vụ phụ cụ thể này tốn thời gian và không hiệu quả. Trong trường hợp này, bạn - nhà phát triển web - là tác nhân con người chịu trách nhiệm điều phối và nhắc các mô hình AI thực hiện từng nhiệm vụ một cho đến khi hoàn thành toàn bộ nhóm nhiệm vụ liên quan.

GPT Agents hứa hẹn các bot chuyên biệt được điều phối bởi GPT-5 có khả năng tự nhắc nhở và giải quyết tất cả các tập hợp con của một nhiệm vụ phức tạp một cách tự động.

Vì vậy, nếu GPT-5 đi kèm với GPT Agents, bạn có thể yêu cầu nó "xây dựng trang web danh mục đầu tư cho Maxwell Timothy" thay vì chỉ "viết cho tôi code trang chủ". Về mặt lý thuyết, GPT-5 sẽ có thể tự nhắc nhở bằng cách yêu cầu các chuyên gia AI xử lý những nhiệm vụ phụ khác nhau cần thiết để xây dựng một trang web.

Nó có thể gọi một GPT loại bỏ trang web để lấy thông tin về Maxwell Timothy, một agent khác để viết code cho các trang khác nhau, một agent khác để tạo và tối ưu hóa hình ảnh, và thậm chí một AI agent khác để triển khai trang web, tất cả đều không cần con người lặp lại lời nhắc.

4. Ít bị ảo giác hơn

OpenAI đã đi một chặng đường dài trong việc giải quyết ảo giác trong các mô hình AI. Thử thách thực sự cho GPT-5 sẽ là khả năng giải quyết vấn đề ảo giác dai dẳng, vốn đã cản trở việc áp dụng rộng rãi AI ở mức rủi ro cao, các lĩnh vực quan trọng về an toàn như chăm sóc sức khỏe, hàng không và an ninh mạng. Đây đều là những lĩnh vực sẽ được hưởng lợi nhiều từ sự tham gia của AI nhưng hiện lại đang tránh việc áp dụng AI quá sâu.

Nói rõ hơn, ảo giác trong bối cảnh này đề cập đến các tình huống trong đó mô hình AI tạo ra và trình bày thông tin nghe có vẻ hợp lý nhưng hoàn toàn bịa đặt với độ tin cậy cao.

Hãy tưởng tượng một tình huống trong đó GPT-4 được tích hợp vào hệ thống chẩn đoán để phân tích các triệu chứng của bệnh nhân và báo cáo y tế. Ảo giác có thể khiến AI tự tin đưa ra chẩn đoán sai hoặc đề xuất một phương pháp điều trị nguy hiểm tiềm tàng dựa trên các sự kiện tưởng tượng và logic sai lầm. Hậu quả của một sai sót như vậy trong lĩnh vực y tế có thể rất thảm khốc.

Các bảo lưu tương tự cũng áp dụng cho những lĩnh vực trọng yếu khác, chẳng hạn như hàng không, năng lượng hạt nhân, hoạt động hàng hải và an ninh mạng. Chúng ta không mong đợi GPT-5 sẽ giải quyết hoàn toàn vấn đề ảo giác, nhưng hy vọng nó sẽ giảm đáng kể khả năng xảy ra những sự cố như vậy.

GPT-5 có khả năng xác định lại ranh giới về những gì có thể làm được với trí tuệ nhân tạo, mở ra một kỷ nguyên mới về sự hợp tác và đổi mới giữa con người và máy móc.

Thứ Bảy, 01/06/2024 11:41
3,36 👨 691
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ