Bing Chat AI hiện có thể diễn giải nội dung của hình ảnh

Bing Chat, ChatGPT và các công cụ AI tổng quát tương tự khác trên thị trường hiện chủ yếu tập trung vào việc hiểu nội dung văn bản bằng ngôn ngữ tự nhiên của con người và đưa ra câu trả lời. Tuy nhiên, việc hiểu nội dung hình ảnh cũng cực kỳ hữu ích và đó là một trong những trọng tâm mà Microsoft hiện đang triển khai cho mô hình Bing Chat AI của mình.

Trong một bài đăng trên blog gần đây, Microsoft đã công bố một tính năng mới rất đáng chú ý cho Bing Chat, gọi là Visual Search (Tìm kiếm Trực quan). Với tính năng này, người có thể tải lên một hình ảnh hoặc chọn một hình ảnh có sẵn trên web và Bing sẽ cố gắng phân tích, diễn giải nội dung có trong hình ảnh đó, và áp dụng dữ liệu thu được trong phản hồi. Video demo của Microsoft cho thấy một người đang upload bản mô phỏng vẽ tay của một biểu mẫu web và yêu cầu Bing tạo mã HTML và CSS để làm cho nó hoạt động.

Giới thiệu về Visual Search, Microsoft cho biết:

"Cho dù bạn đang đi du lịch đến một thành phố mới và hỏi về kiến trúc của một tòa nhà cụ thể, hay đang ở nhà cố gắng tìm ý tưởng cho bữa trưa dựa trên đồ ăn đang có trong tủ lạnh của mình, hãy chỉ cần tải hình ảnh lên Bing Chat, và sử dụng hình ảnh đó để khai thác kiến thức phong phú của thuật toán AI để có được câu trả lời ưng ý".

Trên thực tế, kể từ năm 2017, những công cụ như Google Lens đã có thể xác định người, động vật, thực vật, địa danh và các đối tượng khác trong hình ảnh, hay trước đó là Google Goggles vào năm 2010. Để có được lợi thế cạnh tranh trước đối thủ, Microsoft đang sử dụng các tính năng phát hiện hình ảnh của GPT-4. Đây vốn là mô hình ngôn ngữ tương tự được sử dụng bởi phiên bản cao cấp của ChatGPT, nổi tiếng với độ chính xác cao.

Thử nghiệm thực tế ban đầu cho thấy việc yêu cầu Bing mô tả hình ảnh thường sẽ cho phản hồi chi tiết hơn nhiều so với những gì mà người dùng nhận được từ Google Lens. Ví dụ: khi người dùng upload bức ảnh về một chú chó, câu trả lời của Bing Chat là: "Đây là ảnh một chú chó màu đen và rám nắng đang ngồi trên một tấm thảm lông màu nâu. Chú chó đeo vòng cổ màu đỏ có gắn thẻ bạc. Chú chó đang nhìn lên máy ảnh với đôi tai vểnh lên. Hậu cảnh là một chiếc ghế dài màu trắng với những chiếc gối màu xanh trắng. Ảnh được chụp từ một góc cao". Ngoài ra, công cụ cũng diễn giải thông báo chính xác rằng hình ảnh đã được tải lên ở dạng nghiêng. Có thể thấy độ chi tiết về nội dung mà AI có thể diễn giải là rất ấn tượng.

Chủ Nhật, 23/07/2023 13:10
31 👨 151
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ