Google phát hành kho dữ liệu đào tạo AI khổng lồ với hơn 5 triệu bức ảnh về 200.000 địa danh trên toàn thế giới

Phạm Hải

Việc thiết kế các hệ thống AI có khả năng nhận dạng chính xác đặc điểm của từng địa danh trên thế giới ở cấp độ cá thể (nghĩa là có thể phân biệt được rõ ràng giữa các địa danh trong cùng hạng mục, ví dụ như Thác Niagara với bất kỳ thác nước nào khác) và truy xuất hình ảnh (đối tượng trong hình ảnh với các phiên bản khác của đối tượng đó theo từng danh mục) là một trong những mục tiêu lâu dài được bộ phận nghiên cứu trí tuệ nhân tạo của Google đặc biệt quan tâm. Năm ngoái, công ty đã phát hành Google-Landmarks, một gói dữ liệu liên quan đến các địa danh trên trái đất mà Google tuyên bố là có quy mô lớn nhất thế giới tại thời điểm đó, và đồng thời họ cũng đã tổ chức 2 cuộc thi (Landmark Recognition 2018 và Landmark Retriny 2018), thu hút sự tham gia của hơn 500 nhà nghiên cứu về học máy cũng như trí tuệ nhân tạo hàng đầu thế giới.

Trí tuệ nhân tạo Google

Nâng cao hiệu quả đánh giá tình trạng bệnh trầm cảm bằng các mô hình AI

Tiếp nối thành công của năm ngoái, hôm qua 5/5, Google đã chính thức phát hành kho dữ liệu đào tạo AI Google-Landmarks-v2 với mã nguồn mở, như một bước tiến quan trọng trong kế hoạch phát triển thành công những mô hình thị giác máy tính có thể nhận biết các địa danh trên thế giới một cách nhanh chóng, chính xác, và tinh vi hơn. Kho dữ liệu Google-Landmarks-v2 lần này có quy mô lớn hơn khá nhiều so với phiên bản trước, sở hữu tới 5 triệu bức ảnh (gấp đôi phiên bản trước) về 200.000 địa danh (gấp 7 lần phiên bản trước) trên toàn thế giới.

Ngoài ra, Google cũng không quên đưa ra 2 “thử thách” mới của năm này là Landmark Recognition 2019 và Landmark Retriny 2019 trên cộng đồng học máy Kaggle, đồng thời phát hành mã nguồn và mô hình cho Detect-to-Retrieve, một framework giúp phục hồi hình ảnh theo khu vực hiệu quả hơn.

5 triệu bức ảnh của hơn 200.000 địa danh lưu trữ trong Google-Landmarks-v2 được thu thập cũng như đóng góp từ các nhiếp ảnh gia trên khắp thế giới

AI sử dụng các bài tweet để giúp các nhà nghiên cứu phân tích tình hình lũ lụt

“Cả 2 phương pháp nhận dạng và truy xuất hình ảnh nhìn chung sẽ đều yêu cầu bộ dữ liệu đào tạo có quy mô lớn hơn về cả số lượng hình ảnh lẫn sự đa dạng của các địa danh để đào tạo hệ thống tốt hơn cũng như mạnh hơn. Chúng tôi hy vọng rằng bộ dữ liệu này sẽ giúp nâng cao khả năng nhận dạng và truy xuất hình ảnh của các mô hình AI hiện đại một cách triệt để hơn”, 2 kỹ sư phần mềm thuộc đội ngũ Google AI Bingyi Cao và Tobias Weyand chia sẻ.

Ngoài ra, cũng theo 2 chuyên gia này, 5 triệu bức ảnh của hơn 200.000 địa danh lưu trữ trong Google-Landmarks-v2 được thu thập cũng như đóng góp từ các nhiếp ảnh gia trên khắp thế giới. Mỗi bức ảnh sẽ được dán nhãn mô tả cụ thể về địa danh và tác giả, ví dụ như Lâu đài Neuschwanstein (Neuschwanstein Castle), Cầu Cổng Vàng (Golden Gate Bridge), Kiyomizu-dera, Burj Khalifa, Tượng Nhân sư Giza (Great Sphinx of Giza), Machu Picchu và nhiều địa điểm tham quan nổi tiếng khác. Sau đó, các nhà nghiên cứu của Google đã tiến hành bổ sung thêm những bức ảnh mang tính lịch sử, ít được biết đến, thu thập từ Wikimedia Commons, kho lưu trữ trực tuyến Wikimedia Foundation về hình ảnh, âm thanh, và nhiều loại dữ liệu phương tiện khác.

Hơn 200.000 địa danh trên toàn thế giới

Trí tuệ nhân tạo OpenAI đánh bại đội tuyển đương kim vô địch thế giới Dota 2

Vậy thì vấn đề chính mà Detect-to-Retrieve framework sẽ giải quyết là gì? Theo giải thích từ Bingyi Cao và Tobias Weyand thì những mô hình đã ra mắt của Google (được đào tạo dựa trên một tập hợp con bao gồm 80.000 bức ảnh lấy từ bộ dữ Google-Landmarks đầu tiên) có thể tận dụng các ô giới hạn (bounding boxes) từ một mô hình phát hiện đối tượng để “tăng thêm trọng lượng” cho các vùng ảnh có chứa những mục đáng lưu tâm, quan đó giúp cải thiện đáng kể độ chính xác.

Bên cạnh đó, Landmark Recognition 2019 (nơi những đội tham gia có nhiệm vụ thiết kế các mô hình AI giúp nhận diện địa danh) và Landmark Retriny 2019 (các đội tham gia sử dụng hệ thống AI để tìm hình ảnh hiển thị chính xác một địa danh theo chỉ định) đều đã bắt đầu nhận đăng ký tham gia ngay từ hôm nay. Cả 2 cuộc thi sẽ bao gồm giải thưởng tiền mặt với tổng trị giá 50.000 đô la và đồng thời các đội chiến thắng sẽ được Google mời tham gia hội nghị về Thị giác máy tính và Nhận dạng mẫu (Conference on Computer Vision and Pattern Recognition) tổ chức ở Long Beach, California vào cuối năm nay, để giới thiệu chi tiết về phương pháp mà họ đã triển khai.

Thứ Hai, 06/05/2019 08:30

5 ★ 2 👨 339

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Google phát hành kho dữ liệu đào tạo AI khổng lồ với hơn 5 triệu bức ảnh về 200.000 địa danh trên toàn thế giới

Phạm Hải

Bạn nên đọc

Nhẫn AI thông minh có thể theo dõi nhịp tim và nhiều chỉ số sức khỏe khác

Mời nghe thử nhạc Rock do trí tuệ nhân tạo (AI) sáng tác

Train-to-Test Scaling là gì? Cách tối ưu chi phí AI từ training đến inference

Nếu AI có thể làm mọi thứ, tại sao chúng ta vẫn cần học?

Cách tạo sổ ghi chú mới ngay trong Gemini

AI sử dụng các bài tweet để giúp các nhà nghiên cứu phân tích tình hình lũ lụt

Thanh niên đòi Apple bồi thường 1 tỷ USD vì bị bắt do phần mềm nhận diện khuôn mặt nhận sai

Mẹo nhập Context hiệu quả trong Cursor

Hướng dẫn chuyển file PDF kiểm tra thành slide bài giảng bằng Gemini

Cũ vẫn chất

Những bài thơ tán gái theo tên, thơ làm quen bạn gái vừa duyên vừa mặn

Những ứng dụng hoán đổi khuôn mặt tốt nhất

Cách tính điểm trung bình môn HK 1, HK 2, cả năm

Hướng dẫn 5 cách chuyển số thành chữ trong Excel

Cách tạo bảng trong Canva

Cách sửa lỗi gõ tiếng Việt trên Word, Excel

Công thức tính diện tích xung quanh hình nón, diện tích toàn phần hình nón, thể tích hình nón, V nón

Cap đi du lịch hay, stt du lịch hay giúp bạn ghi lại nhật ký hành trình của mình

Cách tạo Slide Master trên PowerPoint

6 cách siêu dễ thêm phụ đề, caption vào video