Một nhóm các nhà khoa học của Google đã phát triển một thuật toán dò tìm và nhận dạng vật thể tiên tiến có tên là GoogLeNet, với hiệu quả cao gấp đôi so với các thuật toán trước đó.
Phần mềm này hoạt động chính xác tới mức có thể định vị và phân biệt được những đối tượng có kích thước khác nhau trong cùng một bức ảnh. Nó cũng có thể xác định được vật thể nằm bên trong hoặc phía trên một vật thể khác (như chú chó đội mũ trong ảnh).
Google đã cho phép các nhà phát triển khác truy cập vào phần mềm này để giúp hãng tăng độ chính xác của nó. Và trong tương lai, công nghệ này có thể được dùng để cải thiện cỗ máy tìm kiếm bằng hình ảnh – Google Image. Nó cũng có thể được dùng để xóa những vật thể hoặc hình dạng nhất định trong các video trên Youtube.
Phần mềm này vừa giành được vị trí quán quân tại cuộc thi Nhận dạng Hình ảnh Quy mô lớn của ImageNet (ILSVRC). Cuộc thi này được lập ra để kiểm chứng khả năng của các phần mềm nhận diện ảnh, về mặt định vị cũng như nhận diện vật thể của chúng.
Cuộc thi ILSVRC có ba phần, bao gồm phân loại vật thể, phân loại kèm định vị, và cuối cùng là phát hiện vật thể:
- Phần thi phân loại vật thể đánh giá khả năng dán nhãn chính xác cho các vật thể trong bức ảnh của thuật toán.
- Phần thi thứ hai đánh giá khả năng tìm kiếm và dán nhãn chính xác cho các vật thể trong bức ảnh của thuật toán.
- Phần thi cuối cùng cũng tương tự như hai phần trước, nhưng với các tiêu chí đánh giá khắt khe hơn.
Và để tăng thêm độ khó, cuộc thi này đã sử dụng những bức ảnh có các vật thể nhỏ, rất khó để phân biệt và định vị kể cả đối với mắt người.
Để đạt được điểm cao trong cuộc thi, các thuật toán sẽ phải có khả năng miêu tả một bức ảnh phức tạp bằng cách nhận diện và định vị chính xác tất cả các vật thể có trong bức ảnh đó. Trong cuộc thi năm nay, đội GoogLeNet đã tăng gấp đôi điểm số mà họ kiếm được ở năm trước.
Thuật toán này được lập nên bởi hai thực tập sinh của Google là Wei Liu và Scott Reed, cùng với các nhà khoa học của hãng là Yangqing Jia, Pierre Sermanet, Scott Reed, Drago Anguelov, Dumitru Erhan, Andrew Rabinovich, và kỹ sư phần mềm Christian Szegedy.
Các lớp và cấu trúc của thuật toán được dựa theo quy tắc Hebb và tính quy mô bất biến (các vật thể không thay đổi kể cả nếu chúng có tăng lên về kích thước). Ví dụ, việc phóng to hay thu nhỏ hình ảnh của một vật thể sẽ không làm thay đổi hình dạng hoặc tính cân đối của nó. Điều này giúp cho phần mềm có thể phân biệt được hình dạng và kích thước của các vật thể khác nhau, bất kể là nó nhỏ đến đâu, đồng thời sẽ có khả năng nhận ra chúng trong tương lai.
Kỹ sư phần mềm Christian Szegedy kết luận: "Những tiến bộ công nghệ này sẽ cải thiện khả năng nhận diện hình ảnh của máy tính, và những kết quả thu được sẽ được áp dụng trực tiếp vào các sản phẩm của Google như công cụ tìm kiếm bằng hình ảnh, YouTube, xe tự hành…".