30 октября 2013 г.

Поиск в Google+ Фото распознаёт более 1 000 объектов

Оригинал статьи: Google+ Photo Search Detects More Than 1,000 Objects

Google объявил о множестве улучшений в Google+, в том числе о впечатляющей функции поиска, о запуске которой объявлялось ещё в мае: нахождение фотографий по заданным условиям, даже если в файле фото нет никаких метаданных. «Чтобы переложить тяжёлую работу на компьютеры, мы начали использовать компьютерное распознавание изображений и машинное самообучение для распознавания более общих образов, таких как закат, еда, цветы…», сообщал Google. «Эта технология базируется на компьютерном распознавании изображений и машинном самообучении, в результате на основании содержания картинки генерируются поисковые теги (searchable tags), что в сочетании с другими источниками, такими как текстовые теги и метаданные EXIF, делает возможным поиск таких обобщённых образов, как цветы, еда, автомобили, самолёты, черепахи…», объяснял далее Google.

И вот Google объявил, что автоматически распознаются более 1 000 объектов. Это вроде бы немного, однако алгоритмически распознавать объекты с достаточной точностью — это чрезвычайно сложно. Различать такое количество объектов друг от друга — ещё сложнее. Google теперь распознаёт лабрадоров и снеговиков, тюльпаны и зонтики, ноутбуки и ботинки.

Вообще-то это объявление Google звучит странно: ведь ещё в июне Google сообщал, что функция распознавания работает с 1 100 классами объектов: «Мы довели набор визуальных классов до 2 000, отталкиваясь от популярных меток в Google+ Photos и выраженного визуального компонента (то есть человек должен легко идентифицировать класс, просто глядя на изображение), то есть значительно улучшили систему: на конкурсе ImageNet набор составлял 1 000 классов. Как и в прототипе, классы представляют собой не текстовые строки, а понятия, категории (entities); мы используем категории базы знаний Freebase, на основе которых создана наша Сеть знаний (Knowledge Graph), которая применяется в Поиске (Google Search). Категория — это способ уникальным образом определить нечто независимо от языка. Если мы встречаем слово “ягуар”, сложно определить, означает ли оно животное или автопроизводителя. При категоризации эта неоднозначность снимается путём присвоения идентификаторов — в данном случае /m/0449p и /m/012×34 соответственно. Чтобы достичь более высокой точности, мы использовали больше обучающих изображений, чем ImageNet: 5 000 вместо 1 000. Поскольку мы хотели достичь высокой точности в присвоении меток, к запуску функции мы уточнили наш набор классов, сократив его с начальных двух тысяч до 1 100 высокоточных классов».

Непонятно, стало ли лучше в октябре, чем было в июне. Возможно, точность поиска увеличилась, но число распознаваемых объектов не возросло.

Ссылки по теме
Official Google Blog: Google+ Hangouts and Photos: save some time, share your story
Официальный блог Google Россия: Будьте продуктивнее, живите ярче! Представляем новые функции Hangouts и Google+ Фото
Жизнь с Google: Поиск изображений с распознаванием в Google+ Фото
Жизнь с Google: Находим свои фотографии Поиском
Жизнь с Google: Как работает распознавание картинок в сервисах Google