17 февраля 2011 г.

Распознавание файлов иллюстраций и PDF при загрузке в Документы Google

Оригинал статьи: Google Adds OCR for PDF Files and Images

Некоторое время назад в Документах Google появился новый параметр импорта: при выгрузке на сервис файлов иллюстраций и PDF появилась возможность распознавать текст.


Этот параметр тестировался давно, так что у Google было время усовершенствовать результаты. Однако результат разпознавания отрывка из книги «Rework» был не блестящий: форматирование не сохранилось и около 10 % текста было распознано неверно. В примечании Google обращает на это внимание: «Документ содержит текст, автоматически извлечённый из файла PDF или файла иллюстрации. Форматирование может быть утрачено и текст может быть распознан не полностью».


Справедливости ради заметим, что FineReader Online справился с этим текстом едва ли лучше.


Блог Google Docs поясняет, что эта функция работает только для документов на следующих языках: английский, французский, итальянский, немецкий, испанский. «Кому интересны технические подробности: используется методика оптического распознавания символов, которую помогли нам усовершенствовать наши друзья из Google Books; результаты распознавания лучше, если используются изображения в высоком разрешении; сохраняется не всё форматирование».

От переводчика

У меня опыт использования распознавания от Google положительный. Пару лет назад я посылал для ознакомления табличку, сделанную в OOo Writer и выведенную в PDF. Оригиналы потерялись, а табличка мне понадобилась в редактируемом виде. Сохранившийся в Gmail файл я залил в Документы с распознаванием. Текст (русский!) распознался до последней буковки, таблица не сохранилась, но табуляции в тексте были, так что довести всё до ума большого труда не составило. (А примечание было точно таким же — стандартное уведомление, очевидно.)