Оригинал статьи: Google Adds OCR for PDF Files and Images
Некоторое время назад в Документах Google появился новый параметр импорта: при выгрузке на сервис файлов иллюстраций и PDF появилась возможность распознавать текст.
Этот параметр тестировался давно, так что у Google было время усовершенствовать результаты. Однако результат разпознавания отрывка из книги «Rework» был не блестящий: форматирование не сохранилось и около 10 % текста было распознано неверно. В примечании Google обращает на это внимание: «Документ содержит текст, автоматически извлечённый из файла PDF или файла иллюстрации. Форматирование может быть утрачено и текст может быть распознан не полностью».
Справедливости ради заметим, что FineReader Online справился с этим текстом едва ли лучше.
Блог Google Docs поясняет, что эта функция работает только для документов на следующих языках: английский, французский, итальянский, немецкий, испанский. «Кому интересны технические подробности: используется методика оптического распознавания символов, которую помогли нам усовершенствовать наши друзья из Google Books; результаты распознавания лучше, если используются изображения в высоком разрешении; сохраняется не всё форматирование».
От переводчика
У меня опыт использования распознавания от Google положительный. Пару лет назад я посылал для ознакомления табличку, сделанную в OOo Writer и выведенную в PDF. Оригиналы потерялись, а табличка мне понадобилась в редактируемом виде. Сохранившийся в Gmail файл я залил в Документы с распознаванием. Текст (русский!) распознался до последней буковки, таблица не сохранилась, но табуляции в тексте были, так что довести всё до ума большого труда не составило. (А примечание было точно таким же — стандартное уведомление, очевидно.)
Комментариев нет:
Отправить комментарий
Этот пост можно прокомментировать на +странице блога «Жизнь с Google» по адресу, указанному в комментарии выше.
(Комментарии блога используются только для ссылок на сообщения в ленте +ЖсG.)
Примечание. Отправлять комментарии могут только участники этого блога.