Оцифровка текстов с помощью ABBYY FineReader

Предположим, вы любите печатать. Просто обожаете набирать тексты, нажимая клавишу за клавишей. Но даже в этом случае сомнительно, что необходимость загнать в компьютер стопятидесятистраничный реферат или доклад приведет вас в восторг. Предположим, вы любите печатать. Просто обожаете набирать тексты, нажимая клавишу за клавишей. Но даже в этом случае сомнительно, что необходимость загнать в компьютер стопятидесятистраничный реферат или доклад приведет вас в восторги и препинания всей внутренней структурой документа. Именно эти задачи решает ABBYY FineReader всю свою долгую по меркам компьютерных программ жизнь — 12 лет.

Секрет подобного долголетия прост; в любом офисе, в любом учреждении постоянно возникает необходимость сделать бумажный документ электронным, причем так, чтобы можно было его редактировать. Даже в самом простом случае, когда документ состоит из одного лишь текста, без таблиц, иллюстраций и фона, «набивка» на клавиатуре требует времени — примерно 10–15 минут на каждую страницу. И как бы вы, проведя за подобной работой деньдругой, восприняли предложение установить программу, которая сделает то же самое, но в 10–15 раз быстрее?

Да и саму обработку можно во многом переложить на «железные плечи компьютера». Допустим, требуется распознать пресловутые сто пятьдесят страниц. Для этого нужно сто пятьдесят раз нажать на кнопки «Сканировать» — «Распознать» — «Сохранить». Или один раз запустить сценарий обработки документов и заняться чем-нибудь поинтереснее, пока компьютер делает вашу работу. «Научит» его этому, понятное дело, ABBYY FineReader 8.0, который позволяет работать автоматизированно. Для этого составляются так называемые сценарии — последовательности типовых операций, выполнение которых запускается одним нажатием кнопки. Предусмотрено несколько готовых сценариев (наподобие нашего «Сканировать» — «Распознать» — «Сохранить»), можно создавать и свои собственные.

Впрочем, для эффективной работы с FineReader 8.0 не обязательно вникать в такие тонкости, как составление сценариев. Как и прежде, технология ABBYY под названием Scan&Read позволяет распознавать документы буквально нажатием одной кнопки.

Как сделать лучше?

Конечно, определенные правила обработки документов все же существуют. Перечислим некоторые из них.

Сканировать желательно с разрешением не менее 300 точек на дюйм. При работе с книгами (особенно толстыми) не стоит пользоваться CIS-сканерами: у этих тонких, компактных аппаратов небольшая глубина резкости. Поэтому текст, находящийся вблизи разворота (и потому не прижатый к стеклу сканера), может оказаться размытым до неузнаваемости. Обращайте внимание на язык, на котором составлен документ. Ни одна система распознавания не способна справиться с текстом, если язык указан неверно. Даже несмотря на то что ABBYY FineReader «владеет» 179 языками и умеет распознавать документы, составленные на нескольких языках.

Долой рутину!

ABBYY FineReader позволяет избавиться от рутинной работы. Любой машинописный или печатный документ будет введен в компьютер с полным сохранением оформления документа (все иллюстрации, таблицы, списки). Очень полезным может оказаться умение программы ABBYY FineReader открывать PDF-файлы и также переводить их содержимое в редактируемый формат.

В общем-то, неважно, откуда оригинал: пришел по почте в виде PDF, получен со сканера в виде изображения или снят цифровым фотоаппаратом. В любом случае, после обработки с помощью ABBYY FineReader этот документ можно будет редактировать в программах Microsoft Office, сохранять в разных форматах, отправлять по электронной почте или публиковать в Интернете. Одним словом, это будет уже полноценная электронная редактируемая версия оригинала.

Для перевода документа в электронный вид нужно выполнить три несложных действия. Во-первых, нужно получить качественное изображение документа. Это можно сделать при помощи сканера или цифрового фотоаппарата. Если же речь идет об обработке PDF-файла, первое действие можно пропустить: файл уже содержит всю информацию, необходимую для работы системы. Во-вторых, изображение или PDF-документ следует загрузить в ABBYY FineReader и запустить распознавание. И в-третьих, нужно просмотреть (при необходимости — исправить) полученный электронный документ и сохранить его в желаемом формате.

Экономия времени по сравнению с ручным вводом получается внушительная: примерно 14 минут на страницу. Другими словами, обработав упомянутый стопятидесятистраничный доклад, вы сэкономите примерно 35 часов — более четырех рабочих дней, с понедельника по пятницу включительно.

Работа со сценариями

Однако обычное распознавание — далеко не все, на что способна программа ABBYY FineReader. Эта версия (новейшая на сегодняшний день) может самостоятельно решать проблемы, ранее требовавшие участия человека. Например, FineReader определяет, получено изображение со сканера, с цифровой камеры или по факсу, и автоматически выбирает оптимальный способ обработки. Если в документе нет цветных картинок, сканировать можно в полутоновом (сером) режиме, в противном случае предпочтителен цветной (24 бит) режим.

Если сканер и ABBYY FineReader по воле случая находятся на разных компьютерах, вы можете отсканировать материалы, сохранить их в популярном графическом формате и любым удобным способом «доставить» на тот ПК, который будет выполнять функции центра распознавания. Не стоит сохранять файлы в формате JPEG с большой степенью сжатия (компрессии). Мелкие детали изображения (к которым относятся и все буквы текста) при этом будут искажены, и общее качество распознавания понизится.

Фотоаппарат плюс FineReader

Но что делать в том случае, если сканера нет? То есть вообще нет нигде в пределах досягаемости? Никаких проблем — воспользуйтесь цифровым фотоаппаратом.

Это очень удобно, ведь цифровик намного компактнее и легче, не нуждается в питании от электрической сети, да и работает намного быстрее сканера. Конечно, цифровые снимки кое в чем уступают отсканированным изображениям. Например, на фотографиях документов освещение листа чаще всего неравномерное, какие-то области получаются ярче, другие темнее. Иногда, особенно при съемке с рук, страдает резкость. Фотоаппарат, в отличие от сканера, лишен крышки, прижимающей документ к оптической системе, поэтому нередки случаи искривления строк текста в кадре, особенно вблизи разворота книги.

Впрочем, ABBYY FineReader 8.0 умеет справляться со всеми перечисленными, а также со многими другими дефектами изображений. А чтобы облегчить ему задачу (и заодно ускорить обработку документов), рекомендуем при съемке для распознавания следовать нескольким простым правилам. 

  1. Используйте цифровой фотоаппарат с разрешением не менее 4 мегапикселей. Весьма желательно, чтобы он имел возможность отключения вспышки, ручную установку диафрагмы или режим приоритета диафрагмы, ручную или автоматическую фокусировку, функцию оптической стабилизации и объектив с переменным фокусным расстоянием (зум-объектив). 
  2. Перед съемкой убедитесь в том, что документ хорошо и равномерно освещен. Наилучшие результаты получаются при естественном освещении.
  3. Отключите вспышку (в большинстве любительских цифровиков по умолчанию установлен автоматический режим вспышки). 
  4. Установите режим макросъемки (Close-up или Macro). Обычно этот режим обозначается пиктограммой в виде цветка. 
  5. Расположите фотоаппарат параллельно плоскости документа, приблизительно в центре страницы. 

На карту памяти объема 128 Мбайт помещается около сотни снимков в разрешении, достаточном для уверенной работы ABBYY FineReader 8.0. Учитывая тот факт, что при распознавании одного документа (по сравнению с ручным набором) вы экономите примерно 14 минут, нетрудно подсчитать, что одна флэшка, заполненная снимками для распознавания, освобождает вам 24 часа. Сутки, которые не пришлось провести за компьютером. И которые можно потратить на что-нибудь более увлекательное! Например, на съемку окрестных красот — с помощью все того же цифровика.

Ничего невозможного

Самым, пожалуй, оригинальным нововведением восьмой версии является ABBYY Screenshot Reader. Это простое и удобное приложение предназначено для распознавания текста из любой области экрана компьютера. Screenshot Reader позволит переводить в редактируемый формат такие тексты, которые нельзя скопировать обычным способом (например, тексты с интернетстраниц, созданных при помощи технологии Flash). Как распознанный текст, так и снимок экрана могут быть сохранены в виде файла или переданы в буфер обмена. Таким образом, при помощи ABBYY Screenshot Reader можно:

  • быстро собрать в один файл цитаты из нескольких открытых документов; 
  • получить в виде текста содержание папки с файлами, названия файлов и атрибуты; 
  • сохранить историю писем в Outlook; извлечь текст из сообщений об ошибках, сообщений в строке статуса; 
  • сохранить данные только из выбранного столбца таблицы. 

Утилита доступна зарегистрированным пользователям ABBYY FineReader 8.0. Работа с ней настолько проста, что не требует обучения: достаточно просто указать, в какое именно приложение следует передать распознанный текст.

Пожалуйста, оцените статью: 
No votes yet

Добавить комментарий

Не нашли ответ на свой вопрос? Возможно, вы найдете решение проблемы на нашем канале в Youtube! Здесь мы собрали небольшие, но эффективные инструкции. Смотрите и подписывайтесь на наш youtube-канал!

Смотреть на Youtube

Помощь: задайте вопрос

Вы робот? Оставьте это поле пустым, если вы не робот, а человек

1 Что нужно восстановить?

Видео

MP4, AVI и HD видео хранятся на телефоне и / или по ошибке удаляются вместе с фотографиями и другими медиафайлами.

Контакты

Номера телефонов друзей и знакомых из приложения «Контакты Android», журналы вызовов; Восстановление SIM-карты.

Фото

Удалены файлы JPG / PNG из Галереи Android; фото, загруженные на мобильный, файлы повреждены после восстановления.

Смс и сообщения

Чаты WhatsApp и Facebook, текстовые сообщения в соцсетях, информация на сим-карте

2 Где пропали файлы?

На sd-карте

Фотографии и документы хранятся на SD-картах. Часто на них случайно удаляются файлы

На телефоне

Программы для восстановления не распознают внутреннее хранилище телефона как диск, но есть другие решения.

На USB флешке

Эти небольшие устройства хранения данных часто выходят из строя или на них появляются ошибки чтения.

На HDD или SSD

Несмотря на то, что настольные платформы становятся все менее популярными, проблема потери файлов всегда оставалась.