Обзор FineReader 10. Распознаем лучше

Есть ли что-то более подходящее для оцифровки документов и распозравания, чем ABBYY FineReader? Можно уверенно сказать, что нет.

Конкурентов у FineReader (FR) не предвидится. Для объективности сказанного можно отметить, что существуют сервисы, работающие по принципу PDF to Word, но они не нацелены на распознавание текста, уж тем более кириллического.

Говоря словами официального руководства, «ABBYY FineReader — это система оптического распознавания текстов (OCR — Optical Character Recognition). Она предназначена для конвертирования в редактируемые форматы отсканированных документов, PDF–документов и файлов изображений, включая цифровые фотографии». В конце прошлого года вышла десятая, юбилейная версия продукта, почему бы не ознакомиться с ее нововведениями? Предыдущая вышла около двух лет назад — достаточно долгий срок разработки для этой компании.

Системные отребования

Кстати говоря, ознакомительная версия программы работает 15 дней и позволяет сканировать 50 страниц. Скачать ее можно по ссылке www.abbyyeu.com/download/Trials/FineReader/FR10PE.exe. Размер дистрибутива составляет около 400 МБ, что и не так мнеого для продукта такого рода. К тому же, при покупке ключа FineReader можно превратить в полноценную версию, сэкономив на коробке. Коробочная верия программы стоит 3950 руб., а обычная обойдется на 400 российских руб. дешевле. Для FineReader озвучить системные требования просто необходимо.

  • Процессор: 1ГГц или выше
  • Операционная система: Microsoft Windows 7, Microsoft Windows Vista, Microsoft Windows Server 2008, Microsoft Windows Server 2003, Microsoft Windows XP. Для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку
  • Объем оперативной памяти: не менее 512 Мб, дополнительно для каждого ядра процессора 256 Мб
  • Свободное место на диске: 650 МБ для обычной установки и 650 МБ для работы программы
  • TWAIN-совместимый сканер, цифровой фотоаппарат/фотокамера мобильного телефона или факс-модем
  • Видеоплата и монитор с разрешением не менее 1024х768 точек
  • Клавиатура, мышь или другое указательное устройство

FR, безусловно, может работать и на более низких конфигурациях. Но в данном случае скорость распознавания не обещает быть удовлетворительной. Так, по отзывам пользователей в Интернете, настареньких компьютерах с одноядерным CPU Sempron и 512 Мб ОЗУ при сканировании даже одной сложной страницы могут случаться подвисания и 100% загруженность процессора. К счастью, начиная с рекомендуемой конфигурации и выше программа не заставляет компьютер подолгу задумываться. С учетом того, что сегодня нормой считается 1- 2 Гб оперативной памяти «за бортом», для процесса распознавания не жаль отвести и 100, и 200 Мб ОЗУ. Столько, по нашим наблюдениям, требовалось для сканирования рядового PDF-документа в 100 страниц с изображениями и текстом.

Интерфейс

Пользователи FineReader 9 без особых усилий заметят, что интерфейс стал более удобным, приятным, при этом не отойдя от своей основы. Расцветка, иконки были подправлены косметическим образом. Главное изменение — это перегруппировка часто используемых инструментов на тулбаре (вынесены на основную панель базовые кнопки: «Открыть», «Сканировать», «Распознать»), а также быстрых сценариев. Последние в десятой версии сгруппированы по задачам.

Таким образом, все необходимое есть под рукой и не выбивается из общего оформления. Разработчики пусть и несильно, без фанатизма, подкорректировали дизайн Reader’а с поправкой на Windows 7.

Качество распознания

С первой попытки можно угадать, чего ждут от каждой новой версии FineReader пользователи. Поэтому приоритетная задача для разработчиков из ABBYY — это, конечно же, улучшение качества распознавания документов. Опытные пользователи отмечают, что от версии к версии прогресса, увы, не было. По крайней мере, в 7, 8 и 9 версиях он был незначителен. Ровно до того, как вышла версия под номером 10, которая действительно — по отзывам и тестам — подняла планку по качеству распознавания. Первым делом нужно отметить, что улучшилось качество распознавания текста. Азиатские языки, как сказано в пресс-релизе, распознаются на 30 процентов лучше, европейские – на 20%. Из языков распознавания были добавлены корейский и идиш, что, впрочем, вряд ли было самым ожидаемым нововведением пакета. Согласитесь, не так часто приходится иметь дело со столь экзотическими языками. Отчаянные любители снимать на мобильный телефон (студентам в частности) могут только порадоваться: вероятность распознавания любительских снимков увеличилось. Не стоит, однако, питать иллюзий и ождать какого-то чуда. Если фотография сильно искажена, имеет артефакты, распознать ее при всем старании, не получится. Тут уж и технологии бессильны. В чем же тогда может быть улучшение распознавания таких снимков? Пресс-релиз говорит о том, что FineReader корректирует геометрию изображения, выравнивает его в соответствии с текстом документа. Если говорить точнее, то возможны такие типы коррекции: исправление трапециевидных искажений, устранение шумов и нечеткости изображения. Разработчики также акцентируют внимание на то, что, начиная с десятой версии, FineReader распознает документ как единое целое. Это значит, FR пытается самостоятельно определить все стили документа, дабы они не выбивались из общей структуры документа. Большее значение придается гиперссылкам, колонтитулам, сноскам и прочим повторяющимся элементам. Ведь, в действительности, так и есть: документ представляет собой нечто цельное, а не разрозненные страницы со «скачущими» стилями. Наконец-то FR это «осознал». Электронные книги с текстовым наполнением распознаются и сохраняют ссылки на содержащиеся в ней главы. Воможно сохранение определенных глав в HTML-формате. Это, как отмечают разработчики, приятный бонус для владельцев мобильных устройств, привыкших читать книги на маленьком экране. Порадовала возможность сканирования документов в формате djvu (см. наш обзор читалки djvu-файлов), который, в целом, характеризуется низким качеством изображения. Правда, в FineReader до сих пор нет поддержки формата FB2 — в таком случае пакету не было бы цены.

См. такжеКак открыть fb2 на телефоне или планшете

Снимаем пробу

Далеко не всегда красивые заявления разработчиков находят подтвеждение, какими бы они не были убедительными. Слова словами, но гораздо интереснее сделать несколько тестовых распознаваний документов. Для начала, интересно было проверить, как FineReader отреагирует на текст, повернутый на 90 градусов. К сожалению, программа не поняла, в чем была хитрость, пришлось вручную указывать угол поворота текста. В принципе, это не сложная работа, тем более когда делаешь это уже не первый раз. Но все-таки неплохо было бы, если бы все определялось автоматически, без подсказок.

Электроннный документ в формате djvu программа распознала успешно, отделив, где нужно, текст от изображния. Иногда, правда, при сложном форматировании, встречаются ошибки (ввиду нечеткого текста, когда человеческим глазом можно и не определить, что за буква, не вдаваясь в текст). Вместе с тем, как мы уже сказали, программа,как и ожидалось, расставила все ссылки на главы. Сфотографированный на цифровую «мыльницу» Sony DSC S60 снимок с руссоязычным содержанием распознался без проблем, несмотря на то, что изображение было сфотографировано не очень ровно, а свет, мягко говоря, не был идеальным.

Учитывая, что программа распознает документы со 186 (!) языков, казалось бы, с белорусским языком особых проблем не возникнет. К тому же, перед сканированием позволяется выбрать только требуемые языки, чтобы на процесс уходило меньше времени и заодно FineReader ничего не перепутал. Но получилось не совсем так. Во-первых, смутило то, что белорусский язык стоит в дополнительных языках, а украинский — в основных. Дело не в том, что разработчики посчилали украинский к основным языкам, а в том, что белорусский не имеет своего словаря.

Ввиду этого и вероятность разпознавания заметно уменьшается.

Так, аналогичный по качеству изображения снимок, но на русском языке, распознался почти без ошибок. Таким образом, без вмешательства документ идеально распознать текст не получится. Особенно если вы имеете дело наложенным на изображение с текстом. С которым, по нашим наблюдениям, FineReader хуже всего справляется.

Резюме

Отрадно, что в этой версии изменения проявляются не только в росте размера установочного пакета, а коренным образом затронули сам процесс распознавания. Его качество документов действительно улучшилось. Об этом говорят практически все виденные нами отзывы, и даже авторитетный портал www.pcmag.com поставил программе 4.5 почетных звезд из пяти возможных. Разумеется, программа даже после стольких лет раработки не совершенна, но, в то же время, при сканировании нужно заботиться о нормальном качестве источника. Поэтому в некоторых случаях, прежде чем пенять на программу, можно просто перефотографировать источник в нормальных условиях осещения и на ровной плоскости. Программой действительно удобно пользоваться. Все делается несколькими кликами, а главное: никаких отвлекающих посторонних диалогов и сложных вопросов. Если нужно распознать документ, достаточно считанных действий: указать первоисточник, дождаться окончания и нажать кнопку «Сохранить». Все. Хотелось бы, чтобы разработчики предоставили пользователю возможность более гибкого выбора редакции FineReader с возможностью менять состав входящих в FineReader словарей и поддерживаемых форматов документов. Таким образом можно было бы ввести о обороты более недорогие лицензии на FineReader. Хотя, заметим, цены довольно демократичные, к тому же, медицинским и учебным заведениям предоставляются скидки.

Дополнительные возможности

FineReader — онлайн

Не нужно забывать об онлайн-сервисе по адресу www.finereaderonline.ru, который, пусть и не является полноценным аналагом пакета, но, в определенные, не обязательно критические, моменты становится палочкой-выручалочкой. Чем хорош FineReaderOnline? Для того, чтобы распознать несколько несложных документов, не нужно покупать и устанавливат программу. На данный момент сервис поддерживает 37 наиболее «ходовых» языков. После регистрации в день доступно для распознавания 50 страниц. Объем одного файла не может превышать 10 Мб, но одновременно можно загружать 10 файлов. Возможно, все это предоставляется бесплатно только на время тестирования сервиса (сейчас он находится в состоянии beta), но ограничений даже меньше, чем в trial-версии десктоп-клиента.

Screenshot Reader

Зарегистрированные пользователи пакета получили в свое распоряжение программу для снятия скриншотов Screenshot Reader. Помимо этой функции, утилита умеет передавать в FineReader полученные снимки в основную программу. С помощью Screenshot Reader можно даже ускорить сам процесс распознавания, поскольку нет необходимости указывать страницы для сканирования, достаточно лишь «сфотографировать» нужный фрагмент. На странице www.abbyy.ru/screenshot_reader/features указано,что программа распознает тексты на 179 языках и поддерживает 14 языков интерфейса. Скорее, здесь говорится не о возможностях распознавания Screenshot Reader (на которое он не способен), а об интеграции с FR. Иначе можно было бы решить, что, имея Screenshot Reader, не нужно покупать или скачивать FineReader. Это, разумеется, не так.