ABBYY FineReader Engine 8.0 EPS поддерживает основные графические форматы, включая многостраничные TIFF и JPEG 2000, и работает с чёрно-белыми, серыми и цветными изображениями. могут поступать на обработку непосредственно из памяти или из файлов. Программа также может открывать PDF-файлы и преобразовывать их в изображения с помощью Adobe PDF Library.
ABBYY FineReader Engine EPS способен выполнять следующие операции предварительной обработки изображений:
- Устранение перекосов. Применяется для изображений, полученных со сканера. Для обработки не требуется наличие границ или других линий. При потоковом вводе форм величина перекоса может быть рассчитана с помощью информации о положении реперных блоков.
- Разделение двойных страниц. Применяется при распознавании отсканированных книг: изображение книжного разворота разделяется на два изображения, каждое из которых соответствует одной странице. Затем каждая страница распознаётся и выполняется её анализ, при этом также может быть устранён перекос изображения. Такая обработка значительно повышает качество распознавания.
- Удаление «мусора» (очистка изображения). При сканировании с низким или средним качеством на изображении может появиться большое количество лишних точек. Такие точки, расположенные вблизи границ символов, приводят к ухудшению качества распознавания. Данная функция предназначена для удаления подобного «мусора».
- Фильтрация текстуры и адаптивная бинаризация. Технология фильтрации текстуры позволяет удалять с изображения фоновую текстуру и цветной фон. С помощью уникальной технологии адаптивной бинаризации удаётся безошибочно распознавать тексты, расположенные на фоне изображений с переменной контрастностью. При распознавании подобных документов параметры бинаризации подбираются индивидуально для каждого фрагмента изображения. Таким образом, удаётся повысить точность распознавания трудночитаемых документов, таких как газеты, цветные документы, факсы и ксерокопии.
- Автоматическое определение угла поворота страницы (90, 180, 270 градусов). При сканировании возможно различное расположение страниц пакета на планшете сканера. Соответственно, их изображения могут быть повёрнуты на различный угол. ABBYY FineReader Engine EPS способен автоматически определять угол поворота страницы и при необходимости исправлять ошибки, допущенные при сканировании.
- Адаптивная обработка изображений документов, снятых цифровым фотоаппаратом. Эта новая технология позволяет отличать отсканированные изображения документов от изображений, полученных при помощи цифрового фотоаппарата, и устранять искажения, характерные для цифровой фотосъёмки.
- Очистка изображения в пределах текстового блока. При очистке предусмотрена возможность указывать размер чёрных и белых фракций «мусора».
- Изменение цветов текста и фона в прямоугольных областях. Эта функция будет особенно полезна разработчикам систем управления данными. Типовой сценарий её применения в электронном архиве выглядит следующим образом. Распознанный документ сохранён в виде изображения и в виде текста. Притом в архивном индексе хранятся геометрические координаты каждого символа на изображении страницы. Используя функцию изменения цветов, можно реализовать подсветку ключевых слов в результатах поиска по архиву. При этом пользователь будет видеть фрагмент изображения, на котором искомые слова выделены цветом.
Анализ необходим для автоматического преобразования документа с сохранением форматирования, распознавания отдельных зон документа с разметкой блоков вручную, а так же для обработки форм. Анализ документа позволяет:
- автоматически определить ориентацию страницы - 90, 180, 270 градусов;
- автоматически обнаружить текстовые блоки, таблицы, штрих-коды и картинки;
- автоматически обнаружить в ячейках таблиц текст с вертикальным направлением;
- вручную размечать (а также добавлять, удалять и редактировать) блоки.
Также можно воспользоваться следующими возможностями ABBYY FineReader Engine EPS, каждая из которых представляет собой индивидуальный тип анализа, предназначенный для решения конкретных задач пользователя:
Анализ документа для счетов. Этот специализированный вид анализа предназначен для предварительной обработки документов, расположение элементов которых неодинаково для разных документов одного типа. К ним относятся, например, инвойсы, платёжные поручения, квитанции, денежные переводы, визитные карточки, договоры, заявление о выплате страхового возмещения, резюме и т.д. Данная функция позволяет обнаруживать максимальное количество текста, включая символы и цифры – даже если надписи выполнены мелким шрифтом и находятся на картинках, логотипах, и т.п.
В отличие от стандартного анализа, данный специализированный вид анализа предполагает, что вся печатная информация, содержащаяся на документе, является текстом. В частности, структура таблиц не анализируется, текст в ячейках выделяется в самостоятельные текстовые блоки. При таком подходе важная текстовая информация не будет интерпретирована как графические элементы, а числа в таблицах гарантировано не будут разделены на группы, состоящие из целой и дробной частей. В результате удастся получить максимальное количество информации о тексте, включая его координаты. Впоследствии эта информация может быть использована для анализа документа, обработки полей и разбора текста в других системах.
Анализ документа для полнотекстового индексирования. В данном режиме на странице автоматически находится и распознаётся вся текстовая информация, в том числе и та, что находится внутри изображений, графиков, диаграмм и т.п. Это даёт разработчикам возможность строить полнотекстовые индексы для распознаваемых документов, что полезно для организации эффективного и удобного поиска по электронным архивам и другим массивам неструктурированной или слабо структурированной текстовой информации
ABBYY FineReader Engine EPS распознает печатные тексты на 189 языках. При этом поддержаны:
- 179 языков с латинским, кириллическим, греческим и армянским алфавитами
- 46 языков с морфологической поддержкой
- Распознавание многоязычных документов
- Распознавание документов, отпечатанных на матричном принтере. Были проведены тесты на тысячах образцов, напечатанных на различных принтерах, включая матричные, лепестковые, цепные и ленточные принтеры. Система уверенно распознаёт такие тексты, отпечатанные как в черновом режиме, так и с высоким качеством (режим Near Letter Quality, NLQ).
- Распознавание документов, напечатанных на пишущей машинке
- Распознавание китайских, японских и корейских идеограмм
- Режим быстрого распознавания. Предназначен для приложений, рассчитанных на обработку больших объёмов документов в условиях, когда скорость обработки является наиболее важным параметром системы. Данный режим увеличивает скорость обработки в 2-2,5 раза, что делает его пригодным для систем управления документооборотом и систем архивирования.
- Распознавание текстов, напечатанных шрифтами OCR-A, OCR-B и MICR (E 13 B)
- Модуль FineReader XIX. По всему миру имеется большое количество документов, книг, газет, опубликованных в 17-19 столетиях. Большинство из них раритетные, некоторые уникальны. Они хранятся в архивах библиотек, государственных учреждений и являются национальным наследием, которое необходимо сохранить. Лучшее решение - перевести их в цифровой формат. Набор функций, называемый FineReader XIX, предоставляет возможность распознавания текстов, напечатанных в период с 1600 по 1937 на английском, французском, итальянском и испанском языках. FineReader XIX поддерживает такие специальные шрифты, как Fraktur, Schwabacher и большинство готических шрифтов.