ABBYY FlexiCapture 9.0 — Обработка документов

После того как создан проект со всеми настройками и шаблонами, все типы документов могут обрабатываться в одном потоке.

Импорт документов: сканирование, обычная папка или "горячая" папка

Бумажные документы могут быть импортированы в программу при помощи сканирующего устройства (сканера или МФУ), поддерживающего протокол сканирования TWAIN или ISIS.  Изображения документов также могут быть добавлены вручную из обычной папки, где они хранятся, либо автоматически из "горячей" папки.

Поддерживаемые графические форматы: PDF, BMP, PCX, PNG, JPEG, JPEG 2000, DjVu и TIFF, DCX. Операция импорта может быть упрощена и автоматизирована при помощи набора профилей импорта с заранее заданными настройками.

Распознавание документов

В ABBYY FlexiCapture 9.0 встроен набор мощных технологий распознавания, включая завоевавшую множество наград технологию оптического распознавания печатных символов (OCR) для более чем 186 языков, технологию интеллектуального распознавания рукопечатных символов (ICR) для более чем 100 языков, а также технологии распознавания штрих-кодов (поддерживаются типы 1D и 2D), распознавания меток и полнотекстового распознавания неструктурированных документов с последующим экспортом в формат PDF с возможностью полнотекстового поиска.

Стадия распознавания включает в себя предварительную обработку изображения, классификацию документов и извлечение из них данных и текста с последующим автоматическим контролем данных. Все эти операции выполняются автоматически и могут осуществляться в фоновом режиме.

  • Предварительная обработка изображений
    Импортированные изображения документов могут быть подвергнуты предварительной обработке для обеспечения максимального качества распознавания. Предварительная обработка подразумевает ряд операций по корректировке ориентации страниц, инвертированию, удалению перекосов и шума.
  • Автоматическая классификация документов
    ABBYY FlexiCapture накладывает существующие шаблоны на импортированные изображения и собирает отдельные неупорядоченные страницы в документы. Для идентификации различных типов документов в обрабатываемом потоке используется технология интеллектуального распознавания документов (IDR, Intelligent Document Recognition) и технология FlexiCapture (обе - собственные разработки ABBYY). ABBYY FlexiCapture автоматически классифицирует документы с нежестко заданной структурой любой сложности, включая многостраничные документы с разным количеством страниц, многостраничные таблицы и документы, имеющие при себе приложения в виде картинок и текстов.
  • Извлечение данных и текста
    После наложения шаблонов и обнаружения необходимых полей из них извлекаются данные при помощи высокоточных технологий многоязычного распознавания. Неструктурированные документы распознаются при помощи технологии полнотекстового распознавания для получения PDF-файлов с возможностью полнотекстового поиска.
  • Автоматический контроль данных
    В процессе распознавания программа автоматически применяет правила контроля данных, заданные администратором на этапе разработки шаблонов. Наиболее распространенные типы правил включают в себя проверку формата чисел и дат, проверку по базе данных, проверку сумм, замену значений из списка, нормализацию дат и цен. Для многих типов данных имеются словари разрешенных слов, которые также могут использоваться в процессе контроля данных.

Верификация данных

Когда распознавание закончено, каждому символу присваивается статус, отражающий надежность распознавания: символ может быть надежно распознанным, ненадежно распознанным или нераспознанным. Последние два статуса означают, что оператору необходимо подтвердить гипотезу системы или внести исправления. Этот этап требует больше ручного труда, чем остальные. Для ускорения и упрощения процесса верификации в ABBYY FlexiCapture 8.0 встроен специальный верификационный интерфейс, которые предлагает три режима работы: групповая верификация (больше всего подходит для проверки меток и цифр), верификация полей (для проверки текстовых полей) и верификация в окне "Документ" (для корректировки правил).

В процессе верификации также осуществляется корректировка правил сборки с использованием уменьшенных изображений документов, корректировка правил контроля данных и ручное индексирование при помощи "ввода на основе изображения" (Key From Image, KFI).

Экспорт данных и архивирование документов

Извлеченные данные могут быть экспортированы во внешние базы данных (через ODBC) или в файлы, переданы в бизнес-приложения или системы электронного документооборота. Данные могут экспортироваться в чистом виде или вместе с приложенными изображениями и текстами. Документы могут сохраняться в архивы как файлы в формате PDF/PDF-A с возможностью полнотекстового поиска.  

ABBYY FlexiCapture 9.0 поддерживает широкий спектр форматов сохранения данных (XML, XLS, DBF, CSV, TXT) и изображений (TIFF, JPEG, JPEG 2000, PDF, PDF/A, PCX, BMP, PNG).