| Cognitive Forms Network |
|
|
|
Массовый ввод однотипных бумажных
документов
Введение
Программный комплекс Cognitive
Forms Network предназначен для создания автоматизированной системы
массового ввода документов. Если объемы ежедневного ввода исчисляются десятками
тысяч страниц, то для организации ввода необходимо оборудовать десятки рабочих
мест операторов и использовать промышленные сканеры со скоростью считывания до
ста и более страниц в минуту.
Cognitive Forms Network – это программное обеспечение, под управлением которого
проходят все этапы обработки документа: потоковое сканирование, сортировка,
распознавание, контроль заполнения, верификация оператором и экспорт в
информационную систему.
Как пример, организованная на основе
Cognitive Forms Network система персонифицированного учета Пенсионного
Фонда РФ содержит и ежегодно обновляет
сведения о более чем 62 млн. застрахованных работников и свыше 38 млн.
пенсионеров. Десятки миллионов анкет застрахованных лиц, сведений о стаже и
заработке и других форм документов ежегодно вводится в систему с бумажных
носителей.
Как это работает
Cognitive Forms Network включает набор основных и вспомогательных модулей. Основные модули соответствуют этапам обработки документа. Это станция сканирования CF ScanPack, сервер идентификации, сортировки и распознавания CF Processor, станция верификации CF Editor.
Основные модули развертываются в
локальной сети и образуют технологическую линию, на вход которой подаются
бумажные документы, а на выходе получаются их электронные аналоги, готовые к
загрузке в информационную систему предприятия. «Узкие места» конвейера
расширяются увеличением числа рабочих станций на перегруженном этапе. Вспомогательные модули реализуют дистанционное управление маршрутами и трассировку документов, сбор статистики (для расчета зарплаты операторов и для анализа работы комплекса и его компонент), протоколирование событий и операций и ряд других функций, обеспечивающих администрирование работы системы. Запуск типового проектного решения по вводу документов на основе Cognitive Forms Network включает этапы типографского макетирования машиночитаемых форм документов, настройки шаблонов распознавания, разработки и подключения системы логического контроля. Для проведения этих работ используется Cognitive Forms Developer Kit. Настроенная технологическая линия проходит обязательные стендовые испытания на тестовом наборе документов. Срок запуска типового проектного решения составляет 6-8 недель. В зависимости от сложности документов, объем тестового набора составляет несколько десятков или сотен документов, реалистичных по содержанию и качеству заполнения.
Распознающее ядро системы, входящее
в базовую комплектацию продукта обучено на выборке более 7 млн. реальных
образцов печатных и рукописных документов и обеспечивает высокое качество
распознавания и идентификации на широком спектре документов. Тем не менее, при
организации ввода сложных документов в виде «как есть» (не оптимизированном для
машинной обработки) для улучшения качества распознавания иногда требуется
дополнительное обучение и специализированная адаптация распознающего ядра
системы. Объем тестового набора в этом случае может составлять несколько тысяч
или десятков тысяч документов.
Спецификации
Минимальные системные требования:
- Pentium 4™ или AMD™ CPU 1333 MHz и старше;
- 256 MB RAM;
- 100 MB свободного дискового пространства;
- Windows 2000/Windows 2003/Windows XP;
- Twain-совместимый сканер с автоподатчиком, 300 dpi.
Основные функции:
- Сканирование разнотипных документов в одном потоке;
- Сканирование в черно-белом, сером или цветном режиме;
- Программная цветоредукция, подавление цветного фона;
- Автоконтрастирование и адаптивная бинаризация для
обработки бледных документов;
- Отбрасывание пустой оборотной стороны листа при
двустороннем сканировании;
- Омнифонтовое распознавание текста печатного заполнения;
- Распознавание текста рукопечатного заполнения с разными
способами оформления полей ввода;
- Распознавание чек-боксов (пометок) с рамкой и без
рамки;
- Распознавание одномерных и двумерных штриховых кодов в
форматах EAN, PDF417, Aztec;
|







