Системы массового ввода данных это

Системы массового ввода данных это

Термин "массовый ввод данных" имеет относительно давнее происхождение. Его придумали на заре внедрения информационных систем, когда началось активное использование емких носителей информации (магнитные ленты, барабаны и диски) и потребовалось заполнять их данными. Именно тогда возник интерес к технологиям, связанным с автоматическим вводом информации. Разрабатывались специальные читающие автоматы, построенные на логических схемах, предназначенные для ввода определенных типов символов, к примеру, цифр. Современные технологии оптического распознавания текстов (английское сокращение "OCR" — Optical Character Recognition) существенно превосходят возможности первых автоматов. Теоретически с их развитием отпала необходимость в машинистках для ввода больших объемов данных. Однако на практике во многих организациях все еще можно увидеть большие залы, заполненные старыми компьютерами, за которыми сидят сосредоточенные женщины и бьют по клавишам…

Проблема массового ввода данных стала особо актуальной в последнее время. Стало очевидно, что для организации управления и контроля необходимо, чтобы любая информационная единица, порожденная на уровне отдельного гражданина или отдельного предприятия, попадающая в зону интересов государства (финансовая операция, акт регистрации чего-либо и т.д.), сразу оказалась в информационных системах и была доступна в любой момент для анализа и обобщения. Возможность совместной работы отдельных распределенных по всей России информационных систем — вопрос отдельный, однако для начала нужно иметь недорогой и эффективный механизм сбора информации. Информация, получаемая от предприятий, может быть сразу представлена в электронном виде, в то время как граждане в подавляющем большинстве случаев подают данные в виде бумажных документов. Каждый из нас заполнял за свою жизнь немало всевозможных бланков, форм, анкет. Вся эта информация по большей части хранится в шкафах и на полках и фактически не доступна ни для чего, кроме текущего делопроизводства. Отсюда возникает проблема массового ввода данных, когда надо ввести и обработать большие объемы информации, представленные на бумажных носителях: в виде анкет, деклараций, форм и т. д. С подобными задачами сталкивается подавляющее большинство крупных государственных и коммерческих структур.

Как известно, преобразование документов в электронный вид осуществляется при помощи сканера. Но это только один из этапов преобразования — любой документ, попавший в электронный мир, может считаться полноценным лишь если случае, если он соответствует требованиям этого мира. А одним из главных требований является текстовое представление документа, которое позволяет производить поиск, сортировку и модификацию документов. Поэтому вторым этапом преобразования документа в электронный вид является конвертирование его в текстовый файл с помощью программ распознавания. Для создания эффективно действующей системы массового ввода данных крайне важны обе составляющие: и сканеры, и системы оптического распознавания. Однако для того, чтобы успешно построить систему ввода информации, необходимо четко представлять себе задачу, которую вы намерены решить.

Задачи ввода данных

Информация, которую необходимо вводить, бывает двух типов: структурированная и нестуктурированная. В первом случае это анкеты, таблицы и другие формы, в которых данные разнесены по полям и типизированы, т. е. описано, какой тип данных (фамилия, дата, вид документа и т.д.) должен быть в каждом поле. Неструктурированная информация — это обычный текст, например, тот, который вы сейчас читаете.

Более подробно мы об этом поговорим ниже, в разделах, посвященных технологиям распознавания, а здесь остановимся на задаче ввода структурированных данных (для простоты будем ее называть просто "ввод форм").

При вводе форм встает серьезная проблема качества информации. Что это значит? Информация является некачественной, если данные не соответствуют требованиям, налагаемым правилами их представления или объективными правилами, заложенными в природе данных. К примеру, если дата должна быть указана в виде "день-месяц-год", а заполнял форму американец и записал ее в виде "месяц-день-год", то вы имеете неверное представление данных. Если же у вас в номере месяца написано "13" или не сходится итог, то это уже нарушение правил, заложенных в смысл данных.

Когда вы собираете данные в электронном виде, у вас есть возможность контроля этих данных на этапе их ввода или конвертации. К примеру, вы можете дать возможность оператору выбрать месяц из списка, застраховав себя от ввода неверного названия месяца, и можете проверить соответствие суммы итогу, чтобы пропустить только заведомо верные данные. Когда же человек заполняет бумажный бланк, всех этих механизмов нет, он волен писать все, что ему вздумается. Поэтому мы говорим, что при представлении на бумажных формах информация имеет существенно более низкое качество, чем при представлении в электронном виде. Конечно, результирующее качество информации существенно зависит от того, как сделан сам бланк. Этот вопрос относится к числу вопросов организации процесса ввода документов.

Сканеры

Сканеры для массового ввода данных делятся на две категории: скоростные и промышленные. Разница между ними состоит в первую очередь в их производительности. У скоростных сканеров она колеблется в диапазоне от 10 до 40 страниц в минуту, в то время как у промышленных моделей производительность составляет от 40 до 200 и более страниц в минуту.

По внешнему виду скоростные сканеры похожи на обычные офисные сканеры, снабженные механизмом автоматической подачи документов. Тем не менее в отличие от последних работают они значительно быстрее. Большинство скоростных сканеров могут работать как в режиме автоматической подачи листов, так и в режиме планшетного сканирования. В последнем случае их используют для сканирования книг и журналов. Скоростные сканеры выпускаются компаниями Fujitsu, Bell+Howell, Mitsubishi, Hewlett-Packard, Avision, Kodak и некоторыми другими производителями. Эти устройства позиционируются в первую очередь для офисного применения в рабочих группах. Однако благодаря их относительной дешевизне многие организации в России приобретают такие сканеры для сканирования большого объема документации. Автоподатчики скоростных сканеров вмещают от 50 до 100 страниц. Их ценовой диапазон составляет от 1,5 до 8 тыс. долл.

Промышленные сканеры (в английской терминологии — production scanners) отличаются от скоростных тем же, чем промышленный сверлильный станок отличается от бытовой электродрели. Они обладают значительной механической прочностью и могут работать в непрерывном режиме. Как уже упоминалось, скорость сканирования находится в диапазоне от 40 до 200 и более страниц в минуту. Однако среди промышленных сканеров существуют и свои рекордсмены, которые обеспечивают скорость сканирования до 500 страниц в минуту. Устройства этого класса штатно оснащаются аппаратными реализациями сложных алгоритмов обработки изображений в реальном времени, что повышает качество полученных изображений. Автоподатчики промышленных сканеров позволяют загружать до 500 и более страниц. Промышленные сканеры выпускаются компаниями Kodak, Banctec, Bell+Howell, Fujitsu (модель M3099) и др.

Как правило, к промышленным сканерам поставляется значительное число дополнительных компонентов, которые позволяют решать специализированные задачи. Например, специальные лампы дают возможность сканировать цветные машиночитаемые бланки.

Встроенный принтер (imprinter) дает возможность пропечатывать в углу сканируемой страницы текст, который затем появится на отсканированном изображении. Или еще одна достаточно неожиданная опция — пылесос. Поскольку при сканировании больших объемов бумаги подающий тракт может забиться бумажной пылью, к некоторым сканерам поставляется специальный пылесос, который систематически включается и очищает сканер от бумажной пыли, мешающей работе сканера и создающей дефекты на изображении.

Важные характеристики

Любой сканер, который планируется использовать для сканирования большого объема документов, должен быть оснащен автоматическим податчиком бумаги. Это единственное универсальное условие, которое необходимо учитывать при выборе сканера, в остальном подбор сканера вещь сугубо индивидуальная и зависит от задач, которые вы перед собой ставите. В каких-то случаях форма документов разрабатывается под сканер, в каких-то, наоборот, — сканер подбирается под документы. В последнем случае, если формат документов нельзя менять ни в коем случае, подбор сканера придется осуществлять экспериментально.

Читайте также:  Дано десятичное число 67

Хорошие сканеры стоят недешево, поэтому покупать их следует с прицелом на будущее. Допустим, вам необходимо перевести в электронный вид документы из уже существующего у вас архива. Как правило, архивные бумаги хранятся сшитыми и пропустить их через автоподатчик невозможно. Казалось бы, оптимальным решением является приобретение нескольких планшетных сканеров, которые будут параллельно обрабатывать архивные документы. На самом же деле имеет смысл приобретать один скоростной сканер с автоподачей страниц, который может работать в планшетном режиме. При вводе документа с планшета скоростной сканер работает в несколько раз быстрее обычного сканера, следовательно, потребность в нескольких устройствах отпадет, вы также сэкономите на рабочих местах. А новые, еще не подшитые документы можно сканировать с автоподачей. Следовательно, покупая один скоростной сканер, вы существенно ускорите ввод как новых, так и старых документов.

Учитывайте, что скорость, указанная в паспортных данных сканера, достижима только в том случае, если все остальные факторы близки к идеальным. Для того чтобы загрузить на полную мощность сканер с производительностью 200 страниц в минуту, вам необходимо располагать бригадой хорошо обученных людей, которые будут четко, без суеты и задержек подготавливать документы к сканированию. При этом сами документы должны быть однородными, бумага должна быть прочной, ровно обрезанной, без ворса и рваных краев. На практике же скорость сканирования зависит от многих факторов, не имеющих непосредственного отношения к сканеру, поэтому его реальная производительность определяется только в работе. Грубую оценку реальной скорости можно получить, поделив паспортную производительность пополам.

При оценке скорости сканирования необходимо учитывать еще одну особенность. Дело в том, что иногда в погоне за цифрами производители сканеров несколько лукавят. Чаще всего паспортная скорость достигается при сканировании листов формата A4 в альбомной ориентации (т. е. при минимальной продольной длине листа) с разрешением 200 точек на дюйм. Между тем для большинства задач массового ввода этого разрешения недостаточно, так как при этом теряются важные детали изображения. Увеличение же разрешения до 300 точек на дюйм может привести к падению скорости сканирования в полтора-два раза. Кроме того, для практических целей вам вряд ли понадобятся изображения в альбомной ориентации — для их поворота придется использовать либо специальные платы (что стоит недешево), либо достаточно мощный компьютер, который будет поворачивать изображения в темпе сканирования.

Ресурс работы сканера определяется, исходя из общего объема документов, которые требуется преобразовать в электронную форму. Не следует тратить деньги на покупку дорогого супернадежного сканера, если вы выработаете его ресурс только за двадцать лет. За это время технологии уйдут далеко вперед и старая техника станет безмолвным памятником вашей недальновидности. Нормальный срок выработки ресурса сканера — 5-7 лет. Отработав этот срок без значительных простоев, устройство, независимо от стоимости, окупит себя многократно.

Ресурс сканера не всегда указывается в паспортных данных. Однако эту информацию, как правило, можно получить у дилера. Если же ресурс работы неизвестен, покупать такой сканер не стоит. Нелишне будет узнать и о ресурсах расходных компонентов сканера. Например, ролики и другие детали механизма подачи, в зависимости от модели сканера, рассчитаны на сканирование от 100 до 500 тыс. листов. А лампу, при интенсивной эксплуатации, скорее всего придется менять раз в полтора-два года, а может и чаще, поскольку при длительном использовании ее яркость и равномерность освещения падают, что моментально сказывается на качестве получаемых изображений.

При покупке сканера имеет смысл запасаться основными расходными компонентами по крайней мере на год. Дилеры заказывают их, как правило, по мере необходимости, и поставка необходимой вам запчасти может растянуться на месяц и более. Кроме того, в ситуации перманентного экономического кризиса в России никто не может дать гарантии, что уже через год ваш дилер не переключится на торговлю картошкой.

При выборе сканера важно оценить характеристики документов и требования к их сохранности. К примеру, ветхие документы не выдержат прохода через автоподатчик, который выбирает страницы из пачки за счет трения (а именно таким типом устройств оснащено большинство сканеров). Этот автоподатчик не подходит и в случае, если сканируемые документы имеют значительную ценность и никак нельзя допустить их повреждения. В этих случаях используют сканер с подачей на электростатической ленте (к которой лист как бы "прилипает") или с вакуумным подсосом страниц. Последние стоят достаточно дорого, но обеспечивают максимальную сохранность документов. Правда, стоит отметить, что вакуумная подача, как правило, не является автоматической — листы кладутся в приемный лоток по отдельности.

Надежность сканера — один из наиболее важных параметров. Представьте себе, что перед вами стоит задача отсканировать бюллетени голосования во время общего собрания большого акционерного общества, где могут присутствовать десятки тысяч человек, и от результатов голосования зависит дальнейший ход событий. Автор этих строк однажды попал в такую ситуацию, производя обработку бюллетеней на ежегодном собрании известного АО. Представьте мои ощущения, когда я положил увесистую пачку бюллетеней в автоподатчик сканера, а множество людей, судьба которых, возможно, решалась в эти минуты, собрались за моей спиной в ожидании результатов голосования. Любая заминка во время сканирования могла бы интерпретироваться нервной публикой как попытка сорвать голосование или исказить его результаты. И хотя рядом стоял запасной сканер, полностью готовый к работе, у меня выступил холодный пот.

Этот пример следует рассматривать скорее как курьез, однако я привел его, чтобы продемонстрировать простой тезис: понятие надежности сканера распространяется не только на аппарат, но и на процесс сканирования. Иными словами, сбоем можно считать не только неисправность сканера (с хорошими сканерами такое случается крайне редко), но и всевозможные проблемы в процессе сканирования, как то: "зажевывание" бумаги, захват нескольких страниц одновременно, перекос страницы во время сканирования. Эти сбои в лучшем случае приводят к существенному замедлению процесса сканирования, а в худшем могут исказить результаты. Конечно, комплекс ввода должен быть спроектирован таким образом, чтобы максимально нивелировать последствия сбоев сканера. Но, к сожалению, это не всегда возможно, и лучше, если ваш сканер будет оснащен специальными средствами, позволяющими обнаруживать такие сбои, как повреждение листа, захват нескольких листов и сильный перекос.

Распознавание

Эффективность систем распознавания при переводе текстов в электронную форму уже доказана практикой, и найдется немного людей, которые в этом сомневаются. Однако еще пять лет назад ситуация была прямо противоположной — в эффективность OCR-технологий верили только редкие энтузиасты. Эта ситуация имела под собой вполне объективную причину — существующие на тот момент технологии были крайне несовершенны. Скептики (да и прагматики тоже) говорили: зачем нужна ваша система, если после нее надо производить дополнительную проверку — проще набить вручную. Возразить им было трудно.

Перелом в сознании пользователей произошел, когда системы оптического распознавания стали ошибаться реже, чем профессиональные машинистки. Все сразу вспомнили, что машинистки тоже делают ошибки, и за ними также нужно вычитывать.

Объекты распознавания

Современные технологии OCR позволяют достаточно эффективно распознавать печатный текст, независимо от шрифта, с минимальным количеством ошибок. Например, система FineReader 4.0 при работе с текстами среднего качества делает не более одной-двух ошибок на машинописный лист, причем практически в 100% случаев помечает свои же ошибки, что позволяет оператору легко найти и исправить их.

Если задачу ввода печатных текстов можно считать решенной, то ввод рукописных текстов — существенно более сложная задача, и она еще ждет своего окончательного решения. Уже сейчас существуют системы, которые достаточно эффективно (лучше, чем машинистка) вводят так называемый рукопечатный текст (когда каждая буква в слове пишется раздельно). Эти системы используются для ввода бланков, заполняемых от руки. Чтобы отличить системы, распознающие рукописный текст, от обычных OCR-систем, их называют ICR (Intelligent Character Recognition). Смена Optical на Intelligent, как вы понимаете, означает усложнение технологии.

Читайте также:  Яндекс почта объем почтового ящика

Возможно, вы заполняли анкету застрахованного лица Пенсионного фонда или налоговую декларацию (кстати, машиночитаемая налоговая декларация в России была внедрена в 1998 году одновременно с США). Бланки этих форм имеют некоторые особенности, как то: выделенные области под каждую рукописную букву (знакоместа), реперные черные квадраты по углам, четкая инструкция по заполнению — все эти специальные требования необходимы для автоматизированного ввода рукописной информации. Отвечающие этим требованиям бланки называются машиночитаемыми.

Задача ввода неадаптированных рукописных текстов, с нашей точки зрения, скорее академическая, чем практическая. Однако ситуация выглядит совсем иначе, если коснуться задачи ввода рукописного текста с планшета или экрана карманного компьютера. Развитие рынка карманных компьютеров во многом тормозится отсутствием надежных систем ввода информации "от руки". Отчасти это связано с тем, что карманные компьютеры все еще сильно ограничены в ресурсах, поэтому полноценная система распознавания на них работать не может. По мнению экспертов, в течение ближайших года-полутора карманные компьютеры существенно прибавят в характеристиках при сохранении цены, и тогда можно надеяться, что и встроенные в них системы распознавания рукописного текста станут "умнее".

Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная стандартизация которых невозможна. Такие формы называются гибкими. Типичным примером такой формы является банковское платежное поручение. Другой пример — обработка входящей корреспонденции при занесении в систему документооборота. В любом письме существуют общие атрибуты: отправитель, получатель, дата, номер и т.д. Очевидно, что положение этих полей в документе может быть любым, а значит, для решения задачи автоматического ввода этих атрибутов также нужна технология ввода гибких форм. Распознавание гибких форм основано на описании формы, включающем всевозможную информацию, которая может помочь системе найти то или иное поле.

Сегодня в мире нет программных продуктов, которые можно было бы настроить на ввод любых гибких форм без программирования. Однако уже есть готовые приложения, в основе которых лежит технология распознавания гибких форм, такие как FineReader Bank — система автоматизированного ввода платежных поручений. Многие компании разрабатывают собственные решения, лицензируя у производителей модули распознавания.

При вводе данных из форм целесообразно придерживаться следующих принципов:

1. Пакетная обработка данных.

Смысл этого принципа состоит в том, что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера. Каждый такой пакет имеет уникальный идентификатор. Подобное решение позволяет структурировать поток вводимых данных. Этот принцип даёт определённые преимущества: во-первых, с каждым пакетом могут быть связаны свои программные настройки, во-вторых, в потоковой системе ввода структурирование облегчает администрирование, маршрутизацию потоков и дальнейшее хранение данных.

2. Распределение функций операторов.

Мощные системы ввода данных обычно функционируют по принципу конвейера. Специализация повышает производительность труда, а также позволяет практически неограниченно масштабировать систему. Например, всегда можно увеличить количество мест операторов сканирования, не вмешиваясь в работу операторов распознавания, верификаторов, и так далее.

3. Масштабируемость системы.

Благодаря распределению функций между операторами, система оказывается состоящей из узкоспециализированных модулей. При этом количество модулей каждого вида определяется только особенностями конкретной ситуации и может быть при необходимости легко изменено. Эта особенность делают систему более гибкой и управляемой, что существенно удешевляет комплекс ввода в целом.

4. Очередность заданий.

Важным для таких систем является понятие маршрута движения пакета. Пакеты движутся по системе не произвольным образом, а в соответствии с заданной схемой маршрутизации. Простейшим примером схемы маршрутизации может служить линейная схема: станция сканирования — станция распознавания — станция верификации — станция корректировки — станция экспорта. Основное преимущество системы, использующей очереди заданий, — равномерное распределение нагрузки по всем ресурсам (операторам) системы. Как только, например, оператор верификации освободился от задания и сообщил о своей готовности продолжить работу, на его рабочее место доставляется очередной пакет форм, стоящий следующим в очереди пакетов на верификацию [3].

Требования к системам массового ввода стандартных форм

Основные требования к системам обработки форм:

1. Соответствие предъявляемым функциональным требованиям.

Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных. Для одних целей использование таких приложений может быть эффективно, в то время как для других, напротив, — вести к лишним расходам.

Поскольку производится обработка образов документов с распознаванием содержащихся в них данных, они должны быть спроектированы с учётом максимально удобного сканирования, а данные — внесены таким образом, чтобы их было удобно распознавать. Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации. Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).

2. Точность распознавания.

Модуль распознавания текста встроен в систему обработки форм. Существуют две его разновидности, основанные на технологиях оптического распознавания: OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание — ICR, способное работать с написанными вручную символами. Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена. Несмотря на то, что ICR базируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.

В табл.1 приведены основные характеристики методов распознавания.

Характеристики методов распознавания

Процент нераспознанных символов

Процент символов, распознанных ошибочно

Как видно из таблицы, ни один из доступных способов не гарантирует полного отсутствия ошибок в тексте, однако чем выше точность распознавания и меньше количество не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCR и ICR сталкиваются с ошибками двух типов: во-первых, это символы, которые система вообще не способна распознать, и, во-вторых, — те, что распознаются ошибочно. Причём последние наиболее опасны, так как ошибка, вполне вероятно, может остаться незамеченной. Первых также не должно быть слишком много, иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем: более дорогие, как правило, обеспечивают лучшие показатели.

3. Наличие эффективной системы редактирования.

Нельзя построить системы со 100%-м распознаванием форм и полностью исключить действия человека. Но их надо минимизировать и построить систему так, чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью (или части формы), где выделены «сомнительно» распознанные символы. Оператор просматривает и вносит необходимые изменения, после чего подтверждает ввод данных.

4. Настраиваемость системы.

Лучшие системы обработки форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и будущими решениями. Они также должны быть настроены на требования конкретного заказчика и изменяться согласно меняющимся внешним условиям без программирования. Настраиваемость системы обработки форм подразумевает:

· Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.

Читайте также:  Прекращена работа программы igfxhk module

· Наличие редактора форм, настраивающего систему на новые формы.

· Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.

· Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.

· Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.

· Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных данных и начальной формы, с которой они были взяты.

· Возможность наращивания функций системы [1,2,11].

Подходы к реализации систем обработки форм

В идеале системы должны включать все функции, необходимые для сканирования, обработки, исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала.

Существуют два подхода для реализации систем обработки форм: компонентный и монолитный.

При компонентном методе система обработки форм состоит из компонентов, которые разрабатываются и представляются различными производителями. В случае компонентного подхода, заказчик обладает возможностью получить приложение, обладающее оптимизированным для своих потребностей набором функциональности. Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание. В качестве компонентов рассматриваются: компоненты работы со сканерами, с платами обработки изображений; компоненты обработки изображений и распознавания изображений.

При монолитном подходе вся система поставляется одним производителем, например разработчиком систем распознавания изображений. При сосредоточении ответственности за всю систему в одних руках необходимо отметить некоторые недостатки.

Во-первых, узость подхода производителя монолитных систем определяется его корнями. Так, производители систем распознавания и обработки форм обычно уверяют, что главное в системе — это модуль распознавания их производства, а всё остальное не так важно.

Во-вторых, нельзя гарантировать, что система от одного производителя способна поддерживать на высоком уровне все функциональны особенности.

В-третьих, невозможно заменить какой-либо элемент на более качественный другого производителя.

И, наконец, нельзя модернизировать систему своими силами, и, как следствие этого, возникает сильная зависимость от одной компании-производителя [1].

Выводы к разделу 2

Ввод информации из полей формы в базу данных, включает несколько этапов: подготовка обработки формы, сканирование, сегментация полученного изображения, распознавание значимых полей, верификация, сохранение данных в полях базы данных. Причём сегментацию изображения формы и извлечение данных из значимых полей подразумевает обработка форм.

При вводе форм целесообразно придерживаться определённых принципов, брать во внимание основные требования, предъявляемые к системам массового ввода форм и учитывать подходы к их реализации. Это обеспечит реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных, а также освободит сотни людей от неэффективного утомительного труда.

Массовый сбор и обработка информации – это то, с чего начинается жизнь многих информационных систем ровно в тот момент, когда они переходят в промышленную эксплуатацию. До создания информационной системы, призванной решать задачи, связанные с обработкой данных определенного характера, заказчик может вести эти самые данные либо на бумаге, либо с использованием универсальных программных средств, таких как продукты Microsoft Office, либо в информационной системе, которую в перспективе он планирует списать. Эти данные предстоит загрузить в новую систему, и хорошо, если это возможно сделать автоматически или автоматизировано с использованием специальных программных средств. Если исходные данные не поддаются программной обработке и загрузке в новую систему, то их вносят туда вручную. Бывает, что осуществлять массовый ввод данных в систему естественным способом — посредством предусмотренных пользовательских сценариев – дело весьма трудоемкое и утомительное. Часто такие сценарии рассчитаны лишь на размеренную актуализацию (ведение) данных и непригодны для обработки больших объемов информации в короткие сроки. Они могут быть перегружены постоянными дополнительными проверками, разного рода процедурами авторизации, постобработками и прочими накладными расходами, которые на этапе массового ввода являются лишними.

Мы можем предложить Вам следующий вариант. С помощью специальных программных средств, разработанных нашими специалистами, мы за относительно короткие сроки сможем создать готовое решение, которое позволит Вам вводить сложно структурированные данные в соответствии с Вашими требованиями. Процесс выглядит примерно так. Сначала мы описываем структуру исходных данных с помощью специального редактора, который использует объектно-ориентированный подход для так называемого моделирования предметной области (для описания сущностей предметной области и связей между ними). Этот этап еще называют формированием метаданных. Далее, специальные программные сервисы, умеющие интерпретировать эти метаданные, создают целевое информационное хранилище и предоставляют готовый пользовательский интерфейс для ввода туда нужной Вам информации. Массовый ввод данных с помощью подобных систем можно выполнять настолько быстро, насколько это только возможно вручную с помощью операторов, оставляя возможность по ходу процесса вносить изменения в структуры данных. Наши инструменты позволяют таким же образом осуществлять не только массовый ввод текстовой и числовой информации, но и ввод пространственных данных, а именно формирование векторной геометрии в наиболее популярных форматах, используемых в CAD и GIS системах с попутным выполнением различного рода проверок и контролем целостности данных. По завершению массового ввода, осуществленного подобным образом, сформированные в результате его данные обычно довольно легко загрузить в целевую информационную систему автоматически программным путем (это мы также берем на себя).

Иногда массовый ввод необходим и при отсутствии целевой информационной системы. К примеру, организация ведет архив, непосредственно связанный с ее деятельностью. Представлен такой архив может быть как бумажными документами, так и разрозненными электронными копиями документов различных форматов. Информационная система, основанная на использовании метаданных, процесс создания которой был описан чуть выше, легко сможет справиться с задачей приведения в порядок подобного архива. В базе данных можно будет хранить не только информацию строго определенного типа, но и отсканированные образы документов, файлы произвольных форматов и т.д. и т.п. Созданный таким способом электронный архив снизит риски потери информации вследствие возможной утраты бумажных копий документов и сможет стать той самой целевой информационной системой, которой не хватало в вашем бизнесе до его появления.

Кроме всего этого, наши партнеры могут предложить Вам свои услуги по непосредственному осуществлению массового сбора, ввода и первичной обработки информации силами собственных операторов, поскольку не любая организация способна выполнить это самостоятельно. Причин этому может быть много: огромные массивы данных, которые необходимо обработать; отсутствие необходимого количества собственных ресурсов, в том числе персонала; отсутствие специализированного программного обеспечения или же дефицит кадров, умеющих работать с компьютером на должном уровне.

Примеры исходных данных, которые нам довелось обрабатывать в процессах массового сбора и обработки информации, а также программные средства, которые мы для этого использовали, Вы можете посмотреть в приведенном справа списке иллюстраций.

Ссылка на основную публикацию
Системная плата ecs mcp61m m3
Средняя цена по России, руб: 3 877 Общие характеристики Производитель Фирма, которая произвела данную материнскую плату. ECS Форм-фактор Форм-фактор –...
Самые популярные модели в инстаграм
К ендалл Дженнер в этом году не было среди ангелов на Victoria’s Secret Fashion Show и не зря! Мало того,...
Самодельная подставка для ноутбука с охлаждением
Всем добрый вечер! Сегодня я снова пишу в Блог а не в Бортовой Журнал машины, лишь потому, что с машиной...
Системное администрирование windows 10
Наверняка вы уже слышали, что сегодня официально выходит Windows 10 Creators Update. В этой статье мы решили быть на шаг...
Adblock detector