Как сделать потоковое сканирование

Добавил пользователь Валентин П.
Обновлено: 06.09.2024

Потоковое сканирование документов — это обработка большого количества листов с помощью промышленных сканеров. Этот процесс осуществляется конвейерным способом на высоких скоростях. Благодаря потоковому сканированию появилась возможность перевести в электронный вид большое количество документов в сжатые сроки.

Требования к документам для потокового сканирования

Надо отметить, что документы, предназначенные для потокового сканирования, должны отвечать некоторым требованиям. Прежде всего важен их размер, цвет и качество. Это связано с тем, что оборудование для потокового сканирования различается по следующим параметрам:

  • по размеру. Это может быть формат А3 или А4;
  • по формату электронной копии. Чаще всего применяется tiff;
  • по цветности: монохромные, оттенки серого, цветные;
  • по возможности двустороннего сканирования.

Прежде чем приступать к сканированию, надо удалить с оригиналов все канцелярские принадлежности: скрепки, кнопки и т. п. Такие элементы могут серьезно повредить оборудование для сканирования и сами документы, особенно если оборудование работает в автоматическом режиме.

Если документы, которые необходимо перевести в электронный вид, скреплены между собой, то, возможно, их будет удобнее сканировать на книжных сканерах, чтобы избежать разделения.

Преимущества потокового сканирования

Оснащение делопроизводств в Нижнем Новгороде оборудованием для потокового сканирования сможет обеспечить высокую скорость перевода документов в электронный вид. Такое оборудование обладает следующими преимуществами:

  • высокая производительность. Отдельные модели обрабатывают до 180 листов в минуту при возможности двустороннего сканирования и до 90 листов — при одностороннем сканировании;
  • высокое качество электронных копий, способность распознавать изображения низкого качества;
  • высокая эффективность при работе с современными документами.

Эффективность оборудования для потокового сканирования напрямую зависит от плотности бумаги и общего состояния листа. Поэтому старые и совсем ветхие документы не стоит подвергать потоковому сканированию, потому что качество электронной копии зависит от контрастности и четкости исходника. Лучше всего для потокового сканирования подходят однотипные документы и документы с удовлетворительной цветовой гаммой и фоном. Например, анкеты, бланки, отчеты, заявления, опросы, чертежи.

Поточное сканирование документов, сканирование анкет — один из способов быстрой обработки результатов анкетирования широкого круга респондентов.

Содержание

Этапы процесса

Сканирование бумажных документов

Эффективность данного этапа определяется в большей степени качеством используемого оборудования.

Современные поточные сканеры оснащены системой автоматической подачи документов, что позволяет сократить ручной труд и достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.

Распознавание информации

На этапе распознавания используются программные OCR компоненты. Качество результирующих записей зависит от степени готовности анкеты к машинному чтению и тщательности предварительной настройки программного обеспечения.

Верификация данных

Производится автоматическая верификация полученных после распознавания данных. Наиболее частые проверки — проверка на ожидаемый тип данных (число/чекбокс/строка), проверка на присутствие значений. Все проблемные места, отмеченные на данном этапе маркируются для передачи на стадию коррекции.

Коррекция данных

Экспорт данных

Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов анкетирования.

Производительность систем ввода анкет

На этапах сканирования и распознавания анкет важную роль играет применяемая техника. Использование профессиональных промышленных сканеров и мощных станций распознавания позволит добиться максимальной скорости оцифровки (около 96000 анкет за 1 рабочий день для 1 сканера). Узким местом на пути получения готовой базы данных является этап коррекции данных. Для обеспечения минимального количества ошибок операторы вручную обрабатывают информацию помеченную на этапе верификации данных. Процедура занимает много времени и требует серьёзного специализированного обучения сотрудников.

Оцифровка книг • Поточное сканирование документов

Wikimedia Foundation . 2010 .

Полезное

Смотреть что такое "Поточное сканирование документов" в других словарях:

Оцифровка книг — Сверхпроизводительный сканер APT BookScan Оцифровка книг это процесс перевода бумажных книг в электронны … Википедия

Система электронного архива — Возможно, эта статья содержит оригинальное исследование. Добавьте ссылки на источники, в противном случае она может быть выставлена на удаление. Дополнительные сведения могут быть на странице обсуждения. Э … Википедия

Adobe Acrobat — Тип Редактор PDF Разработчик Adobe S … Википедия

Сканер изображений — У этого термина существуют и другие значения, см. Сканер. Сканер (ан … Википедия

Планетарный сканер — Планетарный сканер (англ. planetary scanner) разновидность сканера изображений, использующийся для бесконтактного сканирования книг и сброшюрованных документов. Планетарные сканеры широко используются для оцифровки оригиналов,… … Википедия

Оптическое распознавание символов — (англ. optical character recognition, OCR) механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные последовательность кодов, использующихся для представления символов в… … Википедия

Лазерный принтер — 1993 Apple LaserWriter Pro 630 … Википедия

Colortrac — Эту статью следует викифицировать. Пожалуйста, оформите её согласно правилам оформления статей … Википедия

XSane — XSane … Википедия

Ручной сканер — Ручные сканеры устройства, сканирование которыми производится путем проведения по обрабатываемому тексту или изображению. Термин возник с появлением первых монохромных портативных сканеров небольшого размера, функции которых ограничивались… … Википедия

DOCFLOW

Практически на всех крупных проектах, как правило, приходиться решать вопросы с подключением удаленных подразделений или дочерних организаций, которые могут находиться достаточно далеко друг от друга, например головное подразделение в Москве, а удаленные во Владивостоке, Новосибирске и т.д. И тут возникает вопрос, как подключать такие подразделения или отдельные дочерние организации, у которых имеется свое место регистрации и делопроизводителям необходимо предоставить полный функционал системы.

В статье будет рассмотрена работа в рамках единой системы, когда имеется один сервер и территориально распределенные подразделения. Рассмотрим три способа подключения исключая использование сервера репликации и коннекторов (в нашем случае DICS). Выводы и рекомендации основаны на опыте внедрения СЭД DIRECTUM.

Способы удаленного подключения

Толстый клиент

Клиентское приложение устанавливается на все рабочие места пользователей. Отличное решение, когда все подразделения находятся в одном здании, или на незначительном расстоянии и большая нагрузка на сеть не является существенным ограничением. Но при распределении Москва–Владивосток производительность резко падает. Расстояние приводит к снижению ширины канала, а также увеличению времени отклика и процента потерь сетевых пакетов, что делает использование толстого клиента не очень комфортным.

По проведенным замерам по времени открытия справочника Регистрационно-контрольные карточки, в Москве время открытия справочника РКК = 1-3 секунды. Во Владивостоке время открытия справочника могло доходить до 1,5 минут, а иногда и 3 минут.

Вывод: такой способ работы не подходит для удаленных подразделений или дочерних организаций, достаточно удаленных друг от друга, и если имеется существенное ограничение по сети.

Хорошо решает вопросы рядового пользователя, запускающего документы на согласование, согласующего документы и осуществляющего поиск данных. Но данное решение не позволяет закрыть весь функционал пользователей канцелярии, регистрация документов, сканир ование и т.д.

Вывод: данный способ позволяет организовать работу пользователей, но не делопроизводителей.

Подключение удалённого рабочего стола (RDP)

Решение позволяет предоставить практически полный функционал системы. Но существуют проблемы со сканированием, так как напрямую сканировать документы, используя стандартные средства сервера, Windows и подоб ного не возможно.

Вывод: не смотря на ограничение, связанное со сканированием, это самый оптимальный способ для организации работы делопроизводителей. Но проблемы сканирования все же необходимо как-то решать.

Сканирование документов при удаленном подключении

Какие варианты были нами использованы для решения вопросов сканирования документов в систему:

1 вариант – сканирование в папку

В первое время было принято решение сканировать документы в папку пользователя и прикре плять к РКК из файла.

Недостатки решения: думаю, все внедренцы меня поймут, делопроизводители, конечно, остаются не довольны таким решением, так как это увеличивает объем работ. В нашем случае, сотрудник, отвечающий за регистрацию, являлся еще и секретарем руководителя, и нагрузка на него в связи с этим значительно возросла. Работник не справлялся с таким объемом работ.

2 вариант – потоковое сканирование

Совместно с первым решением было принято настроить потоковое сканирование. Печаталась РКК со штрих-кодом, в системе формировался пустой документ. Карточка со штрих-кодом и документ помещалась на потоковый сканер, отсканированный документ попадал на сервер дочерней организации в определенную папку, затем эти файлы копировались в папку на сервер в Москве и уже там обрабатывались служ бой и помещались в систему.

Недостатки решения: между регистрацией документа и помещением в систему проходило время, пусть не значительное, максимум 10 минут, но все же задания на рассмотрение поступали раньше, чем прикреплялся документ и руководитель видел пустой документ. Появлялись лишние напечатанные документы – печатная карточка РКК, которая раньше не печаталась и не велась, а это дополнительные ресурсы бумаги.

3 вариант – специальные решения

В итоге было принято решение использовать программу TSScan. Программа TSScan представляет собой полностью совместимое со стандартом TWAIN отображение сканеров. Позволяет отображать список локальных устройств обработки изображений и делает их доступными на удаленном рабочем столе, может быть использована в любых типах сетей, работает без потери качества изображения. Есть демо-версия, на которой можно произвести тестирование и принять решение о покупке лицензии. Использование данного решения позволило делопроизводителю работать со сканером в обычном, привычном для делопроизводителя виде.

Недостатки решения: дополнительные затраты на покупку лицензии TSScan.

В нашем случае, когда необходимо минимизировать работу делопроизводителя, не нагружая его дополнительными действиями по печати карточек со штрих-кодами и ручном прикреплении документов, использование программы TSScan стало оптимальным решением. Думаю, заказчики крупных проектов с распределенной структурой могут позволить себе дополнительные траты на покупку лицензии TSScan.

При этом основной поток (большие документы) по прежнему помещались в систему с использованием штрих-кодов и службы захвата (DCTS).

Удаленное сохранение и печать

При удаленном сканировании приходится решать еще одну задачу: независимо от способа подключения скан документа должен попасть в систему, и большой объем сканирования при низком качестве каналов связи может стать проблемой. В нашем примере у заказчика канал был 4 Мбита, который потом расширили до 10 Мбит. И существенных задержек (таких как описанные выше с открытием карточек) при сканировании не возникало. Задержка в среднем в 5-20 секунд не стала проблемой. Так же и печать документов из системы осуществлялась с задержкой в 5-10 секунд. Эти ограничения были приняты как допустимые.

В любом случае при выполнении проектов, нужно ориентироваться на требования заказчика, возможности выбранной системы, достоинства и недостатки того или иного решения.


Когда листов много, их обрабатывают в полуавтоматическом режиме. Потоковое сканирование документов значительно облегчает труд выполняющего его специалиста. Листы загружаются в специальный лоток, из которого они автоматически поступают в аппарат для сканирования. Каждый лист может сохраняться в отдельный файл или же они могут быть собраны все вместе в один электронный документ.

потоковое сканирование документов

От чего зависит стоимость поточного сканирования документов

Цена может начинаться от 2,5 рублей за один экземпляр формата А3, при заказе поточного сканирования документов от 500 штук. Чем больше листов необходимо перевести в электронный вид, тем дешевле обойдется один экземпляр. При этом потоковое сканирование документов, при котором весь процесс выполняется в полуавтоматическом режиме, стоит дешевле ручного.

Таким образом, на стоимость услуги по переводу бумажных документов в электронный вид могут оказывать влияние самые разные факторы. Цена зависит также от формата документа и количества листов, которые необходимо перевести в электронный вид. Чем больше формат, тем дороже стоит его скан. С объемом заказа зависимость обратная: чем он больше, тем дешевле стоит каждый отдельный экземпляр. Поэтому если вам требуется поточное сканирование, распечатка документов технического характера в большом объеме, ищите крупного подрядчика с соответствующим оборудованием. Так вы сможете сэкономить и время, и деньги.

Ручное и потоковое сканирование документов

Потоковое сканирование документов обязательно требует предварительной обработки. Если в аппарат попадет скрепка или железная скоба, он может сломаться, поэтому так важно удалить все скрепляющие листы устройства перед началом сканирования. Если переплет убрать невозможно, то документы обрабатываются в ручном режиме.

Сканирование, распечатка документов в потоковом режиме всегда будут стоить дешевле, чем в ручном. Это связано, прежде всего, с трудозатратами на одну единицу готовой продукции.

Сканировать технические документы нужно с особой осторожностью и аккуратностью. Важно не допустить ошибок в настройках, сохранить четкость изображения, ведь в дальнейшем электронная копия чертежа будет использоваться в работе, и, возможно, с нее будут печататься дополнительные экземпляры взамен утраченных.

Версия КОРП системы 1С:Документооборот имеет множество функций, необходимых для работы с бумажными и электронными документами. Там предусмотрена возможность сканирования и распознавания отсканированных экземпляров с последующим переводом их в текстовый формат.


Сканирование и распознавание документов в 1С Документооборот

Чтобы добавлять сканы, не нужно открывать дополнительные приложения и интерфейсы. Все делается из карточки самого документа.



Там из списка сканеров надо выбрать нужный вариант, установить разрешение сканирования, цветность, форматы сохранения изображений и другие настройки.




Далее будут рассмотрены оба варианта.

Чтобы загрузить документ непосредственно со сканера, надо установить нужные параметры. Можно настроить обработку страниц, распределение изображений по файлам, распознавание штриховых кодов, историю.



Неважно, какой способ загрузки изображений выбрал пользователь. Когда обработка завершится, система выдаст результат.


Пользователь увидит список, какие файлы были отсканированы и прикреплены. Чтобы посмотреть результат, надо перейти в документ.


В данном примере отсканированные файлы система прикрепила к карточке договора.

Распознавание формата PDF и графических файлов на сервере

Чтобы система могла распознавать графические и PDF файлы на сервере, потребуется:

  • установить специальные утилиты CuneiForm, Ghostscript и ImageMagic;
  • зайти в настройки программы и указать параметры распознавания и путь к ImageMagic.

Утилита CuneiForm позволяет системе распознавать графические файлы. Если используется файловый вариант системы 1С:Документооборот, надо указать того пользователя, который будет с ней работать. Если используется клиент-серверный вариант, следует указать пользователя, под чьим именем осуществляется работа сервиса 1С:Предприятие.

Утилита ImageMagic преобразовывает графические файлы в формат PDF и наоборот. Ghostscript является вспомогательной программой для ImageMagic и обеспечивает преобразование файлов. Обе программы устанавливаются на компьютер пользователя.

Распознавание документов в 1С:Документооборот



Там нужно выбрать язык распознавание и указать путь к ImageMagick, которая была установлена ранее.


Открыть персональные настройки работы с файлами. Там также надо указать путь к ImageMagick в соответствующей строке и задать нужные параметры.


Подготовка системы к работе с файлами завершена.

Чтобы выполнить распознавание, надо открыть отсканированный файл.




Для просмотра результата нужно открыть текстовый образ документа.



Когда распознавание файла завершено, он попадет в индексацию 1С:Документооборот. Это позволит быстро найти его через полнотекстовый поиск документов по вхождению фраз и слов. Пользователи смогут получить доступ к основной его версии в формате PNG.

Преобразование файлов из PDF с помощью программы преобразования PDF файлов ImageMagick

Чтобы преобразовать файлы формата PDF, используется программа ImageMagick.


Распознавание файлов выполняется аналогично примеру, описанному выше. Завершив работу с документом, можно посмотреть результат.


Система 1С:Документооборот сканирует и обрабатывает сканы документов, преобразовывает формат PDF и графические файлы, упорядочивает их, индексирует и позволяет находить через функцию полнотекстового поиска. Для этого достаточно установить всего три небольшие утилиты, которые распространяются бесплатно. Важно, что файлы обрабатываются в фоновом режиме, который не мешает пользователям.

Возможность выполнять потоковое сканирование, распознавать файлы, использовать штриховое кодирование документов позволяет службам ДОУ работать максимально эффективно. Это особенно важно для крупных предприятий, где необходимо сократить трудовые и временные затраты при обработке больших объемов бумажных документов. Сокращение ручного труда сводит к минимуму ошибки и влияние человеческого фактора. В результате повышается уровень достоверности документации и общая дисциплина коллектива. Потоки информации обрабатываются оперативно, что положительно сказывается на общей информационной поддержке бизнеса.

Читайте также: