Распознавание текста
Если Вам необходим документ в электронном виде, а в наличии имеется только напечатанный экземпляр, если нужна цитата или глава из книги (или даже вся книга), то мы легко разрешим эту проблему с помощью распознавания текста. Табличные документы сохраняются в формате Excel, текстовые в формате Word при полном сохранении структуры документа.
Как выполняется распознавание текста?1 этап В результате сканирования документа получается его электронный образ, представляющий собой как бы цифровой рисунок, состоящий из точек — растра. Из точек состоит всё — и фон, и само изображение. Говоря о точках, мы будем подразумевать не круглые элементы изображения, как это интуитивно принято считать, а квадратики, на которые изображение разбивается в сканере воображаемой сеткой из горизонтальных и вертикальных линий.Полученный электронный образ документа хранится в сформированном файле, где все точки рисунка описываются именно как точки на плоскости, каждая со своими координатами, цветом и другими атрибутами. В таком файле и текст, и цифры, и другие элементы изображения записаны одинаково — как графические изображения, состоящие из точек.Графический растровый файл, хранящийся в Windows, можно узнать по расширению — трём последним буквам, стоящим после точки в имени файла: *.tif, *.png, *.bmp, *.jpg и т. д. 2 Этап Последняя задача — распознавание рукописного текста — самая сложная . Проблема заключается в том, что количество возможных вариантов начертания любой буквы или цифры практически бесконечно. Поэтому распознавать рукописный текст не просто сложно, а очень сложно.В основе работы программ распознавания печатного текста лежит достаточно серьёзный математический аппарат. И это оправдано сложностью задачи, особенно самого процесса распознавания.Итак, на первом этапе программа должна разбить страницу на блоки и найти среди них те, которые содержат текст, учитывая при этом особенности его расположения: с выравниванием вправо, влево или по ширине страницы, а также возможное форматирование в несколько колонок.Теперь распознанные блоки с текстом разбиваются на строки.Современные OCR-программы, могут обрабатывать текст, содержащий одновременно слова разных языков. Нужно только указать — каких. Подобные тексты нередко встречаются в деловой практике. 3 этап Итак, в результате работы алгоритмов программы OCR страница преобразуется из набора графических образов в символы текста, причём в заданном формате, например в формате Word или Excel. При этом сохраняется внешний вид, т. е. форматирование исходного документа, сохраняются таблицы, графические элементы и т. д. Помимо XLS и DOC программой обычно поддерживаются все известные текстовые и графические форматы и форматы электронных таблиц, а также форматы Internet Explorer и упоминавшийся ранее Adobe PDF.Обработка изображений OCR-программами на компьютере называется программной, так как здесь основную работу выполняет программа. 4 этапПередаем Вам готовую продукцию на электронном носителе. | Требования к исходным материалам Пожалуйста, обратите внимание на требования к материалам, представляемым в электронном виде.Типы носителей:CD-R/RW, DVD-R/RW; USB устройства; Карты памяти: SD, Compact Flash и др.; Дискеты 3.5″ FDD. Форматы файлов: Microsoft Word, до версии 2007 (.docx, .doc, .rtf) Растровые изображения: Масштаб изображения должен быть 1:1 Чертежи : Масштаб изображения должен быть 1:1 |
Справочник по градостроительному законодательству