Москва и Московская область
Режим работы: с 9:00 до 18:00

Распознавание текста

 

Если Вам необходим документ в электронном виде, а в наличии имеется только напечатанный экземпляр, если нужна цитата или глава из книги (или даже вся книга), то мы легко разрешим эту проблему с помощью распознавания текста. Табличные документы сохраняются в формате Excel, текстовые в формате Word при полном сохранении структуры документа.

Как выполняется распознавание текста?1 этап

В результате сканирования документа получается его электронный образ, представляющий собой как бы цифровой рисунок, состоящий из точек — растра. Из точек состоит всё — и фон, и само изображение. Говоря о точках, мы будем подразумевать не круглые элементы изображения, как это интуитивно принято считать, а квадратики, на которые изображение разбивается в сканере воображаемой сеткой из горизонтальных и вертикальных линий.Полученный электронный образ документа хранится в сформированном файле, где все точки рисунка описываются именно как точки на плоскости, каждая со своими координатами, цветом и другими атрибутами. В таком файле и текст, и цифры, и другие элементы изображения записаны одинаково — как графические изображения, состоящие из точек.Графический растровый файл, хранящийся в Windows, можно узнать по расширению — трём последним буквам, стоящим после точки в имени файла: *.tif, *.png, *.bmp, *.jpg и т. д.

2 Этап

Последняя задача — распознавание рукописного текста — самая сложная . Проблема заключается в том, что количество возможных вариантов начертания любой буквы или цифры практически бесконечно. Поэтому распознавать рукописный текст не просто сложно, а очень сложно.В основе работы программ распознавания печатного текста лежит достаточно серьёзный математический аппарат. И это оправдано сложностью задачи, особенно самого процесса распознавания.Итак, на первом этапе программа должна разбить страницу на блоки и найти среди них те, которые содержат текст, учитывая при этом особенности его расположения: с выравниванием вправо, влево или по ширине страницы, а также возможное форматирование в несколько колонок.Теперь распознанные блоки с текстом разбиваются на строки.Современные OCR-программы, могут обрабатывать текст, содержащий одновременно слова разных языков. Нужно только указать — каких. Подобные тексты нередко встречаются в деловой практике.

3 этап

Итак, в результате работы алгоритмов программы OCR страница преобразуется из набора графических образов в символы текста, причём в заданном формате, например в формате Word или Excel. При этом сохраняется внешний вид, т. е. форматирование исходного документа, сохраняются таблицы, графические элементы и т. д. Помимо XLS и DOC программой обычно поддерживаются все известные текстовые и графические форматы и форматы электронных таблиц, а также форматы Internet Explorer и упоминавшийся ранее Adobe PDF.Обработка изображений OCR-программами на компьютере называется программной, так как здесь основную работу выполняет программа.

4 этапПередаем Вам готовую продукцию на электронном носителе.

Требования к исходным материалам Пожалуйста, обратите внимание на требования к материалам, представляемым в электронном виде.Типы носителей:CD-R/RW, DVD-R/RW;
USB устройства;
Карты памяти: SD, Compact Flash и др.;
Дискеты 3.5″ FDD.

Форматы файлов:

Microsoft Word, до версии 2007 (.docx, .doc, .rtf)
Microsoft Excel, до версии 2007 (.xlsx, .xls)
Microsoft Powerpoint, до версии 2007 (.pptx, .ppt)
Microsoft Visio, до версии 2007 (.vsd)
Adobe Acrobat (.pdf)
Corel Draw, до версии 14 (.cdr, .cmx)
Adobe InDesign, до версии CS 4 (.indd)
Adobe Illustrator, до версии CS 4 (.ai, eps)
Adobe Photoshop (.psd, .tiff, .jpg, .bmp)
Autodesk Autocad, до версии 2010 (.dwg)
Kompas, до версии 12 (.cdw)
ArchiCAD, до версии 14 (.pla, .pln, tpl)

Растровые изображения:

Масштаб изображения должен быть 1:1
Для цифровой печати разрешение изображения должно составлять 300 dpi.
Для широкоформатной печати разрешение должно составлять не менее 150 dpi.
Изображения должны быть в цветовой модели CMYK
Все слои должны быть сведены, альфа-каналы и пути должны быть удалены.
Векторные изображения и файлы вёрстки:
Масштаб изображения должен быть 1:1
Заливки, градиенты и обводки должны состоять из цветов модели CMYK
Дополнительные эффекты векторных изображений должны быть векторизированы или растрированы
Шрифты должны быть переведены в «кривые» или дополнительно предоставляться вместе с макетом
Растровые изображения должны быть встроены в макет или дополнительно предоставляться вместе с макетом

Чертежи :

Масштаб изображения должен быть 1:1
Шрифты должны быть приложены вместе с документом
Растровые изображения должны быть встроены в документ или предоставляться дополнительно