Lumpics lumpics.ru

Распознавание текста с картинки


В последнее время можно все чаще столкнуться с ситуацией, когда нужно перевести какой-либо текст, содержащийся на изображениях, в электронную текстовую форму. Для того чтобы сэкономить время и не перепечатывать вручную, следует использовать специальные компьютерные приложения для распознавания текста, о чем мы и расскажем сегодня.

Как оцифровать текст

На рынке представлено немало приложений для оцифровки текста, поэтому каждый пользователь найдёт решение, соответствующее требованиям.

Способ 1: ABBYY FineReader

Это условно-бесплатное приложение от российского разработчика обладает огромнейшим функционалом и позволяет не только распознавать текст, но и производить его редактирование, сохранение в различных форматах и сканирование бумажных исходников.

Скачать ABBYY FineReader

  1. Чтобы распознать текст на картинке, прежде всего, нужно загрузить её в программу. Для этого после запуска ABBYY FineReader жмем на кнопку «Открыть в OCR редакторе».
    Открыть графический файл для распознавания текста в ABBYY FineReader

    После выполнения данного действия открывается окно выбора источника, где вы должны найти и открыть нужное изображение. Поддерживаются следующие популярные форматы: JPEG, PNG, GIF, TIFF, XPS, BMP и др., а также файлы PDF и DjVU.

  2. Выбрать графический файл в проводнике для распознавания текста в ABBYY FineReader
  3. После загрузки в ABBYY FineReader автоматически начинается процесс распознавания текста на картинке без вашего вмешательства.
    Распознавание текста в графическом файле в ABBYY FineReader
    В случае если вы хотите произвести повторную процедуру распознавания, достаточно просто нажать кнопку «Распознать» в верхнем меню.
  4. Повторное распознавание текста в графическом файле в ABBYY FineReader
  5. Иногда не все символы программа может распознать корректно. Это может быть в том случае, если изображение на исходнике не слишком качественное, очень мелкий шрифт, в тексте используется несколько разных языков, применяются нестандартные символы. Но это не беда, так как ошибки можно исправить вручную, с помощью текстового редактора и набора инструментов, которые в нем содержатся.
    Редактирование распознанного текста в графическом файле в ABBYY FineReader

    Для облегчения поиска неточностей оцифровки программа по умолчанию выделяет возможные ошибки бирюзовым цветом.

  6. Закономерным окончанием процесса распознавания является сохранение его результатов. Для этого жмем кнопку «Сохранить» на верхней панели меню. По умолчанию она имеет вид иконки старого логотипа Microsoft Word. Перед нами появляется окно, где можно самостоятельно определить будущее местонахождение, в котором будет располагаться файл с распознанным текстом, а также его формат. Доступны следующие варианты для сохранения: DOC, DOCX, RTF, PDF, ODT, HTML, TXT, XLS, XLSX, PPTX, CSV, FB2, EPUB, DjVU.
  7. Сохранение распознанного текста в графическом файле в ABBYY FineReader

    ABBYY FineReader представляет собой самое продвинутое решение, но однозначно рекомендовать именно его мешают платная модель распространения и ограничения пробной версии.

Способ 2: Readiris

Приложение Readiris укрепилось на рынке как ближайший конкурент упомянутого выше Файн Ридер – оно предоставляет подобный функционал, некоторые аспекты исполняет несколько лучше, чем продукция ABBYY.

Скачать Readiris

  1. После запуска приложения выберите источник данных для оцифровки – со сканера или же с готового графического файла.
    Выбор источника данных в Readiris для оцифровки текста
    В примере мы будем использовать последний вариант – для него следует воспользоваться кнопкой «Из файла».
  2. Откроется диалоговое окно «Проводника», в котором следует выбрать нужные документы. Поддерживается большинство графических форматов, а также PDF.
  3. Открыть файл с информацией в Readiris для оцифровки текста
  4. Подождите, пока документ будет загружен в программу, после чего следует настроить распознавание текста. Первым делом нужно установить основной язык – выберите его из выпадающего меню.
    Настройка языка распознавания Readiris для оцифровки текста
    Также рекомендуем отметить опцию «Анализ текста», благодаря которой значительно повыситься качество оцифровки.
  5. Активировать анализ страницы Readiris для оцифровки текста
  6. Далее обратитесь к меню «Инструменты» — имеющиеся в нём параметры помогут решить некоторые проблемы сканирования, такие как искажение перспективы, недостаточная контрастность картинки или смещение текста относительно полотна.
    Настроить параметры распознавания Readiris для оцифровки текста
    Из этого меню также можно подкорректировать текст, если распознавание сработало неправильно.
  7. Корректировка распознавания в Readiris для оцифровки текста
  8. После внесения изменений в распознанный текст следует задать выходной формат полученных данных через одноименное меню в панели инструментов. Основными форматами считаются PDF, а также файлы Microsoft Office (DOCX и XLSX) – кликните по требуемой позиции для выбора.
    Выходной формат распознанного текста в Readiris для оцифровки текста
    Все возможные форматы экспорта сгруппированы в пункте «Другое». Кроме упомянутых выше типов файлов, оцифрованный текст можно сохранить в виде данных OpenOffice, гипертекстовых файлов или обычных TXT.
  9. Возможные форматы экспорта распознанного текста в Readiris для оцифровки текста
  10. После выбора формата откроется окошко Мастера по экспорту. В нём можно настроить те или иные параметры полученного файла (зависят от выбранного формата) и вариант сохранения (локальный или в облачный сервис). После внесения всех требуемых изменений нажмите «ОК».
    Сохранение распознанного текста файлом в Readiris для оцифровки текста
    Снова появится окно «Проводника», в котором следует выбрать желаемый конечный каталог сохранения.
  11. Экспорт результатов работы Readiris для оцифровки текста

    В целом Readiris представляет собой удобное и современное решение для оцифровки текста, однако весомым его недостатком можно назвать платную модель распространения.

Способ 3: RiDoc

Ещё одно приложение, ориентированное на работу со сканерами, однако умеющее работать и с локальными файлами в разных форматах.

  1. Откройте приложение. Для начала работы используйте на панели инструментов кнопки «Открыть» или «Сканер» – первая отвечает за распознавание текста в локальных файлах, вторая позволяет начать оцифровку одновременно со сканированием. Для примера будем использовать первый вариант.
  2. Открыть или сканировать документ для оцифровки текста в RiDoc
  3. В окне «Проводника» перейдите к документу, из которого требуется получить текст, и выберите его. Доступна также пакетная обработка документов.
  4. Выбрать в проводнике документ для оцифровки текста в RiDoc
  5. Если требуется, можно обработать полученный файл: обрезать картинку, установить область распознавания, исправить огрехи сканирования.
    Коррекция документа для оцифровки текста в RiDoc
    Отдельным пунктом стоит возможность склейки – в этом случае мультистраничный документ будет сохранён единым файлом. Можно выбрать значение DPI и формат вывода (доступны только файлы изображений).
  6. Опции склейки документа для оцифровки текста в RiDoc
  7. Для распознавания текста в правой части окна найдите вкладку «OCR» и откройте её. Доступных опций не много – можно выбрать только язык документа. После смены пакета нажмите на кнопку «Распознать» на панели инструментов.
    Начать распознавание документа для оцифровки текста в RiDoc
    Отсюда же можно подправить результаты оцифровки.
  8. Редактирование полученных данных в результате оцифровки текста в RiDoc
  9. Сохранение документов доступно в двух вариантах – прямое или экспорт в офисные приложения. Для выполнения первого способа следует использовать кнопку «Сохранить». Откроется окно, в котором можно выбрать место сохранения, а также тип (единичные файлы или один многостраничный). Формат сохраняемого файла зависит от выбранного на этапе склейки.
    Прямое сохранение полученных данных в результате оцифровки текста в RiDoc
    Экспорт результатов возможен в текстовые процессоры офисных пакетов Microsoft или OpenOffice, в виде электронного письма (кнопка «Почта»), в формат PDF или же печати на принтере. Для экспорта в офисные программы они должны быть установлены на компьютере, тогда как сохранение в ПДФ возможно даже без соответствующих приложений.
  10. Экспорт полученных данных в результате оцифровки текста в RiDoc

    Как видим, РиДок представляет собой небогатое возможностями решение, но для несложных вариантов оцифровки вполне подойдёт.

Способ 4: Capture2Text

Небольшая утилита, которая позволяет распознавать текст из любой области на экране компьютера, полностью бесплатная и удобная в использовании.

Скачать Capture2Text с официального сайта

  1. Загрузите архив с программой и распакуйте его в любое удобное место. Затем перейдите к полученному каталогу и запустите исполняемый файл.
    Запустить Capture2Text для оцифровки текста

    Далее откройте системный трей – в нём должна появится иконка утилиты.
    Значок запущенного Capture2Text в системном трее для оцифровки текста

    Для изменения языка распознавания кликните правой кнопкой мыши по значку Capture2Text в системном трее, затем в настройках выберите пункт «OCR Language» и установите нужный язык.

  2. Изменение языка распознавания Capture2Text в системном трее для оцифровки текста
  3. Откройте файл, текст с которого требуется оцифровать, например, документ DjVU без текстового слоя. Когда файл будет открыт, нажмите сочетание клавиш Win+Q и выделите область распознавания.
  4. Выделение области распознавания в программе Capture2Text для оцифровки текста
  5. Появится окошко утилиты с результатами распознавания. Полученные данные можно скопировать в любое приложение, поддерживающее ввод пользовательского текста.
  6. Результаты работы Capture2Text в оцифровке текста

    Приложение невероятно простое, но это оборачивается ограниченным функционалом и, порой, некорректным распознаванием русского текста. Также к недостаткам можем отнести отсутствие локализации на русский язык. Впрочем, для некоторых пользователей эти минусы несущественны, а основных возможностей будет вполне достаточно.

Способ 5: CuneiForm

Ещё одно решение для оцифровки текста, созданное на постсоветском пространстве. Несмотря на прекращение разработки, по-прежнему актуально.

Скачать CuneiForm

  1. Как и многие другие представленные в этой статье программы, КунейФорм умеет работать как с готовыми изображениями, так и получать данные напрямую со сканера. Воспользуемся первым вариантом – для этого откройте меню «Файл» и выберите в нём пункт «Открыть».
  2. Открыть графический файл для оцифровки текста в CuneiForm
  3. Посредством «Проводника» выберите требуемый файл или файлы.
  4. Выбрать графический файл для оцифровки текста в CuneiForm
  5. После загрузки данных в программу используйте пункты «Распознавание»«Авторазметка».
    Разметить графический файл для оцифровки текста в CuneiForm
    Это позволит выбрать области с текстом для более корректной работы модуля OCR. Если автоматические алгоритмы неправильно разметили страницу, области с текстом можно подправить вручную или вообще убрать.
  6. Настроить разметку графического файл для оцифровки текста в CuneiForm
  7. Далее можно заниматься непосредственно оцифровкой. Снова откройте меню «Распознавание» и выберите вариант с таким же наименованием.
  8. Начать распознавание графического файла для оцифровки текста в CuneiForm
  9. Распознанный текст будет открыт в окне приложения, где его также можно редактировать. Возможности довольно обширные, и соответствуют полноценному текстовому редактору. В случае если на компьютере установлен MS Word, полученные данные будут открыты через его интерфейс.
  10. Редактирование оцифрованного текста графического файла в CuneiForm
  11. Сохранение результатов работы доступно по пунктам «Файл»«Сохранить».
    Сохранение оцифрованного текста графического файла в CuneiForm
    В открывшемся «Проводнике» выберите местоположение полученного файла и его формат. Поддерживаются не много вариантов: TXT, RTF, внутренний формат FED, а также экспорт в приложения Microsoft Office (Word и Excel).
  12. Как видим, CuneiForm представляет собой простой и в то же время мощный инструмент для оцифровки текста. Весомым его преимуществом будет свободная модель распространения, однако недостатки в виде окончания поддержки и отсутствия формата PDF могут заставить обратиться к альтернативам.

Заключение

Как видим, распознать текст с картинки довольно просто, если использовать для этого специализированные приложения. Данная процедура не потребует от вас много усилий, а польза будет в огромной экономии времени.

Обсудить в TelegramНаш Telegram каналТолько полезная информация
Автор статьи Вы на сайте: Статья обновлена: . Автор: Константин С.

Вам помогли мои советы?

Получить ответ на Email
Уведомить о

1 Ответ
По рейтингу
Новые Старые
Межтекстовые Отзывы
Посмотреть все комментарии
Аноним
19 января 2019 16:51

нужно изображение tif преобразовать в документ pdf у меня не получилось

Задать вопрос