Lumpics lumpics.ru

Распознаем текст в PDF-файле онлайн


Извлечь текст из PDF-файла методом обычного копирования можно далеко не всегда. Часто страницы подобных документов представляют собой отсканированное содержимое их бумажных вариантов. Для преобразования таких файлов в полностью редактируемые текстовые данные используются специальные программы с функцией Optical Character Recognition (OCR).

Такие решения являются весьма сложными в реализации и, следовательно, стоят немалых денег. Если потребность в распознавании текста с PDF у вас возникает регулярно, вполне целесообразно будет приобрести соответствующую программу. Для редких же случаев более логичным будет воспользоваться одним из доступных онлайн-сервисов с подобными функциями.

Как распознать текст с PDF онлайн

Конечно, набор возможностей онлайн-сервисов OCR, в сравнении с полноценными десктопными решениями, более ограничен. Но и работать с такими ресурсами можно либо же совсем бесплатно, либо за символическую плату. Главное, что с основной своей задачей, а именно с распознаванием текста, соответствующие веб-приложения справляются так же хорошо.

Способ 1: Free Online OCR

Простой и удобный сервис для оцифровки текста. Без необходимости регистрации ресурс позволяет распознавать 15 полных PDF-страниц в час. Free Online OCR полноценно работает с документами на 46 языках и без авторизации поддерживает три формата экспорта текста — DOCX, XLSX и TXT.

При регистрации пользователь получает возможность обрабатывать многостраничные документы, однако бесплатное количество этих самых страниц ограничено 50 единицами.

Перейти на сервис Free Online OCR

  1. Чтобы распознать текст из PDF как «гость», без авторизации на ресурсе, воспользуйтесь соответствующей формой на главной странице сайта.
    Распознавание PDF в онлайн-сервисе Free Online OCR
    Выберите нужный документ с помощью кнопки «Файл», укажите основной язык текста, выходной формат, затем дождитесь загрузки файла и нажмите «Конвертировать».
  2. По окончании процесса оцифровки нажмите «Скачать выходной файл» для сохранения готового документа с текстом на компьютере.
    Загрузка результата распознавания текста с PDF с онлайн-сервиса Free Online OCR

Для авторизованных же пользователей последовательность действий несколько иная.

  1. Воспользуйтесь кнопкой «Регистрация» или «Вход» в верхней панели меню, чтобы, соответственно, создать учетную запись Free Online OCR либо зайти в нее.
    Создание аккаунта в онлайн-сервисе Free Online OCR
  2. После авторизации в панели распознавания, удерживая клавишу «CTRL», выберите до двух языков исходного документа из предложенного списка.
    Определение языков исходного документа для распознавания текста в Free Online OCR
  3. Укажите дальнейшие параметры извлечения текста из PDF и нажмите кнопку «Выбрать файл» для загрузки документа в сервис.
    Старт распознавания PDF-документа в онлайн-сервисе Free Online OCR
    Затем, чтобы приступить к распознаванию, щелкните «Конвертировать».
  4. По окончании обработки документа нажмите на ссылку с названием выходного файла в соответствующей колонке.
    Скачивание готового DOCX-файла из онлайн-сервиса Free Online OCR
    Результат распознавания сразу же будет сохранен в памяти вашего компьютера.

При необходимости извлечь текст из небольшого PDF-документа можно смело прибегать к использованию вышеописанного инструмента. Для работы же с объемными файлами придется купить дополнительные символы во Free Online OCR либо же прибегнуть к другому решению.

Способ 2: NewOCR

Полностью бесплатный OCR-сервис, позволяющий извлекать текст практически из любых графических и электронных документов вроде DjVu и PDF. Ресурс не накладывает ограничений на размер и количество распознаваемых файлов, не требует регистрации и предлагает широкий набор сопутствующих функций.

NewOCR поддерживает 106 языков и умеет корректно обрабатывать даже низкокачественные сканы документов. Есть возможность вручную выбирать область для распознавания текста на странице файла.

Перейти на сервис NewOCR

  1. Так, приступить к работе с ресурсом вы можете сразу, без необходимости выполнения лишних действий.
    Загрузка PDF-файла для распознавания в онлайн-сервис NewOCR
    Прямо на главной странице размещена форма для импорта документа на сайт. Чтобы загрузить файл в NewOCR, воспользуйтесь кнопкой «Выберите файл» в разделе «Select your file». Затем в поле «Recognition language(s)» укажите один или более языков исходного документа, после чего нажмите «Upload + OCR».
  2. Задайте предпочитаемые настройки распознавания, выберите нужную страницу для извлечения текста и щелкните по кнопке «OCR».
    Настройка и запуск распознавания текста с PDF в онлайн-сервисе NewOCR
  3. Прокрутите страницу немного ниже и найдите кнопку «Download».
    Скачивание извлеченного в NewOCR текст на компьютер
    Щелкните по ней и в выпадающем списке выберите необходимый формат документа для скачивания. После этого готовый файл с извлеченным текстом будет загружен на ваш компьютер.

Инструмент удобный и достаточно качественно распознает все символы. Впрочем, обработку каждой страницы импортированного PDF-документа нужно запускать самостоятельно и выводится она в отдельный файл. Можно, конечно, сразу копировать результаты распознавания в буфер обмена и объединять их с другими.

Тем не менее, учитывая вышеописанный нюанс, большие объемы текста с помощью NewOCR извлекать весьма затруднительно. С малыми же файлами сервис справляется «на ура».

Способ 3: OCR.Space

Простой и понятный ресурс для оцифровки текста, позволяет распознавать PDF-документы и выводить результат в TXT-файл. Никаких лимитов по количеству страниц не предусмотрено. Единственное ограничение — размер входного документа не должен превышать 5 мегабайт.

Перейти на сервис OCR.Space

  1. Регистрироваться для работы с инструментом не нужно.
    Импорт PDF-файла в онлайн-сервис OCR.Space
    Просто перейдите по ссылке выше и загрузите PDF-документ на сайт с компьютера при помощи кнопки «Выберите файл» либо из сети — по ссылке.
  2. В выпадающем списке «Select OCR language» выберите язык импортированного документа.
    Запуск процесса распознавания PDF-документа в онлайн-сервисе OCR.Space
    Затем запустите процесс распознавания текста, щелкнув по кнопке «Start OCR!».
  3. По окончании обработки файла ознакомьтесь с результатом в поле «OCR’ed Result» и нажмите «Download», чтобы скачать готовый TXT-документ.
    Скачивание результата распознавания PDF-файла с онлайн-сервиса OCR.Space

Если вам нужно просто извлечь текст из PDF и при этом финальное его форматирование совсем не важно, OCR.Space — хороший выбор. Единственное, документ должен быть «одноязычным», так как распознавание двух и более языков одновременно в сервисе не предусмотрено.

Читайте также: Бесплатные аналоги FineReader

Оценивая онлайн-инструменты, представленные в статье, следует отметить, что наиболее точно и качественно с функцией OCR справляется FineReader Online от ABBYY. Если для вас важна именно максимальная точность распознавания текста, лучше всего рассмотреть конкретно этот вариант. Но и заплатить за него, скорее всего, также придется.

Если же нужна оцифровка небольших документов и вы готовы самостоятельно исправлять ошибки за сервисом, целесообразно использовать NewOCR, OCR.Space или Free Online OCR.

Наша группа в TelegramНаша группа в TelegramПолезные советы и помощь

Задайте вопрос или оставьте свое мнение