Lumpics lumpics.ru

Распознаем текст в PDF-файле онлайн


Извлечь текст из PDF-файла методом обычного копирования можно далеко не всегда. Часто страницы подобных документов представляют собой отсканированное содержимое их бумажных вариантов. Для преобразования таких файлов в полностью редактируемые текстовые данные используются специальные программы с функцией Optical Character Recognition (OCR).

Такие решения являются весьма сложными в реализации и, следовательно, стоят немалых денег. Если потребность в распознавании текста с PDF у вас возникает регулярно, вполне целесообразно будет приобрести соответствующую программу. Для редких же случаев более логичным будет воспользоваться одним из доступных онлайн-сервисов с подобными функциями.

Как распознать текст с PDF онлайн

Конечно, набор возможностей онлайн-сервисов OCR, в сравнении с полноценными десктопными решениями, более ограничен. Но и работать с такими ресурсами можно либо же совсем бесплатно, либо за символическую плату. Главное, что с основной своей задачей, а именно с распознаванием текста, соответствующие веб-приложения справляются так же хорошо.

Способ 1: ABBYY FineReader Online

Компания-разработчик сервиса — одна из лидеров в области оптического распознавания документов. ABBYY FineReader для Windows и Mac является мощным решением для преобразования PDF в текст и дальнейшей работы с ним.

Веб-аналог программы, конечно же, уступает ей по функционалу. Тем не менее сервис умеет распознавать текст со сканов и фотографий на более чем 190 языках. Поддерживается преобразование PDF-файлов в документы Word, Excel и т.п.

Перейти на сервис ABBYY FineReader Online

  1. Прежде чем приступить к работе с инструментом, создайте аккаунт на сайте или войдите при помощи учетной записи Facebook, Google или Microsoft.
    Регистрация в онлайн-сервисе ABBYY FineReader Online
    Чтобы перейти к окну авторизации, щелкните по кнопке «Вход» в верхней панели меню.
  2. Осуществив вход, импортируйте нужный PDF-документ в FineReader, воспользовавшись кнопкой «Загрузить файлы».
    Распознавание текста с PDF-документа в онлайн-сервисе ABBYY FineReader Online
    Затем нажмите «Выбрать номера страниц» и укажите желаемый промежуток для распознавания текста.
  3. Далее выберите языки, присутствующие в документе, формат итогового файла и нажмите на кнопку «Распознать».
    Старт распознавания текста с PDF-документа в ABBYY FineReader Online
  4. После обработки, длительность которой полностью зависит от объема документа, вы можете скачать готовый файл с текстовыми данными просто щелкнув по его названию.
    Скачивание готового документа с онлайн-сервиса ABBYY FineReader Online
    Либо же экспортируйте его в один из доступных облачных сервисов.

Сервис отличается, вероятно, наиболее точными алгоритмами распознавания текста на изображениях и PDF-файлах. Но, к сожалению, его бесплатное использование ограничено пятью обрабатываемыми страницами в месяц. Чтобы работать с более объемными документами, придется купить годовую подписку.

Тем не менее, если функция OCR нужна совсем уж редко, ABBYY FineReader Online — отличный вариант для извлечения текста из небольших PDF-файлов.

Способ 2: Free Online OCR

Простой и удобный сервис для оцифровки текста. Без необходимости регистрации ресурс позволяет распознавать 15 полных PDF-страниц в час. Free Online OCR полноценно работает с документами на 46 языках и без авторизации поддерживает три формата экспорта текста — DOCX, XLSX и TXT.

При регистрации пользователь получает возможность обрабатывать многостраничные документы, однако бесплатное количество этих самых страниц ограничено 50 единицами.

Перейти на сервис Free Online OCR

  1. Чтобы распознать текст из PDF как «гость», без авторизации на ресурсе, воспользуйтесь соответствующей формой на главной странице сайта.
    Распознавание PDF в онлайн-сервисе Free Online OCR
    Выберите нужный документ с помощью кнопки «Файл», укажите основной язык текста, выходной формат, затем дождитесь загрузки файла и нажмите «Конвертировать».
  2. По окончании процесса оцифровки нажмите «Скачать выходной файл» для сохранения готового документа с текстом на компьютере.
    Загрузка результата распознавания текста с PDF с онлайн-сервиса Free Online OCR

Для авторизованных же пользователей последовательность действий несколько иная.

  1. Воспользуйтесь кнопкой «Регистрация» или «Вход» в верхней панели меню, чтобы, соответственно, создать учетную запись Free Online OCR либо зайти в нее.
    Создание аккаунта в онлайн-сервисе Free Online OCR
  2. После авторизации в панели распознавания, удерживая клавишу «CTRL», выберите до двух языков исходного документа из предложенного списка.
    Определение языков исходного документа для распознавания текста в Free Online OCR
  3. Укажите дальнейшие параметры извлечения текста из PDF и нажмите кнопку «Выбрать файл» для загрузки документа в сервис.
    Старт распознавания PDF-документа в онлайн-сервисе Free Online OCR
    Затем, чтобы приступить к распознаванию, щелкните «Конвертировать».
  4. По окончании обработки документа нажмите на ссылку с названием выходного файла в соответствующей колонке.
    Скачивание готового DOCX-файла из онлайн-сервиса Free Online OCR
    Результат распознавания сразу же будет сохранен в памяти вашего компьютера.

При необходимости извлечь текст из небольшого PDF-документа можно смело прибегать к использованию вышеописанного инструмента. Для работы же с объемными файлами придется купить дополнительные символы во Free Online OCR либо же прибегнуть к другому решению.

Способ 3: NewOCR

Полностью бесплатный OCR-сервис, позволяющий извлекать текст практически из любых графических и электронных документов вроде DjVu и PDF. Ресурс не накладывает ограничений на размер и количество распознаваемых файлов, не требует регистрации и предлагает широкий набор сопутствующих функций.

NewOCR поддерживает 106 языков и умеет корректно обрабатывать даже низкокачественные сканы документов. Есть возможность вручную выбирать область для распознавания текста на странице файла.

Перейти на сервис NewOCR

  1. Так, приступить к работе с ресурсом вы можете сразу, без необходимости выполнения лишних действий.
    Загрузка PDF-файла для распознавания в онлайн-сервис NewOCR
    Прямо на главной странице размещена форма для импорта документа на сайт. Чтобы загрузить файл в NewOCR, воспользуйтесь кнопкой «Выберите файл» в разделе «Select your file». Затем в поле «Recognition language(s)» укажите один или более языков исходного документа, после чего нажмите «Upload + OCR».
  2. Задайте предпочитаемые настройки распознавания, выберите нужную страницу для извлечения текста и щелкните по кнопке «OCR».
    Настройка и запуск распознавания текста с PDF в онлайн-сервисе NewOCR
  3. Прокрутите страницу немного ниже и найдите кнопку «Download».
    Скачивание извлеченного в NewOCR текст на компьютер
    Щелкните по ней и в выпадающем списке выберите необходимый формат документа для скачивания. После этого готовый файл с извлеченным текстом будет загружен на ваш компьютер.

Инструмент удобный и достаточно качественно распознает все символы. Впрочем, обработку каждой страницы импортированного PDF-документа нужно запускать самостоятельно и выводится она в отдельный файл. Можно, конечно, сразу копировать результаты распознавания в буфер обмена и объединять их с другими.

Тем не менее, учитывая вышеописанный нюанс, большие объемы текста с помощью NewOCR извлекать весьма затруднительно. С малыми же файлами сервис справляется «на ура».

Способ 4: OCR.Space

Простой и понятный ресурс для оцифровки текста, позволяет распознавать PDF-документы и выводить результат в TXT-файл. Никаких лимитов по количеству страниц не предусмотрено. Единственное ограничение — размер входного документа не должен превышать 5 мегабайт.

Перейти на сервис OCR.Space

  1. Регистрироваться для работы с инструментом не нужно.
    Импорт PDF-файла в онлайн-сервис OCR.Space
    Просто перейдите по ссылке выше и загрузите PDF-документ на сайт с компьютера при помощи кнопки «Выберите файл» либо из сети — по ссылке.
  2. В выпадающем списке «Select OCR language» выберите язык импортированного документа.
    Запуск процесса распознавания PDF-документа в онлайн-сервисе OCR.Space
    Затем запустите процесс распознавания текста, щелкнув по кнопке «Start OCR!».
  3. По окончании обработки файла ознакомьтесь с результатом в поле «OCR’ed Result» и нажмите «Download», чтобы скачать готовый TXT-документ.
    Скачивание результата распознавания PDF-файла с онлайн-сервиса OCR.Space

Если вам нужно просто извлечь текст из PDF и при этом финальное его форматирование совсем не важно, OCR.Space — хороший выбор. Единственное, документ должен быть «одноязычным», так как распознавание двух и более языков одновременно в сервисе не предусмотрено.

Читайте также: Бесплатные аналоги FineReader

Оценивая онлайн-инструменты, представленные в статье, следует отметить, что наиболее точно и качественно с функцией OCR справляется FineReader Online от ABBYY. Если для вас важна именно максимальная точность распознавания текста, лучше всего рассмотреть конкретно этот вариант. Но и заплатить за него, скорее всего, также придется.

Если же нужна оцифровка небольших документов и вы готовы самостоятельно исправлять ошибки за сервисом, целесообразно использовать NewOCR, OCR.Space или Free Online OCR.

Обсудить в TelegramНаш Telegram каналТолько полезная информация
Автор статьи Вы на сайте: Статья обновлена: . Автор: Владислав Лозовский

Вам помогли мои советы?

Получить ответ на Email
Уведомить о

1 Ответ
По рейтингу
Новые Старые
Межтекстовые Отзывы
Посмотреть все комментарии
Аноним
25 октября 2023 10:35

Тоже помогло, спасибо!

Задать вопрос