Рекомендации по программному обеспечению оптического распознавания символов?

15

Я видел некоторые электронные книги / документы, которые, по-видимому, были отсканированы из их бумажных версий, но текст в электронных книгах / книгах можно было удивительно скопировать. Я полагаю, что прямо сканированные версии должны были быть обработаны программным обеспечением оптического распознавания символов.

Итак, я хотел бы знать, что такое рекомендуемое программное обеспечение Optical Character Recognition? Особенно те, которые предназначены для Ubuntu или бесплатно? Если для Windows намного лучше, сообщите мне об этом.

Мне особенно интересны те OCR, которые могут принимать отсканированный pdf-файл в качестве входных данных и по-прежнему выпускать в качестве вывода другой файл PDF, который выглядит так же, как и входной, но с его текстовым копированием.

Спасибо и приветствую!

Пожалуйста, ограничьте одно программное обеспечение на каждый ответ

    
задан Tim 12.01.2011 в 23:47
источник

10 ответов

10

Tesseract OCR

Оригинальный движок был разработан еще в конце 80-х годов HP и IBM, но он оказался одним из лучших программных продуктов Ocular Recognition, которые я использовал. Недавно он подвергся многим обновлениям и стал одним из самых полных инструментов OCR на рынке. Outscoring против большинства других инструментов OCR (с чем-то в 90 процентилях текстовых совпадений), он может легко преобразовать стандартный тип документа в текст.

Ниже приведен пример:

tesseract ScannedDocument.png out

Создаст файл с именем out.txt

    
ответ дан Dennis 11.03.2017 в 19:59
источник
8

Другим проектом, который должен это сделать, является gscan2pdf

sudo apt-get install gscan2pdf

Этот проект также может использовать Tesseract, а также другие инструменты OCR с открытым исходным кодом.

    
ответ дан Mark Kirby 12.02.2017 в 22:44
3

Я не знаю OCR для Ubuntu, но для Windows есть тот, у которого есть необходимые функции. Это ABBYY FineReader это страница , но она не является бесплатной

    
ответ дан vicmp3 22.10.2010 в 04:49
3

Свободное решение существует в repos, CunieForm YAGF как интерфейс Gnome для него)

    
ответ дан Extender 22.10.2010 в 04:54
3

Кажется, что проект Decapod выполняет или будет экспортировать в PDF, поэтому Tesseract должен каким-то образом экспортировать необходимую информацию в знать, где был найден текст.

    
ответ дан JanC 22.10.2010 в 06:12
1

Лучшее программное обеспечение OCR обычно встроено в принтеры / сканеры / копиры. Canon IRC 3880 в моем офисе может выводить большие OCR'd pdf-файлы проще и быстрее, чем любая настольная программа, которую я знаю. Поместите книгу на лоток (несвязанный), выберите свой почтовый адрес, нажмите зеленую кнопку.

Большинство PDF-файлов OCR, которые вы можете найти в сети, приходят для аналогичных машин. Проблема в том, что цена слишком высока для домашнего использования (около 12000 евро IRC).

    
ответ дан Javier Rivera 22.10.2010 в 08:55
1

Мое любимое бесплатное онлайн-программное обеспечение OCR предлагает Ricoh Innovations. Это бета-программа, но я считаю, что она работает очень хорошо. Проверьте это: Ссылка

    
ответ дан Natalie 12.01.2011 в 23:44
1

OCRFeeder

Это графическое приложение.

В качестве механизма OCR он использует tesseract-ocr или ocrad .

Можно установить с Software Center или с помощью

sudo apt-get install ocrfeeder
    
ответ дан user224082 07.11.2013 в 17:54
1

Adobe Acrobat (не читатель, а не бесплатное приложение) способен распознавать сканированный PDF-документ и добавлять невидимый текстовый слой поверх изображения, чтобы текст можно было выбрать и скопировать. К сожалению, мне не очень удобно проверять, где именно эта функция находится в пользовательском интерфейсе Acrobat, но я успешно использовал ее несколько раз с той же целью, о которой вы говорили.

И да, это программное обеспечение Windows, а не Linux, но согласно базе данных приложений Wine HQ, оно работает под Вином .

    
ответ дан Serge Broslavsky 22.10.2010 в 07:20
0

В FineReader также есть онлайн-версия. Он утверждает, что способен обрабатывать PDF-файлы в качестве входного формата --- Ссылка

    
ответ дан texnic 10.06.2011 в 09:56