Добавление информации OCR в PDF-файл

18

У меня есть качественное сканирование документа; такое сканирование в формате pdf.

Как добавить дополнительную информацию в pdf, чтобы она стала доступной для поиска? Под поиском я имею в виду, что цель заключается в том, что при просмотре pdf с evince CTRL-F фактически позволяет мне искать в pdf-файле.

    
задан fdierre 07.06.2012 в 10:56
источник

5 ответов

11

pdfsandwich

Делает то, что вам нужно, и предоставляет пакеты debug Ubuntu. Он использует tesseract как движок OCR. Следующий вызов добавляет текстовый слой в сканированный PDF:

pdfsandwich scanned.pdf

Следующее делает то же самое, но с другим языком (код ISO 639-2, загружает tesseract-ocr-LANGCODE ) и устанавливает макет:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Если вы получите какую-либо ошибку, загрузите последнюю версию deb из Sourceforge .

Отказ от ответственности: Я разработчик pdfsandwich и, следовательно, явно предвзятый.

    
ответ дан Tobias Elze 25.07.2014 в 15:27
6

Есть два проекта, которые делают трюк: GScan2PDF и ответ дан Aldi 07.06.2012 в 23:24

3

Я нашел неидеальное решение, но очень эффективное.

Я использую PDF X-Change Viewer через Wine. Он имеет функцию OCR, которая добавляет текстовый слой в существующий pdf-файл на основе изображений.

Таким образом, вы можете искать и копировать текст с этого невидимого слоя.

    
ответ дан To Do 19.02.2013 в 11:31
2

Для решения командной строки вы можете использовать файл PDF .

Вкратце, установите программное обеспечение:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Затем запустите файл pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Это работало для меня на Ubuntu 12.04 LTS.

    
ответ дан Robert Citek 23.03.2014 в 21:23
0

Решение, легко реализуемое и обеспечивающее выходное pdf с одинаковым качеством входного файла плюс разумный размер, - OCRmyPDF:

Ссылка

    
ответ дан user127022 08.11.2017 в 17:47