Есть ли лучший конвертер PDF в текст, чем pdftotext?

53

Я использую pdftotext (часть poppler-utils) для преобразования PDF-документов в текст. Он работает, по большей части, но я хотел бы, чтобы он вставлял пустые строки между отдельными абзацами, вместо того, чтобы смять их вместе.

Есть ли способ получить pdftotext для этого? А если нет, есть ли другая текстовая утилита PDF для текста, которая может это сделать?

    
задан dan 06.07.2011 в 18:54
источник

5 ответов

22

Вы можете попробовать ebook-convert из Caliber.

Во всяком случае, я бы сказал, что он ошибается в другом направлении: слишком много разрывов строк.

Еще одна вещь, которую я определенно рассмотрю, это преобразование в HTML с помощью pdfreflow , а затем преобразование HTML в TXT.

    
ответ дан frabjous 09.08.2011 в 06:52
источник
101

Если вы используете pdftotext , вы можете использовать флаг -layout , чтобы сохранить макет текста на страницах в вашем файле pdf:

pdftotext -layout input.pdf output.txt
    
ответ дан Noah 13.06.2013 в 17:25
11

Как поклонник open source (и автоматизации), я ненавижу это говорить, но лучшие результаты, которые я только что получил (в довольно большом, сложном PDF), должны были открыть его в Adobe Reader, а затем выбрать «Файл | Сохранить как текст» .

(Я предварительная обработка для экспериментов по анализу текста, а не как читатель, но я думаю, что мой первый и второй выбор был бы таким же.)

Я сравнивал вывод бок о бок. Мой второй выбор - ebook-convert.

Adobe : слева в FF для разрывов страниц, оставленных на страницах страниц, не преобразовывает заголовки / абзацы в отдельные строки, но имеет фиксированные дефисы. Junk, который был скрыт в PDF, не получил выход. Правильно получили большие капиталы в начале разделов, например. «The», а не «T he» или даже «T he».

ebook-convert : слева на номера страниц и некоторый скрытый мусор в верхнем и нижнем колонтитуле (но без FF). Преобразует большинство абзацев в одну строку. Однако те, что он пропустил, имеют двойное расстояние! Пули не всегда совпадают с текстом. Правильно получил «The» в начале главы.

pdftotext (без --layout) . Неплохо, маркеры выстраиваются в линию, но шум заголовка / нижнего колонтитула. Здесь присутствуют FF. Дефисы удалены. Хуже всего начинаются большие буквы: «T \ n \ nhe».

pdftotext (с --layout) : похоже, но больше отступов. «T» для начала главы.

pdftohtml > > > pdfreflow > > > htmltotext : он удалил номера страниц, но все же мусор в верхнем и нижнем колонтитуле. «Он» для начала главы. Дефисы удалены. (Он использует несколько строк для каждого абзаца, но они не те же разрывы строк, что и в других версиях!)

    
ответ дан Darren Cook 11.09.2013 в 04:58
5

Если у вас есть учетная запись Google, вы можете использовать Документы Google для загрузки PDF-файла и преобразования его в редактируемый текст.

    
ответ дан xangua 06.07.2011 в 20:13
1

Я также попробовал pypdf и сравнил его с pdftotext на двух документах. У него было больше разрывов строк и разделились имена некоторых разделов (ССЫЛКИ были R E F E R E N C E S).

pdf2txt выводил полный мусор.

Я часто использую pdfBox (java), если pdftotext закручивает вывод. Вы можете попробовать.

    
ответ дан Max 04.10.2013 в 20:22