Как поклонник open source (и автоматизации), я ненавижу это говорить, но лучшие результаты, которые я только что получил (в довольно большом, сложном PDF), должны были открыть его в Adobe Reader, а затем выбрать «Файл | Сохранить как текст» .
(Я предварительная обработка для экспериментов по анализу текста, а не как читатель, но я думаю, что мой первый и второй выбор был бы таким же.)
Я сравнивал вывод бок о бок. Мой второй выбор - ebook-convert.
Adobe : слева в FF для разрывов страниц, оставленных на страницах страниц, не преобразовывает заголовки / абзацы в отдельные строки, но имеет фиксированные дефисы. Junk, который был скрыт в PDF, не получил выход. Правильно получили большие капиталы в начале разделов, например. «The», а не «T he» или даже «T he».
ebook-convert : слева на номера страниц и некоторый скрытый мусор в верхнем и нижнем колонтитуле (но без FF). Преобразует большинство абзацев в одну строку. Однако те, что он пропустил, имеют двойное расстояние! Пули не всегда совпадают с текстом. Правильно получил «The» в начале главы.
pdftotext (без --layout) . Неплохо, маркеры выстраиваются в линию, но шум заголовка / нижнего колонтитула. Здесь присутствуют FF. Дефисы удалены. Хуже всего начинаются большие буквы: «T \ n \ nhe».
pdftotext (с --layout) : похоже, но больше отступов. «T» для начала главы.
pdftohtml > > > pdfreflow > > > htmltotext : он удалил номера страниц, но все же мусор в верхнем и нижнем колонтитуле. «Он» для начала главы. Дефисы удалены. (Он использует несколько строк для каждого абзаца, но они не те же разрывы строк, что и в других версиях!)