Преобразование DJVU в PDF

36

Я хочу конвертировать документ DJVU в PDF-документ, разделяя и сохраняя текстовый слой и изображения , а также сохраняя структуру от DJVU. Как я могу сделать это в Ubuntu?

(я буду использовать Caliber для преобразования в ePub / Mobi, поэтому, если бы был плагин Caliber для всего этого процесс, который был бы идеальным для меня!)

Примечание1: Печать с Evince, экспорт из DJview или что-либо с помощью пакета ddjvu , являются не адекватными решениями, поскольку они отбрасывают текстовый слой, сохраняя только изображения.

Примечание2: Использование DJVULibre кажется извлекает только текстовый слой, а фотографии не извлекаются . Точно так же копирование текста «вручную» теряет как структуру документа, так и изображения.

    
задан hayd 31.05.2011 в 16:52
источник

6 ответов

36

Способ 1

Просто используйте DJView и экспортируйте в формате PDF

  1. Перейти к диспетчеру синаптических пакетов
  2. Установить DJview4
  3. Запустите DJview (Приложения - Графика - DJView4)
  4. Откройте документ .djvu
  5. : Меню - Экспорт как: PDF

Способ 2

Откройте файл djvu в evince
Выберите печать ---- > печать в файл
измените .ps на .pdf и нажмите print

Способ 3

  1. Перейти к диспетчеру синаптических пакетов
  2. Установить

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Откройте терминал и напишите

     sudo apt-get install libtiff-tools
    
  4. Перейдите в каталог, в котором присутствует файл djvu. Щелкните правой кнопкой мыши. Перейдите в «Open In Terminal». Нажмите здесь. Откроется терминал.

  5. В этом терминале пишите

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Метод 4

Существует также онлайн-конвертер Конвертер DjVu в PDF

    
ответ дан Ashu 16.04.2012 в 17:25
16

Вот один из способов, который потребует некоторых не очень распространенных инструментов:

  1. ocrodjvu
  2. pdfbeads , который имеет свои собственные требования, которые могут быть найдены Google

Мы можем использовать команду djvu2hocr (из пакета ocrodjvu ) для извлечения скрытого текстового слоя из файла DjVu (он не делает никакого OCR или аналогичного, он просто извлекает текстовый слой с геометрией), то есть:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed вмешательство исправляет имена классов в выходном hOCR (это просто простой HTML-файл)

Теперь мы извлекаем страницу DjVu в формат TIFF с помощью:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

, чтобы мы закончили работу с этой файловой папкой:

sample.djvu
pg10.html
pg10.tif

Здесь участвует pdfbeads , и мы просто выполняем:

pdfbeads -o pg10.pdf

, то эта отличная программа позаботится обо всем, что находится внутри этой папки (файлы HTML и TIFF с тем же базовым именем) и создает выходной файл PDF с некоторыми побочными продуктами:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

, который идентичен входному файлу DjVu и имеет текстовый слой внутри:

Резюме комментариев:

Длинные комментарии ниже описывают меньшие изображения с страницы документа DjVu как отдельные объекты, что не так просто, потому что страница документа DjVu сама по себе является единственным изображением с дополнительным текстовым слоем без «информации» о меньших изображениях как отдельных объектах. Если документ DjVu имеет цветные изображения, они обычно помещаются на фоновый слой; в этом случае пользователь может воспользоваться такими инструментами, как ddjvu (извлечь только фоновый слой) и imagemagick (auto-crop) для вывода только изображений вместо всего холста, но он не может быть автоматизирован для создания PDF-файла

Другим разумным, но более медленным подходом является использование обычных инструментов графического интерфейса OCR. gscan2pdf (> 1.0) предлагается как возможный кандидат для ПК Linux

    
ответ дан zetah 16.04.2012 в 18:28
3

Используя DJVULibre , можно извлечь текстовый слой с помощью команды terminal :

djvutxt myfile.djvu > myfile-ocr.txt или djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(оба делают то же самое и были найдены здесь )

Форматирование требует определенных усилий (так как многие символы не преобразуются должным образом), а снимки не восстанавливаются .

    
ответ дан hayd 06.06.2011 в 15:38
2

Существует djvu2pdf , но он полагается на ghostscript, поэтому это может быть другой вариант печати. Я все же предлагаю вам взглянуть на него, на всякий случай, это более умно, чем я даю ему кредит.

Это не в репозиториях, но вы можете скачать deb с сайта разработчиков: Ссылка

** Вставьте обязательное уведомление о загрузке / установке вещей извне репозиториев здесь **

    
ответ дан Oli 31.05.2011 в 17:17
0

Самый простой способ: использовать gscan2pdf для импорта djvu, затем OCR его с помощью tesseract и, наконец, сохранить его как pdf. Текст OCR'd в pdf может немного отличаться от исходного djvu, и преобразование может занять некоторое время, но этот метод не требует больших усилий, и он работает.

    
ответ дан Fazul 12.04.2015 в 23:35
-1

Ссылка - Используя этот сайт, вы можете конвертировать djvu в pdf.

    
ответ дан Curious Apprentice 17.04.2012 в 13:05