Какое лучшее, самое простое решение для распознавания текста?

66

Я бы хотел отсканировать большое количество бумаг, которые я лежал, с наименьшими возможными хлопотами. Я хотел бы преобразовать их в образы с помощью простого сканирования, а затем преобразовать их в текст с помощью OCR. Есть ли хорошее приложение OCR с графическим интерфейсом, который даст мне хорошие результаты нажатием кнопки?

    
задан Bou 05.12.2010 в 11:32
источник

7 ответов

64
  • GOCR от это программа распознавания оптического распознавания символов (OCR). Она преобразует отсканированные изображения текста в текстовые файлы.

  • CLARA - еще один хороший графический вариант.

  • OCRAD from OCR может использоваться как автономное консольное приложение или в качестве бэкэнд для других программ.

  • KOOKA от это приложение KDE, но отлично работает, кроме того, вам необходимо установить настоящие программы OCR, такие как GOCR и OCRAD. После установки программ Kooka и OCR вы должны указать Kooka на место установки OCR, чтобы он мог конвертировать JPEG для текста.

  • OCRFeeder от представляет собой анализ макета документа и оптическую систему распознавания символов.

  • Tesseract от это утилита командной строки, и она очень проста в использовании. Вы можете установить языковой пакет tesseract-ocr-eng из < href="http://apt.ubuntu.com/p/tesseract-ocr-eng"> здесь .

Посмотрите на страницу .

Примечание:
Чтобы запустить терминал tesseract goto и введите следующий

tesseract imagefile.tif outputfile.txt

Tesseract может читать только файл TIFF - если у вас есть JPEG или PDF или что-то еще, вам придется его преобразовать. Кроме того, расширение имени файла должно быть .tif, а не .tiff, иначе ошибки tesseract отсутствуют.

    
ответ дан karthick87 05.12.2010 в 11:38
источник
8

Linux-интеллектуальная-OCR-решение

отказ от ответственности - я тесно связан с разработкой этого решения с открытым исходным кодом

Lios может конвертировать печать в текст с помощью сканера или камеры.

Он также может выводить текст из отсканированных изображений из других источников, таких как Pdf, изображение или папка, содержащие изображения.

Программе предоставляется полная доступность для слабовидящих.

Так как я тесно связан - мне бы хотелось получить обратную связь.

ответ дан Nalin.x.Linux 13.11.2012 в 02:57
8

Есть несколько популярных инструментов командной строки OCR, которые вы можете использовать (я не уверен, что они имеют графический интерфейс):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Также доступен для: Tesseract .NET , Tesseract iOS

    An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. Tesseract is probably the most accurate open source OCR engine available.

    Использование:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Open-source character recognition. It converts scanned images of text back to text files. GOCR can be used with different front-ends, which makes it very easy to port to different OSes and architectures. It can open many different image formats, and its quality have been improving in a daily basis.

  • OCRopus ™ ( FAQ ) (написано на Python, NumPy и SciPy)

    OCR system focusing on the use of large scale machine learning for addressing problems in document analysis, featuring pluggable layout analysis, pluggable character recognition, statistical natural language modeling, and multi-lingual capabilities.

    The OCRopus engine is based on two research projects: a high-performance handwriting recognizer developed in the mid-90's and deployed by the US Census bureau, and novel high-performance layout analysis methods.

    OCRopus is development is sponsored by Google and is initially intended for high-throughput, high-volume document conversion efforts. We expect that it will also be an excellent OCR system for many other applications.

  • Tessnet2 (Open Source, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract is a C++ open source OCR engine. Tessnet2 is .NET assembly that expose very simple methods to do OCR. Tessnet2 is under Apache 2 license (like tesseract), meaning you can use it like you want, included in commercial products.

Немногие: ABBYY CLI OCR для Linux , Asprise OCR

Для получения более полного списка, проверьте: Список оптических программ распознавания символов в Википедии

См. также: wanghaisheng/awesome-ocr - кураторский список перспективных ресурсов OCR в GitHub.

    
ответ дан kenorb 19.09.2014 в 14:04
6

Gscan2PDF

OCR на многостраничных PDF или отсканированных документах

Это, наверное, самый простой способ. Gscan2pdf - это графический инструмент, который позволяет вам не только сканировать файлы, но и импортировать файлы и выполнять OCR. Установите gscan2pdf здесь , из Ubuntu Software Center или выполните эту команду в терминале:

sudo apt-get install gscan2pdf
  • Запустить gscan2pdf
  • Импортировать pdf (Ctrl + O)
  • Дополнительно: Инструменты > Очистка
  • Выберите Инструменты > OCR Save (Ctrl + S)

Gscan2PDF может использовать настраиваемые механизмы OCR, по умолчанию - tesseract-ocr

Вы можете выбрать подходящий язык. В этом случае вам нужно будет установить пакет tesseract-ocr-LANG , где LANG - это трехбуквенный код языка ISO 639-2. Сейчас у вас есть 108 языков на репортаже 16.04.

ответ дан mxdsp 03.02.2016 в 21:54
2

У меня только что был успех (до 16.04) с pdfocr.rb . Это указано в вики Ubuntu

Здесь находится ppa , но репозиторий для 16.04 не обновляется. Рубиновый скрипт выше из github, хотя все еще работает с 16.04.

Вы можете скачать его из Github. Вам понадобятся следующие пакеты:

ruby tesseract-ocr pdftk exactimage

затем выполнил исполняемый файл pdfocr.rb и выполнил:

./pdfocf.rb -i source.pdf -o output.pdf

Необязательно вы можете использовать параметр -l LANG . В этом случае вам нужно будет установить пакет tesseract-ocr-LANG , где LANG - это трехбуквенный код языка ISO 639-2. Сейчас у вас есть 108 языков на репортаже 16.04.

    
ответ дан user75505 16.11.2016 в 20:58
2

Лучший и самый простой способ использовать pypdfocr , он не меняет PDF. pypdfocr - это ссылка на модуль python здесь.

pypdfocr your_document.pdf

В конце вы получите еще один your_document_ocr.pdf , как вы хотите, с помощью текста с возможностью поиска. Приложение не меняет качество изображения. Увеличивает размер файла, добавляя текст наложения.

Я думаю, что команда довольно проста, что ей не нужен какой-либо графический интерфейс. Возможно, установка pypdfocr немного более подробно:

sudo apt install tesseract-ocr 
pip install pypdfocr 
    
ответ дан Eduard Florinescu 03.02.2018 в 20:04
0

gscan2pdf включает 3 разных двигателя ocr. Вы можете сканировать прямо в программу или импортировать pdf-файл в программу. Я обнаружил, что двигатель Tesseract отлично работает и очень прост в использовании.

    
ответ дан Vince West 20.11.2014 в 16:45