Как извлечь текст из изображений?

19

Как извлечь текст из изображений?

Я не говорю о отсканированных файлах, а о садовых изображениях, например, когда вы снимаете высокоуровневую фотографию классной доски в классе, и это красиво написано; или когда вы фотографируете страницу из книги рецептов и хотите, чтобы рецепт был в текстовом формате.

Любое бесплатное и открытое программное обеспечение для этого?

Я попробовал tesseract, и результаты были ужасными.

    
задан Strapakowsky 31.08.2011 в 08:33
источник

2 ответа

20

Акт извлечения текста из изображений называется OCR , а Ubuntu имеет страницу wiki, посвященную OCR . С этой страницы:

Доступные инструменты OCR

Хранилища Ubuntu Universe содержат следующие инструменты OCR:

  1. gocr - Командная строка OCR
  2. fuzzyocr - плагин spamassassin для проверки вложений изображений.
  3. libhocr0 - Иврит OCR
  4. ocrad - программа распознавания оптических символов
  5. ocrfeeder - Анализ макета документа и система распознавания символов
  6. ocropus - анализ документов и система распознавания.
  7. tesseract-ocr

Репозитории Multiverse Ubuntu также содержат:

  1. клинопись - многоязычная система распознавания.

Некоторые пакеты устарели, но неофициальные свежие можно найти в Alex_P PPA (код добавления PPA : ppa: alex-p / notesalexp). Если вы никогда не использовали проверку PPA как добавить программное обеспечение из PPA .

изменить: Как показано в комментарии Clara OCR существует, но он получил удар по Харди, и их веб-сайт 2009 года был обновлен последним.

    
ответ дан Rinzwind 31.08.2011 в 08:55
источник
12

tesseract-ocr будет отличным по сравнению со всеми остальными. Для установки запустите команду sudo apt-get install tesseract-ocr .

Использование tesseract filename.jpg output.txt .

Выше команда будет генерировать output.txt .

Вы можете выбрать подходящий язык. В этом случае вам нужно будет установить пакет tesseract-ocr-LANG , где LANG - это трехбуквенный код языка ISO 639-2. Прямо сейчас у вас есть 108 языков на 16.04 репо. Затем используйте tesseract filename.jpg output -l LANG .

    
ответ дан Sudhir Belagali 18.04.2016 в 03:44