Linux распознавание текста

    Мой деть подрос и я с нетерпением жду момента когда смогу прочитать ему мвои любимые с детства книжки. В частности "Мушкетер и фея" Крапивина. Книжка у меня лежит, но читать с бумаги я уже давно отвыкла, поэтому пошла шариться по библиотекам в поисках электронного варианта. Вариантов оказалось на удивление мало. После некоторых поисков нашелся вариант книги отсканированный картинками. Но это, как вы понимаете, неприемлимо для книгочиталки. пришло подумать о распознавании текста.
    Итак, исходные данные
- Xubuntu, изменять которой я не вижу смысла,
- книжка.pdf
Книжку раздербаниваю на jpeg-и,
convert [путь к файлу и имя файла, писать без скобок] *.jpg
(файлы получатся вида *-1.jpg)
ну а для распознавания было решено использовать следующую связку:

CuneiForm+YAGF 

CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы.

YAGF — графическая оболочка для CuneiForm 

Открываем терминал. Пишем.
sudo apt-get install cuneiform
 с этого момента по идее мы может распознавать текст. Но прелесть консольный приложений в данном случае как-то не вдохновляет, поэтому продолжаем.

YAGF в официальном репозитории нет, поэтому добавляем дополнительный
sudo apt-add-repository ppa:alex-p/notesalexp
Обновляюсь
sudo apt-get update
и понимаю что что-то не так  - пакет не найден.

Иду в "Ubuntu Software Center"_> "Edit" ->"Software Sources...". Выбираю вкладку "Other Software"
либо "Центр приложений Ubuntu" -> "Правка" -> "Источники приложений"
 Выбираем вкладку "Другое ПО" 

Ищу свежевписанные строчки:
http://ppa.launchpad.net/alex-p/notesalexp/ubuntu Precise steam
http://ppa.launchpad.net/alex-p/notesalexp/ubuntu Precise steam (Source Code)
    Со второй сразу снимаю галку - понадобится, поставлю. Пока, вроде, необходимости не возникало.
Иду по указанному адресу и понимаю что строчка должна быть вот такой, что я и вписываю:
http://ppa.launchpad.net/alex-p/notesalexp-precise/ubuntu/
Опять
sudo apt-get update
Ошибка пропадает. Теперь не хватает ключа. Почитав вот тут инструкцию и посмотрев вот тут Technical details, сооружаю следующую конструкцию:
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys CEF9E52D
Затем опять
sudo apt-get update
Работает! Дальше установка:
sudo apt-get install yagf
Вводим пароль. Ждем...

Ура! Все поставилось! Пробую распознавать.

ЗЫ: yagf-е есть замечательная функция - "import from pdf". Указываешь pdf-ку, каталог  в который ее программа из этого pdf-а надергает страниц-картинок.


Архив блога