Итак, исходные данные
- Xubuntu, изменять которой я не вижу смысла,
- книжка.pdf
Книжку раздербаниваю на jpeg-и,
convert [путь к файлу и имя файла, писать без скобок] *.jpg
(файлы получатся вида *-1.jpg)
ну а для распознавания было решено использовать следующую связку:
CuneiForm+YAGF
CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы.YAGF — графическая оболочка для CuneiForm
Открываем терминал. Пишем.
sudo apt-get install cuneiform
с этого момента по идее мы может распознавать текст. Но прелесть консольный приложений в данном случае как-то не вдохновляет, поэтому продолжаем.
YAGF в официальном репозитории нет, поэтому добавляем дополнительный
sudo apt-add-repository ppa:alex-p/notesalexp
Обновляюсь
sudo apt-get update
и понимаю что что-то не так - пакет не найден.
Иду в "Ubuntu Software Center"_> "Edit" ->"Software Sources...". Выбираю вкладку "Other Software"
либо "Центр приложений Ubuntu" -> "Правка" -> "Источники приложений"
Выбираем вкладку "Другое ПО"
Ищу свежевписанные строчки:
http://ppa.launchpad.net/alex-p/notesalexp/ubuntu Precise steam
http://ppa.launchpad.net/alex-p/notesalexp/ubuntu Precise steam (Source Code)
Со второй сразу снимаю галку - понадобится, поставлю. Пока, вроде, необходимости не возникало.
Иду по указанному адресу и понимаю что строчка должна быть вот такой, что я и вписываю:
http://ppa.launchpad.net/alex-p/notesalexp-precise/ubuntu/
Опять
sudo apt-get update
Ошибка пропадает. Теперь не хватает ключа. Почитав вот тут инструкцию и посмотрев вот тут Technical details, сооружаю следующую конструкцию:
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys CEF9E52D
Затем опять
sudo apt-get update
Работает! Дальше установка:
sudo apt-get install yagf
Вводим пароль. Ждем...
Ура! Все поставилось! Пробую распознавать.
ЗЫ: yagf-е есть замечательная функция - "import from pdf". Указываешь pdf-ку, каталог в который ее программа из этого pdf-а надергает страниц-картинок.