Как экстрагировать подсвеченный (highlight) текст из PDF файлов в Linux: Zotero и ZotFile

Когда читаешь текст статей и книг в PDF-файлах, есть желание подсветить (highlight) интересные участки и вернуться к ним ещё разок - прямо как на бумаге. Более того, хочется текст из этих самых подсвеченных участков выдрать из PDF и экспортировать куда-нибудь ещё. И желательно это сделать в Linux и без необходимости загружать виртуальную машину с десктопным софтом для Windows. Казалось бы, в опенсорце так любят изобетать велосипеды, и должен же какой-нибудь велосипедостроитель до этого дотумкать.

И таки нашёлся один герой, который это сделал! Но, как и полагается в опенсорце, для этого нужно установить другую софтину, взять автоген, бензопилу и начать процедуру ректального удаления гланд. Чем автор сейчас и займётся. Леденящие душу подробности, кишки, море крови и вагон изуродованных трупов прилагаются к посту ниже.

Работа с PDF-файлами в человеческом декстопе

На всякий случай для тех, кто ест суп отвёрткой: люди читают PDF-файлы в Android и Windows и делают в них пометки\аннотации. Это удобно и помогает быстро набросать выжимку из читаемого.

Любителей линукса ждёт жестокое разочарование: никаких вменяемых средств для пометок в PDF и уж тем более выдирания текста оттуда в Linux нетЪ. Да, в 2013 году мы имеем только xournal, который может тупо рисовать поверх текста, и Okular, который не умеет сохранять выделения и аннотации внутри PDF-файла.

Даже в Андроиде софта для работы с PDF больше: тот же ezPDF отлично справляется с аннотациями и выделениями (можно настраивать даже цвет и прозрачность). Вот так:


Для Windows есть PDFXchange-viewer который отлично работает в WINE (и бесплатен для загрузки!). В работе он ещё проще  ezPDF, так как имеет специальный инструмент для подсвечивания, чтобы не пришлось подтверждать каждый раз:


Как мы с неудовольствием наблюдаем, что в Windows и Android таких программ - завались, в то время как разработнички ёпенсорца заняты куда более важными вещами вроде systemd, Mir и Wayland.  Но мы не об этом - обещанные кишки и море крови впереди.

Zotero + ZotFile = экстрагируем выделенный текст (Highlights) из PDF в Linux без наркоза!

Есть такой сорт программ, которые пытаются управлять коллекциями материалов для чтения. Одна из таких попыток называется Zotero и представляет собой урезанный Firefox (оно называется Standalone, то бишь отдельностоячая версия) или плагин к Firefox.

Так вот, сам по себе интерфейс Zotero ужасен настолько, насколько может быть убог интерфейс, созданный опенсорцными деятелями. Но у зотеры есть один волшебный плагин, который называется ZotFile - и вот он-то умеет вытаскивать подсвеченные куски текста из PDF-файлов.

Казалось бы, что ж автор-то злопыхает? Вот оно, решение-то. Ан нет: чтобы получить искомое, придётся взять автоген и безнозпилу.

Установка сопутствующих инструментов: zotero

По этой ссылке можно скачать либо Firefox extension либо зотеру Standalone в виде отдельного приложения. После установки zotero нам потребуется плагин ZotFile, который позволяет получить искомую возможность экспорта выделений из PDF-файлов.

Установка ZotFile

Идём на ZotFile official website или mozilla page и скачиваем расширение ZotFile. Далее в zotero идём в меню Tools -> Addons и устанавливаем ZotFile:


Всё, теперь начинается битва с зотерой - добавление PDF-файлов и работа с ними.

Да, массовый импорт PDF-файлов из меню Import невозможен и сочтён разработчиками zotero ненужной и мало полезной функцией. Если вы подумали, что импортировать файлы можно через File -> Import... то вас ждёт сюрприз: так сделать не получится.


Оказывается, что для добавления PDF-файлов пользователь должен на зелёный ПЛЮС "New Item" -> "Story copy of file" и, зажав шифт и подпрыгивая на левой ноге, выделить несолько файлов PDF сразу.


Эти файлы будут сохранены в виде приложения (attachments) в каталогах  ./Library/storage с затейливыми подкаталогами. Но так как мы не собираемся использовать эту поделку ни для чего серьёзного, это нам не важно.
Я уже хочу попросить местного Санта Клауса подарить мне вертолёт с миниганом для полётов над местами скопления девелоперсов зотеры. К ним я хочу прилететь даже больше, чем к поттерингу и девелоперсам Гнома3: в отличие от зотерщиков, эти отморозки ничего толкового не делают. Зотрещики же откровенно издеваются над пользователями, городя наименее вменяемые интерфейсы для в целом годной и хорошей программы.

Посылаем чтиво из Zotero

Для того, чтобы послать PDF файлы на планшет \ таблетку \ директорию для чтения (это может быть каталог Dropbox, который синхронизируется с декстопом и планештом), выбираем файлы, зажав Shift, кликаем правой кнопкой мыши по ним и выбираем "Manage Attachments" -> "Send to Subfolder on Tablet". Это функция ZotFile - зотера из коробки этого не умеет.


Расположение каталога можно настроить в опциях ZotFile. Для этого идём в  "Tools" -> Add-ons -> ZotFile -> "Tablet Settings" и меняем по вкусу.



Читаем и делаем пометки (highlights) в PDF

Так как на линуксовом "десктопе" ничего удобоваримого нет, идём на поклон к проприетарщине:
  • Tablet. Здесь есть много программ, способных делать нормальные пометки и аннотации, например ezPDF. Загружаем файлы через  AirDroid или синхронизацией через Dropbox и наслаждаемся.
  • Desktop. Здесь есть альтернатива в виде PDFXchange из-под Wine. Работает отлично и позволяет сохранять пометки внутри файлов.
Начитавшись разумного, доброго и светлого, тягаем помеченные файлы обратно. В зотере есть специальный каталог под названием Tablet Files. Там хранятся записи о том, какие файлы посланы на планшет \ каталог для чтения. Идём в Tablet Files, выбираем файлы, кликаем правой кнопкой мыши и выбираем "Get from Tablet".




Выдираем подсвеченный текст из PDF используя ZotFile

Выделяем прочитанный PDFник с подсвеченным текстом, жмём правую кнопку мыши и выбираем Manage Attachments -> Extract Highlights. И вот они, наши бесценные пометки, в красиво оформленном виде - ZotFile вставит даже номер страницы, откуда пометки взяты.


Пометки выдираются без проблем как в случае использования ezPDF, так и PDFExchange. Всё, пометки можно скопировать как в виде простого текста, так и в HTML:


У ZotFile есть много скрытых параметров (hidden options) и ручек, за которые можно подёргать для более тонкой настройки. Как и в Firefox, это делается через 'about:config' или, в случае с Zotero Standalone, в меню  'Actions -> Preferences -> Advanced -> Open about:config'.



Здесь мы видим обычное конфигурационное месиво от Мозиллы. Ищем строки вида 'extensions.zotfile' для скрытых опций zotfile. На примере выше я убрал кавычки для цитат, извлечённых из highlights в PDF изменив .pdfExtraction.ClosingQuotation. Теперь текст выделений не содержит кавычек.


Итоги забега: zotero - квадратно-колёсный велокактус

zotero, как система управления коллекцией статей и книг в PDF, хуже, чем просто бесполезна: она отнимает больше времени на борьбу с идиотизмом разработчиков, чем экономит. Примеры шедевральных решений:
  • нельзя импортировать кучу PDF-файлов со структурой в виде каталогов и подкаталогов.
  • импорт вообще сделан через  задницу: несколько PDF файлов можно экспортировать только если они лежат в одном каталоге. О том, насколько это медленно,  я просто не говорю.
  • нельзя экспортировать отсортированную библиотеку из зотеры 1:1 дублируя коллекции в виде каталогов (но можно выпендриться, экспортируя через ZotFile).
  • статьи и книги внутри зотеры нельзя перемещать, но можно копировать+удалять. Это может привести к плачевным последствиям: могут появиться дубликаты там, где их никогда не было.
  • система объединения дубликатов невменяема: не пользуйтесь ей НИКОГДА! При объединении элементов с вложениями PDF оно сваливает все PDF в одну кучу. Зачем тогда вообще эта функция?!
  • нет возможности получить список файлов в коллекции - только внешими скриптами через прямые запросы в базу SQLite (юзер-френдли, да).
  • экспорт в BiBTeX ущербен на всю голову: генерация cite keys сделана полными идиотами - оно генерирует ключи в виде @BOOK{clif????, title = {Clif Flynt Tcl Tk Second Edition A Developers}. Но они работают над этим.
И это только наиболее критичные проблемы. Медленную работу, ущербный ненастраиваемый интрефейс, малое количество опций - это мелочи.


Вебдвальноль спешит на помощь: SumNotes

Замечательный, простой и работящий вебсервис http://www.sumnotes.net позволяет даром извлекать выделенные слова и аннотации из PDF-файлов. Просто загружаем наш PDF файл:


который может быть до 300 Мб, и через некоторое время получаем наши бесценные выделенные фразы:


которые можно сохранить в формате TXT или DOC, и просто скопировать в буфер обмена:


Одно но: не вставляет номер страницы, на которой это выделение было сделано. Но тем не менее с задачей справляется на отлично.


Заключение

Из плюсов у zotero есть только ZotFile: это единственная причина, по которой зотеру вообще можно терпеть в этом мире - возможность получения выделенного текста из PDF файлов. И этот небольшой плагин  ZotFile - всё, что в линуксах способно вынимать текст из PDF Highlights на линуксовом десктопе, год которого, конечно же, обязательно и непременно наступит.

Альтернативы и аналоги:

  • Стоит так же пристально посмотреть на вебдванольный сервис http://www.sumnotes.net который прост, вебдванолен и не страдает детскими опенсорцными болезнями.
  • http://www.docear.org/ - и швец, и жнец, и на дуге игрец: и майндмаппинг, и организация данных, и выдирание пометок из документов. Недостаток: оно на Java.
  • http://www.sciplore.org/software/sciplore_mindmapping/ - тоже на джаве (что огорчает скоростью), но умеет вытаскивать закладки и пометки из PDF, плюс майндмаппинг.
  • Mendeley - аналог Zotero, поддерживает вытаскивание highlights и notes, экспортирует аннотированные pdf, но не умеет экспортировать отсортированные документы с сохранением структуры. 
  • Calibre с плагином Annotations - экстрагирует пометки из PDF с отправкой на почту.
В общем, не зотерой единой...

30 комментариев: |высказаться!| RSS-лента дискуссии.|
Анонимный комментирует...

Автор настолько Ъ, что не ходит по собственным ссылкам?
"By default, Okular saves annotations in the local data directory for each user. Since KDE 4.9, it's optionally possible to store them directly in a PDF file by choosing "File -> Save As...", so they can be seen in other PDF viewers."

virens комментирует...

@Анонимный комментирует...
Автор настолько Ъ, что не ходит по собственным ссылкам?
Он ходит, но толку от этого меньше, чем хотелось бы:

"By default, Okular saves annotations in the local data directory for each user. Since KDE 4.9, it's optionally possible to store them directly in a PDF

... KDE 4.9, ... optionally possible ...

Это, конечно, ёпенсорцный прорыв века - ну надо же, к версии 4.9 в 2013 году девелоперсы прозрели на тему того, что сохранять пометки вне PDF есть кретинизм и глупость. Жаль то, что 4.9 в стабильном Дебиане (из которого это и пишется) нету.

Ну и как бы ждать такой очевидной, кричащей в лицо, возможности, присутствующей уже просто везде (даже в мобильниках!), столько лет - как бы не то, что ждёшь от линуксов, которые вот-вот захватят десктоп. С такими девелоперсами, конечно, захват десктопа уезжает куда-то туда, в голубую даль.

И вообще-то пост о том, что хорошо бы эти заметки ещё и выдрать из PDF. Анонимус что-нибудь на эту тему может предложить?

Анонимный комментирует...

Вот похоже альтернативные решения:
1. http://www.docear.org/
2. http://www.sciplore.org/software/sciplore_mindmapping/

Basil Orlov комментирует...

Любителей ёпенсорца и линукса ждёт, как и во многих других случаях, жестокое разочарование: никаких вменяемых средств для пометок в PDF и уж тем более выдирания текста оттуда в Linux нетЪ

Эмм.... Foxit Reader вроде как уже есть под Linux.
Честно говоря, никогда не сталкивался с необходимостью вытаскивать пометки куда-нибудь ещё с целью дальнейшего использования как базы знаний. Объясню почему. У меня стиль чтения такой, что если мне необходим, скажем, способ как сделать то-то и то-то, то я ищу вменяемые руководства. Пусть это будет инструкция в PDF. Далее я просматриваю документ и ищу то, что меня устраивает в конкретном случае. Весь документ я не читаю, если нет необходимости. Там я ставлю закладку с пометкой что я там нашёл. Если мне потребуется этот способ ещё раз, то я открою руководство по закладке. И прочитаю текст ещё раз, вероятнее всего я найду там для себя что-то, что я упустил за ненадобностью в прошлый раз, а теперь там найдётся для меня фича, необходимая именно сейчас. В случае выдирания текста я бы пошёл по-другому: просто вытащил бы то, что мне надо, а об остальном и не подумал. В результате скорее всего пришлось бы всё равно лезть в исходную документацию или (из-за природной лени) придумывать как сгородить велосипед из того, что знаю.
Кстати, Okular, как ни странно в этом мне помогает хорошо.

Во-первых, он всё таки позволяет делать закладки.
Во-вторых, закладки хранятся независимо от источника в боковой панели. Щёлкнув по ней, я вызываю документ, где бы он не лежал именно на той странице, где была поставлена закладка.
В-третьих, закладки можно ставить на одной странице в нескольких местах.
В-четвёртых, файл с закладками прост как валенок, и его можно скормить локальному поисковику для индексации. Это очень для меня существенно, так как кроме PDF есть еще djview, иногда настолько криво сделанный, что кроме как поставить закладку, там вообще ничего сделать нельзя. А индексированная закладка, имхо, полезнее.

Я понимаю, что в некоторых случаях такая индексация нужна, особенно, если есть несколько девайсов, но у меня одна машина (на смарте ничего, кроме fb2 нормально прочитать нельзя), потому покуда меня всё устраивает. Но всё равно положу статью себе в копилку. :) А вдруг пригодится.

khana комментирует...

Среди проприентарщины есть неплохой аналог Zotero - Mendeley. Умеет в highlights и notes, экспортирует аннотированные pdf. В принципе, можно открыть вкладку с аннотациями и скопировать их оттуда. Есть массовый импорт файлов. На сайте пишут про поддержку "Ubuntu 10.04 or Debian Squeeze and newer".

Анонимный комментирует...

Мне кажется, что попадало на глаза, что evince тоже уже научился.

virens комментирует...

@ Анонимный комментирует...

Вот похоже альтернативные решения
Анонимус, они обе на джаве. Меня воротит от ущербных джавоподелок: единственное, что я могу терпеть на своём десктопе это JabRef, так как КДЕшники слишком заняты фильтрами Ланцоша для отрисовки свистелок и мигалок, чтобы заниматься kbibtex.

docear.org

Вот это я пробовал, да. Это самый страшный монстр-Франкенштейн (да ещё и тормозной - джава же) виденный мной в жизни (ну, кроме SAP, конечно - оно вне конкуренции). Сдаётся мне, что оно больше для mindmap, а не для простого выдирания пометок.

Но за ссылки спасибо, добавил в пост.

@Basil Orlov комментирует...

Foxit Reader вроде как уже есть под Linux.
Ох фак, только не это! Ribbon-интерфейс? На моём тёплом ламповом десктопе?!?! Ни за что! :-)


Честно говоря, никогда не сталкивался с необходимостью вытаскивать пометки куда-нибудь ещё с целью дальнейшего использования как базы знаний.

Эм... ну как бы это... удобно в общем. Идея в том, что эти пометки можно засунуть в Zim и искать по ним. А ещё так удобно писать обзоры к статьям и дайджесты (типа есть такой тип алгоритмов - написал дайджест и поставил ссылки, потом используешь это для статей).

Там я ставлю закладку с пометкой что я там нашёл. Если мне потребуется этот способ ещё раз, то я открою руководство по закладке. И прочитаю текст ещё раз

Это здорово, когда у тебя таких документов десяток, или в худшем случае сотня. У меня статей и книг в PDF уже больше 6000.

Потом, пометки делать удобно, и потом можно использовать помеченный текст для написания обзоров.

Кстати, Okular, как ни странно в этом мне помогает хорошо.
[сарказм] Ну надо же, программа для чтения PDF-файлов умеет работать с PDF-файлами в 2013 году. Невероятно! [/сарказм]

Без шуток: Окуляр что, только в 2013 году научился работать с PDF-документами? Это прорыв. Скоро (к 2050 году) догоним ezPDF на Андроиде.

Щёлкнув по ней, я вызываю документ, где бы он не лежал именно на той странице, где была поставлена закладка.

Занятно. В моём случае это выглядит несколько более костыляво: у меня есть Recoll, который индексирует все мои PDF-файлы. Если мне нужен определённый PDF-ник, я просто ищу его там. Часто по куску текста из highlights.

как кроме PDF есть еще djview
Я сделал apt-get purge на это убожество: djvu вообще разработан какими-то безумными шляпниками, а djview делали мартовские зайцы, никогда не слышавшие слова usability.

Анонимный комментирует...

Автор, по-моему, изменил своей традиционно уравновешенно-выдержанной позиции и ведет себя как белка-истеричка. "ёпенсорцный" и т.д. - что за унылый "креатив"? Если уж надо работать, то и берите описанный вами PDFXchange-viewer под wine, а не устраивайте холивары. Не нравятся systemd с wayland'ом - тогда сами напишите себе идеальный десктоп :)

virens комментирует...

@khana комментирует...

Среди проприентарщины есть неплохой аналог Zotero - Mendeley.

А на сайте зотеры его поливают отнюдь не повидлом все, кому не лень.... Я аж холодным пОтом обливался, когда читал сентенции в стиле "по сравнению с Менделеем - просто отлично".

Умеет в highlights и notes, экспортирует аннотированные pdf.
Добавил в пост в раздел Альтернатив. Мне на самом деле нужны пометки в виде простого текста - и ZotFile это оно. То есть взял текст, скопировал в буфер обмена, и всё. Автору zotfile я собираюсь отправить ящик бургундского :-)

@Анонимный комментирует...
Мне кажется, что попадало на глаза, что evince тоже уже научился.
[цитэйшн нидед], Анонимус. Нет, правда - всё, что я видел, это вот это:

Future version of Evince will support PDF annotation and highlight.

То есть в светлом Гномьем будущем, когда они допилят Гном3, когда Гном ворвётся на планшеты, выбьет оттуда Андроид, вот тогда...

Ну и ещё оттуда же по ссылке прекрасное:

If you want to try I think you need to have at least evince 2.32 and recompile yourself latest version of Poppler cloning from the git repository

recompile yourself .... cloning from the git repository....

recompile yourself ....

Ну ты понял, Анонимус, как скоро мы увидим Evince с поддержкой пометок, да?

Анонимный комментирует...

>> А на сайте зотеры его поливают отнюдь не повидлом все, кому не лень.... Я аж холодным пОтом обливался, когда читал сентенции в стиле "по сравнению с Менделеем - просто отлично".

А может стоит самому попробовать? Просто сейчас ваши "измышления" похожи на старый анекдот про Рабиновича и Паваротти :) Лично мне Mendeley показался более удобной "из коробки" системой.

virens комментирует...

@Анонимный комментирует...

Автор, по-моему, изменил своей традиционно уравновешенно-выдержанной позиции и ведет себя как белка-истеричка.

Автор глубоко утомлён необходимостью выправлять колёса опенсорцных велосипедов, выключать и отрывать никчёмные свистульки и бубенчики и выдирать торчащие штыри вместо седла. Пока разработчики Debian спорят о том, что меньше всех сосёт, Upstart или Systemd, оные пользователи Дебиана вынуждены заниматься вот таким непотребством, описанным в посте. И им это не нравится.

Я хотел привлечь внимание к проблеме, Анонимус, отсутствия таких примитивных и базовых вещей в 2013 году, как нормальная работа с PDF.

берите описанный вами PDFXchange-viewer под wine

А я им и так пользуюсь, потому что ничего опенсорцного нет даже близко. Но PDFXChange не выдирает подсвеченный текст - в этом-то и проблема. Если б он мог - поста бы не было.

сами напишите себе идеальный десктоп

Анонимус, запомни: вот из-за таких ответов Линупс на десктопе не окажется никогда. Я уже готов купить андроидный мини-компьютер и сделать из него десктоп, потому что там таких идиотов типа поттеринга не будет.

@Анонимный комментирует...

А может стоит самому попробовать?

А зачем пробовать то, что поливают навозом - по сравнению с зотерой!

Лично мне Mendeley показался более удобной "из коробки" системой.

Можно тогда пару вопросов Анонимусу в тему:

1. Оно умеет без геморроя импортировать отсортированные в каталоги PDF-файлы?
2. Оно умеет выдирать подсвеченный текст (не аннотации)?
3. Как насчёт экспорта отсортированных документов из менделея? То есть я отсортировал файлы в каталоги, и хочу вытащить их в такой структуре. В зотере этого сделать можно через одно место (только через ZotFile), но тем не менее можно.
4. Как с отдельностоячей программой под Линукс? Нет, плагин к фурифоксу не рассматривается.

Мне правда интересно.

Анонимный комментирует...

Линупс
КЛБ

опенсорцных велосипедов
Напиши свои, делов-то. Материть разрабов - это все умеют, сделать что-то своими руками - горазо меньшая часть народонасления. И вообще, предъявлять какие-то требования к тем, кто создает продукты, которые вы получаете "нахяляву" - это странно, правда?

Я уже готов купить андроидный мини-компьютер
Купи уже винду и не мучай себя и окружающих. Только обязательно расскажи потом, как разрабы коммерческих приложений будут удовлетворять твои "хотелки".

А зачем пробовать то, что поливают навозом - по сравнению с зотерой!
Да-да, опять Рабинович напел :).

Можно тогда пару вопросов Анонимусу в тему
1. С сохранением структуры каталогов - нет.
2. Что понимается под словом "выдирать"?
3. Нет.
4. Религия не позволяет сходить на сайт и посмотерть самому? Если так, то отвечу - да, есть отдельное приложение.

Я не утверждаю, что Mendeley однозначно лучше Zotero. Но лично МНЕ он кажется удобнее. + он умеет держать автоматически синхронизируемую bibtex-овскую базу, без использования внешних приложений.

Мне правда интересно
Было бы интересно - поставил бы и посмотрел, вместо того, чтобы флудить и жаловаться на жизнь.

Dmitry Khayrutdinov комментирует...

Может быть поможет Calibre с плагином Annotations?
http://calibre-ebook.com/
http://www.mobileread.com/forums/showthread.php?p=2413824

Сам не пробовал, использовал его только для конвертирования книг в разные форматы.

iv_vl комментирует...

Виренс, пост злободневный и как всегда в точку, спасибо! Но эта твоя манера троллинга, если в комментариях ее еще можно терпеть (хотя, я от них по этой причине и отписался), но в статьях выглядит отвратительно. Попытка всех смешать с дерьмом не выставляет автора белым и пушистым, а только выставляет его в худшем свете. Если бы ты хотел донести кому-то свою точку зрения (что надо развивать нужные приложения), начал бы ты с прямого оскорбления оппонента? Я сам не в восторге от опенсурса, где в 2013 году, чтобы получить субпиксельное сглаживание в Evince, нужно самому искать и ставить патчи. Это издевательство над пользователями, согласен.

Но вообще-то я пришел к тебе за вопросом. Нашел пост, как товарищ пытался организовать статьи. Что из этого ты используешь? Какие отзывы?

Basil Orlov комментирует...

Без шуток: Окуляр что, только в 2013 году научился работать с PDF-документами? Это прорыв.
Тоже без шуток: Это он умеет делать давно. Да и проектироваться он начал относительно недавно - в 2005 году как замена всему тому зоопарку приложений, которые тогда работали на KDE

Iskander комментирует...

И все-таки в свете Вашей проблемы, я-бы рекомендовал Вам не следовать мнению толпы из стана зотеры и попробовать mendeley... По-моему вполне достойная программулина для работы с PDF. Хотя я, честно говоря смысла половины перечисленных Вами вундервафель не очень понял...
>>Оно умеет без геморроя импортировать отсортированные в каталоги PDF-файлы?
Могет.
>>Оно умеет выдирать подсвеченный текст
Куда выдирать, Михаил, моя твоя не понимать...
>>Как насчёт экспорта отсортированных документов из менделея?
Нет, структуру оно не сохраняет.
>>Как с отдельностоячей программой под Линукс?
Есть

Но вообще, если Вас не пугают зависимости, которые за собой тянет окуляр, подключите себе тестинговые репы, да вытяните себе его.

virens комментирует...

@ Анонимный комментирует...

И вообще, предъявлять какие-то требования к тем, кто создает продукты, которые вы получаете "нахяляву" - это странно, правда?

Я готов заплатить за фичи, но они объявлены of minor importance. Тон поста именно таков потому, что девелёперсы открыто издеваются над пользователями. А аналогов ZotFile всё равно нигде нет.

2. Что понимается под словом "выдирать"?

Копировать \ экстрагировать выделенный текст из PDF. Вот так. Там выше пост вообще-то про это, если что.

Я не утверждаю, что Mendeley однозначно лучше Zotero.
Слушай, Анонимус, а как можно жить без импорта\экспорта отсортированных PDF-ников?
Ну, если человек не гуманитарий, конечно.


@Dmitry Khayrutdinov комментирует...
Может быть поможет Calibre с плагином Annotations
О, это интересно, добавил в пост. Спасибо.

Одна маленькая проблема: Tap E-mail Summary, then email the annotations to yourself.
Товарищи женщины, .... :-) (с) Белое Солнце Пустыни


@iv_vl комментирует...
Но эта твоя манера троллинга

Iv_vl, если бы ты только знал, сколько я наелся, пока заставил это убожество работать... это просто дикий кошмар. Каждый раз, когда хочешь сделать что-то, нужно гуглить и выяснять, как это работает. Начиная с импорта PDF-ников... только чтобы прочитать на форуме, что разрабы считают эту фичу of minor importance.

Это издевательство над пользователями, согласен.

У них там вообще всё of minor importance, начиная с угрёбищного интерфейса. Видел, как в зотеру добавляются PDFы? Ну и что они там курят?!


Но вообще-то я пришел к тебе за вопросом.

А давай. Я теперь эхсперт в сортах этого навоза :-)

Нашел пост, как товарищ пытался организовать статьи. Что из этого ты используешь? Какие отзывы?

Хм... ну и товарища коллекция статей в 15 штук - ему что угодно сойдёт. В посте мелькает ОргМод (это не ко мне) и gPaper.

gPaper... ох, ну давай начнём:
- Members: 1 committer (ОДИН, прописью)
- this program uses pygtk v2.12 and the experimental branch of the very new python-poppler library - на питоне, да ещё и с экспериментальным poppler...
- There are no formal releases, just whatever is in subversion. Без комментариев.
- iTunes for your PDFs - ну ты понял, да? В эппл вываливаются стёкла от истерического смеха.

Вывод: Пионеры - это не возраст, а состояние души.

Но к теме. Я сортирую свои PDF-ники в каталоги файловой системы - просто, интуитивно, и никаких зотер с пистонами.
Для поиска внутри PDF-документов пользую Recoll: пережёвывает пдфы он медленно и печально, но работает потом быстро.
Пометки и чтение: либо на планшете в ezPDF (платный, но есть всё, что надо), либо PDFXchane из-под Wine.
Zotero для организации списка чтения - матерюсь до сих пор, но жрать кактус приходится. Перехожу на sumnotes - оно вебдванольное и делает то, что мне надо.
Zim для всяких справочных данных, заметок и копирования найденных ссылок на статей "на почитать". Единственная программа на пистоне, которая даже работает.
Ну и ЛаТеХ, конечно.

virens комментирует...

@Basil Orlov комментирует...
Да и проектироваться он начал относительно недавно - в 2005 году
А что на сайте пишут, что сохранять пометки (и делать их через голову) оно научилось только к КДЕ4.9?

Басиль, просто меня поражает это: вот делают люди просмотрщик PDF, да? Вот что тебе приходит в голову при этом? Просмотр нескольких страниц вряд, Overview (3х2 страниц на одном экране), поиск по тексту. Это версия 0.5, без этого разговора нет. Но потом? РАБОТА с PDF это пометки, аннотации, записки от руки, экстрагирование пометок, редактирование PDF. Кому нужна простая смотрелка?! Я её и на Tcl напишу за полчаса..

замена всему тому зоопарку приложений, которые тогда работали на KDE
А мне нравился тот зоопарк. Они работают быстро и каши не просят. И называются человечьим языком: kpdf, kdvi....

@Iskander комментирует...
и попробовать mendeley...

А что там нового по сравнению с зотерой? Импорта\экспорта PDF-вложений нет....


>>Оно умеет выдирать подсвеченный текст
Куда выдирать, Михаил, моя твоя не понимать...


Копировать \ экстрагировать выделенный текст из PDF. Вот так.

Вас не пугают зависимости, которые за собой тянет окуляр, подключите себе тестинговые репы, да вытяните себе его.
Искандер, оно не умеет выдалять и сохранять подсвеченный в PDF текст. Оно работать с пометками внутри файла-то научилось только что. Для этого у меня есть PDFXchange - и он не требует половину KDE.

green18281828 комментирует...

О evince здесь же писалось, выделение нормально работает.

http://mydebianblog.blogspot.ru/2013/01/xournal-pdf.html

khana комментирует...

Если не ставить галочку "Organize my files", то Mendeley вполне себе при импорте сохраняет полный путь файла. Можно продолжать пользоваться каталогами файловой системы, достаточно указать при импорте корневую папку. Единственное - в программе эта структура никак не отображается, и внутренние "папки" действуют скорее как тэги (хотя тэги есть отдельно, хм).

iv_vl комментирует...

Михаил, я посмотрел на твою задачу. И знаешь, написание сишной проги для выдирания подсвеченного текста не заняло у меня много времени. Поэтому вместо того, чтобы поливать всех тут грязью, мог и ты взять да написать скрипт и принести пользу сообществу. На питоне это было бы строк 30. Надеюсь на твою порядочность, что ты принесешь свои извинения за столь неприятные высказывания. Итак, вот репозиторий, см. lipsum-show-highlights.png - это результат выдирания текста из lipsum-highlighted.pdf. Не идеальное, но вполне рабочее решение.

Пометки делал в PDFXchange-viewer. А что ты говоришь, что это бесплатная программа? Бесплатна только trial-версия.

Сирожа комментирует...

>> Foxit Reader вроде как уже есть под Linux.
Ох фак, только не это! Ribbon-интерфейс? На моём тёплом ламповом десктопе?!?! Ни за что! :-)

С год назад ставил Foxit Reader на видне - он меня сам честно спросил, какой интерфейс я желаю: классику или говно. Конечно, это не говорит о том, что под Линуксом все точно так же, но, может, оно где-то в настройках зарыто?

>>Напиши свои, делов-то. Материть разрабов - это все умеют, сделать что-то своими руками - горазо меньшая часть народонасления. И вообще, предъявлять какие-то требования к тем, кто создает продукты, которые вы получаете "нахяляву" - это странно, правда?

ИМХО, на эту тему можно философствовать бесконечно. Написать всегда можно. Но тода можно все писать самостоятельно. И даже систему. И подогнать все под себя. Потом можно начать строить собственный дом своими руками, при этом делать самому все инструменты. И вообще, зачем ходить в магазины, если всеможно самому собрать, сделать, спаять, сшить, посадить и выростиь и т.п. Это я к тому, что, в какой-то мере, понимаю автора поста.

Мне Линукс как система нравится заметно больше, чем Винда. И я хочу им пользоваться везде. Дома - нет проблем. Но попытка пользоваться Линуксом на работе показала, что все далеко не так радужно. Половины жизненно необходимого софта, будь он платный или бесплатный, под Линукс просто нет. Да, можно написать самому, почему нет? А нет потому, что я не программист, а инженер. Я стараюсь качественно выполнять свою работу и мне хотелось бы, чтобы мне в этом помогали программисты. Но все с точностью до наоборот.

Под Линукс очень мало проприетарного софта (как-то Matlab, например), потому что "этой фигней мало кто пользуется, а Винда рулит". В итоге, Линуксом пользуется мало народа, потому что нет нужного софта. А программисты, естественно, продолжают неписать софт под Линукс. Замкнутый круг. Этот круг могут разомкнуть только программисты-энтузиасты, которые разрабатывают опенсорсный софт в правильном направлении, предоставляя пользователям все больше полезностей и сподвигая из к безболезненному переходу на Линукс. Но разрабатывается, почему-то, Гном3 и прочая фигня. В итоге, тем же инженерам приходится обладать достаточным количеством энтузиазма, чтобы искать заплатки, костыли, примочки, ставить виртуальные машины и пр. только для того, чтобы пользоваться Линуксом на работе. И далеко не у всех этот энтузиазм преобладает над искушением пользоваться платным корявым и неудобным удобством устанавливать любой нужный софт...

PS Меня все время мучает вполне логичный вопрос. Вот MacOS - это тот же Unix, только по-другому. Так что же там делается по-другому, что с ними почти все считаются?

virens комментирует...

@green18281828 комментирует...
О evince здесь же писалось, выделение нормально работает.

Пост не про выделение, а про то, как вытащить выделенный текст из файла.

Орлы, я понимаю, что часть комментаторов ходит сюда исключительно потроллить, но пост можно пролистать хотя бы поверхностно.

@khana комментирует...
Mendeley вполне себе при импорте сохраняет полный путь файла.

Это заметно лучше.

Единственное - в программе эта структура никак не отображается

То есть сортируем снова, только уже внутри программы?


@iv_vl комментирует...
Михаил, я посмотрел на твою задачу. И знаешь, написание сишной проги для выдирания подсвеченного текста не заняло у меня много времени.

Спасибо за код, я посмотрю - в зотере вытаскивание текста работает довольно медленно и печально.

Тон моих комментариев вызван тем, что зотеру (и менделей) пишет куча пионеров уже который год, но возможностей для гумаинодных пользователей у них с гулькин хвост. Посмотри на скриншоты интерфейса зотеры - кто проектировал это убожество?

Потом, знаешь, написание скрипта на Тикле для выдирания списка чтения из зотеры у меня тоже не заняло много времени - у зотероидов не хватило мозгов сделать даже это. Ну и что мне теперь делать - писать каждую программу для себя с нуля? IceWM спрограммировать не займёт много времени, но может мы уже что-то будем делать для людей в опенсорце, в 2013-то году?

Это часть бОльшей проблемы: девелёперсы клепают софт, но никогда не пользуются им. Case point: GIMP. Никто, НИКТО из разрабов гимпа им не пользуется ни для чего сколько-нибудь серьёзного - иначе они начали бы перекраивать интерфейс. Пионэры, которые клепают зотеру - не пользуются ей ни для чего, кроме как увеличения собственной важности. Если б было иначе, они сделали хотя бы импорт\экспорт через голову. Разработчики KDE не пользуются им - иначе они обратили бы внимание на косяки в виде прибитых гвоздями горячих клавиш и непомещающихся в экран меню.


Бесплатна только trial-версия.
Бесплатная версия покрывает возможностями все опенсорцные поделки, как бык овцу. Там есть всё, что нужно, и из-под Wine она работает превосходно.

@Сирожа комментирует...

Написать всегда можно. Но тода можно все писать самостоятельно. И даже систему. И подогнать все под себя. Потом можно начать строить собственный дом своими руками

В общем-то именно это и есть лейтмотив моих плачей Ярославны. Опенсорц меня уже начал раздражать вот этим: давайте сделаем 20 велосипедов, и ни один не доведём до конца. Десять лет назад это можно было простить, но сейчас, когда в Андроиде больше софта, чем в десктопном линуксе, это непростительно.

Мне Линукс как система нравится заметно больше, чем Винда.

Глядя на systemd, убунту и wayland, ты изменишь своё мнение. Особенно когда оно появится в твоём репозитории, и выбора - хвалёного опенсорцниками - у тебя не будет, кроме как собирать всё самому.

Половины жизненно необходимого софта, будь он платный или бесплатный, под Линукс просто нет.

Хороший софт трудно сделать, и он стоит денег, мозгов и усилий на его создание. Никто не станет бесплатно создавать Офис или Автокад, потому что это сложно. Музыкальных плееров и браузеров так много, потому что мозгов для этого нужно очень мало: берём Webkit, прикручиваем интерфейс и гордо объявляем себя новым проектом.

Да, можно написать самому, почему нет? А нет потому, что я не программист, а инженер. Я стараюсь качественно выполнять свою работу и мне хотелось бы, чтобы мне в этом помогали программисты.

Собственно, Сирожа, ты кристаллизовал мои мысли одной фразой.

PS Меня все время мучает вполне логичный вопрос. Вот MacOS - это тот же Unix, только по-другому. Так что же там делается по-другому, что с ними почти все считаются?
На нём зарабатывают деньги, и он создан для людей, которые могут позволить себе его купить. Там тоже не всё ладушки: как только ты отходишь от Линии Партии, начинаются проблемыи вываливаются скелеты из шкафов.

iv_vl комментирует...

@virens комментирует...
Спасибо за код, я посмотрю - в зотере вытаскивание текста работает довольно медленно и печально.
Посмотри-посмотри, и обязательно любые идеи по улучшению пиши на issue-трекер. Самое очевидное, что должно быть полезно, это вывод в LaTeX и HTML форматах.

Бесплатная версия покрывает возможностями все опенсорцные поделки, как бык овцу.
Разобрался, trial-период только для Pro версии: Despite previous review, free version NOT trialware, though Pro (paid) version does come with 30-day trial.

Это часть бОльшей проблемы: девелёперсы клепают софт, но никогда не пользуются им.
Ты не поверишь, но эту мысль я озвучивал многократно. Если софт сделан для себя - это чувствуется обычно сразу, потому что им удобно пользоваться.

Сирожа комментирует...

Опенсорц меня уже начал раздражать вот этим: давайте сделаем 20 велосипедов, и ни один не доведём до конца.
У меня складывается такое впечатление, что начали немного забывать идею опенсорс. Вместо того, чтоб дружно доводить до ума то, что затеяли, начинают плодить форки по принципу "поверьте, мы сможем лучше" и жидут земной славы. Вот и получается, что у нас теперь имеется куча недоделок вместо пары хороших поделок :(

но сейчас, когда в Андроиде больше софта, чем в десктопном линуксе
Думаю, тут ситуация подобная к MacOS (см. ниже). Тем более, что адроид - это Линукс (его еще можно так называть, кстати? :) ), который реально покорил мир :) В отличии от десктопных систем...

Глядя на systemd, убунту и wayland, ты изменишь своё мнение.
Собственно, я на Дебиан с Убунту пришел. Потому что оно с каждым апгрейдом приближается на шаг (а то и на несколько) к Винде. Надеюсь, что разработчики Дебиана постанаются, все-таки, оставить право выбора за нами пользователями. А нет - придется валить на Gentoo :)

Хороший софт трудно сделать, и он стоит денег, мозгов и усилий на его создание. Никто не станет бесплатно создавать Офис или Автокад, потому что это сложно.

Если лезть в дебри, то, я подозреваю, что есть мало таких программистов, которые могут написать хорошую программулину-симулятор для трехмерного электромагнитного моделлирования или других СВЧ-задач. Как показывает практика, на это далеко не всегда способны разработчики-профессионалы, берущие за свой софт баснословные деньги...

Это я к тому, что я понимаю, что есть много областей, в которых у нас, наверное, никогда не будет адекватного опенсорсного решения и что за некоторые программы надо платить. Никуда от этого не денешься. Но что меня одновременно расстраивает и пугает, так это то, что до сих пор очень мало компаний предлагают свой софт под Линукс. Из нужной мне кипы программ только 10% есть "еще и под Линукс". Все остальное - Винда и в 50% случаев Мак.

На нём зарабатывают деньги, и он создан для людей, которые могут позволить себе его купить. Там тоже не всё ладушки: как только ты отходишь от Линии Партии, начинаются проблемыи вываливаются скелеты из шкафов.
Понятно, что MacOS - это не 100%-й выход из положения. Иначе бы, я думаю, многие любители Линукса уже давно забили бы на него вместе со всем его опенсорсом и сидели бы на Маках да поговаривали, мол, "вот он, настоящий Юникс с человеческим лицом". Но речь не о том. Если под Мак даже MS Office существует, не говоря уже о том, что уже считается правилом хорошего тона поставлять дрова на Мак со всем нужным и не очень железом, значит, нельзя сказать, что, мол, эта ваша затея с Юниксом - все говно, а Винда рулит. И с Андроидом подобная ситуация: под него все дружно строчат приложения, вместо того, чтобы гундеть на тему того, что все это говно, пользуйтесь Windows Phone. Так где же тогда собака зарыта? Почему же все дружно избегают нас? У меня есть такое подозрение, что все боятся вот этой опенсорсной халявы. Пока система направлена на зарабатывание бабок, все ок. А опенсорс - это же попырка их ковные отнять! Нет, ну, не совсем отнять, просто, не отдать. Вот и получается, что идет война, в которой у некоммерческого опенсорса уже изначально шансы плохи. А тут еще и эти велосипеды...

Сирожа комментирует...

Это часть бОльшей проблемы: девелёперсы клепают софт, но никогда не пользуются им.
Сейчас только подумал. По идее, девелоперы - это программисты. То есть, они не должны пользоваться тем, что создают. Но, при этом, по идее, вся суть опенсорса в том, что можно спросить пользователей, а как бы им было удобнее. Но, видимо, демократия - тонкая штука...

Сирожа комментирует...

Кстати, к теме FoxitReader'а. Вот, только поставил на винду последнюю версию. "Стандартный" ленточный тулбар сделан под 8-ку, и, естественно, г... полнейшее. Но "классический" тулбар тоже присутствует. Включается в File->Change toolbar mode. Их серый скин мне не понравился, я его поменял на голубенький в View->UI Options->Change skin (если в "ленточках", то File->Change skin)

Но, при этом, плохие новости по поводу FofitReader'а в Линуксе. Такое ощущение, что он отстал от своего виндового брата лет на 10. "Классичекий" интерфейс с менюшкой сферху, но ни тебе табов, ни инструментов для комментирования/выделения. Вообще ничего, простой просмотрщик...

Basil Orlov комментирует...

@Сирожа комментирует...
....это же попырка их ковные отнять
Так и было задумано или опечатка? :D Хорошо написал.

...этой опенсорсной халявы
Честно говоря, сначала тоже так думал. А потом понял, что похоже тут всё на, как говорится, на хорошем воспитании держится. Если пользуешься - не будь жлобом, сделай и ты что-нибудь для сообщества. Пусть самую малость. И потом, никто не говорит, что опенсорц - это всегда бесплатно. Можно продавать поддержку или сервисы. Но это всегда сложнее, чем клепать закрытый код и продавать его "without no warranty".

...по идее, вся суть опенсорса в том, что можно спросить пользователей, а как бы им было удобнее...
Вся суть опенсорса в том, что: "Неудобно? Сделай сам и докажи, что это удобно. Исходники никто не прячет. Не можешь - попроси что надо, возможно сделают. Или заплати, тогда точно сделают (возможно даже в форке или лично для тебя, но с возможностью пользоваться остальным."

Анонимный комментирует...

Господа, закройте тему foxit reader-a его развитие под linux остановилось на 3 версии (читай он вообще ничего не умеет.) Хотя да, Ribbon-интерфейса там нет. Такие дела.

Анонимный комментирует...

Есть несколько файлов пдф, откуда мне надо вытащить текст и скопировать его себе. в просмотрщике под убунту это не удается. что можете посоветовать? Если можно, в личку -- https://vk.com/id3214167

Отправить комментарий

Подписаться на RSS-ленту комментариев к этому посту.