DMZ
14:52 27-03-2010 iRiver Story. Еще про PDF
У PDF есть еще одно нехорошое для нашего дела свойство, о котором стоит сказать отдельно от книжек-картинок и книжек-с-текстом.

Когда Adobe придумало PDF у них в мыслях была очень хорошая идея: PDF должен на любом устройстве выглядеть одинаково. Что они в итоге и сделали.

Но тогда никто и не подумывал о мобильных устройствах. А они в итоге появились и развились до такого уровня, что там тоже завелись книги.

И проблема встала в полный рост: PDF файл содержит не только текст, но и всё оформление, которое просто так из него не вырежешь. Поэтому смотреть на красивую, подготовленную к печfти книгу на маленьком экране не очень и получается.

Хотя iRiver и не пасует перед сложным форматированием (и даже шрифтами!) и даже видно буквы, но читать трудно.

[изображение]

Adobe тоже осознала глубину проблемы и в итоге родила технологию Reflow, которая позволяет убирать форматирование с PDF и показывать более-менее приличный текст.

«Более-менне»  — это потому что иногда форматирование всё таки непобеждаемое и блоки текста оказываются в книге не в таком порядке как требуется. А если снять форматированние с предыдущей картинки, то там текст и картинки перемешаются в кашу и страницы разъедется. Хотя чаще всего результат всё равно приемлимый.

Как пишут в обзорах, у iRiver Story очень хорошая поддержка PDF. Вроде там даже родной Adobe-овский софт для этого дела и привинчен.

Ну и на сайте можно скачать Adobe Reader для мобильных платформ и Adobe Digital Editions для PC.

Но самый лучший, хотя и затратный по времени способ, — это распознать в FineReader и потом собрать книгу в нормальном формате.

Комментарии:
DeadMorozz
16:10 27-03-2010
Как бы не желалось обратного, но PDF воспринимается как вещь-в-себе, с трудом адаптируемая под окружающий мир.

Нравится как оформлен джорнал.
GoldenAndy
19:36 27-03-2010
Но самый лучший, хотя и затратный по времени способ, — это распознать в FineReader и потом собрать книгу в нормальном формате.

Если PDFка содержит сканы - то разобрать ее через технологию Reflow не получится.... Тут действительно только OCR поможет.
А если PDFка есть текст плюс форматирование - то ее есть смысл разобрать в текст плюс картинки и влить в тот же fb2.
DMZ
19:48 27-03-2010
Я вот как раз сейчас в фоне пытаюсь перевести pdf-книгу в «нормальный» формат.
PDF — оригинальный, с буквами, сверстанный для печати.

Я пробовал вытащить текст через Solid PDF Convertor

Но увидев, что мне потом предлагается руками чистить сотни страниц от колонтитулов (а он еще знаки переноса оставил дефисами!), то я плюнул на это, растеризовал pdf, обрезал страницы в XnView и загнал в FineReader. Гораздо симпатичнее получилось, а процент ошибок в изначально идеальном файле крошечен.
GoldenAndy
21:18 27-03-2010
DMZ а если из PDF-документа Ctrl+a - Ctrl+C => MS Word - Ctrl+V ?
DMZ
21:35 27-03-2010
Это ж сколько времени надо на 200-страничный документ?

И это не отменяет последующих шагов