A shelter from pigs on the wing
DMZ
дневник заведен 09-08-2004
постоянные читатели [32]
3 CaHuTaPa, 517design, Arde, Art`Is, aviabaza, BlackDrago, CyberJoe, DeadMorozz, Depeche Mode, DMZ, d_r, Ewige, glv12 Marla Zinger, goldenandy, Grimble, Hydralisk, Jude, Katrine Himitsu, Leave-me-alone, MISTIK, My3a, Nash, Nicholas Hawkwood, Pingvin, Riskoff, VorteX DrAgON, Wolfram, Букля_, достало, Муть, Рика, Эль
закладки:
цитатник:
дневник:
местожительство:
Красноярск, Россия, Сибирь
интересы [24]
программирование, C++, Depeche Mode, Star Wars, perl, DVD, JavaScript, FAR, lost, 80е, Half Life 2, долго спать, Miami Vice, веб-роботы, кентаврицы
антиресы [9]
грибы, грейпфрутовый сок, мёртвые люди, табличка обед, долго спать
27-03-2010 14:52 iRiver Story. Еще про PDF
У PDF есть еще одно нехорошое для нашего дела свойство, о котором стоит сказать отдельно от книжек-картинок и книжек-с-текстом.

Когда Adobe придумало PDF у них в мыслях была очень хорошая идея: PDF должен на любом устройстве выглядеть одинаково. Что они в итоге и сделали.

Но тогда никто и не подумывал о мобильных устройствах. А они в итоге появились и развились до такого уровня, что там тоже завелись книги.

И проблема встала в полный рост: PDF файл содержит не только текст, но и всё оформление, которое просто так из него не вырежешь. Поэтому смотреть на красивую, подготовленную к печfти книгу на маленьком экране не очень и получается.

Хотя iRiver и не пасует перед сложным форматированием (и даже шрифтами!) и даже видно буквы, но читать трудно.


Adobe тоже осознала глубину проблемы и в итоге родила технологию Reflow, которая позволяет убирать форматирование с PDF и показывать более-менее приличный текст.

«Более-менне»  — это потому что иногда форматирование всё таки непобеждаемое и блоки текста оказываются в книге не в таком порядке как требуется. А если снять форматированние с предыдущей картинки, то там текст и картинки перемешаются в кашу и страницы разъедется. Хотя чаще всего результат всё равно приемлимый.

Как пишут в обзорах, у iRiver Story очень хорошая поддержка PDF. Вроде там даже родной Adobe-овский софт для этого дела и привинчен.

Ну и на сайте можно скачать Adobe Reader для мобильных платформ и Adobe Digital Editions для PC.

Но самый лучший, хотя и затратный по времени способ, — это распознать в FineReader и потом собрать книгу в нормальном формате.

Комментарии:
Собсно, сабж
Как бы не желалось обратного, но PDF воспринимается как вещь-в-себе, с трудом адаптируемая под окружающий мир.

Нравится как оформлен джорнал.
Камрад
Но самый лучший, хотя и затратный по времени способ, — это распознать в FineReader и потом собрать книгу в нормальном формате.

Если PDFка содержит сканы - то разобрать ее через технологию Reflow не получится.... Тут действительно только OCR поможет.
А если PDFка есть текст плюс форматирование - то ее есть смысл разобрать в текст плюс картинки и влить в тот же fb2.
27-03-2010 19:48
Камрад
Я вот как раз сейчас в фоне пытаюсь перевести pdf-книгу в «нормальный» формат.
PDF — оригинальный, с буквами, сверстанный для печати.

Я пробовал вытащить текст через Solid PDF Convertor

Но увидев, что мне потом предлагается руками чистить сотни страниц от колонтитулов (а он еще знаки переноса оставил дефисами!), то я плюнул на это, растеризовал pdf, обрезал страницы в XnView и загнал в FineReader. Гораздо симпатичнее получилось, а процент ошибок в изначально идеальном файле крошечен.
Камрад
DMZ а если из PDF-документа Ctrl+a - Ctrl+C => MS Word - Ctrl+V ?
27-03-2010 21:35
Камрад
Это ж сколько времени надо на 200-страничный документ?

И это не отменяет последующих шагов

Ваш комментарий:
Камрад:
Гость []
Комментарий:
[смайлики сайта]
Дополнительно:
Автоматическое распознавание URL
Не преобразовывать смайлики
Cкрыть комментарий
Закрыть