IZONE - http://www.izcity.com/ - бесплатный софт, вэб-сервисы, ресурсы для раскрутки, свежие номера журнала "Internet Zone".

О медитации над текстом или как превратить PDF в HTML.

Сергей Голубицкий

Сначала хотел назвать Голубятню «…плюс деАДОБИзация всей страны», но потом подумал, что призыв избавляться от продуктов Adobe прозвучит придурковато в свете повсеместной любви к Фотошопу — бесспорно, чудесному пакету для работы с изображениями. Да и потом, уж очень натянуто все бы это смотрелось в контексте «дела Склярова».

Кстати, пользуясь случаем, хотел бы вновь привлечь внимание читателей к этой теме, самым бессовестным образом заброшенной отечественными представителями древнейшей профессии: ясное дело, момент жаренности прошел, ну а до самой трагедии русского программиста никому нет дела. Нет, чтобы взять пример с геволта вокруг удушения «свободы» в СССР, который не затихал ни на миг долгие годы подряд, пока не раздолбал то, что, казалось, невозможно раздолбать. Во как надо сражаться за «своих»! А между тем, проблема-то остается открытой: последние новости по «делу Склярова» на самом информативном ресурсе — ezhe.ru/elcomsoft — датированы 6 сентября. Я понимаю, что все напуганы и затюканы всесилием американского Молоха (особенно на фоне монополии на страдания), так что боятся рта открыть, дабы не навредить судебному разбирательству. Но история как раз говорит об обратном: только непрерывным общественным давлением и гласностью можно повлиять на творимый произвол. А для всякого психически нормального человека, не поддающегося на дешевую пропаганду «нового мирового порядка», преследование гражданина другой страны (даже такой униженной и оплеванной как Россия) за нарушение законов собственного государства — произвол. Смириться с этим произволом значит уподобиться овцам в стаде, которые равнодушно взирают на то, как волки по одиночке выдергивают самых крайних. И мысль при этом в черепном бульоне варится лишь одна: «Слава богу, что не меня!».

Короче говоря, речь сегодня пойдет не о деАДОБИзации, а о деПиДеФизации, то есть об избавлении от адобовско-акробатовского формата PDF. Только поймите меня правильно: формат PDF — очень нужная и полезная штука, особенно для передачи документов, в которых вопрос оригинального форматирования и копирайта поставлен во главу угла. Формат PDF прекрасно подходит для упаковки художественных книг с интенсивной графикой или, скажем, для пересылки юридических формуляров, анкет, договоров, отчетов и аналогичных бумаг. Кто когда-нибудь хоть раз пытался сохранить иллюстрированный текст в Ворде и в отчаянии наблюдал, как картинки, сколько бы вы их не поправляли и не сохраняли, наползают друг на друга как пьяные тараканы, тот меня поймет: PDF — как манна небесная! Поэтому я вовсе не ратую за сортирное замачивание столь полезного инструмента. Отнюдь! Однако перед всяким творческим пользователем постоянно стоит задача не просто читать тексты, но и работать с ними. А под работой понимается анализ и синтез материалов в будущем, интенсивный поиск в созданных базах данных и т.п. Именно это и нельзя проделать с документами PDF по той причине, что они аки «вещи в себе», эдакие чертики из табакерки, которые выскакивают, чтобы показать язык, а потом снова захлопываются. Выражаясь менее образно, документ в формате PDF невозможно индексировать с помощью программ электронной архивации (например, моего любимого Cross) для того, чтобы впоследствие производить поиск по ключевым словам.

Помимо этого — главного — недостатка PDF есть и другие, менее принципиальные: например, чудовищная требовательность этого формата к ресурсам компьютера, или, скажем, его некомпактность. Я проделал маленький эксперимент: взял книгу, картинки в которой (формат jpg) занимают 1.39 Мб, а текст в формате HTML — 0.452 Мб (360,000 знаков чистого текста), и сохранил в различных форматах. Вот что у меня получилось (табл. 1):

Формат

Размер файла

DOC (Word 2000)

0.960 Мб

HTML

1.84 Mб

PDF

3.63 Мб

RTF

4.07 Мб

Apropos, прошу всех мастдайников обратить внимание на блестящий результат, показанный микрософтовским Вордом! Поскольку одним из главных коньков для проталкивания формата PDF выступает его выдающаяся «кроссплатформенность», то есть, способность к адекватному воспроизведению содержания независимо от операционной системы, то я не буду агитировать здесь за явно проприетарный Ворд, а лишь скромно замечу, что HTML обладает, мягко говоря, гораздо большей кроссплатформенностью, чем Adobe Actobat (хотя бы потому, что не требует установки никаких дополнительных вьюеров и плагинов), и при этом более чем в два раза, компактнее PDF. Не говоря уж о самом важном достоинстве — возможности индексировать HTML-документы.

1
Рисунок 1

Одним словом, передо мной давно стояла задача найти утилиту, которая позволяла конвертировать формат PDF в HTML. Удивительно, что есть море программ для обратного действия — перекидывания различных форматов в PDF — и лишь две, способных выполнять нужную мне процедуру. По крайней мере это то, что удалось раздобыть за год периодических изысканий. Знакомьтесь: Advanced PDF to HTML converter и BCL Magellan. Первая — так называемая stand-alone (самостоятельная) утилита, вторая — плагин для Adobe Acrobat.

2
Рисунок 2

Надо сказать, что работа обеих программ меня полностью разочаровала: если с оригинальным английским документом они с грехом пополам справляются, то с русским — полные кранты. Можете сами убедиться — так выглядит оригинальный текст в PDF (рис 1), так его извлек Magellan (рис. 2), а так — Advanced PDF to HTML converter (рис. 3). Особливо информативно выглядит последний вариант, больше подходящий для медитации, чем для чтения.

3
Рисунок 3

Мораль: бросаю клич отечественным Кулибиным от программирования: напишите человеческий конвертер PDF to HTML и все поисковые системы мира поклонятся вам в ножки! Правда, в Америку после этого ездить категорически не рекомендуется, потому как любовь Adobe к манипуляциям над ее программами общеизвестна!

Источник - SoftТерра, http://www.softerra.ru

 


Copyright © "Internet Zone", http://www.izcity.com/, info@izcity.com