|
||||||||||
|
||||||||||
О медитации над текстом или как превратить PDF в HTML.Сергей Голубицкий Сначала хотел назвать Голубятню «…плюс деАДОБИзация всей страны», но потом подумал, что призыв избавляться от продуктов Adobe прозвучит придурковато в свете повсеместной любви к Фотошопу — бесспорно, чудесному пакету для работы с изображениями. Да и потом, уж очень натянуто все бы это смотрелось в контексте «дела Склярова». Кстати, пользуясь случаем, хотел бы вновь привлечь внимание читателей к этой теме, самым бессовестным образом заброшенной отечественными представителями древнейшей профессии: ясное дело, момент жаренности прошел, ну а до самой трагедии русского программиста никому нет дела. Нет, чтобы взять пример с геволта вокруг удушения «свободы» в СССР, который не затихал ни на миг долгие годы подряд, пока не раздолбал то, что, казалось, невозможно раздолбать. Во как надо сражаться за «своих»! А между тем, проблема-то остается открытой: последние новости по «делу Склярова» на самом информативном ресурсе — ezhe.ru/elcomsoft — датированы 6 сентября. Я понимаю, что все напуганы и затюканы всесилием американского Молоха (особенно на фоне монополии на страдания), так что боятся рта открыть, дабы не навредить судебному разбирательству. Но история как раз говорит об обратном: только непрерывным общественным давлением и гласностью можно повлиять на творимый произвол. А для всякого психически нормального человека, не поддающегося на дешевую пропаганду «нового мирового порядка», преследование гражданина другой страны (даже такой униженной и оплеванной как Россия) за нарушение законов собственного государства — произвол. Смириться с этим произволом значит уподобиться овцам в стаде, которые равнодушно взирают на то, как волки по одиночке выдергивают самых крайних. И мысль при этом в черепном бульоне варится лишь одна: «Слава богу, что не меня!». Короче говоря, речь сегодня пойдет не о деАДОБИзации, а о деПиДеФизации, то есть об избавлении от адобовско-акробатовского формата PDF. Только поймите меня правильно: формат PDF — очень нужная и полезная штука, особенно для передачи документов, в которых вопрос оригинального форматирования и копирайта поставлен во главу угла. Формат PDF прекрасно подходит для упаковки художественных книг с интенсивной графикой или, скажем, для пересылки юридических формуляров, анкет, договоров, отчетов и аналогичных бумаг. Кто когда-нибудь хоть раз пытался сохранить иллюстрированный текст в Ворде и в отчаянии наблюдал, как картинки, сколько бы вы их не поправляли и не сохраняли, наползают друг на друга как пьяные тараканы, тот меня поймет: PDF — как манна небесная! Поэтому я вовсе не ратую за сортирное замачивание столь полезного инструмента. Отнюдь! Однако перед всяким творческим пользователем постоянно стоит задача не просто читать тексты, но и работать с ними. А под работой понимается анализ и синтез материалов в будущем, интенсивный поиск в созданных базах данных и т.п. Именно это и нельзя проделать с документами PDF по той причине, что они аки «вещи в себе», эдакие чертики из табакерки, которые выскакивают, чтобы показать язык, а потом снова захлопываются. Выражаясь менее образно, документ в формате PDF невозможно индексировать с помощью программ электронной архивации (например, моего любимого Cross) для того, чтобы впоследствие производить поиск по ключевым словам. Помимо этого — главного — недостатка PDF есть и другие, менее принципиальные: например, чудовищная требовательность этого формата к ресурсам компьютера, или, скажем, его некомпактность. Я проделал маленький эксперимент: взял книгу, картинки в которой (формат jpg) занимают 1.39 Мб, а текст в формате HTML — 0.452 Мб (360,000 знаков чистого текста), и сохранил в различных форматах. Вот что у меня получилось (табл. 1):
Apropos, прошу всех мастдайников обратить внимание на блестящий результат, показанный микрософтовским Вордом! Поскольку одним из главных коньков для проталкивания формата PDF выступает его выдающаяся «кроссплатформенность», то есть, способность к адекватному воспроизведению содержания независимо от операционной системы, то я не буду агитировать здесь за явно проприетарный Ворд, а лишь скромно замечу, что HTML обладает, мягко говоря, гораздо большей кроссплатформенностью, чем Adobe Actobat (хотя бы потому, что не требует установки никаких дополнительных вьюеров и плагинов), и при этом более чем в два раза, компактнее PDF. Не говоря уж о самом важном достоинстве — возможности индексировать HTML-документы.
Одним словом, передо мной давно стояла задача найти утилиту, которая позволяла конвертировать формат PDF в HTML. Удивительно, что есть море программ для обратного действия — перекидывания различных форматов в PDF — и лишь две, способных выполнять нужную мне процедуру. По крайней мере это то, что удалось раздобыть за год периодических изысканий. Знакомьтесь: Advanced PDF to HTML converter и BCL Magellan. Первая — так называемая stand-alone (самостоятельная) утилита, вторая — плагин для Adobe Acrobat.
Надо сказать, что работа обеих программ меня полностью разочаровала: если с оригинальным английским документом они с грехом пополам справляются, то с русским — полные кранты. Можете сами убедиться — так выглядит оригинальный текст в PDF (рис 1), так его извлек Magellan (рис. 2), а так — Advanced PDF to HTML converter (рис. 3). Особливо информативно выглядит последний вариант, больше подходящий для медитации, чем для чтения.
Мораль: бросаю клич отечественным Кулибиным от программирования: напишите человеческий конвертер PDF to HTML и все поисковые системы мира поклонятся вам в ножки! Правда, в Америку после этого ездить категорически не рекомендуется, потому как любовь Adobe к манипуляциям над ее программами общеизвестна! Источник - SoftТерра, http://www.softerra.ru
|
||||||||||
|
||||||||||
Copyright © "Internet Zone", http://www.izcity.com/, info@izcity.com |