IZONE- http://www.izcity.com/- бесплатный софт, вэб-сервисы, ресурсы для раскрутки, свежие номера журнала "Internet Zone".

Хаос Интернета или как мы ищем

Арсений Ефремов

Всемирная Сеть как "Галстук-бабочка"

Все уже привыкли именовать Интернет World Wide Web, или по-русски говоря, Всемирной паутиной. Но не так давно исследователи из AltaVista, Compaq и IBM опровергли этот устоявшийся стереотип. Консорциум ученых этой компании, проиндексировав порядка 1.4 миллиарда уникальных документов (на 200 миллионах уникальных web-страницах), с уверенностью заявили, что Сеть уже давно перестала быть похожей на паутину.

Паутина здесь имеется в виду логическая. То есть, насколько хорошо связаны странички и документы между собой, в основном ссылками, указанием источников или "родительских" web-страниц. Отныне достовернее будет называть Интернет World Wide Bow Tie ("галстук-бабочка"). Теория утверждает, что лишь некоторые части Сети связаны между собой, а довольно крупный ее пласт просто является оторванным и никак не связанным с центром куском. Центром можно назвать лишь процентов 30% сайтов. Именно эти 30% по своей логике напоминают паутину. Здесь из каждой странички можно попасть в каждую. Именно эту часть Интернета условно назвали "узлом галстука" или ядром. Согласно исследованиям, 24% процента сайтов являются "отправными страницами". Они, в конечном счете, приведут к ядру, но с ядра на них попасть невозможно. Такую же долю в 24% составляют конечные или целевые страницы. В них можно попасть с ядра, но из них нельзя прийти к ядру. Наконец, самый ужасный итог - это 22% процента исследованных страниц, которые полностью изолированы от ядра.

Казалось бы, чем это грозит простым пользователям и какие выводы можно сделать из этих научных домыслов? Попытаемся представить себе web-сайты каждой из описанных категорий. 30 процентов "паутины" составляют связанные между собой страницы. Например, те же самые поисковые машины, готовые предложить поискать запрашиваемую информацию еще и у коллег. Отправные страницы, например, могут быть информацией о каком-то конкретном товаре. Туда легко попасть с узла, но не обязательно имеется обратный путь. Пример наоборот, то есть конечные страницы - это какие-то услуги, в частности по поиску чего-то в Сети. Допустим, поисковая система "А" принадлежит фирме "Б". Необязательно, что на страничке "А" мы найдем упоминание о "Б", но практически наверняка с "Б", владельца "А", можно попасть на сайт "А". А 22% процента изолированных страниц? Фактически, это и есть та самая никому не нужная и бесполезная большинству людей информация, которую и увязать с чем-либо сложно. Пример, самый простой - это домашние страницы разных людей. И действительно, по оценкам вышеупомянутых исследователей, 30% информации в Интернете - это "макулатура".

Что же получается, каждая третья страница, имеющая свой уникальный домен, создается людьми, группами, организациями, лишь для того, чтобы просто заявить о своем присутствии в Интернете? Миллионы личных домашних страничек, сайтов любимых собак, кошек, морских свинок. Все это продолжает увеличиваться в геометрической прогрессии, снежным комом, несущимся с горы. Пора бы уже подумать о создании интернет-комитета, оценивающего уникальность и полезность той или иной странички и ее пригодность на размещение в Сети. Иначе вместо бантика "галстук-бабочка" скоро образуется настоящий гордиев узел, развязать который не сможет ни одна поисковая машина.

Как ищут поисковые машины

Классическая поисковая машина состоит из базы данных и программного обеспечения, которое призвано эту базу данных постоянно обновлять и удалять "мертвые" ссылки. Кроме того, в каждой поисковой машине существует уникальный алгоритм, который призван определить релевантность содержимого базы данных запросу пользователя. Начнем с "Паука" (Spider), который создает и обновляет базу данных. Итогом его работы является гипер-ссылка (URL) и информация о ней, которая будет храниться в базе и, сопоставляя которую с запросом пользователя, поисковая машина будет высчитывать релевантность. Кстати, релевантность - это и есть соответствие запросу, измеряемое числом в диапазоне от 0 до 1. "Паук" может добавлять в базу только ключевые слова web-страницы (то есть содержимое тэга <TITLE>, которое вводит сам web-дизайнер). Итогом поиска на любой запрос в такой поисковой базе могут стать сотни тысяч ссылок. Потому что очень часто создатели сайтов добавляют в тэг заглавия все, что придет им в голову. Все это для того, чтобы их сайт посещали, и счетчики постоянно увеличивались, пусть пользователь и не найдет ничего подобного на самой страничке, но он ее откроет. Лучшие модификации "Паука" добавляют в базу полное содержимое web-страницы. Теперь нам удастся отбросить весь мусор, где заголовок не соответствует содержимому. Для сложных с точки зрения грамматики языков (например, русского) приятно было бы видеть учет морфологии. Неплохо, если "Паук" может просматривать и собственно тэги. Это позволит включить в поиск заголовки тэгов, ссылки и подписи к картинкам (которые появляются на экране, лишь если навести курсор мыши на изображение). "Паук" способен заносить в свою базу фреймы, но только покадрово. Ему недоступны редиректы, а зачастую и скрипты. Редкий подобный механизм способен включить в поиск базу данных, которая загружается с сервера по требованию пользователя на сайте. Обыкновенный "Паук" не способен проникнуть на сайты, защищенные паролем. Мощный "Паук" способен обойти всю сеть за несколько дней. Показатель скорости работы "Паука" - это количество "мертвых" ссылок, которые выдает поисковый сервер на ваш запрос. А теперь простой вопрос: каким образом "Паук" попадет на те самые 22% процента изолированных от остальной части Сети web-сайтов? Первый вариант - никак. Второй - случайным образом (что маловероятно).

Теперь собственно о самой базе данных. Чем больше ее размер и чем качественнее осуществлено ее наполнение, тем лучше будут итоги поиска. Есть три варианта ее наполнения. Первый - это собственно итог работы робота-паука. Преимущества этого способа - объем и территория охвата поискового сервера. Недостатки - несовершенство самого робота, перечисленные выше, и качество базы. Например, очень часто на запрос "тайский бокс" из такой базы для вас "вынут" и ссылки на туристические агентства, где это словосочетание упоминается лишь однажды, но стопроцентно соответствует введенному запросу. Другой способ - это создание базы данных вручную. Когда либо пользователи на добровольных началах, либо самостоятельно web-дизайнеры наполняют базу информацией. Здесь качество поиска будет выше, но объем охвата несоизмеримо ниже. Робот переберет всю Сеть за несколько дней, а сколько понадобится человеко-часов, чтобы осилить хотя бы 200 миллионов web-сайтов? Сейчас развивается направление, при котором базу наполняют сами создатели сайтов, причем за деньги. Идеальный способ с точки зрения качества поиска. Никто не захочет платить свои кровные денежки ради того, чтобы на его сайт приходили случайные люди. Главный минус - это небольшие размеры такой базы. В основном, это касается специализированных поисковых машин, которые ищут информацию, интересную с точки зрения электронной коммерции.

Наконец, третья обязательная составляющая любой поисковой машины - алгоритм определения релевантности ссылки запросу. Здесь четкого единства не существует. Многие выводят список сайтов по последней дате обновления информации. Есть подход, при котором поисковый сервер ведет статистику переходов с него на ту или иную страничку и ставит ее выше в списке. Или считается число совпадений запроса и содержимого страницы. Безусловно, если словосочетание "теория относительности" встречается в тексте страницы 13 раз, то шансов на более исчерпывающую информацию куда больше, чем если это случайное единичное совпадение. Есть и куда более сложные алгоритмы, например, когда учитывается расстояние между словами запроса. Например, в "теория относительности" такое расстояние равно нулю. А вот если встретится "теория преломления временного континуума с точки зрения относительности", то расстояние будет равняться пяти (предлог, союз и другие связующие слова в учет не идут). Или же расстояние от начала до первого вхождения искомой фразы.

В Интернете на сегодняшний день существует уже порядка 180 поисковых машин. Не тратя времени на хорошо всем известные поисковики, укажем лишь несколько самых интересных:

http://www.askjeeves.com/

Ask Jeeves - это поисковая система, в индексировании результатов которой принимают участие люди. Если для этого не хватает собственной базы данных, Ask Jeeves привлекает для этого результаты других поисковых систем. Ask Jeeves также предоставляет свои результаты AltaVista. Поисковая система начала работать в июне 1997 года.

http://www.directhit.com/

Direct Hit измеряет количество кликов, которые веб-сайт получил в результате отображения в поисковых системах (используются результаты сразу нескольких поисковых систем - самой Dirext Hit и ее партнеров, например HotBot). Сайты, по которым больше кликают, получают, соответственно, и лучший рейтинг. Эта поисковая система также известна под названием "поисковая система популярности".

http://www.alltheweb.com/

Ранее известная как All The Web, эта поисковая система ставит своей целью проиндексировать все страницы в Интернете. FAST Search является первой поисковой системой, которая преодолела рубеж индексации в 200 млн страниц, и в настоящее время является одной из крупнейших поисковых систем в мире.

http://www.goto.com

GoTo продает позиции в своей базе данных. Чтобы быть размещенной в этой базе данных, компания должна заплатить деньги. Кроме того, компании могут покупать себе более высокие места в рейтингах. По мнению GoTo, это ведет к большей релевантности ссылок. Неоплаченные результаты предоставляет Inktomi. Поисковая система начала свою деятельность в 1997 году.

http://www.northernlight.com/

Northern Light также является одной из самых крупных поисковых систем. Northern Light имеет специальную коллекцию документов из различных специализированных баз данных, журналов, новостей, которые недоступны для поисковых систем. Поиск по этим документам можно осуществлять бесплатно, однако для их просмотра существует плата - до 4 долларов.

http://www.realnames.com/

RealNames является альтернативой используемой сейчас системе веб-адресов. В RealNames можно, напечатав в строке браузера слово Nike, попасть на веб-сайт Nike.

И еще немного информации о том, каковы истинные объемы проиндексированных (занесенных в базу данных) страниц в той или иной поисковой системе. Если верить данным Яndex, то его собственная база насчитывала на начало 2001 года более 31 миллиона документов. Rambler может похвастаться 12 миллионами, "Апорт!" - 14 миллионами документов. Популярная во всем мире AltaVista перевалила в индексации уже 250 миллионов, а Google 1.25 - миллиарда страниц.

Как ищем мы

По итогам далекого 1998 года, лишь 78% пользователей узнают о сайтах с помощью поисковых систем. 53% черпают информацию от своих знакомых и еще 44% предпочитают web-обзоры в специализированных изданиях. Рядовой пользователь может объяснить эти цифры очень просто - гигантским числом ссылок, которые выдает поисковая машина на запрос. Никому не хочется перебирать несколько тысяч предложенных документов в поисках нужной информации. А происходит это исключительно из-за неумения пользователей правильно составлять запросы. Постулаты поиска гласят, что на хороший запрос существует не более 10-30 ссылок. Не верите? Возьмем простой пример: слово "капуста". Естественно, что на одно это слово будет выведена не одна тысяча ссылок. А вот если сформулировать вопрос как "белокочанная капуста", то вы сразу отсеете сайты, где говорится о том, чем лучше кормить кроликов, и новорусские детективы, где это слово хоть и встречается часто, но имеет совершенно другое значение. Не пытайтесь задавать поисковой машине вопросы, скорее ей нужна качественная цепочка ключевых слов. Пытайтесь вспомнить в том, что ищете, максимальное количество специфических слов, которые не относятся к другим отраслям. Речь, скорее, идет не о вопросе, а о сжатом ответе, который вы даете на свой вопрос и о котором хотите узнать больше. Если вас не устроило содержимое найденного, то стоит попробовать поискать снова, дополнив свой первоначальный запрос полученной, но пока недостаточной информацией.

Второй аспект, который никогда не стоит игнорировать, - это язык запросов, которым обладает каждая поисковая машина. Простой пример. Вы хотите найти в Сети информацию о каком-то человеке. Но вдруг случается так, что у него есть очень известный однофамилец. Допустим, это премьер-министр Болгарии. В итоге, ваш запрос просто тонет в горах официальной хроники международных отношений, которые вам совершенно ни к чему. Самое время поставить отрицание "И-НЕ", чтобы исключить все эти ненужные вам ссылки. Некоторые не знают, что если фразу заключить в кавычки, то поисковый сервер будет искать точное соответствие, невзирая на предлоги и падежи.

Тесты для настоящих поисковиков

Уже дважды Яndex проводил интересную акцию - чемпионат по поиску в Интернете. Здесь нужно было не просто найти, а найти первым. Участникам задавался довольно специфический вопрос и предлагалось найти ответ в Интернете (с использованием любой поисковой машины) и указать источник сведений (URL). Вот всего несколько вопросов: "Как у балийских воинов называется высшая степень состояния боевого транса?", "Во сколько пригородный поезд из Вязьмы приходит в Калугу-I?",

"В каком городе США до сих пор работает трамвай, приводимый в движение проложенным в земле канатом?" или "Какому древнегреческому богу был посвящен храм, на колонне которого нацарапал свое имя лорд Байрон?". На некоторые из них знатоки могли и знать ответ заранее. Но это лишь отчасти упрощало их задачу в поиске URL, который и считался неотъемлемой частью ответа. Самым сложным оказался вопрос о трамвае. Первый ответ поступил "лишь" через 72 секунды. Самый быстрый ответ пришел через 23 секунды, а среднее время, за которое давался правильный ответ, равнялось в первом туре турнира 1 минуте и 41 секунде! Во втором туре участникам предстояло восстанавливать текст с пропущенными словами на самые различные темы. Это были однозначные даты, словосочетания и цифры. Идея довольно интересная, способная хотя бы участников задуматься о том, правильно ли они ищут в Интернете. Ну а вы можете просто попробовать ответить на любой из вопросов хотя бы минуты за две и узнать ваш уровень навыков по поиску в Интернете.

Источник: "Компьютер Price", http://www.comprice.ru

 


Copyright © "Internet Zone", http://www.izcity.com/, info@izcity.com