Теория поиска

В начале было слово, и слово было на сайтах, и записано оно было в языке гипертекстовой разметки. И был язык этот настолько удобен и прост, что количество слов в Интернете стало расти в геометрической прогрессии. И срочно потребовались механизмы, которые могут найти именно то слово, которое нужно, и механизмами этими стали поисковые системы.

Былое
История поисковых систем совсем молода и начинает свой отсчёт с 1993 года. В этом году была запущена первая поисковая система Aliweb, которая работает и поныне (см. рисунок). Правда использование её сильно затруднено из-за сильнейшего морального устарения.
В 1994 году, практически сразу после массового распространения Интернета, была создана первая из популярных поисковых систем — Yahoo! В отличие от своих предшественниц, она позволяла пользователям искать нужное по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом. Кроме того, это был первый поисковик, о котором стало известно в широких кругах. В том же 1994-м был запущен поисковый сайт Lycos, разработанный в университете Карнеги-Мелона.

Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. Поначалу, когда сайтов было не слишком много, всё было прекрасно. Но потом ситуация становилась всё сложней и запутанней, отыскать нужный ресурс было уже проблематично. Рубрик становилось всё больше и больше, вложенность категорий всё росла и росла. В конце концов, для поиска сайта группы «Scooter» приходилось проделывать путь в 7-8 подкатегорий, а если в какой-то категории пользователь «сворачивал» не туда, то его ждало полное разочарование.
Для выхода из ситуации поисковые системы постепенно начали переходить на «поисковые указатели». В отличиие от каталогов, поисковые указатели формируют связки «запрос-ответ», и к «ответам» могли приписываться несколько разных ресурсов. К сожалению, вскоре выяснилось, что такая система очень трудна не только для человека, но и для машины: на пользователя нередко высыпались сотни тысяч ссылок и документов, которые далеко не всегда подходили запросу даже по смыслу. Возможность выбора поисковиком истинно полезных ссылок из горы первоначального «шлака» и стала в определяющей.
В дальнейшем большинство поисковых систем перешло на четырехэтапную структуру работы. Первые три этапа почти для всех поисковых систем одинаковы. Сначала поисковая система индексирует (собирает) информацию и заносит её в базу данных. Потом движок поисковика разрезает все слова страниц на составляющие через морфологические механизмы. После этого поисковик по запросу выдаёт результаты, ставя в самое начало сайты, имеющие наибольший поисковый вес, большее совпадение по запросу фразы, наиболее свежую дату обновления и т.д.
Сейчас каждая поисковая система старается предложить свои механизмы ранжирования документов, чтобы занять лидирующее положение на рынке сайтов-поисковиков. Во многих поисковых системах на результаты поиска влияет около 200-300 факторов, которые тщательно скрываются от конкурентов.

Опора Рунета
Большинство «русскоязычных» поисковых систем индексируют и ищут тексты на нескольких языках — украинском, белорусском, английском и других. Отличаются же они от «всеязычных» механизмов, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык.
По степени популярности в Рунете сайты-поисковики ранжируются так:
Яндекс (44,4%)
Google (32%)
Rambler (10,6%)
Mail.ru (7,3 %)
Nigma (0,5 %)
Yahoo! (0,4%)
Gogo.ru (0,3%)
Aport (0,2%)
MSN (0,2%)
Что же касается «мировых» показателей, то... по данным за последний отчётный год, опираясь на рыночную долю поисковой системы, ситуация выглядит следующим образом:
1-е место занимает Google с долей в 77,04%;
2-е место — у Yahoo (12,46%);
3-е место — MSN (3,33%);
4-е место — Microsoft Live Search (2,57%);
5-е место — AOL (2,12%);
6-е место — Ask (1,38%);
7-е место — AltaVista (0,13%);
8-е место — Excite (0,07%);
9-е место — Lycos (0,02%);
10-е место — All the Web (0,02%).
Как мы видим, рынок в сфере поисковых машин очень перспективен и весьма прибылен. Правда, основные игроки на нём уже определены и вряд ли сдадут свои позиции без боя.


Рекомендуем почитать: