СОЛО на клавиатуре

Найди меня!

"Вечерняя Москва"
14.10.2010

Поисковики совершенствуются до полного беспредела

Современная Сеть немыслима без поисковиков. Начинавшие довольно скромно, они быстро перегнали каталоги и стали основным ориентиром на просторах Инета.

Как же менялись поисковые механизмы и чего нам от них ждать в будущем? К Интернету (в его нынешнем, а практически, каноническом виде — web-страница, поисковая строка, текстово-графическое отображение информации) я пришел еще в «дояндексовские времена». Тогда, в 1996-м, у меня не было еще своего компа, но имелся доступ к служебной машине.

Общий аскетизм тогдашнего набора российского вебсерфера — скудность информации в Рунете, отсутствие альтернативы Рамблеру/Апорту с их довольно кондовым поисковым механизмом — приводили к тому, что знакомство это началось и проходило по большей части на англоязычных поисковиках.

Тем удивительней было узнать, что в их основе лежат разработки еще полувековой давности.

Все начиналось с микрофильмов

История возникновения поисковых систем берет свое начало в середине аж 1945 года, когда американский ученый Вэннивер Буш написал знаменитую статью «Пока мы мыслим», в которой предсказал появление персонального компьютера и сформулировал идею гипертекста.

Сам ученый занимался и созданием прототипа современной поисковой системы и в далеком 1938-м разработал и запатентовал устройство для быстрого поиска информации на микрофильмах.

На практике эти идеи реализовали в 60-х — в недрах Агентства передовых исследовательских проектов (ARPA) при Министерстве обороны США. Изначально соединение для передачи зашифрованных данных планировалось использовать в военных целях, но низкий уровень безопасности передачи информации заставил военных отказаться от продолжения разработок.

К концу 80-х идею создания компьютерной сети воскресили несколько университетов США, сформировав свою объединенную библиотеку образовательной информации. В этот период объем доступной информации был относительно небольшим, а число интернетпользователей невелико — в большинстве случаев это были сотрудники различных университетов и лабораторий.

Сеть использовалась исключительно в научных целях, и задача поиска информации в ней была далеко не так актуальна — все данные были упорядочены посредством размещения сайтов в каталогах по тематикам и рубрикам. Тем не менее обойтись лишь каталогами уже тогда было сложно.

И пришел Archie

Первая в мире поисковая машина, разработка студентов из Монреаля 20-летней давности, занималась индексированием FTP-архивов (отсюда и название — Archie) и предоставляла пользователям возможность искать и находить в этих архивах всевозможные файлы.

При этом требовалось обладать изрядной смекалкой, чтобы получить требуемый результат, так как Archie индексировал только имена файлов. Добавьте к этому частый выход из строя и ограниченное время работы первых версий (к Archie можно было обращаться раз в месяц, не чаще). Но при всех недостатках и чудовищно ограниченном функционале Archie пользовался неимоверной популярностью — правда, преимущественно среди ученых, студентов и профессионаловкомпьютерщиков.

С началом эпохи WWW на сцену вышли новые персонажи. В 1993 году появилась удобная программа визуализации гипертекста Mosaic под UNIX (проще говоря, прототип современного веб-браузера) и одновременно с ней ныне уже не существующий Wandex — первый поисковик для вебсайтов, коих к тому времени насчитывалось чуть более 600. Как и у всех первых сервисов, система поиска была в нем столь несовершенна, а выдаваемая информация — хаотична, что на первых порах его реальными конкурентами оставались каталоги страниц: сайты с вручную отсортированными коллекциями ссылок на веб-ресурсы.

Одним из таких сайтов и стал Yahoo (www.yahoo.com), открывшийся в 1994 году. После того как число сайтов в Yahoo значительно увеличилось, в него была добавлена возможность поиска информации по каталогу. Это еще не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге.

Полноценный поиск появился у проекта WebCrawler, стартовавшего в том же году. В отличие от своих предшественников он позволял искать по любым ключевым словам на любой веб-странице — с тех пор это стало стандартом во всех основных поисковых системах второго поколения. До этого поисковики индексировали только заголовки страниц и информацию из метатегов.

К нему присоединились, а впоследствии начали главенствовать крупные поисковые системы Google, AltaVista, Lycos, Infoseek, Excite в западном сегменте Сети и Yandex, Rambler, Aport в Рунете.

По ранжиру — стройсь!

Но главным была все же не тотальная индексация, а механизм ранжирования. Получив ключевые слова, поисковик не просто выдавал сотни ссылок в случайном порядке, а пытался определить, ссылки на какие странички следует расположить первыми. Так, если искался «модем», то страница, в которой это слово упоминалось 5 раз, получала приоритет перед той, где модем упоминался лишь однажды, и отображалась выше в списке результатов. Для сортировки использовался и поиск слов-синонимов.

Начавшаяся борьба за посетителей привела к тому, что поисковые системы стали обрастать функциями и сервисами, превращаясь в веб-порталы.

Она же помогала порождать новые идеи для поисковых движков. Несколько лет пионером в области инноваций была AltaVista (www.altavista.com).

Она первой научилась индексировать странички не только на английском, но и на других языках мира и понимать конструкции, используемые в живой речи. Именно тогда, на год раньше Яндекса, пользователям Рунета стало доступно морфологическое расширение, избавившее их от необходимости вспоминать школьный курс грамматики. В итоге до появления Google AltaVista оставалась лидером по популярности.

Зародившийся в стенах Стэнфордского университета продукт совместного труда Лари Пэйджа и Сергея Брина использовал для ранжирования документов алгоритм PageRank. Идея его сводится к подсчету числа ссылок, ведущих на отдельно взятую страничку — проще говоря, чем больше страничек ссылаются на ваш сайт, тем выше он должен стоять в результатах поиска. Основной недостаток поисковиков второй генерации — неумение выделять главное — был преодолен.

В благодарность пользователи и вознесли Google (www.google.com) на пьедестал почета, и на сегодняшний день это самая популярная поисковая система в Сети: в ее базе проиндексированы десятки миллиардов документов — рекорд, с которым невозможно будет потягаться в обозримом будущем ни одному каталогу.

И куда без морфологии?

Проблемой российских поисковиков на заре их становления был поиск без учета морфологии слова («сапог» выдавал одно количество страниц, «сапоги» — совсем другое). Так, появившийся еще в 1996 году Рамблер (www.rambler.ru) вплоть до своей второй ревизии в 2001-м проигрывал по релевантности, т. е. степени соответствия запроса результату поиска всем остальным поисковикам Рунета (http://lenta.ru/internet/2001/03/15/ rambler_goes).

Впрочем, не всем — был еще Лист (www.list.ru), который принципиально не обрабатывал русскую морфологию. В итоге сейчас о Листе знают только специалисты по истории Рунета, а тогда, имея лишь Рамблер (Aport еще не индексировал весь Интернет), приходилось постоянно держать в уме окончания родов и множественных чисел, и временные затраты на поиск утраивались, а то и упятерялись. Единственной альтернативой, к счастью, ненадолго, была вышеупомянутая функция от AltaVista.

Определенным прорывом стал приход Яндекса (www.yandex.ru), который сразу полюбился благодаря своему точному и аккуратному морфологическому анализу, алгоритму оценки релевантности и возможности задавать вопросы «по-русски», вроде «где купить ноутбук»? Неудивительно, что на сегодняшний день эта система занимает лидирующие позиции в поисковом трафике Рунета с более чем 6 000 000 сайтов в базе и объемом индекса в десятки терабайт.

Она постоянно совершенствует свои алгоритмы (подробнее тут — http://saitcreate.ru/evolyuciyapoiskovyxalgoritmovyandeksa).

За ней в России идут Mail.ru, Google.ru и Rambler.ru.

Анти-"Угадай мелодию"

Но Сеть росла и развивалась. И соответственно происходила специализация технологий: появились поиск по новостям, первопроходцем в котором стал Google, запустивший еще в 2002-м службу Google News, поиск по текстам бумажных книг (переведенных в цифровую форму), по картинкам, по видео (портал YouTube и его многочисленные последователи). Наконец-таки реализовалась моя детская мечта — поиск композиции по музыкальному отрывку. Эту функцию взяла на себя открытая энциклопедия музыкальной информации MusicBrainz (http://musicbrainz.org), представляющая собой хранилище акустических отпечатков с метаданными, описывающих конкретную композицию. Наполнением базы занимаются сами пользователи, все основные данные считаются общественным достоянием.

В последнее время все популярней становятся методы кластерного анализа и метапоиска. В первом случае при запросе формируется список документов, разделенных на несколько множеств. Если вам, к примеру, нужна музыка, то фильтр уточнит, хотите вы ее слушать или скачать, в каком формате, какого жанра, а также то, чего вы с ней в принципе не предполагали делать (купить в интернетмагазине, скажем). Метапоиск (www.bastau.com/websitepromotion-searchenginesmetasearchsystems.htm) же объединяет возможности нескольких поисковых систем.

Наибольшую известность среди машин этого класса получила международная Clusty (http://search.yippy.com). В России при поддержке МГУ уже 5 лет работает поисковик Nigma (http://nigma.ru). В 2006 году открылась российская метамашина Quintura (www.quintura.ru), предлагающая визуальную кластеризацию в виде облака ключевых слов.

Кроме расширения области поиска, улучшался функционал, а также алгоритмы.

Так, Яндекс обзавелся системой поисковых подсказок, начал учитывать, откуда приходит запрос, и выдавать результаты, более интересные для пользователей соответствующего региона. А Google ввел Живой поиск, ускоряющий получение искомого результата в несколько раз.

От поиска документов — к поиску знаний

Оглядываясь назад, поражаешься пути, который поисковые системы преодолели со времен Archie. Тем не менее эволюция продолжается. Сейчас, при получении осмысленного ответа, может показаться, что поисковик вас понимает. На деле же он извлекает наиболее подходящую цитату из массива информации. Но темпы его развития не заставляют усомниться в том, что в следующие 20 лет мы перейдем к поиску знаний на основе технологий семантической Веб (http://ezolin.pisem.net/logic/semantic_web_rus.html). И тогда общение с поисковиком мало чем будет отличаться от общения с людьми, а вместо привычного вороха ссылок в ответ на каждый запрос мы будем получать только те, которые действительно важны и нужны.

Vladimir.Stepanov@vm.ru

В ТЕМУ

Кошерной бывает не только пища — с помощью Koogle (www.koogle.co.il) ортодоксальные иудеи смогут найти одобренный раввинами контент. А это значит, что почти никаких фотографий женщин (их считают непристойными), никаких ссылок на сайты, где есть запрещенные предметы домашнего обихода или рецепты блюд из свинины, и, конечно же, никакой работы по субботам.

Примечательно, что сайт не рассчитан на русскоязычных евреев — помимо версии на иврите, доступна только английская.

Сайт Генон (www.genon.ru) изначально разрабатывался как система, которая позволяет получать однозначный ответ на вопрос. Особенность ее в том, что она собирает и создает контент у себя на сайте. Для сбора и проверки информации привлекаются посетители и специалисты с других сайтов.

Предполагается, что базу Генона формируют вопросы, на которые есть однозначные, полные и актуальные ответы, не содержащие информационного мусора. Но иногда случаются и забавные вещи (узнайте, например, как быстро заснуть).

Еще один необычный поисковик — TinEye (www.tineye.com) специализируется на поиске изображений. Для получения результата в качестве образца достаточно загрузить даже миниатюру файла с низким разрешением.

В базе уже сегодня содержится более 1 000 000 000 изображений.

Автор: Владимир СТЕПАНОВ


← назадоглавлениедалее →

Оставить комментарий


Ваш комментарий будет опубликован после модерации.


Rambler's Top100
ErgoSolo
© 1997— «ЭргоСОЛО»
Дизайн: Алексей Викторович Андреев
Вебмастер: Евгений Алексеевич Никитин
Пишите нам:
Звоните нам по тел. +7 (495) 995-82-95. Мы работаем круглосуточно. Прямо сейчас на все Ваши вопросы готова ответить наша служба поддержки:
Круглосуточная трансляция из офиса «ЭргоСОЛО»

Поможем бросить курить
Все права на материалы, находящиеся на сайте ergosolo.ru, охраняются в соответствии с законодательством РФ, в том числе, об авторском праве и смежных правах.
Использование материалов сайта без разрешения ООО "ЭргоСоло" ЗАПРЕЩЕНО!