Как работает поиск Google? Иначе, чем вы думали

Перевод статьи Search works differently than you may think с любезного согласия Andreas Gal

Поиск в Сети – основной способ просмотра веб-страниц, но он работает совсем по-другому, чем вы могли бы предположить. Далее я постараюсь объяснить, как поиск работал в прошлом, почему он функционирует иначе сегодня и какую роль вы, пользователь поисковой системы, играете в этом процессе.

Сервисы, используемые вами для поиска, вроде Google, Yahoo и Bing, называются поисковыми системами. Само название предполагает, что запрос информации осуществляется по огромной базе (индексу) веб-страниц. Благодаря этому, можно найти все, что содержит слова, которые вы ищете. 20 лет назад поисковые системы действительно работали таким образом. Страницы постепенно “оседают” в индекс, что делает контент веб-страницы доступным для поиска текста.

По мере разрастания Сети, сейчас при поиске очень часто можно найти слово или фразу, соответственно, на все большем числе страниц. Люди не очень любят прокручивать огромные списки с результатами вручную, дабы найти искомые страницы, которые наилучшим образом соответствуют потребностям. Так, поиск по слову “door” (дверь) в англоязычном Google, например, дает более 1,9 миллиарда результатов. Непрактично - даже невозможно - посмотреть все результаты, чтобы найти наиболее релевантные страницы.

Чтобы помочь ориентироваться в постоянно растущей лавине информации, поисковые системы внедрили алгоритмы для ранжирования результатов по мере их актуальности. В 1996 году двое студентов-выпускников Стэнфорда, Ларри Пейдж и Сергей Брин, открыли способ использования информации, размещенной в Веб, для ранжирования результатов. Они окрестили его как PageRank.

Веб-страницы "повязаны" между собой ссылками. Каждая ссылка содержит якорный (анкорный) текст, который объясняет читателям, почему они должны перейти по ссылке. Пейдж и Брин обнаружили, что они могли бы оценить результаты путем анализа входящих ссылок на страницу, позволяя достаточно объективно "голосовать" за ее качество. Результат с большей вероятностью будет актуальным, если многие ссылки используют якорный текст, похожий на условия поиска. Впоследствии Пейдж и Брин основали поисковую компанию в 1998 году с целью коммерциализации идеи в Google.

Значения PageRank работали настолько хорошо, что они полностью изменили способ взаимодействия пользователей с результатами поиска. Поскольку PageRank предлагает наиболее значимые результаты в верхней части страницы, пользователи стали обращать меньше внимания на все, что ниже. Страницы, которые не отображаются на странице результатов, по сути, стали “невидимым”: пользователи перестали посещать их.

Ради интереса, попробуйте познакомиться с “невидимым вебом”: зайдите в Google и попробовать заглянуть дальше, чем первая страница результатов поиска. Малая часть пользователей когда-либо были за пределами первой страницы, и Google даже не удосужился отображать все 1,9 млрд результатов поиска по запросу “door”. Вместо этого, список останавливается на странице 63.

Совет. Для голосового поиска советуем воспользоваться Окей Гугл (Google Now) - мобильный сервис, доступный для установки на мобильные платформы и десктоп.

Издатели и коммерческие сайты, конкурирующие за попадание в топы результатов поиска, породили новый бизнес: поисковую оптимизацию (или SEO). Существует много различных методов SEO, но основная цель игры состоит в том, чтобы алгоритм PageRank работал в вашу пользу за счет увеличения числа входящих ссылок на нужную страницу и тюнинга якорного текста. С сайтов, конкурирующих для посетителей - и миллиардами доходов на кону - PageRank в итоге проиграл эту "гонку вооружений". Сегодня якорный текст ссылок не определяет наиболее значимые результаты и, как следствие, важность значения PageRank резко сократилось.

Поисковые системы постоянно уходили в сторону машинного обучения для ранжирования результатов. Ежегодно, используется 1,2 триллиона поисковых запросов в Google - это около 3 миллиардов долларов в день и 40 000 в секунду. Каждый поисковый запрос становится частью огромного потока запросов, и поисковик одновременно “видит” все то, что миллиарды людей ищут по всему миру. Для каждого ввода запроса предлагается широкий спектр результатов и Google помнит, какой из них считается наиболее актуальным. Затем поисковик  использует прошлые результаты поиска, чтобы узнать то, что наиболее актуально для "среднего" пользователя, чтобы обеспечить наиболее релевантные результаты в дальнейшем.

Поисковые системы могут удовлетворить 90% или около того запросов, используя предыдущие условия поиска и результаты. Поисковая система больше не ищет в интернете, в большинстве случаев. Вместо поиска результатов в индексе более предпочтителен результат предыдущих пользователей.

Этот сдвиг с PageRank к машинному обучению также изменил роль в процессах. Без ваших поисков и вашей выборки результатов соответственно - поисковик не смог бы обучиться и обеспечить будущее результаты для других пользователей. Каждый раз, когда вы используете поисковик, система использует вас для ранжирования результатов, причем в массовом масштабе. Это делает вас самым ценным активом.

Андреас Гал (Andreas Gal) - главный директор по технологиям в Mozilla. Он известен своим участием в нескольких проектах с открытым исходным кодом.

Советуем загрузить эти мобильные приложения: