Книга: SEO для клиента

Как работают поисковые машины?

Как работают поисковые машины?

Поисковая система – это программа с веб-интерфейсом, которая позволяет пользователю успешно искать информацию, расположенную на колоссальном количестве сайтов в Сети. Разберемся, как это работает. Сразу же отметим, что не будем углубляться в детали, коснемся данного вопроса поверхностно, чтобы возникло понимание работы (без уточнения технических моментов, ненужных простому обывателю).

Индексация

Для того чтобы показывать пользователю в ответ на запросы ссылки на сайты, содержащие нужную информацию, поисковой системе необходимо достоверно знать, что находится на страницах сайтов. Чтобы получить информацию, требуется посетить все страницы всех сайтов и скачать информацию. Но как это сделать? Где взять список всех сайтов?

Проблемы на самом деле не существует. Интернет – это сеть, состоящая из страниц, которые ссылаются друг на друга. Поисковой системе достаточно знать небольшое количество адресов крупных рейтингов и каталогов сайтов, чтобы по ним составлять списки страниц для скачивания.

То есть первая задача поисковой системы – составить что-то наподобие предметного указателя, в котором будут адреса всех страниц Интернета. Нужно понимать, что, если о вашем сайте никто не знает, на него никто не ссылается, то поисковой системе будет очень сложно отыскать и проиндексировать его.

Когда составлен список страниц, поисковой системе необходимо скачать всю информацию со всех страниц. Данный процесс называется индексацией. Специальные программы скачивают новые данные или обновляют уже скачанные, удаляя мусор и помещая информацию в базу данных. Сканирование Интернета идет круглосуточно семь дней в неделю.

Программы, которые постоянно сканируют сайты, собирают новые данные в отдельное временное хранилище; когда новой информации набирается достаточное количество, производится апдейт. По сути, это обновление основной базы данных, в которой хранится вся информация поисковой системы. То есть в нее вносятся изменения на основе данных, которые собрали программы-сканеры.

Алгоритм

Каждая поисковая система хранит в своем индексе несколько миллиардов документов. Когда пользователь задает запросы, поисковая машина из базы данных выбирает те документы (страницы), которые подходят для ответа. Для простоты будем считать, что из базы данных изымаются адреса, на страницах которых содержатся заданные пользователем ключевые слова.

В результате работы программы получается достаточно большой список страниц, которые могут удовлетворять запросу пользователя. Возникает вопрос: какие страницы показывать выше, а какие – ниже? К списку страниц применяется алгоритм ранжирования, определяющий те из них, которые дадут наиболее качественный ответ на запрос пользователя. Именно такие страницы будут показываться на первых местах в поисковой системе.

В последнее время поисковыми системами используется машинное обучение для ранжирования сайтов в результатах выдачи. Давайте рассмотрим работу данного алгоритма на абстрактном примере.

Представим, что нам нужно научить робота определять, какие яблоки спелые (хорошие), а какие – нет (плохие). Робот умеет определять некоторые свойства яблока (рис. 9.1).


Рис. 9.1. Свойства яблока

Роботу даются для анализа два яблока: хорошее и плохое. Робот анализирует их свойства. Далее мы учим робота, прописываем, что у хорошего яблока должен быть красный цвет, оно должно быть твердым, содержать много сахара и т. п. Так же рассказываем роботу, что плохое яблоко содержит мало сахара, оно нетвердое, маленькое, содержит много кислоты.

В результате мы получаем алгоритм, на основе которого, анализируя свойства яблока, робот может с высокой долей вероятности отнести то или иное яблоко к хорошему или плохому. Теперь роботу можно давать любые яблоки – и он, делая замеры, будет сортировать их на хорошие и плохие.

Аналогично происходит и в поисковой системе. Существует подразделение специально обученных сотрудников, которые обучают алгоритм, то есть вручную просматривают сайты по запросам, относят их к хорошим (релевантным) и плохим (нерелевантным). На основе такой разметки и анализа более 800 факторов происходит обучение поискового механизма. Иначе говоря, робота учат отличать релевантные сайты от нерелевантных. А дальше робот уже на основе полученных знаний самостоятельно может определить, насколько релевантна та или иная страница конкретному запросу пользователя.

Цифра, которая определяет релевантность, является не целым числом. В списке страниц, которые были подобраны для ответа пользователя, напротив каждого адреса прописывается данная цифра. Далее проводится сортировка списка по значению релевантности – и на первых местах поисковой системы показываются наиболее релевантные страницы.

Нужно отметить, что, кроме основного алгоритма, существует множество дополнительных, которые изменяют результаты поиска. Например, в результаты могут быть добавлены картинки, видеоролики и т. п. Кроме того, ряд фильтров способен удалять страницы из результатов выдачи. Данные фильтры накладываются в основном на недобросовестные сайты, которые были уличены поисковой системой в попытках повлиять на алгоритм ее работы.

Региональная выдача, персонализация

Необходимо сказать пару слов про изменения выдачи в зависимости от того, какой пользователь и откуда задает запрос. Поисковые системы умеют определять, откуда пользователь выходит в Сеть, они понимают, сидите вы за компьютером в Перми или Магадане. Естественно, для части запросов, например «доставка пиццы», логичным было бы показывать вам сайты из вашего региона (те, которые занимаются доставкой пиццы именно в вашем городе). Для этого поисковые системы научились относить сайты к тому или иному региону.

В итоге поисковая система делает связку вашего региона и регионов сайтов, которые релевантны вашим запросам. В результатах выдачи приоритетно показываются сайты, которые имеют тот же регион, с которого вы выходите в Сеть. Это улучшает результаты поиска и делает использование поисковых систем более удобным.

Кроме этого, поисковая система имеет возможность вести историю вашего поведения и ваших запросов. Она запоминает, на какие сайты вы ходили, где проводите больше времени, какие сайты добавляете в закладки и т. п. На основе анализа собранных данных подстраивается под ваши предпочтения, старается показать наиболее интересные именно вам сайты. Именно поэтому часто поиск с двух компьютеров в одном и том же месте выдает разные результаты.

Оглавление книги

Оглавление статьи/книги

Генерация: 5.494. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз