Книга: SEO для клиента
Как работают поисковые машины?
Разделы на этой странице:
Как работают поисковые машины?
Поисковая система – это программа с веб-интерфейсом, которая позволяет пользователю успешно искать информацию, расположенную на колоссальном количестве сайтов в Сети. Разберемся, как это работает. Сразу же отметим, что не будем углубляться в детали, коснемся данного вопроса поверхностно, чтобы возникло понимание работы (без уточнения технических моментов, ненужных простому обывателю).
Индексация
Для того чтобы показывать пользователю в ответ на запросы ссылки на сайты, содержащие нужную информацию, поисковой системе необходимо достоверно знать, что находится на страницах сайтов. Чтобы получить информацию, требуется посетить все страницы всех сайтов и скачать информацию. Но как это сделать? Где взять список всех сайтов?
Проблемы на самом деле не существует. Интернет – это сеть, состоящая из страниц, которые ссылаются друг на друга. Поисковой системе достаточно знать небольшое количество адресов крупных рейтингов и каталогов сайтов, чтобы по ним составлять списки страниц для скачивания.
То есть первая задача поисковой системы – составить что-то наподобие предметного указателя, в котором будут адреса всех страниц Интернета. Нужно понимать, что, если о вашем сайте никто не знает, на него никто не ссылается, то поисковой системе будет очень сложно отыскать и проиндексировать его.
Когда составлен список страниц, поисковой системе необходимо скачать всю информацию со всех страниц. Данный процесс называется индексацией. Специальные программы скачивают новые данные или обновляют уже скачанные, удаляя мусор и помещая информацию в базу данных. Сканирование Интернета идет круглосуточно семь дней в неделю.
Программы, которые постоянно сканируют сайты, собирают новые данные в отдельное временное хранилище; когда новой информации набирается достаточное количество, производится апдейт. По сути, это обновление основной базы данных, в которой хранится вся информация поисковой системы. То есть в нее вносятся изменения на основе данных, которые собрали программы-сканеры.
Алгоритм
Каждая поисковая система хранит в своем индексе несколько миллиардов документов. Когда пользователь задает запросы, поисковая машина из базы данных выбирает те документы (страницы), которые подходят для ответа. Для простоты будем считать, что из базы данных изымаются адреса, на страницах которых содержатся заданные пользователем ключевые слова.
В результате работы программы получается достаточно большой список страниц, которые могут удовлетворять запросу пользователя. Возникает вопрос: какие страницы показывать выше, а какие – ниже? К списку страниц применяется алгоритм ранжирования, определяющий те из них, которые дадут наиболее качественный ответ на запрос пользователя. Именно такие страницы будут показываться на первых местах в поисковой системе.
В последнее время поисковыми системами используется машинное обучение для ранжирования сайтов в результатах выдачи. Давайте рассмотрим работу данного алгоритма на абстрактном примере.
Представим, что нам нужно научить робота определять, какие яблоки спелые (хорошие), а какие – нет (плохие). Робот умеет определять некоторые свойства яблока (рис. 9.1).
Рис. 9.1. Свойства яблока
Роботу даются для анализа два яблока: хорошее и плохое. Робот анализирует их свойства. Далее мы учим робота, прописываем, что у хорошего яблока должен быть красный цвет, оно должно быть твердым, содержать много сахара и т. п. Так же рассказываем роботу, что плохое яблоко содержит мало сахара, оно нетвердое, маленькое, содержит много кислоты.
В результате мы получаем алгоритм, на основе которого, анализируя свойства яблока, робот может с высокой долей вероятности отнести то или иное яблоко к хорошему или плохому. Теперь роботу можно давать любые яблоки – и он, делая замеры, будет сортировать их на хорошие и плохие.
Аналогично происходит и в поисковой системе. Существует подразделение специально обученных сотрудников, которые обучают алгоритм, то есть вручную просматривают сайты по запросам, относят их к хорошим (релевантным) и плохим (нерелевантным). На основе такой разметки и анализа более 800 факторов происходит обучение поискового механизма. Иначе говоря, робота учат отличать релевантные сайты от нерелевантных. А дальше робот уже на основе полученных знаний самостоятельно может определить, насколько релевантна та или иная страница конкретному запросу пользователя.
Цифра, которая определяет релевантность, является не целым числом. В списке страниц, которые были подобраны для ответа пользователя, напротив каждого адреса прописывается данная цифра. Далее проводится сортировка списка по значению релевантности – и на первых местах поисковой системы показываются наиболее релевантные страницы.
Нужно отметить, что, кроме основного алгоритма, существует множество дополнительных, которые изменяют результаты поиска. Например, в результаты могут быть добавлены картинки, видеоролики и т. п. Кроме того, ряд фильтров способен удалять страницы из результатов выдачи. Данные фильтры накладываются в основном на недобросовестные сайты, которые были уличены поисковой системой в попытках повлиять на алгоритм ее работы.
Региональная выдача, персонализация
Необходимо сказать пару слов про изменения выдачи в зависимости от того, какой пользователь и откуда задает запрос. Поисковые системы умеют определять, откуда пользователь выходит в Сеть, они понимают, сидите вы за компьютером в Перми или Магадане. Естественно, для части запросов, например «доставка пиццы», логичным было бы показывать вам сайты из вашего региона (те, которые занимаются доставкой пиццы именно в вашем городе). Для этого поисковые системы научились относить сайты к тому или иному региону.
В итоге поисковая система делает связку вашего региона и регионов сайтов, которые релевантны вашим запросам. В результатах выдачи приоритетно показываются сайты, которые имеют тот же регион, с которого вы выходите в Сеть. Это улучшает результаты поиска и делает использование поисковых систем более удобным.
Кроме этого, поисковая система имеет возможность вести историю вашего поведения и ваших запросов. Она запоминает, на какие сайты вы ходили, где проводите больше времени, какие сайты добавляете в закладки и т. п. На основе анализа собранных данных подстраивается под ваши предпочтения, старается показать наиболее интересные именно вам сайты. Именно поэтому часто поиск с двух компьютеров в одном и том же месте выдает разные результаты.
- Как работают поисковые машины?
- Почему какая-то компания находится выше нас в результатах поисковой выдачи?
- От чего зависит цена на продвижение?
- Почему у разных компаний цена за продвижение по одному и тому же списку ключевых слов разная?
- Почему надо обновлять информацию на сайте?
- Зачем нужно изменять сайт?
- Почему надо предупреждать оптимизаторов о внесении изменений в сайт?
- Как скоро будет виден результат?
- Каковы сроки продвижения?
- Можно ли продвинуть сайт только по 1–3 запросам?
- Можно ли продвинуть сайт только в «Яндексе» (Google, Mail)?
- Я продвигаюсь по запросу «розовый слон». Почему меня нет в топе по запросу «слон розовый»?
- Я проверил позиции в «Яндексе»: они не совпадают с теми, которые прислал исполнитель в отчете
- Кто будет общаться со мной в процессе оказания услуг?
- Как я могу контролировать ход работ по проекту?
- Зачем нужно отслеживать звонки и обращения с сайта?
- Как отследить звонки и обращения с сайта?
- У сайта отличные позиции, выросла посещаемость, но нет звонков, заказов. Почему?
- Что будет, если мы откажемся от продвижения сайта?
- Комплексные услуги – польза или вред?
- Я продвигаю два сайта по одному и тому же запросу, почему для разных сайтов цена запроса разная?
- Мы планируем кардинально переделать сайт – может ли это сказаться на позициях?
- Глава 2 Виртуальные машины Virtual PC 2004
- Глава 3 Виртуальные машины VMware Workstation
- Глава 4 Виртуальные машины Parallels Workstation
- Изменение состояния виртуальной машины
- Язык запросов поисковой машины Яндекс
- Поисковые машины и каталоги как инструменты раскрутки «боевых» интернет-ресурсов и наполнения их контентом
- Влияние пользователей на вычислительные машины и программное обеспечение
- Поисковые системы и их особенности
- Короткие поисковые запросы
- Виртуальные машины с полной эмуляцией гостевой ОС
- Создание виртуальной машины
- Перемещение и копирование виртуальной машины