Книга: Яндекс для всех

9.2. PageRank

9.2. PageRank

Наиболее ярким примером такого индекса цитирования служит PageRank. Как описывает теорию индекса Google — "если Страница А ссылается на Страницу В, то Страница А считает, что Страница В — важная страница". Текст ссылки не используется при расчете этого индекса. Зато наоборот, PageRank оказывает влияние на важность ссылок на страницу. Если на страницу указывают многие важные ссылки, то ее ссылки на другие страницы также становятся более важными. Для PageRank важными ссылками считаются ссылки, ведущие на сайт из каталогов DMOZ и Yahoo!.

Базовая формула для расчета значения PageRank чаще всего в соответствующих статьях бывает представлена в следующем виде:


где:

PRa — PageRank рассматриваемой страницы;

d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не попадет на следующий документ каким-нибудь другим образом);

N — общее количество документов;

PRi — PageRank i-й страницы, ссылающейся на рассматриваемую страницу;

Ci — общее число ссылок на i-й странице.

Значение PR находится в пределах от 0 до 10 и представлено целыми числами. Именно это значение можно увидеть в установленной панели инструментов, хотя действительное значение PR совсем иное. Для удобства и упрощения представления индекса цитирования реальные значения были приведены к значениям для пользователей. Точные данные о том, каким образом было выполнено это приведение, отсутствуют, но в качестве примера можно воспользоваться следующими данными (табл. 9.1).


Отсюда можно сделать один вывод — увеличить значение PR от 1 до 2 значительно проще, чем подняться со значения 4 до значения 5. Средние по известности сайты, чаще всего, имеют значение PR, равное 4 или 5. Значение 6 имеют хорошо "раскрученные" сайты. 7 или 8 — у ведущих брендов.

Приведенная здесь формула не говорит о том, что расчеты выполняются строго в соответствии с ней. На самом деле происходит постоянное усложнение алгоритма расчета, примером чему может служить осуществленное в ноябре 2003 года специалистами Google изменение алгоритма вычисления PageRank. Это изменение среди англоговорящих вебмастеров получило название "Florida". Однако Google не сделал никаких официальных заявлений по поводу того, что за изменения были внесены. На этом работа над изменениями не остановилась, в компании постоянно ведутся научные работы по модификации алгоритма PageRank.

О том, как рассчитывается показатель PageRank, написано много. Статьи на эту тему легко найти в Интернете (см., например: Chris Ridings, "Растолкованный PageRank", http://www.searchenginesystems.net). А можно "вживую" попробовать рассчитать значение этого показателя при различных вариантах расстановки ссылок между сайтами с использованием онлайнового калькулятора. Он находится на сайте http://www.webworkshop.net/, и на нем реализовано вычисление по классической версии алгоритма (рис. 9.1). С помощью этого сервиса можно наглядно разобраться в том, как распределяется вероятность посещения пользователем документа (PageRank) при различных схемах расстановки ссылок между документами.


Оглавление книги


Генерация: 1.438. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз