Особенности поисковой системы Google

Автор статьи: Полянко Александр ©
Сайт Автора: webbegin.info
E-mail Автора: есть ))
Дата публикации: 28.06.2006



—Безусловно, Google является самым лучшим поисковым сервером в мире. В его индексе хранится более 3 миллиардов документов, Google переведен на 26 языков, крупнейшие порталы во всем мире выбрали Google в качестве поискового инструмента (с недавних пор компания Mail.ru стала использовать технологию поиска Google). Новаторская технология Page Rank позволила создать качественный поиск и выдавать при запросе более релевантные результаты. Давайте посмотрим на основные отличия Google от других поисковых систем и на его особенности.

1) Google'овский паук называется Googlebot. Через файл robots.txt можно запретить роботу Googlebot индексацию каких-либо из ваших страниц. Аналогично этому файлу на работу паука влияют meta-теги. Помимо стандартных noindex, nofollow, index, follow Google использует еще один тег:

Дело в том, что при выдаче результатов, пользователи имеют возможность просмотреть найденную страницу не на вашем сервере, а в кэше Google. При частом обновлении вашего ресурса такая возможность может вам только навредить. Поставив вышеприведенный тег на нужную страницу, Google не сохранит ее в кэш и ваши посетители всегда будут получать только свежую информацию с вашего сайта.

Для сужения области действия, вы можете разрешить/запретить какое-нибудь действие только пауку Google. Для этого достаточно вместо name="robots" написать name="googlebot".

Пример

Робот-паук Googlebot следует и индексирует документы по ссылкам HREF и SRC.

2) Объем проиндексированных документов у Google огромен, и вносить дополнительные изменения в ход индексации паука Google очень сложно. Поэтому нередко Googlebot быстрее сам находит ваш сайт, чем получает информацию из формы AddURL. В любом случае первая индексация вашего сайта произойдет через 2-3 недели. Зато переиндексация идет очень интенсивно, особенно если вы добавите свой сайт в каталог DMOZ. Googlebot просматривает этот каталог практически каждый день.

Но проходит достаточно времени, а ваш сайт до сих пор не проиндексирован. На то могут быть несколько причин.

  • Динамические страницы (.php и т.д.) Google индексирует не в полном объеме. А при использовании сессий паук не проиндексирует сайт вовсе.
  • Если вы используете дорвеи (doorways, об их использовании я расскажу вам в других публикациях).
  • Ваш сайт использует фреймы. Фреймовая структура доставляет неудобство пользователям всех поисковых машин. Хотя Google лучше всех них обрабатывает фреймы, даже он может на них споткнуться. Выхода из сложившейся ситуации только два: или составлять полноценное описание в теге </CODE>, или не использовать фреймы вообще. </DIV> </LI> </UL> <P><STRONG>3)</STRONG> Технология <STRONG>PageRank</STRONG> основывается на количестве и "качестве" внешних ссылок на ваш сайт. Именно от нее в первую очередь зависит релевантность вашей страницы и, соответственно, положение вашей страницы в результатах поиска (в России подобную технологию использует Яндекс, она называется <span class="help" title="yandex.ru (Поисковая система)">Яндекс</span> цитирования (<CODE>CY</CODE>)). </P> <P>Кроме <span class="help" title="PR или Page Rank (авторитетность страницы в поисковой системе google)">Page Rank</span> на релевантность страницы влияет:</P> <UL type=square> <LI> <DIV align=justify>Имя вашего домена; </DIV> <LI> <DIV align=justify>Текст заголовка страницы (тот, что в теге <CODE><title></CODE>); </DIV> <LI> <DIV align=justify>Текст ссылок, ведущих с других серверов на ваш сайт; </DIV> <LI> <DIV align=justify>Содержимое атрибута <CODE>ALT;</CODE> </DIV> <LI> <DIV align=justify>Наличие ключевых слов в заголовках <CODE><h1></CODE>, <CODE><h2></CODE> <CODE>...;</CODE> </DIV> <LI> <DIV align=justify>Визуальное выделение ключевых слов (<CODE><b></CODE>, размер, цвет); </DIV> <LI> <DIV align=justify>Плотность ключевых слов на странице, т.е. их частота в документе. </DIV> </LI> </UL> <H4 align=justify>***</H4> <P>Вот, пожалуй, это все особенности поисковой системы Google. Но кое-какие моменты в поиске <span class="help" title="google.com (Поисковая система)">Google</span> выходят за рамки представленной статьи, поэтому публикации об этой системе в дальнейшем будут продолжены.</P> </DIV>