Известно, что пользователи,
попадающие на сайт из поисковых машин, дают до сорока процентов трафика. Поэтому
позаботиться о правильном индексировании Вашего сайта в поисковых машинах весьма
полезно. Под "правильным индексированием" я имею в виду, что должна быть
соблюдена релевантность запроса и содержания сайта, т.е., говоря простым и
доступным языком, содержание сайта должно соответствовать запросу (некоторые
"мастера" злоупотребляют наборами не отвечающих реальности ключевых слов.
Например, когда моя сестра готовила к выпуску компакт-диск с локальными копиями
первых уровней Web-страниц, слово "х#й" и иже с ним встречалось на серверах
весьма солидных компаний, ничего общего не имеющих с подобного рода лексикой:-).
Почему я перечислил именно эти
поисковые машины? Потому что именно ими, по моим наблюдениям, пользуются
русскоязычные нетизены (netizen). Что такое "мои наблюдения"? Это анализ логов
доступа к моему серверу http://citforum.ru/, точнее той части логов, гда
собирается информация по HTTP_REFERER, т.е. адреса (URLs), на которых клиенты
воспользовались ссылкой на какую либо страницу моего сервера.
Каков рейтинг перечисленных мною машин на
практике, какими машинами пользуются больше, какими - меньше?
На первом месте с колоссальным
отрывом от остальных идет Altavista. Эта поисковая машина лидировала еще до того
как там появился поиск по различным языкам (в том числе - по русскоязычным
документам). Ну оно и понятно - прекрасный, легкодоступный сервер, давно
работает (с начала 1996 года), огромная база документов (свыше 50 миллионов
адресов). Следует также учесть, что русскоязычные пользователи находятся не
только в России, но и в Болгарии, Чехии и Словакии, в Польше, Израиле, Германии,
не говоря уже о бывших республиках СССР - Украина, Белоруссия ... (Особо хочу
сказать о прибалтах: это они при встрече на улицах какого-нибудь Каунаса или
Таллинна не знают русского языка, а перед монитором, особенно если очень нужно,
очень даже знают:-)) Так вот всем этим пользователям удобнее пользоваться
Альтавистой, а не нашими отечественными машинами - ближе, все таки...
Следующая по популярности поисковая
машина, как ни странно, самая молодая в России - Яndex. Как мне говорил Алекей
Амилющенко (компания Comptek) на сегодняшний день там наблюдается в среднем
72000 запросов в суткии и есть тенденция +10% в неделю (данные от 7.04.98). Мне
кажется, Яndex наиболее перспективная российская поисковая машина. С
комптековской системой разбора "великого и могучего" русского языка Яndex вполне
может выйти победителем в конкуренции со вторым китом в этой сфере - Рамблером.
Рамблер - третья серьезная поисковая
машина для русскоязычных пользователей. Главное, что мне в ней не нравится, так
это игнорирование содержимого конструкции <meta name=keywords
content=...>. (Это я не придумал, это сказал Дмитрий Крюков из компании Stack
Ltd.) Наверное, именно из-за отказа учитывать ключевые слова, в результатах
запросов выдаются такой странный набор ссылок. Второй недостаток чисто
интерфейсного характера - результаты постоянно выдаются в кодировке КОИ,
независимо от того, что выбрано пользователем перед этим. Третий недостаток:
спайдер Рамблера работает по протоколу HTTP 0.9, что приводит к ошибкам
индексирования, т.е. если на одном IP-адресе живут несколько виртуальных
серверов, Рамблер видит только первый, а все остальные считает просто
синонимами. Ну да ладно, будем надеяться, что это вскоре исправят.
Ну и на последнем месте по моему
рейтингу идут Апорт-Поиск, который очень странно индексирует сервера, РусИнфОил,
который регулярно закрывается на реконструкции и ТЕЛА-Поиск - красивый и почти
бесполезный прибамбас для сервера www.dux.ru.
Вы спросите: а в списке были
еще HotBot и метапоисковая машина Следопыт компании "Медиалингва"? Я их не
забыл, просто HotBot непонятно почему оставляет в моих логах толпу записей, что
не может быть случайными залетами не понимающих русского языка иностранцев (с
других импортных машин таких залетов гораздо меньше), а "Следопыт" я еще
недостаточно серьезно изучил.
А зачем же поисковые машины для раскрутки
сайта?
Все очень просто, как я уже говорил,
поисковые машины могут дать до сорока процентов трафика к сайту. А чтобы это
происходило, необходимо, чтобы Ваш сайт был правильно проиндексирован, а для
этого необходимо знать, как это делается.
А делается это следующим образом:
либо робот поисковой машины сам добирается до вашего сайта, либо Вы сами
указываете сайт в соответствующем интерфейсе (AddUrl), который наличествует в
любой уважающей себя поисковой машине. Первый вариант страдает затянутостью
(пока еще робот доберется, может через день, может через год: Internet-то
большой). Второй - требует затратить некоторое время (разнообразный софт для
автоматической регистрации Вашего сайта в туче поисковых машин нам ничего не
дает - машины-то импортные).
Чтобы все произошло в лучшем виде требуется:
- на сайте должет быть хоть какой-нибудь текст.
Картинки и тест на них поисковые машины игнорируют. Правда, можно продублировать
текст в атрибуте alt тага img
- В каждом документе сайта ОБЯЗАТЕЛЬНО должны
присутствовать осмысленный заголовок (title), ключевые слова (keywords) и
краткое описание (description). Это только пишут, что поисковые машины -
полнотекстовые, на самом деле это не так.
- Изготовление файла robots.txt (особенно, если у
вас есть собственный сервер типа www.name.ru).
- Прописка вручную в каждой интересующей Вас
поисковой машине и последующий контроль индексирования Вашего сайта.
Итак, Вы уже зарегистрировали первую страницу
своего сайта в различных поисковых машинах.
Вы думаете уже все в подрядке? Как бы
не так. Если ссылка на Ваш сайт в ответе поисковой машины выводится на втором
экране -"это так же плохо, как если бы ссылки вообще не было" (Danny Sullivan,
searchenginewatch.com)
Иначе говоря, просто указать страницу
в AddURL недостаточно. Необходимо заранее подготовить документ так, чтобы на
соответствующие запросы к поисковой машине в ее ответе на запрос ссылка на Ваш
документ находилась если не первой, то хотя бы в первой десятке ссылок (а лучше,
если в этой десятке было несколько ссылок на Вашы документы:-). Что значит
"подготовить"? Это чисто технический вопрос, ничего сверхестественного. Просто в
секции HEAD каждого документа Вашего сайта стоит указать "говорящий" Title,
KeyWords, Description и Robots.
Title: заголовок документа. Хороший осмысленный заголовок может заставить
пользователя из множества других выбрать именно Вашу ссылку. Зачастую видишь
примерно следующие заголовки: "Содержание" - чего, зачем - непонятно, не
возникает желания проверять. Другой случай: на всех страницах сайта в качестве
заголовка - "Добро пожаловать в компанию ..." - тоже не слишком привлекательно
проверять все таким образом озаглавленные документы. Представьте себе, что
выбран режим поиска по заголовкам, без описания каждого документа.
KeyWords: ключевые слова. Именно содержимое этого контейнера влияет на
релевантность документа запросу поиска.
<meta name=keywords content="разделенный
запятыми список ключевых слов и устойчивых словосочетаний">
Сколько ни говорят, что поисковые
машины - полнотекстовые, это не совсем верно, а вот содержимое этого контейнера
точно попадет в индекс поисковой машины. К сожалению, создатели одной из
крупнейших отечественных поисковых машин Rambler, не хотят отрабатывать этот
контейнер. А зря.
- в поле content не должно быть знаков конца строки,
кавычек и других специальных символов, регистр символов роли не играет
- не рекомендуется повторять одни и те же ключевые
слова по нескольку раз, это может быть воспринято как spam и страница рискует
быть удаленной из индекса поисковой машины.
- не стоит делать одинаковые keywords для разных
страниц Вашего сайта. Это, конечно проще, но содержимое самих документов
различное. Если очень хочется автоматизировать этот процесс, можно написать
программку, которая прописывала бы в это поле все выделенные блоки документа,
например, то что стоит между тагами H, I и B.
- если строка в content слишком длинная, не
возбраняется сделать еще несколько аналогичных конструкций.
- вообще говоря, общий объем ключевых слов одного
документа может достигать до 50% объема этого документа.
Description: краткое описание документа. Довольно полезный контейер, его содержимое
используется как краткое описание релевантных документов в ответе современных
поисковых машин. Если этого контейнера нет, то выдаются некоторое количество
строк с начала документа. Соответственно, не редкая катина, когда в самом начале
документа расположен JavaScript, и вместо нормального описания выдается
абракадабра в виде куска скрипта.
<meta name=description content="краткая
аннотация документа">
- в поле content не должно быть знаков конца строки,
кавычек и других специальных символов.
- желательно, чтобы здесь была осмысленная аннотация
документа из пары-тройки человеческих предложений, чтобы пользователь поисковой
машины помимо заголовка смог понять смысл документа.
- к сожалению, отечественные поисковые машины
пока не умеют работать с этим контейнером, хотя божатся, что в скором времени
научатся.
Можно ли управлять действиями поисковых
машин?
Можно, и даже нужно! Первое действие,
которое для этого нужно совершить, это написать файл robots.txt и положить его в
корень Вашего сервера. Этот файл популярно объясняет роботу поисковой машины что
надо индексировать, а что не стоит. Например, зачем индексировать служебные
файлы, типа статистических отчетов? Или результаты работы скриптов? Более того,
многие "умные" машины просто не станут индексировать сервера, не найдя
robots.txt. Кстати, в этом файле можно указать разные маски индексирования для
разных поисковых машин.
Подробнее об этом можно прочитать в
моем переводе "Standard for
Robots Exclusion". Второе действие: снабдить страницы сайта МЕТА-тагами
Robots. Это более гибкое средство управления индексацией, чем robots.txt. В
частности, в этом таге можно предписать роботу поисковой машины не уходить по
ссылкам на чужие сервера, например, в документах со списками ссылок. Формат
этого безобразия таков:
<META NAME="ROBOTS"
CONTENT="robot_terms">
robot_terms - это разделенный
запятыми список следующих ключевых слов (заглавные или строчные символы роли не
играют): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.
- NONE
- говорит всем роботам игнорировать эту страницу при
индексации (эквивалентно одновременному использованию ключевых слов NOINDEX,
NOFOLLOW).
- ALL
- разрешает индексировать эту страницу и все ссылки
из нее (эквивалентно одновременному использованию ключевых слов INDEX, FOLLOW).
- INDEX
- разрешает индексировать эту страницу
- NOINDEX
- неразрешает индексировать эту страницу
- FOLLOW
- разрешает индексировать все ссылки из этой
страницы
- NOFOLLOW
- неразрешает индексировать ссылки из этой страницы
Если этот мета-таг пропущен или не
указаны robot_terms, то по умолчанию поисковый робот поступает как если бы были
указаны robot_terms=INDEX, FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое
слово ALL, то робот поступает соответственно, игнорируя возможно указанные
другие ключевые слова.. Если в CONTENT имеются противоположные по смыслу
ключевые слова, например, FOLLOW, NOFOLLOW, то робот поступает по своему
усмотрению (в этом случае FOLLOW).
Если robot_terms содержит
только NOINDEX, то ссылки с этой страницы не индексируются. Если robot_terms
содержит только NOFOLLOW, то страница индексируется, а ссылки, соответственно,
игнорируются.
Контроль за текущим состоянием Ваших документов в
индексе поисковых машин.
Ну хорошо, Вы прочитали все, что было
выше и так и сделали. Что же дальше? А дальше будет долгая, нудная и, главное,
регулярная проверка на предмет того, как обстоят дела. Как ни печально, а
придется уделять этому внимание хотя бы потому, что документы временами
пропадают из поисковых машин. Почему? Знать бы... Итак, в хороших поисковых
машинах можно посмотреть какие документы и сколько их в текущее время находится
в индексе. Вот как это делается:
Alta Vista
В этой поисковой машине проверку статуса URL осуществить довольно просто
- достаточно набрать в строке запроса:
url:
citforum.ru
url:citforum.ru/win/
url:citforum.ru/win/internet/index.shtml
В первом случае будут выданы все проиндексированные
страницы сервера. Во втором - только страницы Windows-кодировки. В третьем -
есть ли в индексе AltaVista файл index.shtml из указанной директории
Excite
Так
же просто как и в AltaVista проверяется статус URL в поисковой машине Excite.
Достаточно набрать URL. Например:
http://citforum.ru/win/database/articles/art_1.shtml
HotBot
Несколько по-другому проверяется статус URL в поисковой машине HotBot.
Это делается так:
- Введите URL в поле запроса
- Измените опцию "all of the words" на "links to
this URL"
Infoseek
В
поисковой машине Infoseek для проверки статуса URL существует отдельный
интерфейс с целым набором настроек:
http://www.infoseek.com/Forms?&sv=IS&lk=noframes&pg=special.html
WebCrawler
WebCrawler предоставляет возможность проверить статус URL на странице:
http://www.webcrawler.com/WebCrawler/Status.html
Rambler
В
этой поисковой машине статус URL можно проверить двумя способами.
- В разделе "Расширеный поиск" путем
указания имени сервера в качестве маски в одной из опций
- Можно набрать $URL:www.citforum.ru в обычном поле
запроса
Aport
Для проверки статуса URL в этой поисковой машине есть специальный запрос
url=www.citforum.ru/*
Основные технические характеристики поисковых
машин
Чего люди хотят от этой жизни?