Книга: Блог. Создать и раскрутить

Поиск в Рамблере

Поиск в Рамблере

Операторы Рамблера в данном разделе будут рассматриваться в сравнении с операторами Яндекса и Гугла, и на тех из них, что имеют аналоги в двух других поисковых машинах, мы не станем останавливаться слишком подробно. Основные подробности данного раздела касаются именно отличий Рамблера от Яндекса и Гугла.

Еще год назад мы говорили, что Рамблер, на наш взгляд, является третьей по значимости поисковой машиной для работы с русскоязычными текстами. Причем это третье место находилось на очень значительном расстоянии от первых двух. Мы отмечали, что нечасто обращаемся к Рамблеру, поскольку, в зависимости от задачи, обычно начинаем поиск с Яндекса, а затем идем в Гугл, или наоборот – начинаем с Гугла, а затем уточняем результат в Яндексе. На тот момент в большинстве случаев этого было достаточно при работе с каким-то фактическим материалом, когда требовалась не полнота ответа, а правильность.

Сегодня ситуация изменилась. Рамблер, по нашему мнению, ощутимо улучшил свою работу как поисковая машина, а также ввел очень интересный инструмент: стал показывать документы, проиндексированные недавно, т. е. в течение последних нескольких часов. Чтобы воспользоваться этой функцией, надо после получения страницы с результатами поиска по запросу нажать на гиперссылку с данными о найденных страницах, расположенную под поисковой строкой. Она выглядит как число после слова «новых». Вот пример по запросу Спелеолог (число «23» – это гиперссылка, перейдя по которой можно увидеть недавно проиндексированные документы): «Вы искали: Ющук Евгений Леонидович, найдено сайтов: 158, документов: 4436, новых: 23».

Важной особенностью Рамблера является то, что он показывает дату последнего обновления страницы результатов. Например, так: «Обновлено: 26.05.2007 11:25 мск».

Один из ведущих специалистов по автоматизированному поиску информации для целей конкурентной разведки в Интернете Андрей Масалович вообще считает, что наличие перечня последних найденных документов и информации о времени обновления базы – серьезное преимущество, благодаря которому многие специалисты все чаще выбирают Рамблер в качестве поисковика, с которого надо начинать работу по поиску в Интернете (сайт Андрея Масаловича www.tora-centre.ru/).

Кроме того, все, кому приходится заниматься поиском в Интернете профессионально, сходятся во мнении, что только использование нескольких поисковых машин может дать результат, претендующий на полноту ответа на вопрос – одна поисковая машина справиться с подобной задачей не способна. Связано такое положение вещей с тем, что, во-первых, поисковые роботы физически не успевают угнаться за стремительно растущим Интернетом, а во-вторых, с тем, что у разных поисковых машин разные алгоритмы обработки собранной информации, а значит, и разные результаты этой обработки. Наш опыт подтверждает правильность таких выводов.

В результате нет и не может быть полного совпадения результатов поиска в разных поисковых машинах, особенно когда речь идет о редком запросе.

ПРИМЕР

Поиск во всех трех системах точной фразы (фрагмента песни) «Дым, дым в твоих глазах» дал на момент написания статьи такие результаты.

Запрос: [“дым, дым в твоих глазах”]

Результат поиска.

Яндекс: страниц – 0.

Гугл: не найдено ни одного документа, соответствующего запросу “дым, дым в твоих глазах”.

Рамблер: Вы искали: “дым, дым в твоих глазах”, найдено сайтов: 1, документов: 1.

Результат этого поиска можно увидеть здесь: www.ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Dym_Dym_v_Glazakh.html

Это не значит, что Рамблер лучше всех. Это значит, что нельзя заранее знать, в какой поисковой системе и что именно удастся найти. В этом смысле показателен пример с поиском фразы, также фрагмента редкой песни: «Аэропорт аэропорт ночное зарево огней».

ПРИМЕР

Запрос: [“аэропорт аэропорт ночное зарево огней”]

Результат.

Яндекс: страниц – 133, сайтов – не менее 4 http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Yandex.html

Гугл: 1 – 6 из примерно 32 для “аэропорт аэропорт ночное зарево огней”.

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Google.html

Рамблер: не найдено ни одного документа, полностью соответствующего запросу “аэропорт аэропорт ночное зарево огней”. http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Rambler.html

Итак, перейдем к рассмотрению работы с Рамблером. Основой для этого раздела послужили раздел «Помощь» Рамблера (www.rambler.ru/doc/help.shtml) и форма расширенного поиска (www.rambler.ru/cgi-bin/advanced.cgi?set=www).

Ресурсы, которые Рамблер индексирует. По утверждению самого Рамблера, он индексирует сайты, размещенные в следующих доменах первого уровня:

? Российская Федерация: .ru, .su;

? Украина: .ua;

? Белоруссия: .by

? Казахстан: .kz;

? Киргизия: .kg;

? Узбекистан: .uz;

? Грузия: .ge.

Сайты, находящиеся в других доменах, Рамблер, как он сам утверждает, игнорирует.

Для тех, кто хочет, чтобы сайт, расположенный в другой доменной зоне, был проиндексирован Рамблером, этот поисковик оставляет небольшую надежду на успех.

? Если Ваш сайт находится вне названных доменов (например, в зонах .com, .org, .net), но существенная часть сайта содержит русскоязычные материалы или, по Вашему мнению, он может представлять интерес для русскоязычной аудитории Рамблера, Вы можете отослать письмо на адрес [email protected] с просьбой включить Ваш сайт в число сканируемых, либо заполнить форму обратной связи. Наши сотрудники рассмотрят эту просьбу и примут решение о целесообразности такого включения[25].

Кроме того, Рамблер утверждает, что умеет извлекать гиперссылки из объектов Macromedia Flash, но не индексирует непосредственно сами тексты flash-объектов. Для таких технически продвинутых сайтов специалисты Рамблера советуют создавать HTML-копию.

Поддержка морфологии слов. Рамблер поддерживает морфологию слов по умолчанию. Отключение поддержки морфологии предусмотрено, но требует использования специального оператора – слово должно быть взято в кавычки. Мы сейчас не будем останавливаться на всех особенностях использования кавычек, а поговорим о них ниже. Наш эксперимент подтвердил, что Рамблер морфологию слов действительно поддерживает.

Скобки. Как и Яндекс, Рамблер позволяет использовать скобки для группировки слов и применения ко всем словам, расположенным в скобках, одного оператора, который пишется перед скобкой. Этим он ничем не отличается от Яндекса, поэтому подробнее мы применение скобок рассматривать не будем.

Транслитерация. Люди довольно часто делают опечатки при вводе текста и вместо русских букв печатают их английских «близнецов». Например, часто так происходит с буквой «с». Рамблер говорит, что старается исправлять такие опечатки, но не гарантирует результата. Эксперимент показал, что Рамблер действительно справляется с опечатками транслитерации, если их количество в слове невелико. Приведу часть результатов.

ПРИМЕР

Запрос 1 (все буквы русские): [“глОКлАя кУздРА”]

Результат поиска.

Вы искали: “глОКлАя кУздРА”, найдено сайтов: 9, документов: 37.

Запрос 2 (заглавные буквы – латинские): [“глOKлAя кYздPA”]

Результат поиска.

Не найдено ни одного документа, полностью соответствующего запросу

“”глOKлAя кYздPA””.

Запрос 3 (заглавные буквы – латинские): [“глOклая куздPа”]

Результат поиска.

Вы искали: “глOклая куздPа”, найдено сайтов: 9, документов: 37.

Чтобы не загружать читателя лишними примерами, скажем лишь, что при трех опечатках правильный поиск еще проводился, но после появления четвертой неправильно написанной буквы результат поиска стал нулевым. Рамблер в этом случае просто порекомендовал пользователям внимательнее относиться к вводу текста.

Регистр букв. Как правило, Рамблер не учитывает регистр, причем распространяет это правило не только на слова запроса, но и на операторы.

Действительно, запросы «глоклая куздра» и «ГлоКЛаЯ КУздРа» дали одинаковые результаты.

ПРИМЕР

Запрос 1: [“глоклая куздра”]

Результат поиска.

Вы искали: “глоклая куздра”, найдено сайтов: 12, документов: 44.

Запрос 2: [“ГлоКЛаЯ КУздРа”]

Результат поиска.

Вы искали: “ГлоКЛаЯ КУздРа”, найдено сайтов: 12, документов: 44.

Однако Рамблер сообщает, что он делает исключение из этого правила, если в запросе два и более слова подряд написаны с заглавной буквы. По его утверждению, он старается искать эти слова также с заглавной буквы. Таким образом, Рамблер пытается помочь тем, кто ищет имена собственные или географические названия.

В нашем эксперименте это не подтвердилось. Результаты за про са – как с заглавной, так и с прописной буквы – оказались одинаковыми, и в выдаче присутствовали как релевантные слова, написанные в обоих регистрах.

Стоп-слова и оператор «кавычки». Подобно Яндексу, Рамблер при обработке запроса может проигнорировать стоп-слова. Он утверждает, что для принудительного включения стоп-слова (или какого-то другого) в выдачу, нужное слово надо заключить в кавычки.

Эксперимент расставил акценты иначе. Стоп-слова с кавычками и без кавычек попадают в выдачу одинаково, при условии, что кроме них в запросе есть еще не более одного слова. Если, помимо стоп-слова, в запросе присутствуют хотя бы два слова, то стоп-слово игнорируется – как с кавычками, так и без кавычек. Но его все-таки можно принудительно включить в запрос, если, подобно Гуглу и Яндексу, поставить перед словом знак «плюс».

ПРИМЕР

Поговорим с пингвином, найдено сайтов: 1044, документов: 49 453, новых: 19.

Поговорим “с” пингвином, найдено сайтов: 1044, документов: 49 453, новых: 19.

Поговорим +с пингвином, найдено сайтов: 471, документов: 2772, новых: 1.

Как мы уже говорили, кавычки могут выступать аналогично оператору «восклицательный знак» в Яндексе. Слово, указанное в запросе в кавычках, будет в результатах поиска только в той словоформе, в которой оно написано.

ПРИМЕР

Воспользуемся словом, написанным с ошибкой (в этом примере союз «с» написан слитно со словом «большим», чтобы количество документов в выдаче было невелико и было проще оценивать результат):

с большим уважением отношусь, найдено сайтов 87, документов: 313.

с большим уважением «отношусь», найдено сайтов 31, документов: 99.

В разделе «Помощь» Рамблера приведена еще одна особенность использования кавычек. Процитируем этот фрагмент раздела «Помощь».

? Другой пример – использование кавычек с ужесточающим поиск оператором + (подробнее о нем можно прочесть в главе операторы).

При поиске «что? где? когда?» можно найти «что? где? когда?» и «что где когда». Для ужесточения критерия поиска можно добавить к запросу + +«что? где? когда?». В таком случае в результате будут найдены только страницы с “что? где? когда?”, другое написание будет недопустимо[26].

Логическое «И». Как и в Яндексе и Гугле, роль логического «И» в Рамблере по умолчанию выполняет пробел. Рамблер ввел еще три варианта написания этого оператора, что позволяет влиять на расстояние между словами, им объединенными. Подобно Яндексу, Рамблер достаточно вольно обращается со словами, которые соединены пробелом – он старается дать результаты, где присутствуют все слова запроса, но может затем выдать также те, где на одно-два слова меньше. Если нужное слово ввести в кавычках, оно будет присутствовать обязательно, но лишь в той словоформе, в которой его ввели в запрос.

ПРИМЕР

Запрос 1: [кошки собаки верблюды зебры носороги]

Результат поиска.

Вы искали: кошки собаки верблюды зебры носороги, найдено сайтов: 60, документов: 219.

Запрос 2: [“кошки” “собаки” “верблюды” “зебры” “носороги”] Результат.

Вы искали: “кошки” “собаки” “верблюды”… найдено сайтов: 9, документов: 40

Во втором случае все без исключения слова запроса принудительно включены в выдачу за счет кавычек, к тому же только в задан ной словоформе, поэтому документов в выдаче значительно меньше.

Существуют модификации логического «И» в Рамблере, которые позволяют управлять расстоянием между словами. Вот цитата из «Помощи» Рамблера: «Оператор && (логическое И). Два запроса, соединенные оператором &&, образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу собака && кошка найдутся только те документы, которые содержат и слово «собака», и слово «кошка».

Между тем мы все понимаем, слово «собака» и слово «кошка» на найденной странице могут находиться в самых разнообразных местах – как рядом, в одном предложении, так и в разных предложениях, и даже разных статьях. Для того чтобы дать понять поисковой машине, что слова должны находиться близко друг к другу, вы можете использовать модифицированное И – &. Для управления им служат регулирующие операторы > и < Чтобы расстояние между словами в результате поиска было меньше заданного по умолчанию, можно использовать конструкцию &< или &<<. Чем больше регулирующих операторов, тем сильнее вы уменьшаете расстояние. Чтобы увеличить исходное расстояние, нужно применить обратный оператор: &> или &>>.

Оператор && не имеет степеней регулировки и является оператором И, при котором в запрос попадают даже самые далеко отстоящие друг от друга слова. Например, сравните результат поиска запросов остап почувствовал, что его понесло & 12 стульев и остап почувствовал, что его понесло && 12 стульев. В первом случае будут преобладать документы с указанной цитатой из произведения «Двенадцать стульев», а во втором – поисковая машина найдет текст самого произведения или его большой фрагмент…

Если оператор явно не указан, поисковая машина сама расставляет операторы так, как считает нужным. Так, запрос регистрация доменов будет истолкован как регистрация && доменов. На странице Расширенного поиска оператор по умолчанию можно заменить на || (Искать слова запроса: хотя бы одно).

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Оператор NOT имеет самый высокий приоритет, следующий по приоритету оператор && (И), поэтому запрос из нескольких слов при обработке сначала группируется по операторам NOT, && (И) и лишь потом по операторам || (ИЛИ). Изменить порядок группировки можно использованием скобок.

Существует модификация оператора И – оператор &&&. Он применяется для расширения границ поиска. В этом случае поиск будет производится не в пределах одного документа, а в пределах одного сайта.

Оператор «плюс» (+). Этот оператор означает, что слово обязательно должно быть найдено, либо, как уже говорилось, усиливает значение оператора «кавычки», требуя буквального написания фраз, содержащихся в кавычках, т. е. включая знаки препинания.

Логическое «ИЛИ». Написание этого оператора приспособлено как для любителей Яндекса, так и для тех. Кто предпочитает работать с Гуглом.

Как и в Яндексе, логическое «ИЛИ» может быть представлено вертикальной чертой – |.

Для тех, кто привык к старому написанию логического «ИЛИ», принятому раньше в Гугле, Рамблер предоставляет возможность пользоваться также оператором OR.

Приоритета нет ни у одного из этих двух вариантов написания оператора.

Рамблер выделяет также вариант логического «ИЛИ» в виде двойной вертикальной черты – ||. Нам не удалось найти принципиальных отличий этого написания оператора от других его вариантов.

ПРИМЕР

Вы искали: шестисотпятидесятиметровый OR глоклая, найдено сайтов: 14, документов: 50.

Вы искали: шестисотпятидесятиметровый | глоклая, найдено сайтов: 14, документов: 50. шестисотпятидесятиметровый || глок лая, найдено сайтов: 14, документов: 50.

Логическое «НЕ».

Логическое «НЕ» в Рамблере похоже на таковое в Гугле и распространяется только на весь документ в целом.

Сузить запрос, подобно Яндексу, до предложения, в Рамблере нельзя. Записывается логическое «НЕ» как NOT.

ПРИМЕР

Запрос 1: [журавль]

Результат.

Вы искали: журавль, найдено сайтов: 60 715, документов: 647 027, новых: 902.

Запрос 2: [журавль NOT колодец]

Результат.

Вы искали: журавль NOT колодец, найдено сайтов: 60 119, документов: 640 943, новых: 866.

Запрос 3: [журавль NOT (колодец | птица)]

Результат.

Вы искали: журавль NOT (колодец | птица), найдено сайтов: 33 059, документов: 390 789.

Запрос 4: [журавль NOT (колодец | птица | “журавль”)]

Результат.

Вы искали: журавль NOT (колодец | птица | “журавль”), найдено сайтов: 33 985, документов: 300 610, новых 489.

Запрос 5: [журавль NOT (колодец | птица | “журавль” | “журавлей”)]

Результат.

Вы искали: журавль NOT (колодец | птица | “журавль” | “журавлей”), найдено сайтов: 30 660, документов: 248 095, новых: 379.

Стемминг, а также вилдкард (wildcard).

Рамблер НЕ поддерживает ни стемминг, ни вилдкард.

Поиск с заданным расстоянием. Рамблер не очень качественно поддерживает поиск с расстоянием, несмотря на то что «Помощь» в Рамблере утверждает обратное.

Рамблер говорит о том, что в документе он производит поиск на расстоянии не более 40 слов друг от друга. Это, конечно, не поиск с расстоянием, а скорее ограничение расстояния, но по крайней мере прямо заявленное ограничение.

Однако при этом Рамблер утверждает, что уменьшить это расстояние в 40 слов можно. Запрос, при котором слова должны находиться рядом, в «Помощи» Рамблера выглядит так: [2, красная армия].

Интересно, что при проверке этого утверждения мы обнаружили, что Рамблер, похоже, является рекордсменом по числу сайтов, которые можно открыть в результатах запроса. Так, в случае с запросом про «красную армию» он показал более двух с половиной тысяч сайтов и был согласен показывать их и дальше, но мы прекратили этот эксперимент, результат которого можно увидеть по адресу: www.ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Three_Thousands_Sites.html

Еще нам показался необычным (и неудобным) способ перехода к следующей группе сайтов в результатах выдачи. Так, если в Яндексе можно уйти, например, на 20-ю страницу выдачи, после чего внизу страницы с результатами последней доступной для просмотра в группе страниц станет 30-й, то в Рамблере, для того чтобы эта 30-я страница стала видна, требуется сначала выбрать переход к следующей группе сайтов вверху страницы, под строкой с запросом, и только после этого можно выбрать последнюю страницу следующей группы сайтов и перейти на нее. Зачем переход организован в два приема – непонятно.

Однако вернемся к непосредственным результатам запроса [2, красная армия].

Согласно информации в хэлпе, Рамблер должен рассматривать цифру «2» как служебную информацию, говорящую о расстоянии между словами, и выдавать результаты, где слова «красная» и «армия» находятся рядом. Наше внимание привлекло то, что цифра «2», которая в запросе должна была играть роль элемента оператора, в выдаче обозначалась как релевантное запросу слово.

Чтобы не пролистывать результаты по «красной армии» до 47-тысячного сайта, мы попробовали испытать поиск с расстоянием, как он описан в разделе «Помощь», на другом запросе и не получил положительного результата. Для того чтобы провести такую работу, мы взяли за основу фразу из песни: «Майскими короткими ночами, отгремев, закончились бои».

ПРИМЕР

Запрос: [2,”майскими” “ночами” +отгремев]

Результат поиска.

Вы искали: 2,”майскими” “ночами” +отгремев, найдено сайтов: 48, документов: 293.

В выдачу попали документы, не содержащие слова запроса непосредственно рядом друг с другом, более того, цифра «2» опять оказалась рассмотрена в качестве части запроса: «Фотографии, рекомендованные автором Roman Mezenin :: Галерея :: Клуб Foto.ru… Портрет Комм. 6 / Рек. 2 Майскими короткими ночами / отгремев, закончились бои – 05.06.2005 – 26 Kb – http://www.club.foto.ru/gallery/photos/recommended… – Восстановить текстНайти похожие – Рубрика: Фото. Морской интернет-клуб. Майскими короткими ночами, Отгремев, закончились бои. Где же вы теперь, друзья – однополчане, Боевые спутники мои? Страницы: 1 2 3 4 5 6 7. 18.10.2005 – 10 Kb – http://randewy.ru/pes/stol2.html – Восстановить текстНайти похожие».

Остальные операторы Рамблера вынесены в «Форму расширенного поиска», расположенную по адресу: www.rambler.ru/cgi-bin/advanced.cgi?set=www

Поиск в заголовках страниц (<title>). Этот оператор, существующий в Яндексе и Гугле как самостоятельный, в Рамблере тоже есть, но в «Помощи» Рамблера он не указан, и найти его нам удалось только в «Форме расширенного поиска». Ссылка на форму расширенного поиска находится непосредственно справа от поисковой строки Рамблера.

Поиск ссылающихся страниц (link). Этот оператор также встретился нам только в «Форме расширенного поиска». Работоспособность его проверена – работает.

Язык документа. Принудительное назначение конкретного языка документа возможно в «Форме расширенного поиска». При этом Рамблер предлагает выбрать один из трех языков: русский, украинский и английский.

По умолчанию в поле выбора языка отмечен вариант «любой».

Формат документа. Выбор форматов, как и языков, по современным меркам не впечатляет. Предлагается HTML, Word (.doc) и Adobe Acrobat (.pdf).

Дата документа. Рамблер, подобно Яндексу, предлагает интересную возможность выбора даты в «Форме расширенного поиска», но если Яндекс, кроме конкретного диапазона с датами, предлагает выбрать, например, «последние 2 недели» или «последний год», то Рамблер позволяет провести выборку только в конкретном временном диапазоне.

Поиск на определенном сайте. Представлен строкой в «Форме расширенного поиска» с названием: «Искать документы только на следующих сайтах».

Таким образом, на наш взгляд, Рамблер представляет определенный интерес для поиска страниц, когда требуется полнота выборки, но чаще его роль – быть резервным местом для поиска информации, не найденной в Гугле или Яндексе.

Сам Рамблер, похоже, с этим смирился и не стремится менять ситуацию, о чем косвенно свидетельствует довольно бедный набор возможностей настройки запроса.

Однако порой он может быть весьма полезен, что доказано практикой.

Оглавление книги


Генерация: 1.343. Запросов К БД/Cache: 3 / 0
поделиться
Вверх Вниз