Книга: Интернет-разведка. Руководство к действию

Поиск в Рамблере

Поиск в Рамблере

Операторы Рамблера в данном разделе рассматриваются в сравнении с операторами Яндекса и Гугла. И, соответственно, те из них, которые имеют аналоги в двух других поисковых системах, здесь будут описаны не слишком подробно. Детальную характеристику мы сочли необходимым дать отличиям Рамблера от Яндекса и Гугла.

Рамблер, на наш взгляд, – третья по значимости поисковая машина для работы с русскоязычными текстами. Причем, это третье место находится на очень значительном расстоянии от первых двух. Мы нечасто обращаемся к Рамблеру, поскольку, в зависимости от задачи, обычно начинаем поиск с Яндекса, после чего переходим в Гугл, или наоборот – начинаем с Гугла, а затем уточняем результат в Яндексе. В большинстве случаев этого бывает достаточно при работе с каким-то фактическим материалом, главным критерием которой выступает не полнота ответа, а его правильность.

Вместе с тем, и специалисты конкурентной разведки, и представители других специальностей, которым часто приходится заниматься профессиональным поиском в Интернете, сходятся во мнении, что лишь использование нескольких поисковых машин может дать результат, претендующий на полноту ответа на вопрос. Одна поисковая система не способна справиться с подобной задачей. Связано такое положение вещей с тем, что, во-первых, поисковые роботы физически не успевают угнаться за стремительно растущим Интернетом, а во-вторых, с тем, что у разных поисковых машин – разные алгоритмы обработки собранной информации, а значит, и разные результаты этой обработки.

Как следствие, нет и не может быть полного совпадения результатов поиска, особенно когда речь идет о редком запросе.

Например, поиск во всех трех системах точной фразы (фрагмента песни) «дым, дым в твоих глазах» дал на момент написания статьи такие результаты:

Запрос:

[ «дым, дым в твоих глазах»]

Результат:

Яндекс: Результат поиска: страниц – 0

Гугл: Не найдено ни одного документа, соответствующего запросу «дым, дым в твоих глазах».

Рамблер: Вы искали: «дым, дым в твоих глазах», найдено сайтов: 1, документов: 1

Результат этого поиска можно увидеть здесь:

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Dym_Dym_v_Glazakh.html

Это не значит, что Рамблер лучше всех. Знать заранее, в какой поисковой системе и что именно удастся найти, невозможно. В этом смысле показателен пример с поиском фразы – фрагмента редкой песни: «аэропорт аэропорт ночное зарево огней».

Запрос:

[ «аэропорт аэропорт ночное зарево огней»]

Результат:

Яндекс: Результат поиска: страниц – 133, сайтов – не менее 4.

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Yandex.html Гугл: Результаты 1–6 из примерно 32 для «аэропорт аэропорт ночное зарево огней».

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Google.html

Рамблер: Не найдено ни одного документа, полностью соответствующего запросу «„аэропорт аэропорт ночное зарево огней“». http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Aeroport_Rambler.html

Итак, перейдем к рассмотрению работы с Рамблером. Основу этой работы составляет раздел «Помощь», расположенный по адресу: http://www.rambler. ru/doc/help.shtml – и форма расширенного поиска, находящаяся по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www.

1. Какие ресурсы Рамблер индексирует.

По утверждению создателей системы, Рамблер индексирует сайты, размещенные в следующих доменах первого уровня:

Российская Федерация:.ru,su

Украина:.ua

Белоруссия:.by

Казахстан:.kz

Киргизия:.kg

Узбекистан:.uz

Грузия:.ge

Сайты, находящиеся в других доменах, поисковик игнорирует.

Для тех, кто хочет, чтобы их сайт, расположенный в другой доменной зоне, был проиндексирован Рамблером, эта поисковая машина оставляет небольшую надежду на успех.

Если Ваш сайт находится вне названных доменов (например, в зонах. com,org,net), но существенная часть сайта содержит русскоязычные материалы или, по Вашему мнению, он может представлять интерес для русскоязычной аудитории Рамблера, Вы можете отослать письмо на адрес [email protected] с просьбой включить Ваш сайт в число сканируемых, либо заполнить форму обратной связи. Наши сотрудники рассмотрят эту просьбу и примут решение о целесообразности такого включения.

Кроме того, Рамблер утверждает, что «умеет извлекать гиперссылки из объектов Macromedia Flash», но не индексирует непосредственно сами тексты flash-объектов. Для таких технически продвинутых сайтов специалисты поисковой системы советуют создавать HTML-копию.

2. Поддержка морфологии слов.

По умолчанию, Рамблер поддерживает морфологию слов. Отключение поддержки морфологии предусмотрено, но требует использования специального оператора – слово должно быть взято в кавычки.

Наш эксперимент подтвердил, что система морфологию слов действительно поддерживает.

3. Скобки.

Рамблер позволяет использовать скобки для группировки слов и применения ко всем словам, расположенным в скобках, одного оператора, который пишется перед скобкой. В этом описываемая в данном разделе система ничем не отличается от Яндекса, поэтому подробнее применение скобок мы рассматривать не станем.

4. Транслитерация.

Люди довольно часто делают ошибки при вводе текста и вместо русских букв печатают их английских «близнецов». Например, букву «с». Рамблер говорит, что старается исправлять такие огрехи, однако не гарантирует результата.

Эксперимент показал, что система действительно справляется с опечатками транслитерации, если количество таких ошибок в слове невелико. Убедитесь сами.

Запрос (все буквы русские):

[ «глОКлАя кУздРА»]

Результат: Вы искали: «глОКлАя кУздРА», найдено сайтов: 5, документов: 37.

Запрос (заглавные буквы – латинские):

[ «глOKлAя кYздPA»]

Результат: Не найдено ни одного документа, полностью соответствующего запросу ««глOKлAя кYздPA»».

Запрос (заглавные буквы – латинские):

«глOклая куздPа»

Результат: Вы искали: ««глOклая куздPа»», найдено сайтов: 5, документов: 37.

Чтобы не загружать читателя лишними примерами, скажем лишь, что при трех опечатках правильный поиск еще проводился, но после появления четвертой неправильно написанной буквы результат поиска стал нулевым. Рамблер в комментариях к результату поиска в этом случае просто порекомендовал пользователям быть внимательнее при вводе текста.

5. Регистр букв.

Как правило, Рамблер не учитывает регистр букв, причем он распространяет это правило не только на слова запроса, но и на операторы.

Действительно, запросы «глоклая куздра» и «ГлоКЛаЯ КУздРа» дали одинаковые результаты.

Запрос:

[ «глоклая куздра»]

Результат: Вы искали: «„глоклая куздра“«, найдено сайтов: 8, документов: 45

Запрос:

[ «ГлоКЛаЯ КУздРа»]

Результат: Вы искали: «„ГлоКЛаЯ КУздРа“«, найдено сайтов: 8, документов: 45

Однако Рамблер сообщает, что он делает исключение из этого правила: если в запросе, как минимум, два слова, идущих подряд, написаны с заглавной буквы, система, как утверждают ее создатели, старается искать эти слова также с заглавной буквы. То есть, Рамблер пытается помочь тем, кто ищет имена собственные или географические названия.

Проведенный нами эксперимент этого не подтвердил.

Запросы:

[слава зайчиков] и [Слава Зайчиков]

выдали в Рамблере одинаковое количество страниц в выдаче.

Вы искали: слава зайчиков, найдено сайтов: 813, документов: 2621

Вы искали: Слава Зайчиков, найдено сайтов: 815, документов: 2621.

Это похоже на результаты Гугла, который не различает заглавные и прописные буквы:

Результаты 1 – 10 из примерно 138 000 для слава зайчиков

Результаты 1 – 10 из примерно 138 000 для Слава Зайчиков.

Тогда как в Яндексе, который различает заглавные и прописные буквы, результат был иным:

Запрос: [слава зайчиков]

Результат поиска: страниц – 403, сайтов – не менее 173.

Запрос: [Слава Зайчиков]

Результат поиска: страниц – 64, сайтов – не менее 33.

Совершенно идентичные предыдущим результаты были получены и на запросах из трех слов:

[одна баба сказала] и [Одна Баба Сказала]

Результат: Вы искали: одна баба сказала, найдено сайтов: 42056, документов: 619112

Результат: Вы искали: Одна Баба Сказала, найдено сайтов: 42054, документов: 619112.

6. Стоп-слова и оператор «кавычки».

Подобно Яндексу, Рамблер при обработке запроса может проигнорировать стоп-слова. Авторы системы утверждают, что для принудительного включения указанных элементов (или каких-либо других, подобных им) в выдачу, нужное слово следует заключить в кавычки.

Эксперимент расставил акценты иначе. Стоп-слова, независимо от того, закавычены они или нет, одинаково попадают в выдачу.

А вот остальным словам (не входящим в список стоп-слов), которые необходимо в обязательном порядке включить в выдачу, кавычки действительно обеспечивают обязательное включение в результат. Это эквивалентно оператору «плюс» в Яндексе и Гугле.

Вы искали: «с» пингвином, найдено сайтов: 15468, документов: 166651

Вы искали: с пингвином, найдено сайтов: 15468, документов: 166651.

Вы искали: «the» apple please, найдено сайтов: 2700, документов: 16047

Вы искали: the apple please, найдено сайтов: 2700, документов: 16047.

Пример работы кавычек в иных случаях, а не только со стоп-словами, приведен в следующем разделе – Логическое «И».

Кроме того, как мы уже говорили, кавычки могут выступать аналогично оператору «восклицательный знак» в Яндексе. Слово, указанное в запросе в кавычках, будет присутствовать в результатах поиска лишь в той форме, в которой вы его зададите.

7. Логическое «И».

Как и в Яндексе с Гуглом, роль логического «И» в Рамблере выполняет пробел. В принципе, можно ввести вместо пробела слово AND, но на практике, по вполне понятным причинам, так обычно не делается.

Подобно Яндексу, Рамблер достаточно вольно обращается со словами, которые соединены пробелом – он может легко выдать не только те документы, где присутствуют ВСЕ слова запроса, но и те, где на одно-два слова меньше.

В этом можно убедиться, сравнив два запроса:

[кошки собаки верблюды зебры носороги]

Вы искали: кошки собаки верблюды зебры носороги, найдено сайтов: 42, документов: 296

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Rambler_bez_Nosorogov.html

и

[ «кошки» «собаки» «верблюды» «зебры» «носороги»]

Вы искали: «кошки» «собаки» «верблюды»…, найдено сайтов: 9, документов: 53

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Rambler_s_Nosorogami.html.

Во втором случае все без исключения элементы запроса принудительно включены в выдачу – за счет кавычек, поэтому документов в выдаче значительно меньше.

8. Логическое «ИЛИ».

Написание этого оператора приспособлено как для любителей Яндекса, так и для тех, кто предпочитает работать с Гуглом.

Как и в Яндексе, в Рамблере логическое «ИЛИ» может быть представлено вертикальной чертой |.

Для тех, кто привык к логическому «ИЛИ» Гугла, данная система предоставляет возможность пользоваться также оператором OR.

Приоритета нет ни у одного из этих двух указанных вариантов.

Наример:

Вы искали:

дуоденогастрэктомия OR циклопентанпергидрофенантрен,

найдено сайтов: 266, документов: 813.

Вы искали:

дуоденогастрэктомия | циклопентанпергидрофенантрен,

найдено сайтов: 266, документов: 813

9. Логическое «НЕ».

Логическое «НЕ» в Рамблере похоже на таковое в Гугле и распространяется на весь документ. Сузить запрос, подобно Яндексу, до предложения, эта система не позволяет. Записывается логическое «НЕ» как NOT.

Запрос: [журавль]

Вы искали: журавль, найдено сайтов: 43085, документов: 554542

Запрос: [журавль NOT колодец]

Вы искали: журавль NOT колодец, найдено сайтов: 41447, документов: 528644

Запрос: [журавль NOT (колодец | птица)]

Вы искали: журавль NOT (колодец | птица), найдено сайтов: 33059, документов: 390789

Запрос: [журавль NOT (колодец | птица | «журавль»)]

Вы искали: журавль NOT (колодец | птица | «журавль»), найдено сайтов: 23824, документов: 225549

Запрос: [журавль NOT (колодец | птица | «журавль» | «журавлей»)]

Вы искали: журавль NOT (колодец | птица | «журавль» | «журавлей»), найдено сайтов: 21197, документов: 192387

10. Стемминг (а также wildcard).

Рамблер НЕ поддерживает ни стемминг, ни вилдкард.

11. Поиск с заданным расстоянием.

Рамблер не очень качественно поддерживает поиск с расстоянием, несмотря на то, что его «Помощь» утверждает обратное.

Рамблер говорит о том, что когда он ищет слова «в документе», то он реально ищет их на расстоянии не более 40 слов друг от друга. Это, конечно, не поиск с расстоянием, а скорее ограничение расстояния, но, по крайней мере, это прямо заявленное ограничение.

Однако при этом Рамблер утверждает, что уменьшить расстояние в 40 слов можно. Запрос, при котором слова должны находиться рядом, в «Помощи» выглядит так:

[2, красная армия]

Интересно, что при проверке этого утверждения мы обнаружили, что поисковик, похоже, – рекордсмен по числу сайтов, которые можно реально открыть в результатах запроса. Так, в случае с запросом про «красную армию» Рамблер показал более двух с половиной тысяч сайтов и был готов демонстрировать их и дальше, если бы мы не прекратили свой эксперимент.

Результат можно увидеть по адресу:

http://ci-razvedka.narod.ru/Rambler_Cash_Examples_Folder/Three_Thousands_Sites.html.

Еще нам показался необычным (и неудобным) способ перехода к следующей группе сайтов в результатах выдачи. Так, если в Яндексе можно уйти, например, на 20-ю страницу выдачи, после чего внизу страницы с результатами последней доступной для просмотра в группе страниц станет 30-я, то в Рамблере для того, чтобы эта 30-я страница стала видна, требуется сначала выбрать переход к следующей группе сайтов вверху страницы, под строкой с запросом, и только после этого можно выбрать последнюю страницу следующей группы сайтов и перейти на нее. Подобная организация перехода в два приема совершенно непонятна. Однако вернемся к непосредственным результатам запроса

[2, красная армия], —

который, согласно хэлпу Рамблера, должен рассматривать цифру «2» как служебную информацию о расстоянии между словами, и выдавать результаты, где слова «красная» и «армия» находятся рядом.

Наше внимание привлекло то, что цифра «2», которая в поиске должна была играть роль элемента оператора запросов, в выдаче обозначалась как слово, релевантное искомому.

Чтобы не пролистывать результаты по «красной армии» до 47-тысячного сайта, мы попробовали испытать поиск с расстоянием, как он описан в разделе «Помощь», на другом запросе и не полчили положительного результата. Для того чтобы провести такую работу, мы взяли за основу фразу из песни: «Майскими короткими ночами, отгремев, закончились бои».

Запрос: [2, «майскими» «ночами» +отгремев]

Вы искали: 2, «майскими» «ночами» +отгремев, найдено сайтов: 48, документов: 293.

В выдачу попали документы, не содержащие слова запроса непосредственно рядом друг с другом, более того, цифра «2» опять оказалась рассмотрена в качестве части введенного в поисковую строку выражения:

Фотографии, рекомендованные автором Roman Mezenin:: Галерея:: Клуб Foto.ru

… Портрет Комм. 6 / Рек. 2 Майскими короткими ночами / отгремев, закончились бои

05.06.2005 – 26 Kb – http://www.club.foto.ru/gallery/photos/recommended… – Восстановить текст – Найти похожие – Рубрика: Фото

Морской интернет-клуб

Майскими короткими ночами, Отгремев, закончились бои. Где же вы теперь, друзья – однополчане, Боевые спутники мои? Страницы: 1 2 3 4 5 6 7

18.10.2005 – 10 Kb – http://randewy.ru/pes/stol2.html – Восстановить текст – Найти похожие.

Остальные операторы Рамблера вынесены в «Форму расширенного поиска», расположенную по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www.

11.1. Поиск в заголовках страниц (<title>).

Этот оператор, существующий в Яндексе и Гугле как самостоятельный, в Рамблере тоже есть, но в «Помощи» системы он не указан и найти его нам удалось лишь в «Форме расширенного поиска».

Ссылка на форму расширенного поиска находится непосредственно справа от поисковой строки Рамблера.

11.2. Поиск ссылающихся страниц (link).

Этот оператор также встретился нам только в «Форме расширенного поиска».

Возможность использования его на практике проверена. Работает.

12. Язык документа.

Принудительное назначение конкретного языка документа возможно в «Форме расширенного поиска». При этом Рамблер предлагает на выбор один из трех языков: русский, украинский или английский.

По умолчанию в поле выбора языка отмечен вариант «любой».

13. Формат документа.

Выбор форматов, как и языков, по современным меркам не впечатляет. Предлагаются HTML, Word (.doc) и Adobe Acrobat (.pdf).

14. Дата документа.

Рамблер, подобно Яндексу, предлагает интересную возможность выбора даты в «Форме расширенного поиска», но если Яндекс, помимо конкретного диапазона с датами, позволяет выбрать, скажем, «последние 2 недели» или «последний год», то в Рамблере можно провести выборку лишь в конкретном временном диапазоне.

15. Поиск на определенном сайте.

Представлен строкой в «Форме расширенного поиска» с названием: «Искать документы только на следующих сайтах:».

Таким образом, на наш взгляд, Рамблер представляет определенный интерес для поиска страниц, когда требуется полнота выборки, но чаще эта поисковая система выполняет роль «запасного игрока» – на тот случай, если запросы, введенные в Яндекс и Гугл, не дадут желаемых результатов.

Сам Рамблер, похоже, с этим смирился и не стремится каким-либо образом менять ситуацию, о чем косвенно свидетельствует довольно бедный набор возможностей настройки запроса.

Однако порой система может быть весьма полезна, что вновь и вновь подтверждается практикой.

Оглавление книги


Генерация: 0.031. Запросов К БД/Cache: 0 / 0
поделиться
Вверх Вниз