Книга: Профессиональный поиск в Интернете

Nigma

Nigma

Российские разработчики поисковых систем не остаются в стороне от современных тенденций – разработка кластерной машины Nigma ведется исследовательской группой из МГУ им. М. В. Ломоносова в сотрудничестве со Стэнфордским университетом. Предварительная версия сервиса была запущена в начале 2005 года. Nigma опрашивает все крупные базы, содержащие документы на русском языке, в числе которых Google, Yahoo! AltaVista, MSN, Яндекс и Рамблер, что обеспечивает широкий охват источников. Кроме того, постепенно генерируется собственная индексная база Nigma.

Система Nigma позволяет увидеть сильные стороны метапоисков. Помогает в этом практическом эксперименте правильная настройка механизма поиска Nigma. Прямо под строкой ввода запроса находится несколько выпадающих меню, среди которых есть меню. Поисковики. Именно оно дает пользователям возможность управлять подбором поисковиков, на которые отправляются запросы. Если выбрать только какой-нибудь один поисковик, то, по сути, с ним можно поработать в интерфейсе, построенном на кластерах. Попробуйте убрать из этого списка свой любимый универсальный поисковик – в результате полученный по запросу список выдачи наглядно продемонстрирует, сколько веб-страниц вы теряете, работая только с одной индексной базой.


Приятно отметить тот факт, что разработчики Nigma не пошли по соблазнительному для многих пути создания «кальки» уже существующего ресурса, а сделали ставку на инновации. Сильной стороной Nigma является тщательный учет специфики русскоязычных запросов.

Это проявляется в собственном алгоритме кластеризации результатов, а также в поиске по различным морфологическим формам, синонимам слов из запроса пользователя и обобщенным понятиям. Интересная особенность системы заключается в том, что поисковикам отправляются запросы не только по точно заданному пользователем слову, но и по его автоматически сгенерированным словоформам. Это существенно увеличивает количество найденных страниц. Такой режим поиска запускается, если по исходной словоформе обнаруживается слишком мало документов. Работа этого механизма видна в служебной информации о найденной ссылке на странице выдачи Если документ был найден без морфологического преобразования запроса, то рядом с ним будут просто указаны использованный поисковик и рейтинг страницы. Если же была найдена сгенерированная словоформа, то после названия поисковика появится буква «М».

Особого упоминания заслуживает мощная система исправления орфографических ошибок и опечаток в запросах Nigma умеет исправлять прямо-таки клинические случаи: до четырех ошибок в слове, набранном в неправильной раскладке, причем предлагаемые варианты сортируются на основе близости к звучанию исправляемого слова. Кроме того, в систему встроен собственный словарь компьютерных терминов – полагаем, не надо рассказывать, сколько может быть вариантов написания у многих заимствованных слов из данной предметной области и какие проблемы из-за этого возникают при поиске в Сети на русском языке.

В Nigma работает система автоматического дополнения вводимого запроса. Помимо предложений по написанию запроса, здесь появляются дополнительные результаты: перевод вводимых слов на английский язык, короткие ответы на прямые вопросы к системе, а также справка из Википедии по теме запроса. Кроме того, по выпадающему меню автозаполнения можно перемещаться с помощью клавиатуры, что улучшает эргономику. В результате данное меню превратилось в самостоятельный и довольно мощный инструмент поиска.

При работе с англоязычными запросами можно воспользоваться инструментом. Англоподсказка, который подсказывает правильные грамматические конструкции для запросов на английском языке, подставляет в запрос синонимы, имеющие аналогичный русский перевод. Однако пока это экспериментальная функция и ее возможности ограничены.

Поисковик Nigma обладает мощной системой поиска ответов на конкретные вопросы, а также может решать математические примеры и работать с химическими реакциями – уникальное пока предложение среди универсальных поисковиков. Для некоторых типов задач (линейные, биквадратные, бикубические уравнения и другие) выводятся не только ответ, но и ход решения задачи. Кроме того, быстрые ответы на такие вопросы демонстрируются в меню автозаполнения.

Подводя итог, можно сказать, что за счет охвата всех крупных русскоязычных индексных баз Nigma – отличное решение для широкого поиска. А применение кластеризации позволяет быстро уточнять свой запрос даже при первоначальном поиске в условиях малознакомых тем, благо дополнительные ключевые слова предлагаются автоматически. В результате данную систему вполне можно рекомендовать для повседневного универсального применения (рис. 3.1).


Рис. 3.1. Российский кластерный метапоисковик Nigma

Для обработки массива найденных ссылок Nigma, как уже было сказано, использует кластеризацию по собственному алгоритму, оптимизированному с учетом особенностей русского языка. Интерфейс страницы выдачи Nigma состоит из основного списка результатов и боковой панели, в которой выводятся иерархический список выделенных системой кластеров, а также краткие справочные сведения о предмете поиска. При щелчке на кластере открывается не только страница соответствующих результатов, но и список вложенных кластеров, позволяющих уточнить запрос. Кроме того, в Nigma действует система фильтрации результатов – установив флажки возле нерелевантных кластеров, их можно быстро исключить из общей выборки.

Интересной экспериментальной функцией Nigma является инфопоиск. Посмотреть на результаты инфопоиска можно на общей странице выдачи Действует он следующим образом. При индексации веб-страницы разбиваются на отдельные блоки данных. Блоки, относящиеся к вашему запросу, добавляются к результатам поиска с высоким рейтингом. В результате на высоких позициях в списке выдачи пользователь видит не только ссылки на максимально релевантные веб-страницы, но и отдельные блоки данных для менее релевантных страниц. Это действительно удобно: мы не теряем полезную информацию из «длинного хвоста» результатов и экономим время, которое иначе пришлось бы потратить на просмотр дополнительных веб-страниц.

Новинками Nigma являются режимы табличного и музыкального поиска. Если ответы на запрос пользователя можно представить в структурированном виде, Nigma формирует на основе найденных данных таблицу и выводит ее на странице выдачи над общим списком результатов. Это удобный режим представления данных, ценность которого повышает возможность сохранения таблицы в формате CSV. К сожалению, эта экспериментальная функция пока работает только с очень небольшим количеством запросов, кроме того, она замедляет работу поисковика. Если для вашего запроса доступен режим таблицы, то на странице выдачи появится специальный значок.

Поиск музыки с помощью Nigma интересен тем, что при индексировании аудиофайлов информация извлекается из MP3-тегов, что позволяет реализовать режим структурированной демонстрации результата поиска. Сведения о найденном файле представляются в виде таблицы. Информация группируется по именам исполнителей, названиям альбомов и композиций, а также жанрам. Кроме того, на соответствующей панели выводится текст песни, если таковой был найден. В принципе, подобный режим поиска привычен при работе со всевозможными плеерами, поддерживающими создание библиотек мультимедиа, однако в сфере интернет-поиска, тем более универсального, это новинка, причем весьма удобная. Найденные записи можно прослушать прямо на странице результатов поиска – для этого в Nigma предусмотрен встроенный плеер. Заметим, что Nigma выдает прямые ссылки на файлы, а не отправляет пользователя на исходную веб-страницу. Пользователи Nigma могут загрузить на сервер собственные файлы в формате MP3, которые будут исправно проиндексированы и станут доступны для всех посетителей Nigma. Свои файлы при желании впоследствии можно будет удалить.

Nigma предлагает также метапоиск в базах изображений поисковиков, задействованных при обычном поиске документов. Здесь кластеризация не используется – доступна только группировка результатов по размерам картинок.

Оглавление книги


Генерация: 1.264. Запросов К БД/Cache: 3 / 0
поделиться
Вверх Вниз