Книга: Профессиональный поиск в Интернете
ScienceResearch
ScienceResearch
Проект ScienceResearch является бесплатным и общедоступным поисковиком научных ресурсов, который обладает рядом интересных особенностей. Данный проект работает с базами данных, электронными библиотеками и другими источниками онлайновых научных публикаций. Такие источники называются на данном проекте «коллекциями». В общей сложности проект поддерживает поиск более чем на трех сотнях таких коллекций. Основные особенности ScienceResearch – это поддержка технологии Federated Search и использование кластеризации при выводе результатов поиска.
Технология «объединенного поиска» (Federated Search) разработана компанией Deep Web Technologies и реализована в поисковом алгоритме Explorit Research Accelerator, который предлагается заинтересованным разработчикам. Данная технология отличается тем, что построенные на ее основе поисковики не собирают какую-либо собственную индексную базу, а способны работать в режиме реального времени с большим количеством внешних подключаемых баз данных.
После поступления запроса от пользователя ScienceResearch отправляет его всем поддерживаемым коллекциям. Затем в полученных ответах отбрасываются дублирующиеся записи и определяются наиболее релевантные результаты. Заметим, что степень релевантности определяется с помощью алгоритмов самой системы ScienceResearch и не зависит от качества ранжирующих алгоритмов отдельных источников информации. В результате формируется страница выдачи, которая и демонстрируется пользователю.
Поскольку все эти операции выполняются в режиме реального времени, ScienceResearch предлагает несколько уникальных возможностей. Например, если за время просмотра пользователем страницы результатов поиска в какой-либо из внешних баз появляются новые записи, подходящие под условия введенного запроса, система выводит соответствующее сообщение и предлагает дополнить список выдачи новыми результатами. При составлении запросов допускается использование логических операторов и поиск по точной фразе. Режим расширенного поиска позволяет вести поиск по конкретным признакам (заглавию, автору публикации), ограничить выдачу определенным хронологическим промежутком, а также конкретной научной дисциплиной. Список основных дисциплин выводится на боковой панели поисковика. Кроме того, можно выбрать одну или несколько коллекций, на которые будет отправлен ваш запрос. К сожалению, в бесплатной версии ScienceResearch предлагается выбирать не из всех доступных коллекций, а только из нескольких основных.
Для уточнения запросов в системе ScienceResearch применяются кластерные технологии. Результаты работы алгоритма демонстрируются на боковой панели страницы выдачи Кроме тематических кластеров предлагаются разделы, группирующие статьи по авторам, источникам публикаций и другим подобным признакам. С помощью соответствующих меню можно сортировать список выдачи по различным признакам, а также переключаться в режим просмотра результатов, полученных из какой-либо одной коллекции.