Книга: Профессиональный поиск в Интернете
Falcons
Falcons
Интерес к семантическому поиску проявляют не только американские и европейские разработчики. Проект Falcons – это пример азиатского ресурса. Название поисковика представляет собой сокращение слов «Finding, Aligning and Learning ONtologies». Разработан поисковик в Юго-Восточном университете Китая (точнее, в институте Institute of Web Science). Любопытно, что даже сайт-«визитка» самого института широко использует RDF-разметку.
Поисковик в настоящее время умеет работать только с документами, использующими формат RDF/XML. Технологическая база Falcons полностью построена на программном обеспечении с открытым исходным кодом. Задействованы технологии MySQL, Apache Lucene и Jena – специализированная платформа для Java, предназначенная для работы с данными в семантических форматах. Для взаимодействия внешних приложений с Falcons предлагается достаточно простой прикладной программный интерфейс REST. Все соответствующие рекомендации и примеры уместились всего на одну веб-страницу справки Falcons.
Пользовательский интерфейс Falcons выдержан в строгом стиле. Начинать поиск можно только с помощью ключевых слов. Собственного языка запросов система не предлагает, ограничиваясь поддержкой поиска по взятой в кавычки точной фразе, а также стандартных логических операторов. Доступны несколько режимов поиска: объектов (Object), классов и свойств (Concepts), а также всех проиндексированных документов с семантической разметкой (Document).
Найденные объекты демонстрируются в виде простого списка сниппетов. Каждый сниппет содержит заголовок, URI, присвоенный системой тематический ярлык и краткую аннотацию, которая генерируется на основе RDF-описания найденного объекта. Щелкая на ссылках, можно перейти к более подробным описаниям.
Интересная находка Falcons – боковая панель с иерархическим деревом классов, к которым относятся найденные объекты. Она позволяет быстро уточнить запрос и упрощает навигацию в больших списках результатов. Данный инструмент напоминает панели кластерных интернет-поисковиков, однако шума здесь гораздо меньше, а структурирование информации выглядит весьма качественно. Достигается это за счет анализа семантической разметки документов.