Книга: Корпоративное управление и стратегический менеджмент: информационный аспект

OLAP-системы

OLAP-системы

Идея обработки многомерных данных восходит к 1962 г., когда Кен Айверсон (Ken Iverson) опубликовал свою работу «Язык программирования» (A Programming Language – APL) [Iverson, 1962]. APL – это математически определенный язык с многомерными переменными и изящными, но довольно абстрактными операторами. В 1970-е и 1980-е гг. он активно использовался во многих деловых приложениях, функционально схожих с современными OLAP-системами.

В 1970 г. впервые появился прикладной программный продукт для многомерного анализа данных – Express. Определенные модификации данного продукта широко используется в современных OLAP-системах, однако изначальные концепции 70-х остались далеко позади.

В 1992 г. был выпущен Essbase – первый OLAP-продукт, завоевавший большую долю рынка и удерживающий лидирующие позиции по сегодняшний день.

В 1993 г. вышла в свет статья Е. Ф. Кодда (E. F. Codd), в которой впервые было дано формальное определение OLAP-технологии [Codd Е., Codd С., Salley, 1993]. Эта работа получила большой резонанс и привлекла внимание к возможностям многомерного анализа. В статье было описано 12 правил OLAP, к которым чуть позже (в 1995 г.) было добавлено еще несколько. Все эти правила были разделены на четыре группы и названы характеристиками (features).

К правилам OLAP относятся:

• основные характеристики – многомерность модели данных, интуитивные механизмы манипулирования данными, доступность данных, пакетное извлечение данных, клиент-серверная архитектура, прозрачность, многопользовательская работа;

• специальные характеристики – обработка ненормализованных данных, хранение результатов отдельно от исходных данных, выделение отсутствующих данных, обработка отсутствующих значений;

• характеристики построения отчетов – гибкое построение отчетов, стабильная производительность при построении отчетов, автоматическое регулирование физического уровня;

• управление размерностью – общая функциональность, неограниченное число измерений и уровней агрегирования, неограниченные операции между данными различных измерений.

Универсальным критерием определения OLAP как аналитического инструмента является тест FASMI (Fast Analysis of Shared Multidimensional Information) – быстрый анализ разделяемой многомерной информации. Рассмотрим детально каждую составляющую этой аббревиатуры [Родионов, Исаев, 2002].

Fast (быстрый). Это свойство означает, что OLAP-система должна обеспечивать ответ на запрос пользователя в среднем за пять секунд, при этом большинство запросов обрабатывается в пределах одной секунды, а самые сложные запросы должны обрабатываться в пределах 20 секунд.

Analysis (аналитический). OLAP-система должна справляться с любым логическим и статистическим анализом, характерным для бизнес-приложений, и обеспечивать сохранение результатов в виде, доступном для конечного пользователя. Средства анализа могут включать процедуры анализа временных рядов, распределения затрат, конверсии валют, моделирования изменений организационных структур и др.

Shared (разделяемый). Система должна предоставлять широкие возможности разграничения доступа к данным и одновременной работы многих пользователей.

Multidimensional (многомерный). Система должна обеспечивать концептуально многомерное представление данных, включая полную поддержку множественных иерархий.

Information (информация). Мощность различных программных продуктов характеризуется количеством обрабатываемых входных данных. Разные OLAP-системы имеют разную мощность: наиболее мощные из них могут оперировать, по крайней мере, в тысячу раз большим количеством данных по сравнению с самыми маломощными. При выборе OLAP-инструмента следует учитывать целый ряд факторов, включая дублирование данных, требуемую оперативную память, использование дискового пространства, эксплуатационные показатели, интеграцию с информационными хранилищами и т. п.

Обсуждая тему OLAP, следует упомянуть и о разновидностях многомерного хранения данных. Дело в том, что информационные массивы, логически упорядоченные по аналитическим направлениям и, таким образом, являющиеся многомерными с точки зрения конечных пользователей, не обязательно являются многомерными по их технологической реализации.

Как правило, выделяют три разновидности хранения данных [Духонина, Исаев, 2005]:

• многомерный OLAP (multidimensional OLAP – MOLAP) – «OLAP в чистом виде», т. е. технология, основанная на хранении данных под управлением специализированных многомерных СУБД;

• реляционный OLAP (relational OLAP – ROLAP) – технология, основанная на хранении многомерной информации в реляционных базах данных, на основе одной или нескольких схем типа «звезда» или «снежинка»;

• гибридный OLAP (hybrid OLAP – HOLAP) – технология, при которой одна часть данных хранится в многомерной базе, а другая – в реляционной. При этом инструментальные средства, поддерживающие эту технологию, обеспечивают прозрачность данных для пользователя, который на логическом уровне всегда работает с многомерными данными.

Одной из причин, объясняющих необходимость различных подходов к хранению данных, является то, что в многомерных структурах хранятся довольно большие объемы агрегированных данных (например, данные продаж могут агрегироваться по временным интервалам, категориям товаров или регионам продаж). Эти данные очень важны, поскольку в большинстве случаев аналитика интересуют именно агрегированные, а не детальные цифры.

Любые данные (как исходные, так и агрегированные) могут храниться либо в реляционных, либо в многомерных структурах, в зависимости от применяемой технологии. Например, MOLAP подразумевает хранение всей информации в многомерной базе данных. Это позволяет манипулировать данными как многомерным массивом, но в этом случае многомерная база данных оказывается избыточной, поскольку и агрегированные показатели, и лежащие в их основе исходные данные хранятся вместе. При технологии ROLAP исходные данные остаются в той же реляционной базе, где они находились изначально, а агрегированные данные помещаются в специальные служебные таблицы в той же базе данных. Наконец, при гибридной технологии (HOLAP) исходные данные остаются в реляционной базе данных, а агрегированные показатели хранятся в многомерной.

Выбор способа хранения зависит от нескольких факторов, таких как объем и структура данных, скорость выполнения запросов, частота обновления OLAP-кубов.

Оглавление книги


Генерация: 1.022. Запросов К БД/Cache: 3 / 0
поделиться
Вверх Вниз