Книга: Алгебра аналитики. Секреты мастерства в аналитической работе

1.9. Об использовании баз данных и баз знаний для Аналитики

1.9. Об использовании баз данных и баз знаний для Аналитики

Аналитика тесно связана с использованием глобальных и локальных информационных сетей, баз данных (БД) и баз знаний (БЗ)[36].

Данные – это отдельные факты, характеризующие объекты, процессы и явления предметной области, а также их свойства. При обработке на ЭВМ данные, полученные в результате измерений и наблюдений, трансформируются, приобретая различные формы представления – таблицы, протоколы, справочники, модели (структуры) данных в виде диаграмм, графиков, функций. На машинных носителях информации данные фиксируются с помощью различных языков их описания в виде баз данных. БД организуется в соответствии с определёнными правилами и представляет собой совокупность данных, характеризующей актуальное состояние некоторой предметной области и используемой для удовлетворения информационных потребностей пользователей.

Знания – это закономерности предметной области, представленные через принципы, связи, законы, полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области. Они основаны на данных, полученных эмпирическим путем, представляют собой результат мыслительной деятельности человека. При обработке на компьютере знания трансформируются аналогично данным. Материальными носителями знаний выступают различного рода научные публикации – монографии, учебники, методические пособия. Существует также такое понятие как поле знаний – условное описание основных объектов предметной области, их атрибутов и закономерностей, их связывающих.

Отличие баз знаний от баз данных состоит в следующем. БД представляет собой жестко структурированную модель записей однородных данных, а БЗ представляет собой открытую модель семантической сети, которая может содержать разнородные и разнотипные данные.

База знаний, – это особого рода база данных, разработанная для управления знаниями (метаданными), то есть сбором, хранением, поиском и выдачей знаний. Раздел искусственного интеллекта, изучающий базы знаний и методы работы со знаниями, называется инженерией знаний. Под БЗ понимается совокупность фактов и правил вывода, допускающих логический вывод и осмысленную обработку информации. Например, в языке Пролог[37] базы знаний описываются в форме конкретных фактов и правил логического вывода на основе баз данных и процедур обработки информации, представляющих сведения и знания о людях, предметах, фактах событиях и процессах в логической форме.

Современные БЗ работают совместно с системами поиска информации, имеют классификационную структуру и формат представления знаний. Полноценные БЗ содержат в себе не только фактическую информацию, но и правила вывода, допускающие автоматические умозаключения о вновь вводимых фактах и, как следствие, осмысленную обработку информации. Область наук об искусственном интеллекте, изучающая БЗ и методы работы со знаниями, называется инженерией знаний.

Вообще создание сетей связано с интенсификацией таких процессов, как контроль функционирования централизованного государства через систему налогообложения, деятельность таможенных органов и т. д. Базы данных нужны везде – в бизнесе, на транспорте, в банковском секторе, в политике, в госстатистике, при решении вопросов гражданства, для борьбы с криминалом. Очевидно, начало этим процессам в современном смысле слова положил сбор данных при учёте народонаселения для обеспечения воинской повинности. В далёкие средние века в итальянских городах-государствах Венеции и Генуе создавались БД для сопровождения бизнеса в банковской сфере. Эти БД были действенны (за ними стояло финансовое могущество банковских структур и государства), но достаточно ограничены по своим масштабам, охватывали незначительное число граждан по различным аспектам их финансового взаимодействия между собой, что отражалось в этих базах.

Позднее в Европе БД начали охватывать и другие аспекты жизнедеятельности (собственность, акции, криминалитет, разнообразные потребности большой политики и бизнеса, особенно расширение ёмкости рынков, сбыт, планирование), что нашло своё отражение в первых локальных (тематически и географически) БД. Можно отметить, что, как минимум, до Первой мировой войны эти БД в большинстве случаев не вышли ещё за пределы чисто вспомогательной функции, они «не могли работать» без харизматичного аналитика-профессионала, восполнявшего их неполноту и ограниченность интуицией, неформализуемыми профессиональными знаниями, а также его ближайшего экспертного окружения. Будь-то начальники полиции при Наполеоне I и III, прототипы Шерлока Холмса, Пуаро, организаторы политического сыскав Российской империи (А.В. Герасимов, П.И. Рачковский и др.). Действительно, при том уровне развития средств связи и социальных коммуникаций (почта, телеграф, телефон, фотоаппарат) в условиях миграции населения, открытых границ, неграмотности значительной части населения было чрезвычайно трудно осуществлять быстрые, действенные коммуникации между локальными точками от Варшавы до Владивостока, поддерживать эти БД. Тем не менее, в целом царская охранка с этим достаточно успешно справлялась, хотя, скорее, можно говорить о решении локальных типовых задач, преимущественно методом непосредственного контакта (близкодействия – филёр, офицер полиции, как правило, лично знал своего подследственного, всю его среду). Однако уже первые волны глобализации, которые принесла Первая мировая война, когда нужно было действовать оперативно и часто с упреждением, показали уязвимость и неэффективность подобной персонифицированной традиционной системы.

Например, в Марселе в 1914 г. полицейские постреляли всех уголовников. Очевидно, это была не столько социальная мера в условиях войны, сколько следствие отсутствия систематической информации, возможности ведения БД для поиска преступников профессионально, систематически и регулярно. Поэтому решили избавиться от них кардинально. О подобных же методах, когда «виноваты все» свидетельствует и опыт нашей гражданской войны, весь советский опыт.

Вслед за армией, спецслужбами (тайной полицией, военной разведкой) и некоторыми другими институтами государства (например, статистические учреждения, нотариальные архивы), другие общественные институты в связи с качественным усложнением жизни также стали создавать (разрабатывать, поддерживать, усложнять) свои локальные БД. Образовывались публичные библиотеки с миллионами томов, книготорговые фирмы (тысячи наименований, пересылка книг по почте), выпуск каталогов с ценниками, что по сути уже было первыми аналитическими БД доступной информации по разделам.

Помимо локальных (но достаточно объёмных, например, в рамках всей страны – железнодорожный справочник общих сетей), БД стали появляться и в виде каталогов, специализированных микросетей. Архив с гарнитуром генеральши Поповой (Ильф и Петров «Двенадцать стульев»), путеводитель по дворянским усадьбам средней полосы, геральдические сборники, личные библиотеки и библиография в конце книги – тому примеры. Изначально понятна ограниченность формата данных из этих каталогов и специализированных сетей, что однако вовсе не говорит об их невостребованности, неиспользуемости.

В течение многих лет практика создания БД постоянно совершенствовалась, распространялась на различные сферы, а во второй половине XX века, когда мир охватила всеобщая информатизация, стала обычной. В XXI веке она нашла своё органичное продолжение через создание БЗ.

Большая статистическая работа проводилась ещё русскими земствами, особенно в период проведения первой переписи населения. В советский период структуры Госплана СССР предоставляли громадную, достаточно полную и систематизированную информацию по многим аспектам народно-хозяйственной жизни. Работа Министерства торговли и финансов позволяла измерять экономические показатели развития страны, вести БД по отраслям промышленности, регионам, замерять и отчасти предсказывать соотнесения валют, ёмкости рынков, динамику изменений. Важно также отметить, что статистические данные были достаточно полными, систематическими и публичными (открытыми). Последнее обстоятельство позволяло заинтересованным людям самим не дублировать работу ведомств, использовать статистические данные в своей практической деятельности, заказывать проведение иных выборок и статистических исследований под свои задачи и в своих интересах. Так постепенно на рубеже веков в России появился рынок Аналитики.

Чрезвычайно важным фактором, определяющим успешность применения созданной БД, является структура описаний (совокупность атрибутов, используемых для описания объектов учёта). Если структура описаний не обеспечивает тех возможностей, которые необходимы потребителю для производства работ с ресурсами базы данных, то из эффективного инструмента информационной работы база данных превращается в кладбище данных, где на покосившихся крестах и памятниках давно повыцвели надписи. Поэтому уже на уровне структуры описаний должны быть учтены особенности технологии обработки информации, структура деловых процессов, возможности дальнейшего наращивания комплекса средств автоматизации, возможность востребования данных и без применения специализированных интерфейсов (программ иных, нежели программы системы управления базами данных) и так далее. В противном случае, в какой-то момент времени, когда очередная смена технологии потребует заменить интерфейсное программное обеспечение, вам придётся проводить на заслуженный отдых не только эти программы, но и все те данные, которые были накоплены за годы работы вашей организации.

БД и БЗ представляют собой уникальный источник информации, использование которого в сочетании с иными средствами автоматизации аналитической работы способно многократно повысить продуктивность труда аналитика. Характерно, что большинство технических средств сбора информации, выражающих результаты в символьном виде, способно служить источниками только таких – специализированных данных. Как следствие, методологическое обеспечение систем анализа структурированных и числовых параметрических данных во многом совпадает. Даже в случае, когда в качестве параметров используются естественно-языковые термины, они могут рассматриваться как численные оценки значения атрибута, между которыми могут быть установлены те или иные отношения (порядка, величины, объёма понятия и т. д.). В результате для обработки таких данных могут быть (хоть и с некоторыми изменениями) применены пакеты автоматизированной статистической обработки данных наблюдений, системы математического моделирования и иные программные средства, располагающие широкими возможностями для проведения статистических исследований, анализа временных рядов, сравнительного анализа и так далее.

Современная аналитика располагает чрезвычайно обширной источникевой базой. В арсенале средств сбора информации присутствуют самые изощрённые системы: начиная от спутниковых систем мониторинга атмосферы и земной поверхности, радио и оптико-электронной разведки и заканчивая самим, вооружённым аналитическими способностями, мыслетехнологиями и навыками, аналитиком.

По существу, одной из задач информационной работы и является построение именно такого, структурированного ресурса для «внутреннего потребления» субъектом Аналитики. Однако на пути к этому необходимо решить целый ряд сложных проблем, связанных с переходом от символьных данных произвольной семантики к символьным данным специальной семантики, обладающих метризованным словарём. Здесь, в частности, используются методы нечётких множеств, многозначной и нечёткой логики (работы А. Лукасевича, Л. Заде и их последователей). В современной России за последние два десятка лет сделаны огромные подвижки в плане информатизации общества, развёртывания глобальных и локальных вычислительных сетей, интернета, мобильной телефонной связи, создания качественно новых БД и БЗ и т. д. Полностью развёрнута российская космическая навигационная система ГЛОНАСС, которая обеспечивает глобальную непрерывную навигацию на поверхности Земли и на высотах до 200 км и на текущее время сопоставима по основным характеристикам (точность, доступность, оперативность) с американской системой GPS. Развёртываются и конкурирующие системы спутниковой навигации: европейская «Galileo», китайская «Бэйдоу» и др.

Справка: Впервые космический аппарат системы ГЛОНАСС был запущен в октябре 1982 г. Штатная орбитальная группировка состоит из 24 космических аппаратов, расположенных в трёх орбитальных плоскостях, разнесённых на 120 градусов, в каждой из которых размещается по 8 спутников, что обеспечивает устойчивый сигнал.

Сегодня упрощаются (убыстряются, удешевляются) коммуникации, процесс обмена информацией становится условием происходящей в мировом масштабе глобализации, когда проигрывает отстающий (закрывшийся от потоков информации). Одновременно сосуществуют три уровня сетей. Их взаимодействие создаёт информационное пространство, где живёт современный человек.

Первый уровень – глобальные сети (интернет, радио, ТВ), как правило, дающие лишь контекст.

Второй уровень – федеральный и локально ведомственный. Например, есть материалы контрольных и экспертно-аналитических мероприятий Счётной палаты Российской Федерации, где я нахожусь много лет на государственной гражданской службе, востребованные лишь узкими специалистами, крупными политиками, бизнесменами, госчиновниками, но без них (другое дело, насколько они достоверны) управлять государством невозможно. Существуют локальные БД, условно не связанные с остальными (шахматисты, писатели, поликлиники с домашними адресами и телефонами своих пациентов), специализированные (включая условно закрытые, тем не менее, продающиеся на «Горбушке», включающие всех налогоплательщиков административного округа или района с указанием их облагаемого налогом имущества) и т. д.

Третий уровень – это личные БД (например, домашняя телефонная книга, деловой блокнот, картотека выписок из литературных и научных источников, список деловых контактов).

Современный человек живёт в современных информационных потоках в постоянном пересечении всех этих сетей, БД и БЗ, взаимодействуя с их помощью с социальным миром.

Прослеживаются некоторые важные тенденции и закономерности этого взаимодействия. Среди них следует отметить следующие.

1. Мир становится всё более открытым, многофакторным. Сокрыть какую-либо информацию становится всё более проблематично, а то и невозможно. Более ценным, чем узкое мастерство, становится умение оперативно работать с большими массивами разнокачественной информации, получать новое качество из уже имеющейся информации, прилагать старый опыт к новым темам (форматам).

2. Интеграция лично усвоенного и применяемого Знания и БД/БЗ. Сегодняшние поисковые системы легко находят такие линии взаимодействия данных из различных информационных систем, которые и не снились бельгийскому следователю Эркюлю Пуаро. Наверное, не за горами и то время рассогласования, когда человек с его самосознанием и компьютерный (информационный) миф о нём разойдутся… Это противоречие усиливается.

Сейчас по одному ключевому слову (дескриптору) в поисковой системе можно найти цепочку сторонних смыслов (значений, взаимодействий), которых нет в кодифицированных текстах. Например, если в поисковик вбить запрос «Новый Завет», то по ответам на запрос станет ясно, что изначальный текст библейских книг долго фетишизировался, обрастая комментариями и комментариями на комментарии, на чём собственно зиждилась интеллектуальная система трактования древних текстов. Со временем сам текст всё больше становится лишь фрагментом метасистемы или специализированной коммуникации, как всё искусство постмодернизма и современная литература.

Образ следователя Пуаро это и есть, пожалуй, литературный прообраз современного аналитика, вышедшего за пределы своей традиционной предметной деятельности. При этом важно отметить и такую важную тенденцию – в массовом сознании идёт процесс стремительного нарастания полузнания, ограниченного понимания, словоблудия общих мест, субъективного стремления сохранить своё прежнее интеллектуальное пространство (традиционализм, сектантство, кастовость, в том числе и в научном мире). Сегодня личные библиотеки как источник пополнения профессионального Знания всё больше теряют смысл перед лицом интернета, иных способов передачи и кодификации профессиональной научной информации – деловых контактов на различных коммуникационных площадках, семинаров, тренингов, интервью со специалистами. Крайне важную роль при этом, по моему мнению, играют личные письменные или электронные блокноты, которые могут выступать в роли «интеллектуальных мастерских» для развития собственного интеллекта. Я ещё вернусь ниже к их содержанию и принципам ведения.

Сегодня иногда проще (вчерне, с потерей академического качества) восстановить потерянное Знание, нежели кропотливо обновлять его по первоисточникам.

Многие опубликованные книги обладают ничтожной информационной ёмкостью (наряду с чрезмерной дороговизной, громоздкостью, необходимостью многотрудного поиска) сравнительно с электронными носителями, обеспечивающими контекст, видеоряд, графику, возможность использования в семинарах он-лайн (вебинарах).

Локальным (региональным) научно-образовательным и просветительским центрам (сетям) всё сложнее справляться со своими задачами. Речь не идёт о невостребованности их труда, недостаточности финансирования и т. д, но о принципиальной технологической ущербности, трудности с нуля и массово создать полноценный развёрнутый формат информации для пользователей. Мы сейчас приходим к такому этапу обесценивания труда писателя-компилятора, когда книжку проще с нуля написать заново, нежели разыскивать на развалах. Тем более, если она издана мизерным тиражом. В технических сферах (США, 1975 – 1980 годы) этот этап уже пройден давно, проще и дешевле проект стоимостью до $ 50.000 осуществить заново, нежели искать его в технических архивах.

Этот феномен интеллектуальной инерции, запаздывания в переходе на новые технологии и социальные реалии был всегда. Например, и сейчас есть много людей, которые так и не смогли освоить компьютер. Человечество подсознательно живёт в отживших социальных категориях, причём это мировой процесс – он характерен для большинства стран.

Когда-то священник был единственным грамотным человеком в округе. С развитием массовой грамотности и образования, доступности Библии, он стал почти что служащим ритуальной конторы. Когда-то инженер был почти кудесник, так как первым решал технологические проблемы, затрагивающие живые интересы сотен, а то и тысяч людей; учитель гимназии интегрировал подрастающее поколение среднего класса через культуру, самоидентификацию и воспитание в буржуазное общество. Когда-то поэт, писатель, художник был уважаемым и высокооплачиваемым членом общества, ибо создавал новые, более ёмкие и концептуальные образы и стереотипы восприятия действительности, делал за общество мозговую работу самопознания. Свойства теоретической рефлексии, раскрытые Кантом, Фихте, Шеллингом и, особенно, Гегелем, имели свои исторические корни, восходящие к временам древней Греции. Как отмечал Ф. Энгельс, именно в этом историческом периоде можно было найти зачатки всех основных учений о мышлении и познании, развившихся позже в ХГХ и XX веке. Постепенно в обществе шло развитие понимания важнейших особенностей познавательных механизмов человека.

Ещё недавно переводчики, журналисты, психологи выполняли в обществе важные и хорошо оплачиваемые функции, соответственно – сближали народы, профессионально обманывали электорат, заменяли священника в атеистическом обществе. Юристы, бухгалтеры, экономисты, менеджеры в унифицированном сетевом обществе всё более теряют свой статус (заработок, престиж, востребованность). Можно предположить, что им на смену в скором будущем придут, очевидно, другие профессии – системный аналитик, кризис-менеджер, IT– и PR-технолог, прикладник-математик, методолог. Это всё темы неочевидные, спекулятивные, но тенденция несомненна.

В этой связи отметим тенденции изменения компоновки БД. Отмирающие среди элитарных слоев общества специальности требовали строго формализованного, процедурно-прописанного подхода, где высшим специалистом (адвокатом, юристом, экономистом) считался тот, кто наиболее успешно знал, применял, использовал все существующие инструкции, технологии, т. е., по сути, поддерживал и умело использовал профессиональную БД. Естественно, в этом была большая доля ритуала, кастовой обособленности и корпоративизма. Специалисты поддерживали специализированные профессиональные БД, совершенствовали свои традиционные формализованные навыки. В органах госуправления и сейчас много специалистов, прекрасно знающих нормативно-правовую базу своей деятельности, все инструкции и стандарты. Их карьерный рост обеспечивается точностью соблюдения всех этих предписаний.

Однако нарождающиеся востребованности нынешнего дня более креативны, становятся менее формализованными, менее очерченными и очевидными, они всё более состоят не только в некотором определённом Знании, сколько в навыках, умении это новое востребованное временем Знание добыть, использовать, творчески обновить.

Конечно, это было и раньше, однако в современных условиях эта тенденция явно усиливается. Например, известен следующий случай. Ещё до революции 1917 года на одном заводе в Санкт-Петербурге германская машина стала давать брак при изготовлении каких-то изделий (заготовок). Своими силами проблему устранить не удалось. Пригласили известного профессора Техноложки. Он походил вокруг, снял кожух, посмотрел и согласился помочь за 10.000 рублей. Владельцы и директор поморщились, но согласились – по рукам. Профессор снял пенсне, отвинтил-завинтил какую-то деталь и машина заработала правильно.

– Но позвольте, за что же 10.000? За то, что вы поменяли один винтик?

– Голубчик мой, за то, что я поменял винтик, я взял всего 100 рублей. А остальное – за то, что я знаю, какой именно винтик нужно поменять, я этому обучался 30 лет.

Специфика нынешнего дня, очевидно, состоит в том, что наиболее востребованными становятся личные БД и БЗ, включающие персональные наработки, систематизированные знания, архивы, социальные сетки, эксклюзивные и технологические тонкости, каналы самореализации. Квадрат и вектор поиска в неизвестном широком информационном поле определяются в соответствии с поставленной заказчиком аналитической задачей. Это создаёт новые условия и возможности для развития Аналитики в самых различных сферах – в политике, экономике, финансах, бизнес-процессах и формирует пространство (контекст) для создания рынка аналитической продукции.

На практике во многих БЗ содержащаяся в них информация подразделяется на «факты» и «правила». Факты – элементарные единицы знания (простые утверждения о характеристиках объекта, произошедших событиях, явлениях); правила служат для выражения связей, зависимостей между фактами и их комбинациями. Таким образом, первичную классификацию знаний можно представить следующим образом:

• понятия (математические и нематематические);

• факты;

• правила, зависимости, законы, связи;

• алгоритмы и процедуры.

В процессе аналитической работы специалистам приходится использовать большое количество знаний, получаемых из разных источников, при этом ключевым моментом является способность делать на их основе свои собственные выводы. Это предполагает наличие эффективного управления большой по объему и хорошо структурированной служебной БЗ, имеющими разграничения по уровням, удобные интерфейсы для представлений понятий, фактов, правил, схем предикатов и четко определенный процесс корреляции информации, полученной из различных источников. Существуют и личные БЗ/БД, создаваемые аналитиками на базе персональных компьютеров.

Прямое использование знаний из БЗ для решения управленческих задач обеспечивается механизмом принятия решений – процедурой разработки возможных вариантов, их комплексным оцениванием и выбором оптимального решения. Механизм принятия решения дает возможность извлекать из базы знаний ответы на вопросы, получать решения, формулируемые в терминах понятий, хранящихся в базе. Примером типичного запроса является: найти объект, удовлетворяющий заданному условию, каким-либо ключевым параметрам или критериям; какие действия нужно выполнить в сложившейся проблемной ситуации и т. д. Как правило, управленцы и аналитики используют при этом в качестве базовых типовые алгоритмы системного анализа ситуации (проблемы) и принятия решений. В этом случае они связаны со знанием особого типа, поскольку определяемая ими последовательность действий алгоритма оказывается оформленной в блок в строго необходимом порядке в отличие от других типов знания, где элементы информации могут появляться и располагаться без связи друг с другом.

В первом приближении можно также указать и на такое качественное интенциональное отличие старых и новых БД. Первые в основном были обращены в прошлое, описывали старый опыт и творчески его переработав, пытались использовать повторно. Например, весьма креативный Госплан СССР в 30-х годах и его почти дословная калька в иных, изменившихся условиях 80-х годов одинаково были нацелены на достижение Результата.

«Новые» БД, создаваемые в государственных и коммерческих структурах под свои нужды, а также БД личностного характера, также нацелены на результат, однако больше обращены в будущее. Они фиксируют в исследуемых массивах научной информации не столько общеочевидное, повторяющееся из раза в раз, из года в год, сколько сущностные изменения, эксклюзив, нарастание нового качества. Например, это касается результатов деятельности таких мощнейших фигур, как Н. Тесла, Г. Форд, К. Циолковский, академик Л. Кошкин[38] и др.

Лозунг первых, характеризующий в основном экстенсивный, общепризнанный метод, – потребность как мать познания. Мать познания вторых – прорывные идеи, удивление, красота, неповторимость, интенсивность, высокотехнологичность, чаще методы косвенного, а не прямого анализа.

При внешней схожести многих компонентов различных аналитических традиций[39] их внутренние структуры, и особенно содержательные стороны, вовсе не тождественны. Отсюда вытекает проблема сложности и продуктивности применения аналитики при прямых заимствованиях из чужого (другого) контекста без культурной адаптации к данной традиции. Часто это происходит в виде интеллектуальных диверсий или в формах добровольного самообмана. По аналогии, в современной биотехнологии при создании генно-модифицированных организмов (ГМО) и растений в генную цепочку традиционного продукта встраивают иную модифицированную цепочку (что-нибудь типа помидора с вкраплениями генов черепахи для долговечности хранения).

Оглавление книги


Генерация: 1.454. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз