Книга: Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Цепочка создания ценности больших данных
Цепочка создания ценности больших данных
Основная составляющая больших данных — информация, поэтому целесообразно начать с первой группы — держателей данных. Они не обязательно являются создателями исходной базы данных, но в их руках находится доступ к информации и возможность ее использовать либо передать на правах лицензирования другим пользователям, которые сумеют извлечь из нее выгоду. ITA Software, одна из четырех главных сетей бронирования авиабилетов (после Amadeus, Travelport и Sabre), предоставила свои данные компании Farecast для прогнозирования цен на билеты, но самостоятельный анализ не проводила. Почему? ITA работала с данными исключительно по их прямому назначению. В конце концов, продажа авиабилетов — непростая задача, так что анализ не входил в компетенцию компании. Кроме того, у нее не было инновационной идеи (а значит, пришлось бы искать обходные пути вокруг патента Эциони).
Далее, компания решила не менять положение дел ввиду своего места в цепочке создания ценности информации. «Компания ITA уклонялась от проектов, предусматривающих коммерческое использование данных, слишком тесно связанное с доходами авиакомпании, — вспоминает Карл де Маркен, сооснователь ITA Software и ее бывший технический директор. — ITA имела доступ к информации особой важности, которая требовалась для предоставления услуг, и не могла позволить себе поставить их под угрозу». Вместо этого она осторожно держала данные на расстоянии вытянутой руки, лицензируя их, но не используя. В итоге ITA продала данные за бесценок. Их основная ценность досталась Farecast: клиентам — в виде более дешевых билетов, а сотрудникам и владельцам Farecast — в виде доходов от рекламы, комиссий и, в конце концов, продажи компании.[116]
Некоторые компании проницательно устраивались в центре информационных потоков, тем самым получая возможность масштабирования, а также извлечения пользы из данных. Такая картина наблюдалась в сфере кредитных карт. Годами высокая стоимость борьбы с мошенничеством вынуждала многие малые и средние банки отказываться от выпуска собственных кредитных карт и передавать эту функцию большим финансовым учреждениям, размах которых позволял инвестировать в технологии. При этом все сливки доставались компаниям вроде Capital One и MBNA банка Bank of America. Теперь более мелкие банки сожалеют о том, что так расточительно отнеслись к операциям с картами, поскольку это лишило их данных о структуре расходов, которые позволили бы им узнать больше о своих клиентах и продавать им специализированные услуги.
Крупные банки и эмитенты карт, такие как Visa и MasterCard, напротив, заняли тепленькое местечко в цепочке создания ценности информации. Оказывая услуги многим банкам и торговым компаниям, они видели больше операций по своим сетям и делали выводы о поведении потребителей. Их бизнес-модель перешла от простой обработки платежей к сбору данных. Вопрос теперь в том, что они с ними делают.
Компания MasterCard могла бы лицензировать данные третьим лицам для их дальнейшего использования (как это делала ITA), но предпочла анализировать данные самостоятельно. Подразделение MasterCard Advisors объединяет и анализирует 65 миллиардов операций, осуществляемых 1,5 миллиарда держателей карт в 210 странах, чтобы прогнозировать потребительские и бизнес-тенденции. Затем эта информация продается другим компаниям. Среди прочего компания обнаружила, что, если люди заправили автомобиль около четырех часов дня, в течение часа они, скорее всего, потратят 35–50 долларов в продуктовом магазине или ресторане.[117] Эта информация могла бы пригодиться маркетологу, чтобы начать печатать купоны для близлежащих заведений на обороте бензозаправочных квитанций, выпускаемых в этот период.
Как посредник в информационных потоках MasterCard занимает весьма выгодное положение для сбора данных и получения из них выгоды. Только представьте себе будущее, в котором компании по выпуску платежных карт откажутся от своих комиссий по операциям и будут обрабатывать их бесплатно в обмен на доступ к большему количеству данных, чтобы получать доход от продажи еще более сложной аналитики, выполненной на их основе.
Во вторую группу входят компании, имеющие знания или технологии. MasterCard решила делать все собственными силами. Некоторые не могут сделать окончательный выбор, но часть компаний все же обращаются к специалистам. Например, консалтинговая компания Accenture сотрудничает с компаниями во многих отраслях промышленности для развертывания передовых технологий в области беспроводных датчиков и анализа собираемых ими данных. В 2005 году в ходе пилотного проекта в Сент-Луисе (штат Миссури) в десятке общественных автобусов были размещены беспроводные датчики, контролирующие работу двигателя для прогнозирования поломок и определения оптимального времени для регулярного техобслуживания. Один только вывод, что город может отсрочить плановую замену деталей с пробега в 200–250 тысяч километров до 280 тысяч километров, сэкономил 600 000 долларов на всем автопарке.[118] При этом именно клиент, а не консалтинговая компания собрал плоды ценности данных.
В сфере медицинских данных мы видим поразительный пример того, как внешние технологические компании могут предоставлять полезные услуги. Вашингтонский госпитальный центр в сотрудничестве с Microsoft Research проанализировал свои анонимные медицинские записи (демографические данные пациентов, анализы, диагностика, лечение и многое другое) за последние несколько лет, чтобы узнать, как снизить частоту повторных госпитализаций и инфекционных заболеваний. Они составляют львиную долю расходов на здравоохранение, поэтому любое снижение их стоимости означало бы огромную экономию.
Методика позволила выявить несколько удивительных корреляций. Одним из результатов был список всех условий, которые увеличивали вероятность того, что выписанный пациент поступит на повторную госпитализацию в течение месяца. Некоторые из этих условий хорошо известны и не имеют простого решения. Так, пациент с застойной сердечной недостаточностью наверняка вернется, поскольку это заболевание трудно поддается лечению. Система выявила еще один неожиданный, но надежный прогностический фактор — психическое состояние пациента. Вероятность того, что человек будет повторно госпитализирован в течение месяца, заметно увеличивалась, если среди исходных жалоб пациента были слова «депрессия» и пр., что указывало на психическое расстройство.
Хотя эта корреляция ничего не говорит о причинности, она предполагает, что надлежащая психологическая помощь пациенту после выписки благотворно скажется и на его физическом здоровье. Это открытие может улучшить качество ухода, уменьшить количество повторных госпитализаций и снизить расходы на медицинское обслуживание. Данная корреляция была выявлена компьютером путем просеивания огромной базы данных, но человеку вряд ли удалось бы ее выявить самостоятельно. Корпорация Microsoft не вмешивалась в управление данными больницы. У нее не было гениальной идеи по их использованию. Да этого и не требовалось. Microsoft просто предложила правильный инструмент — свое программное обеспечение Amalga, чтобы извлечь ценную информацию.
Компании, компетентные в области больших данных, играют важную роль в цепочке создания ценности информации. Twitter, LinkedIn, Foursquare и другие компании имеют горы данных, которые нуждаются в обработке. Компании старого типа (такие как Ford и BP) тоже буквально утопают в данных, по мере того как все больше аспектов их деятельности и продуктов датифицируется. Как держатели данных они полагаются на специалистов в том, чтобы извлечь из них выгоду. Но, несмотря на престиж и солидные названия должностей в духе «ниндзя данных», работа технических экспертов не всегда так заманчива, как может показаться. Они трудятся в алмазных копях больших данных, получая при этом внушительную зарплату. Но драгоценные камни достаются тем, кто владеет данными.
Третья группа — это компании и частные лица, которые мыслят категориями больших данных. Их сила в том, чтобы видеть возможности раньше других, даже если у них нет навыков и данных на реализацию. Возможно, именно нехватка этих ресурсов позволяет им взглянуть на ситуацию со стороны. Их разум не обременен стандартными ограничениями, и они видят то, чего можно достичь, пусть это практически трудноосуществимо.
Брэдфорд Кросс — живое олицетворение того, что значит мыслить категориями больших данных. В августе 2009 года в свои двадцать с лишним лет он и его четверо друзей создали FlightCaster.com. Как и FlyOnTime.us, их служба прогнозировала вероятность задержки рейсов в США, анализируя данные обо всех рейсах за последнее десятилетие и сопоставляя их со статистическими данными о прошлых и текущих погодных условиях.
Примечательно, что этого не сделали держатели данных. Никто не обнаружил желания или нормативно-правовой инициативы использовать данные таким образом. Ведь если бы источники данных — Бюро транспортной статистики, Федеральное управление гражданской авиации и Национальная метеорологическая служба США — осмелились предсказать задержку коммерческих рейсов, Конгресс, наверное, провел бы слушания, и чиновники получили бы по заслугам. Поэтому за дело взялась группа ребят в толстовках и с математическим образованием. Авиакомпании тоже не могли — и не хотели — строить такие прогнозы. Они пользовались преимуществами как можно более неясного положения дел. А прогнозы службы FlightCaster оказались настолько точными, что даже сотрудники авиакомпании стали ими пользоваться: поскольку авиакомпании не объявляют о задержке вплоть до последней минуты, они хоть и являются основным источником информации, но не самым своевременным.
Ребята мыслили категориями больших данных, и это вдохновило их на реализацию идеи: общедоступные данные можно обработать так, чтобы дать миллионам людей ответы на животрепещущие вопросы. Служба FlightCaster Брэдфорда Кросса стала первопроходцем, но с большим трудом. В том же месяце, когда был запущен сайт FlightCaster (август 2009 года), энтузиасты из команды FlyOnTime.us начали в больших объемах собирать открытые данные, чтобы создать собственный сайт. В конечном счете преимущества, которыми наслаждалась компания FlightCaster, пошли на спад. В январе 2011 года Кросс и его партнеры продали свой стартап компании Next Jump, управляющей программами корпоративных скидок, в которых используются методы обработки больших данных.
Тогда Кросс обратил внимание на другую стареющую отрасль — новостные СМИ, увидев в ней нишу, которую мог бы занять внешний новатор. Его стартап Prismatic объединял и ранжировал контент со всего интернета на основе анализа текста, пользовательских настроек, популярности, связанной с социальными сетями, и анализа больших данных. Важно отметить, что система не делала различий между блогом подростка, корпоративным сайтом или статьей в Washington Post: если контент считался востребованным и популярным (что определялось по частоте просмотров и рекомендаций), он располагался в верхней части экрана.
Служба Prismatic стала отражением нового способа взаимодействия со СМИ, который присущ молодому поколению. Его суть в том, что источник информации не столь важен. И это унизительное напоминание СМИ о том, что общество в целом лучше осведомлено о событиях, чем они сами. Претенциозным журналистам приходится конкурировать с блогерами, которые могут днями не вылезать из своих халатов. Ключевым моментом является то, что служба Prismatic вряд ли появилась бы внутри самой медиаиндустрии, хоть она и собирает множество информации. Завсегдатаям бара Национального клуба печати не пришло в голову повторно использовать данные о потреблении СМИ в интернете. И специалисты по аналитике из Армонка (Нью-Йорк) или Бангалора (Индия) до этого не додумались. Зато Кросс, пользующийся дурной славой аутсайдера с растрепанными волосами и неторопливой речью, сумел предположить, что с помощью данных можно сообщать миру, на что следует обратить внимание, и делать это лучше редакторов New York Times.
Творческие аутсайдеры с блестящими идеями и их способность мыслить категориями больших данных напоминают происходившее на заре интернет-коммерции в середине 1990-х годов. Тогда первопроходцами становились те, кто не был обременен закоренелым мышлением или институционными ограничениями более старых отраслей. Так, хедж-фондовый специалист по статистике Джефф Безос основал книжный интернет-магазин, а разработчик программного обеспечения Пьер Омидьяр создал интернет-аукцион. Заметьте — не Barnes & Noble и Sotheby’s. Современные лидеры с таким масштабным мышлением зачастую не располагают данными. Зато при этом у них нет корыстных интересов или финансовых стимулов, которые мешали бы им раскрыть потенциал своих идей.
Как мы уже убедились, бывают случаи, когда компания сочетает в себе сразу несколько характеристик, позволяющих оперировать большими данными. Возможно, Эциони и Кросс оказались впереди благодаря своей сенсационной идее, но кроме нее у них были навыки. Сотрудники Teradata и Accenture тоже времени зря не теряют и время от времени выдают отличные идеи. Прототипы идей по-прежнему помогают оценить роль каждой компании. Операторы мобильной связи, о которых шла речь в предыдущей главе, собирают гигантский объем данных, но испытывают трудности в его использовании. Однако они могут передать эти данные тем, кто сумеет извлечь из них новую ценность. Подобным образом компания Twitter с самого начала передала права лицензирования на свои «пожарные шланги данных» двум другим компаниям.
Некоторые компании располагают всеми инструментами для реализации возможностей, которые дают большие данные. Google собирает информацию (например, об опечатках в поисковых запросах), имеет великолепную идею создать с их помощью лучшее в мире средство проверки правописания и блестяще реализует ее своими силами. Учитывая множество других видов деятельности, компания Google получает выгоду от вертикальной интеграции в цепочку создания ценности больших данных, где она занимает все три позиции. В то же время Google предоставляет открытый доступ к некоторым своим данным через интерфейсы прикладного программирования (API), чтобы из них можно было извлечь дополнительную ценность. Одним из примеров являются бесплатные карты Google, которые используются в интернете повсеместно — от списков недвижимости до сайтов государственных учреждений (хотя часто посещаемым сайтам все же приходится за них платить).
У Amazon есть и мышление, и знания, и данные. По сути, компания выстраивала свою бизнес-модель именно в таком (обратном по сравнению с нормой) порядке. Вначале у нее была только идея знаменитой рекомендательной системы. В объявлении о новом выпуске акций на фондовой бирже в 1997 году описание «совместной фильтрации» появилось раньше, чем компания Amazon узнала, как эта система будет работать на практике, и получила достаточно данных, чтобы сделать ее полезной.
И Google, и Amazon обладают равными возможностями, но руководствуются разными стратегиями. Приступая к сбору данных, компания Google сразу учитывает возможность их вторичного применения. Например, ее автомобили Street View собирали информацию GPS не только для картографической службы Google, но и для обучения самоуправляемых автомобилей.[119] Amazon, напротив, больше ориентирована на первичное использование данных и обращается к вторичному только в качестве бонуса. Например, ее рекомендательная система опирается на «сигналы» в виде действий пользователя на сайте, но компания ни разу не прибегла к полученной информации для непредусмотренных прогнозов (например, состояния экономики или вспышек гриппа).
Устройства для чтения электронных книг Amazon Kindle могут показать, на какой странице читатели оставили множество примечаний и подчеркнутых отрывков, но Amazon не продает эту информацию авторам и издателям. Маркетологов заинтересовали бы наиболее популярные отрывки, чтобы повысить продажи книг. Авторы хотели бы узнать, на каком месте их выдающихся произведений большинство читателей забрасывают чтение, и улучшить их. Издатели желали бы выявить темы, сулящие очередной бестселлер. Но Amazon оставляет это поле данных невспаханным.
С умом используя большие данные, можно преобразовать бизнес-модель компании и коренным образом изменить способы взаимодействия с давними партнерами. Один из потрясающих примеров — история о том, как крупному европейскому автопроизводителю удалось перестроить коммерческие отношения с поставщиком запчастей с помощью данных, полученных в рабочих условиях (поскольку пример взят из частной практики аналитика, который занимался обработкой этих данных, мы, к сожалению, не вправе разглашать названия компаний).
Современные автомобили оборудованы чипами, датчиками и программным обеспечением, которые передают технические данные на компьютеры автопроизводителей во время техобслуживания. Типичный автомобиль среднего класса содержит около 60 микропроцессоров, и треть его себестоимости приходится на электронику.[120] Так что автомобили стали подходящими преемниками кораблей, которые Мори называл «плавающими обсерваториями».[121] Информация о том, как части автомобиля ведут себя в полевых условиях (и повторное объединение такой информации для корректировки), может стать большим конкурентным преимуществом для компаний, которые ею владеют.
В сотрудничестве с внешней компанией по анализу данных автопроизводителю удалось выявить, что датчик обнаружения утечки топливного бака, производимый немецким поставщиком, не справлялся со своей задачей: на каждый правильный сигнал тревоги приходилось 16 ошибочных. Автопроизводитель мог передать эту информацию поставщику и потребовать регулировки. В эпоху более этичных деловых отношений он так и поступил бы. Но автопроизводитель изрядно потратился на аналитическое программное обеспечение, чтобы выявить проблему, и хотел с помощью полученной информации компенсировать часть своих инвестиций.
Итак, он задумался над вариантами. Стоит ли продавать данные? Как их оценивать? Что делать, если поставщик откажется исправлять ситуацию и компания останется с партией бракованных датчиков? К тому же было ясно, что разглашение информации позволит усовершенствовать аналогичные датчики в автомобилях конкурентов. Компания искала хитрый способ улучшить только свои автомобили. Наконец, автопроизводитель придумал. Он нашел способ усовершенствовать датчик с помощью модернизированного программного обеспечения и запатентовал его. А затем продал патент поставщику, что с лихвой покрыло его расходы на аналитическое программное обеспечение.
- Резервное копирование базы данных InterBase
- Firebird РУКОВОДСТВО РАЗРАБОТЧИКА БАЗ ДАННЫХ
- Резервное копирование многофайловых баз данных
- Восстановление из резервных копий многофайловых баз данных
- Владелец базы данных
- ЧАСТЬ IV. База данных и ее объекты.
- Перевод базы данных InterBase 6.x на 3-й диалект
- Типы данных для работы с датой и временем
- Практическая работа 53. Запуск Access. Работа с объектами базы данных
- Обзор основных причин повреждения базы данных
- Ошибки проектирования базы данных
- Профилактика повреждений баз данных InterBase