Книга: Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Когда данные говорят
Когда данные говорят
Большие данные имеют огромное практическое значение как технология, которая служит решению животрепещущих повседневных проблем, но при этом порождает еще больше новых. Большие данные способны изменить наш образ жизни, труда и мышления. В каком-то смысле мы упираемся в больший тупик, чем во времена других эпохальных инноваций, значительно расширивших объем и масштабы информации в обществе. Мы стоим на зыбкой почве. Старые факты подвергаются сомнению. Ввиду больших данных необходимо пересмотреть понятия природы принятия решений, судьбы и справедливости. Мировоззрение, сотканное из понимания причин, теперь оспаривается доминированием корреляций. Обладание знанием, которое когда-то означало понимание прошлого, постепенно преобразовывается в способность прогнозировать будущее.
Эти вопросы намного важнее тех, которые возникали по мере запуска интернет-магазинов, повседневного использования интернета, входа в эпоху компьютеров или введения в обиход абака. Мысль о том, что стремление понять причины может быть переоценено и в большинстве случаев выгоднее отказаться от вопроса почему в пользу вопроса что, предполагает, что эти вопросы оказывают существенное влияние на наш образ жизни и мышления. Однако они могут оказаться риторическими. По сути, эти вопросы — часть вечных дискуссий на тему места человека в мире и его поисков смысла жизни в суматохе хаотичного и непостижимого мира.
Большие данные ознаменовали момент, когда «информационное общество», наконец, начало оправдывать свое название. Всю собранную цифровую информацию теперь можно по-новому использовать в инновационных целях, открывая новые формы ценности. Для этого нужен иной тип мышления, который бросает вызов нашим учреждениям и даже нашему чувству идентичности. Ясно одно: объем данных будет неуклонно расти, равно как и возможности их обработки. Но если большинство людей рассматривают большие данные как технологический вопрос, сосредоточив внимание на аппаратном или программном обеспечении, мы считаем, что акцент необходимо перенести на то, что происходит, когда данные «говорят».
Мы можем собирать и анализировать больше информации, чем когда-либо. Нехватка данных отныне не определяет наши усилия для познания мира. Мы можем использовать значительно больше данных, а в некоторых случаях даже все. Но для этого придется взять на вооружение нестандартные способы обработки и, в частности, изменить свое представление об идеале полезной информации.
Вместо того чтобы ставить во главу угла точность, чистоту и строгость данных, мы можем — и это даже необходимо — несколько ослабить свои требования. Данные не должны быть заведомо ошибочными или ложными, но их беспорядочность не представляет особых проблем при многократном увеличении масштаба. Она может быть даже выгодной, так как, используя лишь небольшую часть данных, мы упускали из виду широкое поле подробностей, где обнаруживается масса знаний.
Поскольку корреляции можно найти гораздо быстрее и с меньшими затратами, чем причинность, им нередко отдается предпочтение. В некоторых случаях (например, при тестировании побочных эффектов препарата или проектировании важнейших частей самолета) по-прежнему понадобятся исследования причинно-следственных связей и эксперименты в контролируемых условиях с тщательным контролем данных. Но для многих бытовых нужд вполне достаточно знать ответ на вопрос что, а не почему. Кроме того, корреляции больших данных способны указать перспективные направления для поиска причинности.
Быстрые корреляции позволяют экономить на покупке авиабилетов, прогнозировать вспышки гриппа и определять люки и перенаселенные здания, которые следует осмотреть, в условиях ограниченных ресурсов. Они же позволяют медицинским страховым компаниям принимать решения по страховой защите без медицинского осмотра и снижают стоимость напоминаний больным о приеме лекарств. На основании прогнозов, сделанных с помощью корреляций среди больших данных, выполняются переводы и создаются системы автоматического управления автомобилем. Walmart может узнать, какой сорт печенья Pop-Tarts положить сразу у входа в магазин, когда надвигается ураган (ответ: со вкусом клубники). Конечно, причинно-следственные связи не лишние, когда их удается уловить. Проблема в том, что зачастую их выявить непросто, и мы нередко обманываем себя, считая, что нам это удалось.
Все эти новые возможности в какой-то мере обеспечиваются новыми инструментами — от более быстрых процессоров и увеличенного объема памяти до более эффективного программного обеспечения и алгоритмов. Они, безусловно, играют важную роль, но больше данных у нас появляется благодаря постепенной датификации всего и вся. Надо отметить, что стремление измерить мир количественно появилось задолго до компьютерной революции. Но цифровые инструменты подняли датификацию на новый уровень. Мало того что мобильные телефоны могут отслеживать, кому мы звоним и куда идем, — те же данные дают возможность определить, что мы заболели. Вскоре они смогут дать понять, что мы влюблены.
Способность создавать что-то новое, успевать больше и делать все лучше и быстрее раскрывает огромную ценность данных, разделяя мир на победителей и проигравших. Основную (альтернативную) ценность информации обеспечит ее вторичное использование, а не только первичное, как принято считать. Таким образом, целесообразно собирать как можно больше самых разных данных и удерживать до тех пор, пока это содержит добавочную ценность, а также давать возможность анализировать данные тем, кто имеет больше возможностей раскрытия их ценности (при условии разделения полученной выгоды).
Успеха добьются компании, которые сумеют попасть в центр информационных потоков и научатся собирать данные. Для эффективного использования больших данных требуются технические навыки и хорошее воображение — мышление категориями больших данных. Основная ценность достанется тем, кто владеет данными. При этом важным активом может оказаться не только та информация, которая на виду, но и выбросы данных, полученные от взаимодействия людей с информацией. Используя такие выбросы с умом, компания улучшит существующую службу или запустит совершенно новую.
Большие данные таят в себе огромные риски. Они стирают правовые и технические ограничения, с помощью которых мы пытаемся сохранить конфиденциальность, тем самым выявляя неэффективность существующих основных технических и правовых механизмов. Раньше было хорошо известно, что относится к личной информации: имена, номера социального страхования, идентификационные коды и пр. Защитить такую информацию было относительно нетрудно, заблокировав ее. Сегодня даже с помощью самых безобидных данных, если их накоплено достаточно много, можно установить личность. Попытки придать данным анонимную форму или скрыть их уже неэффективны. Кроме того, установление слежки за отдельными лицами теперь влечет за собой более глубокое вторжение в частную жизнь, чем когда-либо, поскольку органы власти хотят увидеть не только как можно больше информации о человеке, но и как можно более широкий спектр его отношений, связей и взаимодействий.
Независимо от того, насколько большие данные угрожают конфиденциальности, существует другая уникальная и тревожная проблема. Ввиду того что прогнозы больших данных становятся все более точными, их можно использовать для наказания людей за прогнозируемое поведение, то есть действия, которые им предстоит совершить. Такие прогнозы невозможно опровергнуть в очевидной форме, поэтому никто не в силах себя оправдать. Наказание на этой основе отрицает понятие свободы воли и вероятность, пусть и небольшую, что подозреваемый выберет другой путь. Поскольку мы назначаем индивидуальную ответственность (и применяем наказание), человеческая воля должна быть неприкосновенна. Если будущее не оставит нам свободного поля деятельности, большие данные извратят саму суть человеческой природы: рациональное мышление и свободу выбора.
У нас пока нет надежных способов подстроить нормы и законы под специфику грядущего мира больших данных. Однако по мере постижения обществом их особенностей и недостатков его процветанию будут способствовать некоторые реформы. Мы в состоянии обеспечить свободный обмен информацией, учредив права исключения для данных, контролируя расстановку сил на рынке и поощряя государственные инициативы в поддержке идеи открытых данных. Мы можем расширить доступ к личной информации, установив способы ее приемлемого вторичного использования (для чего не понадобятся дополнительные разрешения), но в то же время ограничив сроки хранения и применения такой информации. Мы можем найти новые технические решения, например способы «размывания» признаков для установления личности. Прогнозы больших данных не должны служить назначению индивидуальной ответственности. Человеческая воля неприкосновенна. Наконец, людям нужно дать возможность исследовать алгоритмы и исходные данные, применявшиеся в ходе принятия решений, влияющих на их интересы (особенно если это влияние негативное). Для преодоления этой задачи необходимо новое поколение специалистов (алгоритмистов), призванных помочь анализировать и интерпретировать эффективность и законность инструментов и процессов обработки больших данных.
Большие данные станут неотъемлемой частью понимания и решения многих насущных глобальных проблем. Борьба с изменением климата требует анализа данных о загрязнении, чтобы понять, куда лучше всего направить усилия, и найти пути смягчения последствий проблем. Немыслимое количество датчиков, размещенных по всему миру (в том числе встроенных в смартфоны), позволяет моделировать ситуацию на более высоком уровне детализации. Улучшение структуры здравоохранения и снижение затрат на него, особенно в беднейших странах мира, станет значительной частью программы автоматизации процессов, которые в настоящее время нуждаются в человеческих суждениях, но могли бы выполняться компьютерами (например, изучение биопсии раковых клеток или обнаружение признаков инфекции до ее полного развития).
Большие данные уже использовались на благо экономического развития и предотвращения конфликтов. Так, данные о передвижении владельцев сотовых телефонов показали участки африканских трущоб, которые являются средоточием бурной экономической активности. Кроме того, большие данные дали возможность обнаружить общины с наиболее обострившейся межэтнической напряженностью и показали, чем может обернуться кризис беженцев.[164] Со временем большие данные станут использоваться все чаще, поскольку технология находит применение во всех сферах жизни.
Большие данные позволяют не только делать лучше то, что мы уже умеем, но и изобретать что-то новое. Однако это не волшебная палочка. Они не установят мир во всем мире, не приведут к искоренению нищеты или появлению нового Пикассо. С помощью больших данных невозможно произвести на свет младенцев, зато можно спасти преждевременно рожденных. Со временем большие данные наверняка войдут почти во все аспекты нашей жизни. Возможно, их отсутствие даже станет вызывать легкое беспокойство сродни тому, когда мы ожидаем от врача направление на рентген для выяснения того, что не удалось выявить путем обычного медицинского обследования.
Поскольку большие данные входят в нашу жизнь, они вполне могут влиять на наше представление о будущем. Около пятисот лет назад изменилось восприятие человечеством времени в рамках движения к более светской, научно обоснованной и просвещенной Европе.[165] На заре человечества время считалось циклическим понятием, как и сама жизнь. Каждый день (и год) был очень похож на предыдущий, и даже конец жизни напоминал ее начало, поскольку стареющие взрослые снова становились беспомощны, как дети. Когда стало преобладать линейное восприятие времени, мир предстал в виде развертывающейся вереницы дней — линии жизни, подвластной нашему влиянию. Если раньше прошлое, настоящее и будущее были слиты воедино, то теперь у человечества появилось прошлое, на которое можно оглянуться, и будущее, которого можно с трепетом ожидать, пока длится настоящее.
В то время как настоящее мы в силах формировать, будущее превратилось из чего-то абсолютно предсказуемого в нечто открытое и нетронутое — огромный пустой холст, который каждый мог заполнить в соответствии со своими ценностями и усилиями. Одна из характерных черт современности — то, что мы воспринимаем себя хозяевами своей судьбы, и это отличает нас от наших предков, для которых предопределенность в той или иной форме была нормой. Прогнозы больших данных делают полотно нашей жизни менее открытым, чистым и нетронутым. Наше будущее кажется в какой-то мере предсказуемым для тех, кто владеет технологией, чтобы это сделать. Похоже, это уменьшает нашу способность определять самим свою судьбу, а потенциальные возможности возлагает на алтарь вероятности.
В то же время большие данные могут означать, что мы всегда остаемся узниками своих предыдущих действий, которые модели прогнозирования используют против нас, претендуя на знание наших последующих действий: нам никогда не уйти от того, что случилось. «Прошлое — это лишь пролог», — писал Уильям Шекспир. Большие данные закрепляют это утверждение алгоритмически со всеми его достоинствами и недостатками. Но омрачит ли это нашу радость каждому восходу солнца или желание оставить в этом мире свой след?
Скорее всего, наоборот. Зная, что может произойти в будущем, мы примем надлежащие меры, чтобы предотвратить проблемы или улучшить результаты. Мы сможем заметить, кто из студентов начал «скатываться», задолго до выпускного экзамена. Мы выявим мельчайшие раковые опухоли и вылечим их, прежде чем они успеют разрастись. Мы узнаем о вероятности нежелательной подростковой беременности или преступности и сможем вмешаться, сделав все возможное, чтобы предотвратить вероятный исход. Мы предупредим пожары с потенциальными жертвами в многоквартирных зданиях Нью-Йорка, зная, какие из них проверить в первую очередь.
Ничто не предопределено, потому что мы всегда можем отреагировать на полученную информацию. Прогнозы больших данных не высечены на камне — это всего лишь наиболее вероятные результаты, а значит, при желании их можно изменить. Мы сами выбираем, как встретить и приручить будущее — словно Мори, отыскавший естественные пути среди огромной глади моря и ветров. Для этого не нужно понимать природу космоса или доказывать существование богов — достаточно больших данных.
- Больше чем большие данные
- Когда нужен постскриптум в бизнес-тексте?
- Как я нашла «правильных» потребителей, когда искала «неправильных»
- Когда старая школа молода
- Достоверные данные
- Что происходит, когда бренды растут или идут на спад
- Пример 9-8. Содержимое $* и $@, когда переменная $IFS -- пуста
- Когда следует задавать проясняющие вопросы
- Как завершить работу с программой и сохранить данные, с которыми я работал?
- Когда печатаю, перед повтором буквы приходится выжидать несколько секунд
- Как переносить данные через USB-брелок («флэшку»)?
- Когда я не работаю за компьютером, через некоторое время он отключается. Можно ли это исправить?