Вскрытие «черного ящика» / Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим / Библиотека (книги, учебники и журналы) / В помощь Веб-Мастеру

Обложка
Аннотация

Книги автора: Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслимBIG DATA. A Revolution That Will Transform How We Live, Work, and Think

/ Кеннет Кукьер i

/ Инна Гайдюк i

Книги автора: Продающие рассылки. Повышаем продажи, используя email-маркетинг Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслимBIG DATA. A Revolution That Will Transform How We Live, Work, and Think

/ Viktor Mayer-Sch?nberger i

/ Kenneth Cukier i

Книга: Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Вскрытие «черного ящика»

Современные компьютерные системы принимают решения на основе явно запрограммированных правил, которым они должны следовать. Таким образом, если что-то пошло не так, а это неизбежно случается, мы можем вернуться и выяснить, почему компьютер принял то или иное решение. («Почему система автопилота подняла самолет на пять градусов выше, когда внешний датчик определил внезапное повышение влажности?») Сегодня компьютерный код можно открыть и проверить, а основания для решений системы независимо от их сложности — сделать понятными хотя бы для тех, кто разбирается в коде.

При использовании анализа больших данных отследить это станет гораздо сложнее. Основа прогнозов алгоритма зачастую может быть непосильной для человеческого понимания.

Когда компьютеры были явно запрограммированы следовать набору инструкций, как это было с одной из первых программ компании IBM для перевода с русского на английский (1954 год), человеку было легко понять, почему одно слово заменялось другим. Когда компания Google объединяет миллиарды страниц переводов, чтобы судить о том, почему английское слово light выводится на французском как lumi?re, а не l?ger (имеется в виду яркость, а не отсутствие тяжести), невозможно точно объяснить причину выбора: основа прогнозирования влечет за собой огромные объемы данных и обширные статистические вычисления.

Масштабы работы с большими данными выйдут далеко за рамки привычного для нас понимания. Так, корреляция, определенная компанией Google между несколькими условиями поиска и гриппом, стала результатом проверки 450 миллионов математических моделей. С другой стороны, Синтия Рудин первоначально разработала 106 прогностических факторов того, что канализационный люк может загореться, и сумела объяснить менеджерам компании Con Edison, почему ее программа выстроила места проверки именно в таком приоритетном порядке. «Объясняемость», как говорят в кругах исследования искусственного интеллекта, имеет большое значение для нас, смертных, которые, как правило, хотят знать не только факты, но и их причину. А что если бы вместо 106 прогностических факторов система автоматически создала 601, подавляющее большинство из которых имеют очень низкий вес, но вместе взятые повышают точность модели? Основа для любого прогноза была бы невообразимо сложной. Что тогда Синтия сказала бы руководителям, чтобы убедить их перераспределить свой скудный бюджет?

В таких случаях мы видим риск того, что прогнозы больших данных, а также алгоритмы и наборы данных, стоящие за ними, станут «черными ящиками», которые не дают ни малейшей прозрачности, подотчетности, прослеживаемости или уверенности. Для того чтобы предотвратить это, необходимы отслеживание и прозрачность больших данных, а также новые виды специальных знаний и учреждения, которые бы ими занимались. Эти новые игроки окажут поддержку в многочисленных областях, где общество должно внимательно изучить прогнозы и дать возможность пострадавшим требовать возмещения.

В обществе такое происходило и раньше, когда при резком увеличении сложности и специализации определенной области возникала острая необходимость в специалистах для управления новыми техническими средствами. Профессии, связанные с юриспруденцией, медициной, бухгалтерским учетом и инженерией, подверглись таким преобразованиям более ста лет назад. Не так давно появились консультанты по компьютерной безопасности и конфиденциальности. Они следят за тем, чтобы деятельность компании соответствовала передовой практике, определяемой такими органами, как Международная организация по стандартизации (созданная ввиду возникшей необходимости в разработке правил в этой области).

В эпоху больших данных потребуются люди, которые взяли бы на себя эту роль. Назовем их алгоритмистами. Они могли бы выступать как представители независимых органов, которые работают вне организаций, и как специалисты самих организаций, аналогично тому как компании нанимают и штатных бухгалтеров, и внешних аудиторов, которые проверяют их работу.

Новая профессия — алгоритмист

Новые профессионалы должны быть специалистами в области компьютерных наук, математики и статистики. Выступали бы они в качестве инстанций, контролирующих анализ и прогнозы больших данных. Алгоритмисты давали бы клятву в беспристрастности и конфиденциальности, как это делают бухгалтеры и другие специалисты в наше время. Они могли бы оценивать выбор источников данных, аналитических средств и средств прогнозирования (в том числе алгоритмов и моделей), а также интерпретацию результатов. В случае возникновения спора алгоритмисты получали бы доступ к соответствующим алгоритмам, статистическим подходам и наборам данных, которые подготовили данное решение.

Если бы в Министерстве внутренней безопасности США в 2004 году был штатный алгоритмист, он смог бы заблаговременно выявить ошибку, закравшуюся в черный список преступников, в который попал сенатор от штата Массачусетс Тед Кеннеди. Вспомним недавние инциденты, где пригодились бы алгоритмисты. В Японии, Франции, Германии и Италии появились претензии от людей в том, что их позорила функция «автозаполнения» поисковой системы Google, которая выдает список наиболее распространенных условий запроса, связанных с их именем. Эта функция в значительной степени зависит от частоты предыдущих поисков: условия ранжируются в соответствии с их математической вероятностью. А кого бы не возмутило, если бы рядом с его именем отобразилось слово «зэк» или «проститутка», когда кто-то из потенциальных деловых партнеров или пассий решил поискать о нем информацию в Сети?

Мы рассматриваем алгоритмистов как рыночный подход для решения аналогичных проблем, который может оставить позади более навязчивые формы регулирования. Алгоритмисты удовлетворили бы потребность в обработке нового наплыва финансовой информации — так в начале ХХ века появились бухгалтеры и аудиторы. Обычным людям было трудно разобраться в обрушившемся на них потоке цифр. Возникла необходимость в объединении специалистов в гибкие, саморегулируемые структуры для защиты интересов общества. В ответ рынок породил совершенно новый сектор конкурирующих компаний, которые предлагали услуги финансового надзора. Таким образом новому поколению профессионалов удалось укрепить уверенность общества в экономике как таковой. Большие данные могут и должны использовать преимущества аналогичного повышения уверенности. И с этой задачей успешно справились бы алгоритмисты.

Внешние алгоритмисты

Внешние алгоритмисты могли бы выступить в роли независимых аудиторов для проверки точности и достоверности прогнозов больших данных по запросу клиента или правительства в судебном порядке или по решению регулирующих органов. Алгоритмисты также могли бы проводить аудит пользователей больших данных, нуждающихся в экспертной поддержке, и подтверждать обоснованность применения больших данных, допустим в технических средствах по борьбе с мошенничеством или системах обращения ценных бумаг. Наконец, они могли бы консультировать государственные органы, как лучше всего использовать большие данные в государственном секторе.

По примеру медицины, права и пр. эту новую сферу деятельности можно регулировать кодексом поведения. Беспристрастность, конфиденциальность, компетентность и профессионализм алгоритмистов обеспечивались бы жестким порядком ответственности. В случае нарушения этих стандартов алгоритмисты подвергались бы судебным искам. Их можно было бы привлекать к участию в судебных процессах в качестве свидетелей-экспертов или назначать в качестве «придворных мастеров» (по сути, экспертов в определенной предметной области для оказания помощи судье) при рассмотрении особо сложных вопросов, связанных с большими данными, в ходе судебного разбирательства.

Кроме того, люди, пострадавшие от прогноза больших данных (пациент, которому отказали в хирургическом вмешательстве, заключенный, которому отказали в досрочном освобождении, или заявитель, которому отказали в ипотеке), могли бы обратиться за помощью к алгоритмистам, равно как к адвокатам, чтобы разобраться в этом решении и опротестовать его.

Внутренние алгоритмисты

Внутренние алгоритмисты — штатные специалисты организаций, которые контролируют деятельность, связанную с большими данными. Их задача — отстаивать интересы не только компании, но и людей, пострадавших в результате анализа больших данных, проводимого данной компанией. Внутренние алгоритмисты отвечают за операции с большими данными и являются первыми контактными лицами для таких потерпевших, а также проверяют анализ больших данных на целостность и точность, прежде чем будет оглашен результат. Для выполнения этой задачи алгоритмистам нужен определенный уровень свободы и непредвзятости в рамках организации, в которой они работают.

Может показаться нелогичным, что человек, работающий в компании, должен оставаться беспристрастным по отношению к ней. Но такое встречается достаточно часто. Один из примеров — отделы по надзору в крупных финансовых учреждениях; далее — советы директоров во многих компаниях, которые несут ответственность перед акционерами, а не руководством. А многие медиакомпании, в том числе New York Times и Washington Post, нанимают омбудсменов, основной обязанностью которых является защита доверия общественности. Эти сотрудники работают с жалобами читателей и нередко публично подвергают суровой критике своего работодателя, если считают его виновным.

Еще более удачный аналог внутреннего алгоритмиста — специалист, который несет ответственность за злоупотребление личной информацией в корпоративной среде. В Германии компании, превышающие определенный размер (наличие в штате десяти и более человек, занятых обработкой личной информации), обязаны назначить представителя для защиты данных. Начиная с 1970-х годов штатные представители для защиты данных разработали профессиональную этику и корпоративный дух. Они регулярно встречаются для обмена передовым опытом и обучения, а также имеют собственные специализированные СМИ и проводят конференции. Кроме того, им удалось развить двойную лояльность: к своим работодателям и к своим обязанностям в качестве непредвзятого контролирующего органа.[162] Существование немецких представителей защиты корпоративных данных можно расценивать как успех в выполнении функций омбудсмена по защите корпоративных данных и укреплении ценностей конфиденциальной информации во всех сферах деятельности компании. На наш взгляд, алгоритмисты могли бы выполнять аналогичную функцию.

Раскрытие информации

Основной инструмент, который государственные органы используют для надзора за деятельностью граждан и компаний, — запрос на предоставление информации. Иногда раскрытия информации самого по себе достаточно, чтобы стимулировать соблюдение требований или отстаивать цели регулирования. Такой принцип лежит в основе законов, согласно которым компании, имеющие утечку больших данных, обязаны уведомлять об этом потребителей и регулирующие органы. Как видно, угроза общественного неодобрения может стимулировать надлежащую профилактику. На эту же идею опираются экологические законы, которые требуют от компаний не снижения выбросов токсичных веществ, а лишь раскрытия информации о выделяемом их количестве: контроль и отчетность стимулируют сторонников внутри компании и в обществе в целом оказывать давление на компанию, чтобы снизить загрязнение. Сама лишь прозрачность информации может достигать социальных целей, которые трудно даются политическим путем.[163]

Открытость станет важным способом контроля действий с большими данными и обеспечения надлежащей прозрачности для наборов данных, алгоритмов, предположений, статистических подходов и вытекающих из них решений. Проверки анализа больших данных могут потребоваться по решению суда, в рамках конкретного расследования или в качестве периодической меры (например, годовой финансовой отчетности для открытых акционерных компаний).

Конечно, прозрачность не означает, что компании будут разглашать конфиденциальную информацию. Публичное уведомление может содержать информацию о том, что организация проверяет или уже проверила свои прогнозные модели, не разглашая их суть. Такие уведомления характерны для современных проверок систем безопасности и конфиденциальности. Обязательная проверка и ограниченная огласка входят в требования, предъявляемые к компаниям, официально зарегистрированным на бирже до 2000 года; тогда компании должны были сообщать о своей готовности к полному изменению в своих отчетах на фондовой бирже.

Регулирующие органы США уже утвердили такой порядок в соглашениях на расследования Федеральной торговой комиссии (Federal Trade Commission, FTC), обязав Google и Facebook проводить аудит конфиденциальности раз в два года в течение 20 лет и предоставлять отчет FTC. Для компании Twitter срок аналогичных обязательств был установлен равным десяти годам. А после массовой утечки конфиденциальных данных о более чем 45 миллионах кредитных карт торговая сеть TJX, управляющая многочисленными магазинами уцененных товаров в США (T.J. Maxx и пр.), наряду с брокерами данных Reed Elsevier и Seisint согласилась ежегодно проводить независимый аудит безопасности в течение последующих 20 лет и сообщать о результатах в FTC.

Такой подход имеет ряд преимуществ. Лучше обеспечивается соблюдение требований, поскольку контроль осуществляется периодически в течение длительного периода. Главный вопрос поднимается на самые высокие уровни управления, а не остается в ведении ИТ-вундеркиндов, которые заняты решением повседневных задач для поддержания работы систем и могут поскупиться на надлежащие меры безопасности ввиду ограниченности времени и бюджета. Кроме того, этот подход изначально гибкий, а значит, передовая практика и надлежащие меры безопасности будут со временем меняться с учетом новых технологий и взглядов. Опорой служит более рыночно ориентированный механизм проведения проверок — участие независимых специалистов, а не регулирующих органов, которые не всегда достаточно компетентны, чтобы проводить такие мероприятия.

Оглавление книги

Оглавление статьи/книги

Похожие страницы