Книга: Взрывной рост: Почему экспоненциальные организации в десятки раз продуктивнее вашей (и что с этим делать)
Алгоритмы
Алгоритмы
В 2002 году доходы компании Google составляли меньше 500 млн долларов в год. Десять лет спустя они выросли в 125 раз, и компания начала зарабатывать по 500 млн долларов каждые три дня. Центральную роль в этом головокружительном росте сыграл алгоритм PageRank, оценивающий популярность веб-страниц (разумеется, алгоритм не выбирает лучшие с человеческой точки зрения страницы, а ранжирует их по количеству сгенерированных кликов).
Google – не единственная компания, построившая бизнес на алгоритме. Сегодня очень многое в мире основано на алгоритмах – от антиблокировочной тормозной системы в автомобилях до системы рекомендаций на Amazon, от динамического ценообразования авиакомпаний до прогнозирования успеха будущих голливудских блокбастеров, от написания новостных постов до управления воздушным движением, от выявления случаев мошенничества с кредитными картами до определения того, какие 2 % публикаций будут отображены в ленте типичного пользователя Facebook. Короче говоря, алгоритмы присутствуют в нашей жизни повсюду. По оценкам компании McKinsey, из 700 сквозных банковских процессов (таких как открытие счета или получение кредита на покупку автомобиля) около половины могут быть полностью автоматизированы. Компьютеры начинают выполнять все более и более сложные задачи.
Существует даже специальная площадка под названием Algorithmia, где компании могут купить или заказать алгоритмы для анализа собираемых ими данных. Как и на GitHub (смотрите 7-ю главу), разработчики алгоритмов могут открыть код и предоставить другим возможность его улучшить.
Два типа алгоритмов находятся на переднем крае этого нового мира – алгоритмы машинного и глубинного обучения.
Под машинным обучением понимается способность машины выполнять новые, незнакомые задачи, опираясь на известные паттерны, идентифицированные в результате обучения или анализа прошлых данных, а также на основе прогнозирования. Hadoop и Cloudera – самые известные примеры алгоритмов машинного обучения с открытым кодом. Мы регулярно сталкиваемся с машинным обучением в нашей жизни, например, на популярном видеосервисе Netflix. В 2006 году компания Netflix решила улучшить точность системы рекомендации фильмов. Но вместо того, чтобы полагаться только на штатный персонал, она объявила открытый конкурс, предложив приз в размере 1 млн долларов тому, кто сможет улучшить ее алгоритм на 10 %. 51 тысяча конкурсантов из 186 стран мира получила набор данных, включающий 100 млн оценок фильмов, и пять лет на доработку алгоритма. Конкурс завершился досрочно в сентябре 2009 года, после того как в общей сложности было предложено 44 014 наборов предсказаний и одной из команд-участниц наконец-то удалось достичь поставленной цели.
Глубинное обучение – это новый захватывающий раздел машинного обучения, основанный на технологии искусственных нейронных сетей. Технология глубинного обучения позволяет машинам выявлять новые паттерны без опоры на исторические или обучающие данные. Ведущими стартапами в этой области являются DeepMind, приобретенный Google за 500 млн долларов в начале 2014 года, когда в нем насчитывалось всего 13 сотрудников, и Vicarious, финансируемый из кармана Илона Маска, Джеффа Безоса и Марка Цукерберга. Twitter, Baidu, Microsoft и Facebook также инвестировали значительные средства в эту область. Алгоритмы глубинного обучения опираются на «открытие знаний» и самоиндексацию и действуют во многом так же, как ребенок, который учится произносить первые звуки, затем слова, предложения и наконец овладевает речью. Например, в июне 2012 года команда Google X создала нейронную сеть, состоящую из 16 000 компьютерных процессоров и насчитывающую миллиард соединений. После того как эта система в течение трех дней «просмотрела» 10 млн случайно выбранных видеороликов на YouTube, она научилась самостоятельно распознавать кошек, фактически не зная, что такое «кошка». Важно отметить, что это произошло без какого-либо вмешательства со стороны человека.
За истекшие два года возможности глубинного обучения значительно возросли. Сегодня алгоритмы глубинного обучения не только используются для совершенствования систем распознавания речи, создания более эффективной поисковой системы (Рэй Курцвейл работает над этим в Google) и распознавания отдельных объектов; они также способны находить конкретные эпизоды на видео и составлять их текстовое описание, причем без вмешательства человека. Эти алгоритмы даже могут играть в видеоигры, обучаясь правилам игры, а затем оптимизируя свои игровые стратегии и тактики.
Подумайте о последствиях такого революционного прорыва. Технологии сделают большинство продуктов и услуг более эффективными, персонализированными и дешевыми. Но одновременно это приведет к кардинальному изменению множества профессий и даже к исчезновению многих из них.
Например, на сегодняшний день американская транспортно-логистическая компания UPS владеет флотом из 55 тысяч грузовых автомобилей, которые совершают 16 млн доставок в день. При таких объемах перевозок неэффективная маршрутизация может вести к весьма значительным издержкам. Благодаря применению телематики и алгоритмов компания помогает водителям экономить 85 млн миль в год, что уже сохранило ей 2,55 млрд долларов. Похожие технологии начинают широко использовать в сфере здравоохранения, энергетики и финансовых услуг, что означает, что мы вступаем в мир алгоритмов.
Еще в 2005 году предприниматель и издатель Тим О'Райли заявил, что «данные – это новый Intel Inside». И это когда в мире насчитывалось всего полмиллиарда подключенных к интернету устройств. Как уже говорилось в 1-й главе, с приходом интернета вещей их количество возрастет до триллиона устройств.
Перед лицом такого взрывного роста потребность в алгоритмах встает как нельзя более остро. Только задумайтесь на минуту: за последние два года было создано в девять раз больше данных, чем за всю предыдущую историю человечества. По прогнозам Computer Science Corporation, к 2020 году мы создадим 73,5 зеттабайт данных – выражаясь словами Стивена Хокинга, это семьдесят три с двадцатью одним нулем.
Примечательно и зачастую печально, что большинство компаний сегодня по-прежнему полагаются почти исключительно на интуитивные догадки своих лидеров. Даже если они используют данные для анализа, они часто становятся жертвами длинного списка когнитивных ошибок при принятии решений – от ошибки невозвратных затрат до ошибки подтверждения (список наиболее типичных когнитивных ошибок смотрите ниже). Одна из причин успеха компании Google кроется в том, что она гораздо шире опирается на данные, чем большинство других компаний, вплоть до найма персонала.
Точно так же, как сегодня мы больше не можем справиться со сложностями управления воздушным движением или цепочками поставок без помощи алгоритмов, завтра почти все решения и оценки в бизнесе будут опираться на данные.
Анализ 17 исследований практик найма персонала, проведенный Американской психологической ассоциацией, показал, что простой алгоритм побеждает человеческую интуицию более чем на 25 % с точки зрения успешного найма сотрудников. Эксперт в области искусственного интеллекта Нил Якобстейн отмечает, что искусственный интеллект и алгоритмы позволяют уменьшить влияние или полностью исключить многие из следующих эвристических ошибок человеческого интеллекта:
• Ошибка якорения: Тенденция чрезмерно сосредотачиваться («якориться») на какой-либо определенной информации или одном факторе при принятии решений.
• Ошибка доступности: Тенденция переоценивать вероятность событий, которые более «доступны» в памяти из-за того, что произошли недавно или же являются более яркими, необычными или эмоционально окрашенными.
• Ошибка подтверждения: Тенденция искать и вспоминать такую информацию, а также интерпретировать информацию таким образом, чтобы подтвердить существующие убеждения.
• Эффект обрамления: Тенденция делать разные выводы на основе одной и той же информации в зависимости от того, кем и как представлена эта информация.
• Ошибка оптимизма: Склонность быть чрезмерно оптимистичным, переоценивать вероятность благоприятных событий и исходов.
• Ошибка при планировании: Тенденция переоценивать выгоды и недооценивать затраты и время, необходимое для выполнения задачи.
• Ошибка невозвратных затрат или отвращение к потере: Негативные эмоции, которые люди испытывают при потере чего-либо, намного превосходят положительные эмоции, которые они испытывают при приобретении того же размера[5].
Как любит подчеркивать Якобстейн, кора головного мозга не подвергалась серьезной модернизации 50 тысяч лет. По размеру, форме и толщине она сравнима с бумажной салфеткой. «Что если бы мы могли создать аналог коры размером со скатерть? Или с Калифорнию?» – задает он вопрос.
Существует интересное расхождение во мнениях относительно того, как много данных следует использовать в зависимости от характера рынка, на котором работает организация. Традиционная мудрость говорит, что нужно собирать как можно больше данных (отсюда и термин «большие данные»), но психолог Герд Гигеренцер предупреждает, что на рынках с высокой степенью неопределенности лучше использовать более простой, эвристический подход и опираться на меньше переменных. В то же время на стабильных и предсказуемых рынках он рекомендует организациям усложнять анализ и использовать алгоритмы с большим количеством переменных.
Одним из лидеров в области извлечения ценой информации из массивов данных является компания Palantir, основанная в 2004 году. Она занимается разработкой программных решений для государственного, коммерческого и медицинского секторов, помогая организациям извлекать пользу из разрозненных сырых данных. Беря на себя решение технических проблем, Palantir позволяет клиентам сосредоточиться на решении человеческих проблем. Венчурные инвесторы предсказывают Palantir большое будущее – компания уже получила ошеломительные 900 млн долларов финансирования и оценивается в 10 раз дороже.
Майкл Чуй отмечает, что сегодня многие успешные компании встраивают большие данные в свои ДНК. Мы считаем, что это только начало и в ближайшие годы появится еще больше ЭксО с бизнес-моделями на основе алгоритмов, которые в полной мере задействуют то, что Юри ван Геест называет «Пятью П больших данных»: производительность, профилактика, партиципация, персонализация и прогнозирование.
Бизнес-модель на основе алгоритмов включает четыре основных шага:
1. Сбор: Аналитический процесс начинается с получения данных, которые могут собираться через систему датчиков или людей или импортироваться из открытых наборов данных.
2. Обработка: Следующим шагом необходимо организовать данные и подготовить их для анализа при помощи процесса, известного как ETL-процесс (извлечение, преобразование и загрузка).
3. Анализ: После того как данные подготовлены, к ним необходимо применить инструменты машинного обучения, такие как Hadoop и Pivotal, или даже алгоритмы глубинного обучения (с открытым кодом), такие как DeepMind, Vicarious или SkyMind, чтобы извлечь их них полезные знания, выявить тенденции и настроить новые алгоритмы.
4. Открытие данных: Последний шаг – выложить данные в открытый доступ. Использование открытой платформы с открытыми данными и интерфейсами прикладного программирования позволяет сообществу ЭксО разрабатывать новые ценные услуги, новые функциональные возможности и инновационные продукты поверх платформы ЭксО, смешивая данные ЭксО с собственными данными. Именно так поступают такие известные компании, как Ford, Uber, Rabobank, порт Роттердам, IBM Watson, Wolfram Alpha, Twitter и Facebook.
Стоит ли говорить, что грядущий взрывной рост объемов данных, генерируемых миллиардами и триллионами датчиков, в скором времени сделает алгоритмы одним из важнейших компонентов любого будущего бизнеса. А благодаря тому, что они являются гораздо более объективными, масштабируемыми и гибкими, чем человеческие существа, алгоритмы – это ключ не только к будущему бизнеса в целом, но и к успеху любой организации, которая хочет встать на путь экспоненциального роста.
- Алгоритмы хэширования
- Совет 43. Используйте алгоритмы вместо циклов
- Фундаментальные алгоритмы и структуры данных в Delphi
- Самые медленные алгоритмы сортировки
- 5. Лекция: Численные алгоритмы. Матричные вычисления.
- Глава 6. Рандомизированные алгоритмы.
- Правило успеха № 4. Знать приемы и алгоритмы работы с «трудными» письмами
- Алгоритмы параллельной сборки мусора
- Алгоритмы и платформы
- Алгоритмы сортировки
- Быстрые алгоритмы сортировки
- Самые быстрые алгоритмы сортировки