Роботы наступают - Мартин Форд
Шрифт:
Интервал:
Закладка:
Подавляющее большинство этих данных представляют собой то, что специалисты по компьютерным вычислениям называют «неструктурированными» данными. Другими словами, они поступают в различных форматах, которые трудно поддаются сопоставлению или сравнению. Это очень сильно отличает их от содержимого традиционных реляционных баз данных, в которых информация хранится в виде аккуратно упорядоченных строк и столбцов, что обеспечивает высокую скорость, надежность и точность поиска. Обработка неструктурированных данных потребовала создания новых инструментов, специально предназначенных для углубленного анализа информации, собранной из различных источников. Стремительный прогресс в этой области — всего лишь еще один пример того, как компьютеры, пускай и в довольно упрощенной форме, учатся делать то, что совсем недавно было доступно только людям. Все-таки способность непрерывно обрабатывать поток неструктурированной информации из множества различных источников во внешней среде всегда относилась к числу уникальных для человека механизмов адаптации. Разница, разумеется, в том, что человек никогда не сможет оперировать большим объемом данных в тех же масштабах, что и компьютеры. Большие данные оказывают революционное воздействие на широкий круг областей, включая бизнес, политику, медицину и практически все группы естественных и социальных наук.
Благодаря большим данным крупнейшие ретейлеры могут получить небывало подробное представление о покупательских предпочтениях отдельных потребителей, что дает им возможность формулировать адресные предложения и тем самым увеличивать собственную выручку, при этом повышая лояльность клиентов. Полицейские по всему миру обращаются к алгоритмическому анализу для прогнозирования наиболее вероятных мест и периодов совершения преступлений и распределяют свои силы в соответствии с полученными результатами. На специальном портале жители Чикаго могут ознакомиться как с ретроспективными, так и с актуальными данными, относящимися к самым разным сферам жизни и отражающими самые разные аспекты существования в большом городе, включая потребление энергии, уровень преступности, показатели эффективности работы транспортной инфраструктуры, школ, учреждений здравоохранения и даже количество выбоин и ям на дорогах, которые латали в конкретный период времени. Благодаря инструментам, которые реализуют новые способы визуализации данных, полученных путем анализа общения в социальных медиа, а также поступающих с датчиков, встроенных в двери, турникеты и эскалаторы, градостроители и сотрудники городской администрации могут наблюдать за тем, как люди перемещаются, работают и общаются в пределах городской среды, получая возможность оперативно корректировать свои действия с целью повышения эффективности работы городских служб и создания максимально комфортных условий для жизни.
Однако у этой тенденции есть и обратная сторона. Деятельность компании Target, Inc. является примером куда более спорного подхода к использованию огромных массивов чрезвычайно подробных данных о клиентах в коммерческих целях. Эта компания наняла специалиста по анализу и обработке данных, который обнаружил сложный набор корреляций, позволяющих с очень большой долей вероятности предсказывать наличие беременности на раннем сроке у покупательниц на основе анализа продаж по двадцати пяти различным видам косметической и медицинской продукции. Проводимый компанией анализ был настолько точным, что даже позволял с высокой степенью точности определять срок беременности у конкретной женщины. Получив эти данные, сотрудники Target начинали забрасывать женщин предложениями о покупке товаров для беременных, да еще и на столь раннем сроке, что во многих случаях ближайшее окружение женщины даже не знало о ее положении. В начале 2012 г. в The New York Times была опубликована статья, в которой рассказывалось об одном любопытном случае: ничего не подозревавший отец девочки-подростка пожаловался руководству магазина на неподобающие рекламные материалы, присылаемые на почтовый адрес семьи, а потом узнал, что сотрудники Target фактически были лучше осведомлены о жизни его дочери, чем он сам{123}. Некоторые критики опасаются, что эта не самая приятная история — лишь начало и что большие данные все чаще и чаще будут использоваться для получения информации, которая может нарушать неприкосновенность частной жизни или даже угрожать свободе.
Выводы, получаемые при анализе больших данных, как правило, основываются исключительно на корреляциях и ничего не говорят о причинах изучаемого феномена. Алгоритм может выяснить, что если A соответствует действительности, то и B, скорее всего, тоже верно. Но он не способен установить причинно-следственную связь между A и B и уж тем более не может установить, обусловлены ли A и B каким-либо иным внешним фактором. Во многих случаях, однако, и в особенности в мире бизнеса, где абсолютным критерием успеха является прибыльность и эффективность, а не глубина понимания, даже простая корреляция сама по себе может представлять очень большую ценность. Большие данные могут стать для менеджмента источником подробнейших сведений по самому широкому кругу вопросов: все — от параметров работы каждого отдельного станка до общих результатов работы международной корпорации — может быть потенциально подвергнуто анализу с такой степенью подробности, которая прежде была просто невозможна.
Непрерывно увеличивающийся в объеме массив данных все чаще рассматривается в качества своего рода ресурса, который, если за него взяться как следует, может стать источником ценной информации, причем не только сейчас, но и в будущем. Глядя на компании в добывающих отраслях (например, нефтегазовой), год за годом с успехом пользующихся плодами технического прогресса, легко представить, как, вооружившись возросшей вычислительной мощью компьютеров, а также усовершенствованным ПО и новыми методами анализа, корпорации во всех секторах экономики препарируют данные, извлекая из них знания, которые сразу превращаются в дополнительную прибыль. Более того, как раз вера инвесторов в то, что все так и будет, судя по всему, и является главным фактором, обуславливающим такую громадную рыночную стоимость компаний, работающих с большими объемами данных, т. е. таких, как Facebook.
Машинное обучение — метод, при котором компьютер перебирает данные и, по сути, пишет собственную программу на основе обнаруженных статистических закономерностей, — является одним из наиболее эффективных средств извлечения самой ценной информации. Как правило, процесс машинного обучения разбивается на два этапа: сначала алгоритм обучается на имеющихся данных, а затем применяется к новой информации для решения похожих задач. Самый очевидный пример использования машинного обучения на практике — фильтры спама в электронной почте. На этапе обучения алгоритм обрабатывает миллионы сообщений, заранее помеченных как спам или не спам. При этом никто не садится и не программирует систему напрямую так, чтобы она могла распознавать все мыслимые способы написания слова «виагра». Вместо этого программа учится самостоятельно распознавать нужную информацию. Результатом обучения является приложение, которое способно автоматически идентифицировать основной массив нежелательной почты и при этом постоянно совершенствоваться и адаптироваться по мере появления новых образцов спама. Алгоритмы машинного обучения, работающие на основе тех же самых принципов, используются и при подборе рекомендуемых книг на Amazon, фильмов — на Netflix и потенциальных партнеров — на Match.
Одним из самых впечатляющих примеров эффективности машинного обучения стал созданный Google онлайн-переводчик. Используемые в нем алгоритмы основаны на подходе, который можно назвать подходом Rosetta Stone[24] и который предполагает анализ и сравнение миллионов страниц текста, который уже был переведен на различные языки. Разработчики Google начали с официальных документов Организации Объединенных Наций, а затем расширили круг исходных текстов, включив в него содержимое Всемирной паутины. Чтобы найти достаточное количество примеров для ненасытных алгоритмов самообучения, они использовали поисковую систему Google. Если судить по одному только количеству документов, использовавшихся в процессе обучения системы, то становится очевидно, что ничего подобного прежде не было. Специалист в области компьютерных вычислений Франц Ок, который руководил проектом, отметил, что его команда выстроила «очень-очень большие языковые модели, намного более масштабные, чем все, что было прежде за всю историю человечества»{124}.
В 2005 г. система Google приняла участие в ежегодном соревновании по машинному переводу, проводимом Национальным бюро стандартов и технологий, подразделением Министерства торговли США, отвечающим за публикацию стандартов измерения. Алгоритмы машинного обучения Google легко обошли всех остальных участников. До этого победа обычно доставалась лингвистам и языковедам, которые тратили немало сил на то, чтобы помочь своим системам перевода не увязнуть в трясине противоречивых и непоследовательных грамматических правил того или иного естественного языка. Главный вывод, который можно сделать из этой победы: даже самые лучшие программисты не способны создать что-нибудь сравнимое с тем объемом знаний, который заключен в наборе данных большого размера. По качеству система Google пока еще не может конкурировать с квалифицированными переводчиками-людьми, но главное ее преимущество — она способна работать более чем с пятьюстами языковыми парами, переводя в обе стороны. Это самая настоящая революция в области общения: впервые в человеческой истории практически любой может мгновенно и совершенно бесплатно получить приблизительный перевод почти любого документа на любом языке.