Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс
Шрифт:
Интервал:
Закладка:
В книге нет подробных технических описаний; технические детали используются лишь в той мере, в какой необходимо обеспечить высокий уровень понимания обсуждаемой темы. Цель – помочь читателям понять и начать применять эти концепции, а также определить области для дальнейшего исследования. Эта книга скорее руководство, чем учебник, и она доступна для читателей, далеких от технических вопросов. В то же время те, кто уже глубоко понимает тему, между строк смогут увидеть технический подтекст.
Обзор содержания
Книга состоит из четырех частей, каждая из которых охватывает один аспект укрощения больших данных. В первой части объясняется, что такое большие данные, каково их значение и способы применения. Вторая часть касается инструментов, технологий и методов, необходимых для анализа и успешного использования больших данных. Третья часть посвящена людям, командам и принципам анализа, которые позволяют обеспечить эффективность. Четвертая часть подводит итог и фокусируется на том, как внедрить передовые методы анализа с помощью центра аналитических инноваций и изменения культуры. Приведем более подробное описание тем каждой части и главы.
Часть I. Появление больших данныхВ первой части идет речь о том, что такое большие данные, почему они важны, в чем состоят преимущества их анализа. Описаны десять источников больших данных и то, как эти источники могут быть использованы организациями для улучшения своего бизнеса. Если читатели не знают, что такое большие данные или насколько широко их применение, первая часть даст ответы на эти вопросы.
Глава 1. Что такое «большие данные» и каково их значение? Эта глава начинается с обзора темы больших данных. Затем приводится ряд соображений о том, как организации могут их использовать. Для того чтобы помочь своим организациям справиться с волной больших данных, читателям следует разобраться в содержимом данной главы так же хорошо, как в остальных главах.
Глава 2. Веб-данные: первые большие данные. Вероятно, наиболее широко используемый и самый известный источник больших данных на сегодняшний день – это данные, собранные с помощью сайтов. Журналы, которые содержат историю посещения пользователями веб-страниц, – настоящая сокровищница информации, которая только и ждет, чтобы ее проанализировали. Организации в целом ряде отраслей уже интегрировали подробные данные о клиентах, полученные с помощью сайтов, в собственную аналитическую среду. В этой главе показано, как эти данные расширяют возможности и изменяют процесс принятия различных бизнес-решений.
Глава 3. Источники больших данных и их ценность. Здесь мы подробно рассмотрим еще девять источников больших данных, чтобы объяснить, что представляет собой каждый источник данных, а также перечислим некоторые способы их применения в бизнесе. Одни и те же базовые технологии могут привести к возникновению нескольких источников больших данных в различных отраслях, а различные отрасли могут воспользоваться преимуществами одних и тех же источников данных. Большие данные имеют очень широкую сферу применения.
Часть II. Укрощение больших данных: технологии, процессы и методыЧасть II посвящена технологиям, процессам и методам, необходимым для укрощения больших данных. За последние годы увеличились возможности масштабируемости этих трех факторов. Организации не могут далее полагаться на устаревшие подходы и желают оставаться конкурентоспособными в мире больших данных. Эта часть книги наиболее «техническая», но все же она доступна для понимания. Читатели познакомятся с рядом концепций, с которыми им предстоит столкнуться в мире анализа больших данных.
Глава 4. Эволюция масштабируемости аналитических систем. Темп роста объема данных всегда предъявлял высокие требования к наиболее масштабируемым из доступных методов анализа. Перед появлением больших данных они уже были близки к своим пределам. Теперь традиционные подходы просто не работают. В этой главе рассматриваются слияние аналитической среды со средой данных, массивно-параллельные архитектуры, облачные и грид-вычисления, а также модель MapReduce. Каждая из этих парадигм обеспечивает большую масштабируемость и будет играть важную роль в процессе анализа больших объемов данных.
Глава 5. Эволюция аналитических процессов. Значительное увеличение уровня масштабируемости требует обновления аналитических процессов. Глава начинается с описания использования так называемых аналитических песочниц для обеспечения профессиональных аналитиков масштабируемой средой в целях создания передовых аналитических процессов. Далее объясняется, как наборы данных предприятия могут обеспечить большую последовательность и уменьшить риск при создании аналитических данных и одновременном увеличении производительности труда аналитика. В конце главы описывается, как встроенные процессы скоринга позволяют пользователям и приложениям использовать результаты применения передовых аналитических процессов.
Глава 6. Эволюция аналитических инструментов и методов. В этой главе рассматриваются пути развития передовых аналитических инструментов, а также объясняется, как подобные прорывы повлияют на работу профессиональных аналитиков с большими объемами данных. Затрагиваются такие темы, как эволюция визуальных интерфейсов, аналитические точечные решения, инструменты с открытым исходным кодом и инструменты визуализации данных. Рассказывается, как профессиональные аналитики изменили свои подходы к построению моделей для более эффективного использования имеющихся возможностей. Среди описываемых тем: групповое моделирование, экспресс-моделирование и анализ текста.
Часть III. Укрощение больших данных: люди и подходыТретья часть посвящена людям, которые занимаются анализом, их командам и подходам, используемым для обеспечения высокого качества работы. Наиболее важный фактор при проведении любого анализа, в том числе анализа больших данных, – наличие подходящих людей, которые руководствуются правильными принципами анализа. Ознакомившись с третьей частью, читатели будут лучше понимать, чем хороший анализ, хороший профессиональный аналитик и хорошая команда аналитиков отличаются от остальных.
Глава 7. Что такое хороший анализ? Подсчет статистики, составление отчета и применение алгоритма моделирования – лишь некоторые из необходимых шагов для обеспечения хорошего анализа. В начале данной главы поясняются отдельные определения, а затем речь идет об обеспечении качественного анализа. Большие данные – довольно сложная тема, поэтому особенно важно понять принципы, излагаемые в этой главе.
Глава 8. Что такое хороший профессионал в области аналитики? Навыки в области математики, статистики и программирования – необходимые, но недостаточные характеристики хорошего профессионального аналитика. Хороший аналитик должен иметь такие качества, как обязательность, творчество, деловая смекалка, навыки проведения презентации и интуиция. В этой главе описано, почему каждая из этих черт имеет большое значение для профессионального аналитика и почему ими не стоит пренебрегать.
Глава 9. Что такое хорошая аналитическая команда? Как организации следует создавать и поддерживать команды аналитиков, чтобы обеспечить оптимальный эффект? Каким образом команды вписываются в организацию? Как они должны работать? Кто должен отвечать за создание передовой аналитики? Здесь затронуты часто встречающиеся проблемы и изложены принципы, которые необходимо иметь в виду при создании аналитической команды.
Часть IV. Объединение пройденного: аналитическая культураВ четвертой части изложены хорошо известные базовые принципы, которым должна следовать организация, чтобы успешно внедрять инновации, используя передовые средства анализа и большие данные. Поскольку это фундамент многих дисциплин, внимание сосредоточено на том, какое отношение данные принципы имеют к передовой аналитике в современной корпоративной среде. Описываемые концепции, вероятно, знакомы читателям в отличие от способов их применения к области передовой аналитики и больших данных.
Глава 10. Создание условий для внедрения инноваций в сфере аналитики. Глава начинается с обзора некоторых принципов, лежащих в основе успешного внедрения инноваций. Далее объясняется, как они применяются в мире больших данных и передовой аналитики, с помощью концепции центра аналитических инноваций. Цель состоит в том, чтобы показать читателям, как можно обеспечить внедрение аналитических инноваций и укрощение больших данных в своих организациях.
Глава 11. Создание культуры инноваций и открытий. Глава посвящена созданию культуры инноваций и открытий. Она написана легко и непринужденно и дает пищу для размышлений о том, что требуется для создания культуры, способной к инновационному анализу. Изложенные в главе принципы хорошо известны. Тем не менее их стоит еще раз проанализировать, а затем подумать о том, как их применить к большим данным и передовой аналитике.