Категории

🟢Любовные романы
- Слеш
- Порно
- Фемслеш
- Современные любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Короткие любовные романы
- Книги 18+
- Исторические любовные романы
- Зарубежные любовные романы
- Роман
- love
- Прочие любовные романы
🟠Фантастика и фэнтези
- Социально-философская фантастика
- Бизнес
- Ироническая фантастика
- Ироническое фэнтези
- Фэнтези
- Попаданцы
- Боевая фантастика
- Научная Фантастика
- Детективная фантастика
- Юмористическая фантастика
- Космическая фантастика
- Городская фантастика
- Эпическая фантастика
- Героическая фантастика
- Разная фантастика
- Альтернативная история
- Ужасы и Мистика
- Киберпанк
- LitRPG
- Космоопера
- Мистика
- Технофэнтези
- Русское фэнтези
- Книги магов
- Боевое фэнтези
- Историческое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Любовное фэнтези
- Романтическая фантастика
- Разное фэнтези
- Романтическое фэнтези
- Стимпанк
- Историческая фантастика
- Зарубежная фантастика
- Постапокалипсис
- Социально-психологическая
- Социально-философская фантастика
- Ненаучная фантастика
🟢Приключения
- Исторические приключения
- Путешествия и география
- Прочие приключения
- Природа и животные
- Морские приключения
- Приключения про индейцев
- Вестерн
- Зарубежные приключения
🟠Детективы и Триллеры
- Детектив
- Триллер
- Боевик
- Классический детектив
- Иронический детектив
- Полицейский детектив
- Криминальный детектив
- Исторический детектив
- Шпионский детектив
- Крутой детектив
- Политический детектив
- Иностранный детектив
- Маньяки
- Зарубежные боевики
🟢Документальные книги
- Биографии и Мемуары
- Публицистика
- Прочая документальная литература
- Критика
- Искусство и Дизайн
- Военная документалистика
🟠Проза
- Юмор
- Современная проза
- Русская классическая проза
- Русская современная проза
- Классическая проза
- Историческая проза
- Советская классическая проза
- Проза
- О войне
- Повести
- Контркультура
- Зарубежная современная проза
- Зарубежная классика
- Рассказы
- Разное
- Эссе
- Очерки
- Афоризмы
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Антисоветская литература
- Феерия
- Новелла
🟢Научные и научно-популярные книги
- О животных
- Биохимия
- География
- Шпаргалки
- История
- История Европы
- Прочая научная литература
- Психология
- Политика
- Юриспруденция
- Культурология
- Медицина
- Религиоведение
- Науки: разное
- Языкознание
- Техническая литература
- Воспитание детей, педагогика
- Биология
- Психология, личное
- Деловая литература
- Научпоп
- Детская психология
- Беременность, ожидание детей
- Физика
- Образовательная литература
- Психотерапия
- Математика
- Филология
- Литературоведение
- Науки о космосе
- Социология
- Иностранные языки
- Альтернативная медицина
- Обществознание
- Химия
- Транспорт, военная техника
- География
- Зоология
- Архитектура
- Педагогика
- Ветеринария
- Зарубежная психология
- Государство и право
- Зарубежная публицистика
- Радиотехника
- Учебники
- Ботаника
- Астрология
- Экология
- Рефераты
- Биофизика
🟠Детская литература
- Загадки
- Сказка
- Детская фантастика
- Детские приключения
- Детская проза
- Детские остросюжетные
- Прочая детская литература
- Детская образовательная литература
- Учебная литература
- Детские стихи
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Бизнес для детей
- Книги для подростков
- Книги для дошкольников
- Буквари
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
🟢Разная литература
- Подростковая литература
- Пословицы, поговорки
- Прочее
- Периодические издания
- Фанфик
- Гиды, путеводители
- Военное
- Военная техника, оружие
- Военная история
- Литература 19 века
- Современная зарубежная литература
- Великолепные истории
- Цитаты из афоризмов
- Газеты и журналы
- Зарубежная образовательная литература
- Музыка, музыканты
- Визуальные искусства
- Кино
- Современная литература
- Музыка, танцы
- Начинающие авторы
- Авто и ПДД
- Отраслевые издания
- Недвижимость
- Боевые искусства
- Изобразительное искусство, фотография
- Готические новеллы
- Истории из жизни
- Спецслужбы
- Культура и искусство
- Зарубежная прикладная литература
- Шахматы
🟠Религия и духовность
- Религия: окультизм
- Религия: протестантизм
- Хиромантия
- Религии: разное
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
- Буддизм
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Религия: христианство
- Православие
- Религия: иудаизм
- Индуизм
- Религия: ислам
🟢Поэзия, Драматургия
- Мистерия
- Поэзия
- Драматургия
- Кино, театр
- Палиндромы
- в стихах
- Зарубежная драматургия
- Эпическая поэзия
- Театр
- Сценарии
- Драма
- Водевиль
- Трагедия
- Верлибры
- Лирика
- Киносценарии
- Песенная поэзия
- Экспериментальная поэзия
- Зарубежная поэзия
- Басни
🟠Домоводство, Дом и семья
- Интерьеры
- Фэн-шуй
- Эротика, Секс
- Ремонт в квартире
- Здоровье
- Кулинария
- Спорт
- Хобби и ремесла
- Прочее домоводство
- Домашние животные
- Сделай сам
- Сад и огород
- Развлечения
- Семейная психология
- Дом, семья
- Отдых / туризм
- Рыбалка
- Охота
🟢Юмор
- Комедия
- Юмористическая проза
- Прочий юмор
- Любовные романы
- Юмористическое фэнтези
- Юмористические стихи
- Анекдоты
- Драматургия
- Сатира
🟠Бизнес
- Внешнеэкономическая деятельность
- Тайм-менеджмент
- О бизнесе популярно
- Менеджмент и кадры
- Бизнес
- Малый бизнес
- Управление, подбор персонала
- Личная эффективность
- Менеджмент
- Корпоративная культура, бизнес
- Личные финансы
- Экономика
- Ценные бумаги и инвестиции
- Личная эффективность
- Маркетинг, PR, реклама
- Финансы
- Работа с клиентами
- Переговоры
- Банковское дело
- Поиск работы
- Ораторское искусство / риторика
- Продажи
- Бухучет и аудит
- Государственное и муниципальное управление
- Кадровый менеджмент
- Делопроизводство, офис
- Краткое содержание
- Интернет-бизнес
- Зарубежная деловая литература
🟢Компьютеры и Интернет
- Цифровая обработка сигналов
- Прочая околокомпьтерная литература
- Программирование
- Интернет
- Программы
- Программное обеспечение
- Компьютерное "железо"
- Базы данных
🟠Старинная литература
- Древневосточная литература
- Мифы. Легенды. Эпос
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
- Древнерусская литература
- Фольклор
- Зарубежная старинная литература
🟢Справочная литература
- Энциклопедии
- Руководства
- Справочники
- Прочая справочная литература
- Словари
🟠Блог

Меню

Самые читаемые

Путевые заметки рассеянного магистра - Владимир Левшин

Человек: откуда, как и куда - Анни Безант

Правила Святой Православной Церкви с толкованиями - Епископ Никодим Милош

ChitatKnigi.com » 🟢Компьютеры и Интернет » Прочая околокомпьтерная литература » Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

Читать онлайн Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

1 ... 6 7 8 9 10 11 12 13 14 ... 57

Перейти на страницу:

Шрифт:

Интервал:

Закладка:

Сделать

Нам предстоит иметь дело с несколькими видами беспорядочности. Это может быть связано с тем, что при добавлении новых точек данных вероятность ошибок возрастает. Следовательно, если, например, увеличить показатели нагрузки на мост в тысячу раз, возрастет вероятность того, что некоторые показатели будут ошибочными. Вы увеличите беспорядочность, сочетая различные типы информации из разных источников, которые не всегда идеально выравниваются. Или, определив причину жалоб, направленных в центр обработки заказов с помощью программного обеспечения для распознавания речи, и сравнив эти данные со временем, затраченным со стороны оператора на их обработку, можно получить несовершенную, но полезную общую картину ситуации. Кроме того, беспорядочность иногда связана с неоднородностью форматирования. В таком случае, прежде чем обрабатывать данные, их следует «очистить». «Существуют буквально тысячи способов упомянуть компанию IBM, — отмечает знаток больших данных Дж. Патил, — от IBM до International Business Machines и Исследовательского центра Т. Дж. Уотсона».[39] Беспорядочность может возникнуть при извлечении или обработке данных, поскольку путем преобразования мы превращаем их в нечто другое. Так, например, происходит, когда мы анализируем настроения в сообщениях Twitter, чтобы прогнозировать кассовые сборы голливудских фильмов. А беспорядочность сама по себе… беспорядочна.

Представьте себе, что вам нужно измерить температуру в винограднике. Если у вас только один датчик температуры на весь участок земли, необходимо убедиться, что он работает точно и непрерывно. Если же для каждой из сотен лоз установлен отдельный датчик, вероятно, рано или поздно какой-то из них станет предоставлять неправильные данные. Полученные данные могут быть менее точными (или более «беспорядочными»), чем от одного точного датчика. Любой из отдельно взятых показателей может быть ошибочным, но в совокупности множество показателей дадут более точную картину. Поскольку набор данных состоит из большего числа точек данных, его ценность гораздо выше, и это с лихвой компенсирует его беспорядочность.

Теперь рассмотрим случай повышения частоты показателей. Если мы возьмем одно измерение в минуту, то можем быть уверены, что данные будут поступать в идеально хронологическом порядке. Измените частоту до десяти или ста показателей в секунду — и точность последовательности станет менее определенной. Так как информация передается по сети, запись может задержаться и прибыть не по порядку либо попросту затеряться. Информация получится немного менее точной, но ввиду большого объема данных отказаться от строгой точности вполне целесообразно.

В первом примере мы пожертвовали точностью отдельных точек данных в пользу широты, получив взамен детали, которые не удалось бы обнаружить другим путем. Во втором случае отказались от точности в пользу частоты, зато увидели изменения, которые иначе упустили бы из виду. Такие ошибки можно устранить, если направить на них достаточно ресурсов. В конце концов, на Нью-Йоркской фондовой бирже производится 30 000 сделок в секунду, и правильная последовательность здесь чрезвычайно важна. Но во многих случаях выгоднее допустить ошибку, чем работать над ее предотвращением.

Мы можем согласиться с беспорядочностью в обмен на масштабирование. Один из представителей консалтинговой компании Forrester однажды выразился так: «Иногда два плюс два может равняться 3,9. И это достаточно хорошо».[40] Конечно, эти данные не могут быть абсолютно неправильными, и мы готовы в некоторой степени пожертвовать точностью в обмен на понимание общих тенденций. Большие данные преобразуют цифры в нечто более вероятностное, чем точность. В этом процессе обществу придется ко многому привыкнуть, столкнувшись с рядом проблем, которые мы рассмотрим в этой книге. Но на сегодняшний день стоит просто отметить, что при увеличении масштаба беспорядочность неизбежна, и с этим нужно смириться.

Подобный переход можно заметить в том, в какой степени увеличение объема данных важнее других усовершенствований в вычислительных технологиях. Всем известно, насколько вычислительная мощность выросла за эти годы в соответствии с законом Мура, который гласит, что число транзисторов на кристалле удваивается примерно каждые два года. В результате компьютеры стали быстрее, а память — объемнее. Производительность алгоритмов, которые управляют многими нашими системами, также увеличилась, но осталась несколько в тени. По некоторым данным, вычислительные алгоритмы улучшились примерно в 43 000 раз в период между 1988 и 2003 годами — значительно больше, чем процессоры в соответствии с законом Мура.[41] Однако многие достижения, наблюдаемые в обществе благодаря большим данным, состоялись не столько за счет более быстрых чипов или улучшенных алгоритмов, сколько за счет увеличения количества данных.

Так, шахматные алгоритмы изменились лишь немного за последние несколько десятилетий, так как правила игры в шахматы полностью известны и жестко ограничены. Современные компьютерные программы по игре в шахматы играют гораздо лучше, чем их предшественники, потому что лучше просчитывают свой эндшпиль.[42] И это им удается просто потому, что в систему поступает больше данных. Варианты эндшпиля при оставшихся шести (и менее) фигурах на шахматной доске полностью проанализированы, а все возможные ходы («N = всё») представлены в виде массивной таблицы, которая в несжатом виде заполнила бы более терабайта данных. Благодаря этому компьютеры могут безупречно вести все важные эндшпили. Ни один человек не сможет переиграть систему.[43]

То, насколько можно усовершенствовать алгоритмы, увеличив количество данных, убедительно продемонстрировано в области обработки естественного языка — способа, с помощью которого компьютеры распознают слова, используемые нами в повседневной речи. Примерно в 2000 году Мишель Банко и Эрик Брилл из исследовательского центра Microsoft Research поставили задачу улучшить средство проверки грамматики — элемент программы Microsoft Word. Перед ними было несколько путей: улучшение существующих алгоритмов, поиск новых методов или добавление более сложных функций. Прежде чем выбрать один из них, они решили посмотреть, что будет, если существующие методы применить к гораздо большему количеству данных. Большинство исследований по машинному обучению алгоритмов полагались на корпусы,[44] состоящие из миллиона слов, а то и меньше. Поэтому Банко и Брилл выбрали четыре алгоритма общего назначения и ввели в них на три порядка больше данных: 10 миллионов слов, затем 100 миллионов и, наконец, миллиард.

Результаты поразили. Чем больше данных подавалось на входе, тем лучше были результаты работы всех четырех типов алгоритмов. Простой алгоритм, который хуже всех справлялся с половиной миллиона слов, показал наилучший результат, обработав миллиард слов. Степень точности возросла с 75 до более чем 95%. И наоборот, алгоритм, который лучше всех справлялся с небольшим объемом данных, показал наихудший результат при больших объемах. Следует отметить, что при этом его результат, как и результат остальных алгоритмов, значительно улучшился: с 86 до 94% точности. «Эти результаты показывают, что нам, возможно, понадобится пересмотреть свое представление о том, на что стоит тратить время и средства: на разработку алгоритмов или на развитие корпусов», — отметили Банко и Брилл в одной из своих научных статей на эту тему.[45]

Итак, чем больше данных, тем меньше затрат. А как насчет беспорядочности? Спустя несколько лет после того, как Банко и Брилл начали активно собирать данные, исследователи компании Google, их конкурента, стали рассуждать в том же направлении, но еще более масштабно. Они взялись тестировать алгоритмы, используя не миллиард слов, а корпус из целого триллиона слов. Целью Google была не разработка средства проверки грамматики, а еще более сложная задача — перевод.

Концепция так называемого «машинного» перевода появилась на заре вычислительной техники, в 1940 году, когда устройства состояли из вакуумных ламп и занимали целую комнату. Идея стала особенно актуальной во времена холодной войны, когда в руки США попало огромное количество письменных и устных материалов на русском языке, но не хватало человеческих ресурсов для их быстрого перевода.

Специалисты в области компьютерных наук начали с того, что выбрали сочетание грамматических правил и двуязычный словарь. В 1954 году компания IBM перевела 60 русских фраз на английский язык на основе словарного запаса компьютера, состоящего из 250 пар слов, и шести правил грамматики. Результаты оказались многообещающими. В компьютер IBM 701 с помощью перфокарт ввели текст «Мы передаем мысли посредством речи» и получили на выходе We transmit thoughts by means of speech. В пресс-релизе по случаю такого события отмечалось, что было «благополучно переведено» 60 предложений. Директор программы профессор Леон Достерт из Джорджтауна заявил, что машинный перевод станет «свершившимся фактом» предположительно через «лет пять, а то и три [года]».[46]

1 ... 6 7 8 9 10 11 12 13 14 ... 57

Перейти на страницу:

Отывы о книге