Категории

🟢Любовные романы
- Слеш
- Порно
- Фемслеш
- Современные любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Короткие любовные романы
- Книги 18+
- Исторические любовные романы
- Зарубежные любовные романы
- Роман
- love
- Прочие любовные романы
🟠Фантастика и фэнтези
- Социально-философская фантастика
- Бизнес
- Ироническая фантастика
- Ироническое фэнтези
- Фэнтези
- Попаданцы
- Боевая фантастика
- Научная Фантастика
- Детективная фантастика
- Юмористическая фантастика
- Космическая фантастика
- Городская фантастика
- Эпическая фантастика
- Героическая фантастика
- Разная фантастика
- Альтернативная история
- Ужасы и Мистика
- Киберпанк
- LitRPG
- Космоопера
- Мистика
- Технофэнтези
- Русское фэнтези
- Книги магов
- Боевое фэнтези
- Историческое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Любовное фэнтези
- Романтическая фантастика
- Разное фэнтези
- Романтическое фэнтези
- Стимпанк
- Историческая фантастика
- Зарубежная фантастика
- Постапокалипсис
- Социально-психологическая
- Социально-философская фантастика
- Ненаучная фантастика
🟢Приключения
- Исторические приключения
- Путешествия и география
- Прочие приключения
- Природа и животные
- Морские приключения
- Приключения про индейцев
- Вестерн
- Зарубежные приключения
🟠Детективы и Триллеры
- Детектив
- Триллер
- Боевик
- Классический детектив
- Иронический детектив
- Полицейский детектив
- Криминальный детектив
- Исторический детектив
- Шпионский детектив
- Крутой детектив
- Политический детектив
- Иностранный детектив
- Маньяки
- Зарубежные боевики
🟢Документальные книги
- Биографии и Мемуары
- Публицистика
- Прочая документальная литература
- Критика
- Искусство и Дизайн
- Военная документалистика
🟠Проза
- Юмор
- Современная проза
- Русская классическая проза
- Русская современная проза
- Классическая проза
- Историческая проза
- Советская классическая проза
- Проза
- О войне
- Повести
- Контркультура
- Зарубежная современная проза
- Зарубежная классика
- Рассказы
- Разное
- Эссе
- Очерки
- Афоризмы
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Антисоветская литература
- Феерия
- Новелла
🟢Научные и научно-популярные книги
- О животных
- Биохимия
- География
- Шпаргалки
- История
- История Европы
- Прочая научная литература
- Психология
- Политика
- Юриспруденция
- Культурология
- Медицина
- Религиоведение
- Науки: разное
- Языкознание
- Техническая литература
- Воспитание детей, педагогика
- Биология
- Психология, личное
- Деловая литература
- Научпоп
- Детская психология
- Беременность, ожидание детей
- Физика
- Образовательная литература
- Психотерапия
- Математика
- Филология
- Литературоведение
- Науки о космосе
- Социология
- Иностранные языки
- Альтернативная медицина
- Обществознание
- Химия
- Транспорт, военная техника
- География
- Зоология
- Архитектура
- Педагогика
- Ветеринария
- Зарубежная психология
- Государство и право
- Зарубежная публицистика
- Радиотехника
- Учебники
- Ботаника
- Астрология
- Экология
- Рефераты
- Биофизика
🟠Детская литература
- Загадки
- Сказка
- Детская фантастика
- Детские приключения
- Детская проза
- Детские остросюжетные
- Прочая детская литература
- Детская образовательная литература
- Учебная литература
- Детские стихи
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Бизнес для детей
- Книги для подростков
- Книги для дошкольников
- Буквари
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
🟢Разная литература
- Подростковая литература
- Пословицы, поговорки
- Прочее
- Периодические издания
- Фанфик
- Гиды, путеводители
- Военное
- Военная техника, оружие
- Военная история
- Литература 19 века
- Современная зарубежная литература
- Великолепные истории
- Цитаты из афоризмов
- Газеты и журналы
- Зарубежная образовательная литература
- Музыка, музыканты
- Визуальные искусства
- Кино
- Современная литература
- Музыка, танцы
- Начинающие авторы
- Авто и ПДД
- Отраслевые издания
- Недвижимость
- Боевые искусства
- Изобразительное искусство, фотография
- Готические новеллы
- Истории из жизни
- Спецслужбы
- Культура и искусство
- Зарубежная прикладная литература
- Шахматы
🟠Религия и духовность
- Религия: окультизм
- Религия: протестантизм
- Хиромантия
- Религии: разное
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
- Буддизм
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Религия: христианство
- Православие
- Религия: иудаизм
- Индуизм
- Религия: ислам
🟢Поэзия, Драматургия
- Мистерия
- Поэзия
- Драматургия
- Кино, театр
- Палиндромы
- в стихах
- Зарубежная драматургия
- Эпическая поэзия
- Театр
- Сценарии
- Драма
- Водевиль
- Трагедия
- Верлибры
- Лирика
- Киносценарии
- Песенная поэзия
- Экспериментальная поэзия
- Зарубежная поэзия
- Басни
🟠Домоводство, Дом и семья
- Интерьеры
- Фэн-шуй
- Эротика, Секс
- Ремонт в квартире
- Здоровье
- Кулинария
- Спорт
- Хобби и ремесла
- Прочее домоводство
- Домашние животные
- Сделай сам
- Сад и огород
- Развлечения
- Семейная психология
- Дом, семья
- Отдых / туризм
- Рыбалка
- Охота
🟢Юмор
- Комедия
- Юмористическая проза
- Прочий юмор
- Любовные романы
- Юмористическое фэнтези
- Юмористические стихи
- Анекдоты
- Драматургия
- Сатира
🟠Бизнес
- Внешнеэкономическая деятельность
- Тайм-менеджмент
- О бизнесе популярно
- Менеджмент и кадры
- Бизнес
- Малый бизнес
- Управление, подбор персонала
- Личная эффективность
- Менеджмент
- Корпоративная культура, бизнес
- Личные финансы
- Экономика
- Ценные бумаги и инвестиции
- Личная эффективность
- Маркетинг, PR, реклама
- Финансы
- Работа с клиентами
- Переговоры
- Банковское дело
- Поиск работы
- Ораторское искусство / риторика
- Продажи
- Бухучет и аудит
- Государственное и муниципальное управление
- Кадровый менеджмент
- Делопроизводство, офис
- Краткое содержание
- Интернет-бизнес
- Зарубежная деловая литература
🟢Компьютеры и Интернет
- Цифровая обработка сигналов
- Прочая околокомпьтерная литература
- Программирование
- Интернет
- Программы
- Программное обеспечение
- Компьютерное "железо"
- Базы данных
🟠Старинная литература
- Древневосточная литература
- Мифы. Легенды. Эпос
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
- Древнерусская литература
- Фольклор
- Зарубежная старинная литература
🟢Справочная литература
- Энциклопедии
- Руководства
- Справочники
- Прочая справочная литература
- Словари
🟠Блог

Меню

Самые читаемые

Путевые заметки рассеянного магистра - Владимир Левшин

Человек: откуда, как и куда - Анни Безант

Правила Святой Православной Церкви с толкованиями - Епископ Никодим Милош

ChitatKnigi.com » 🟢Компьютеры и Интернет » Прочая околокомпьтерная литература » Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

Читать онлайн Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер

1 ... 7 8 9 10 11 12 13 14 15 ... 57

Перейти на страницу:

Шрифт:

Интервал:

Закладка:

Сделать

Первоначальный успех был обманчив. К 1966 году комитет по вопросам машинного перевода признал, что потерпел неудачу. Проблема оказалась сложнее, чем они предполагали. Суть перевода заключалась в обучении компьютеров не только правилам, но и исключениям. Этому трудно обучить компьютер в прямой форме. В конце концов, перевод состоит не только в запоминании и воспроизведении, как могло показаться раньше. Речь идет о поиске подходящих слов среди множества альтернативных вариантов. Что значит bonjour? «Доброе утро», «добрый день», «здравствуйте» или, может быть, «привет»? Все зависит от обстоятельств.

В конце 1980-х годов у исследователей из компании IBM родилась новая идея. Вместо того чтобы загружать словари и явные лингвистические правила в компьютер, они позволили ему автоматически вычислять статистическую вероятность того, что то или иное слово либо словосочетание на одном языке лучше всего соответствует аналогу на другом. В 1990-х годах в проекте компании IBM Candide был задействован десятилетний опыт переводов стенограмм заседаний канадского парламента, опубликованных на французском и английском языках, — около трех миллионов предложений.[47] Поскольку это официальные документы, их переводы были выполнены с соблюдением чрезвычайно высоких требований. По меркам того времени количество данных было огромным. Эта технология, получившая известность как «статистический машинный перевод», ловко превратила задачу перевода в одну большую математическую задачу. И это сработало. Компьютерный перевод неожиданно стал намного лучше. Однако вслед за начальным прорывом компании IBM не удалось внести каких-либо значительных улучшений, несмотря на большие вложения. В конечном счете проект был закрыт.

Менее чем через десять лет, в 2006-м, компания Google подалась в область перевода в рамках своей миссии «упорядочить мировую информацию и сделать ее полезной и всесторонне доступной». Вместо того чтобы использовать аккуратно переведенные на два языка страницы текста, Google задействовала более массивный, но при этом гораздо более беспорядочный набор данных — глобальную сеть интернет. Разработанная система поглощала все переводы, которые ей только удавалось найти, с целью обучить компьютер. Она обрабатывала корпоративные сайты на нескольких языках, а также идентичные переводы официальных документов и отчетов межправительственных организаций, таких как Организация Объединенных Наций и Европейская комиссия. Даже переводы книг в рамках проекта по сканированию книг были пущены в дело. Вместо трех миллионов тщательно переведенных предложений, используемых в проекте Candide, по словам Франца Оча, главы службы «Google Переводчик» и одного из ведущих специалистов в этой области, система Google охватывала миллиарды страниц документов с широким спектром качества перевода. Корпус этой системы содержал триллион слов и насчитывал 95 миллиардов англоязычных предложений, пусть и сомнительного качества.[48]

Несмотря на беспорядочность входящих данных, служба Google лучше других систем. Ее переводы точнее, хотя и весьма далеки от совершенства. К тому же эта служба во много раз полнее других: к середине 2012 года она охватила более 60 языков, а теперь даже способна принимать голосовой ввод на 14 языках для моментального перевода. Поскольку она рассматривает язык лишь как беспорядочный набор данных, по которому можно судить скорее о вероятностях явлений, чем о них самих, служба может выполнять переводы между языками, в переводах на которые представлено недостаточно прямых соответствий, чтобы создать систему. В таких случаях (например, для хинди и каталонского языка) английский язык служит своеобразным мостом. Кроме того, эта система более гибкая, чем другие подходы, поскольку может добавлять и удалять слова по мере того, как они входят в обиход или устаревают.

Google Переводчик работает хорошо не потому, что в его основе заложен более разумный алгоритм. Как это было у Банко и Брилла из корпорации Microsoft, причина тому — большее количество входящих данных (но не всех подряд). Так, например, компании Google удалось использовать в десятки тысяч раз больше данных, чем системе Candide компании IBM. И все потому, что в Google принимались беспорядочные данные. Корпус из триллиона слов, выпущенный Google в 2006 году, состоял из разбросанных фрагментов интернет-контента. Он стал «обучающим набором», по которому вычислялась вероятность того, что именно последует за тем или иным английским словом. Это был огромный шаг вперед, в корне отличающийся от предшественника — знаменитого Брауновского корпуса с миллионом английских слов, созданного в 1960-х годах. Благодаря более объемным наборам данных развитие обработки естественного языка шло семимильными шагами. На нем были основаны как системы распознавания голоса, так и системы компьютерного перевода. «Простые модели с множеством данных по результатам превосходят более сложные модели, основанные на меньшем количестве данных», — отметил Питер Норвиг, гуру искусственного интеллекта в компании Google, в статье «Необоснованная эффективность данных», написанной в соавторстве с коллегами.[49]

Однако, как поясняют Норвиг и его коллеги, ключевым элементом была беспорядочность: «В некотором смысле этот корпус — шаг назад по сравнению с Брауновским корпусом, ведь его данные взяты с неотфильтрованных веб-страниц, а значит, содержат неполные предложения, а также орфографические, грамматические и прочие ошибки. Такой корпус не имеет примечаний с добавленными вручную пометками частей речи. Но то, что он в миллион раз больше Брауновского корпуса, перевешивает эти недостатки».

Больше данных — лучше результат

Аналитикам, которые работают с обычными выборками, трудно свыкнуться с беспорядочностью, которую они всю жизнь стремились предотвратить или искоренить. Статистики используют целый комплекс стратегий в целях снижения частоты появления ошибок при сборе выборок, а также для проверки выборок на наличие потенциальных систематических ошибок перед объявлением результатов. Этот комплекс стратегий включает в себя сбор выборок, который осуществляется специально обученными специалистами в соответствии с точным протоколом. Реализация стратегий, направленных на сокращение числа ошибок, — дорогостоящее удовольствие, даже при ограниченном количестве точек данных. Что немаловажно, эти стратегии становятся невозможными в случае сбора данных в полном объеме — не только из-за чрезмерной стоимости, но и потому, что при таком масштабе вряд ли удастся равномерно соблюсти строгие стандарты сбора. И даже исключение человеческого фактора не решило бы проблему.

Двигаясь в сторону больших данных, мы будем вынуждены изменить свое представление о преимуществах точности. Пытаясь мыслить привычными категориями измерений в цифровом взаимосвязанном мире ХХІ века, мы упускаем важный момент. Одержимость точностью — не более чем артефакт аналогового мира, находящегося в информационной изоляции, где данные поистине были редкостью. На тот момент измерение каждой точки данных было крайне важно для результата, поэтому большое внимание уделялось тому, чтобы не допускать в анализе систематические погрешности.

В наше время нет такого дефицита информации. При переходе на всеобъемлющие наборы данных, которые охватывают всё или почти всё рассматриваемое явление, а не только его мизерную часть, нам уже не приходится беспокоиться об отдельных точках данных, привносящих в анализ систематические погрешности. Вместо того чтобы искоренять каждый неточный бит (что со временем обходится все дороже), мы выполняем вычисления, принимая во внимание беспорядочность.

Возьмем для примера беспроводные датчики, внедряемые на производстве. По всей территории нефтеперерабатывающего завода BP Cherry Point в Блейне (Вашингтон) расставлены беспроводные датчики, образующие невидимую сеть, которая производит огромные объемы данных в режиме реального времени. Неблагоприятные окружающие условия — сильная жара и электрические механизмы — могут время от времени искажать показания, приводя к беспорядочности данных. Но огромное количество поступающей информации компенсирует эти трудности. Измеряя нагрузку на трубы непрерывно, а не через определенные промежутки времени, компания BP выяснила, что некоторые виды сырой нефти более едкие, чем другие. Прежде это не удавалось определить, а значит, и предотвратить.[50]

Получая огромные массивы данных нового типа, в некоторых случаях можно пренебречь точностью, если удается спрогнозировать общие тенденции. Мы живем как раз в условиях такого парадокса. Небольшой магазин может подсчитать прибыль к концу дня вплоть до копейки, но мы не стали бы (да и не смогли бы) проделывать то же самое с ВВП страны. В условиях перехода к большим масштабам меняется не только ожидаемая степень точности, но и практическая возможность ее достижения. Отношение к данным как к чему-то несовершенному и неточному (пусть поначалу и вопреки логике) дает возможность делать всеобъемлющие прогнозы, а значит, лучше понимать окружающий мир.

1 ... 7 8 9 10 11 12 13 14 15 ... 57

Перейти на страницу:

Отывы о книге