Красота в квадрате - Алекс Беллос
Шрифт:
Интервал:
Закладка:
Первая цифра числа n
1
2
3
4
5
6
7
8
9
Первая цифра числа 2n
2 или 3
4 или 5
6 или 7
8 или 9
1
1
1
1
1
Процент чисел в распределении Бенфорда
30,1
17,6
12,5
9,7
7,9
6,7
5,8
5,1
4,6
Предположим, S — это массив данных, подчиняющихся закону Бенфорда. Давайте умножим на два каждое число, входящее в массив S, и обозначим новый массив чисел буквой T. Согласно таблице, числа из массива S, начинающиеся с цифры 5, составляют 7,9 процента от общего количества чисел в массиве; числа, первая цифра которых 6, — 6,7 процента, 7, 8 и 9 — 5,8; 5,1 и 4,6 процента соответственно. Следовательно, в массиве S доля чисел, начинающихся с 5, 6, 7, 8 или 9, равна 7,9 + 6,7 + 5,8 + 5,1 + 4,6 = 30,1 процента. Если числа, первая цифра которых 5, 6, 7, 8 или 9, умножить на два, произведение всегда будет начинаться с цифры 1, как показано в таблице. Другими словами, 30,1 процента чисел в массиве T начинается с цифры 1, что соответствует закону Бенфорда!
Данная закономерность имеет место и в случае других цифр. Умножение на 2 сначала нарушает, а затем восстанавливает действие закона Бенфорда, но распределение первых цифр при этом сохраняется. Я выбрал умножение на 2, поскольку это самый простой множитель, но с таким же успехом можно было бы взять в качестве множителя 3, или 1,6, или число π, или какое-либо еще — закон Бенфорда действовал бы, так или иначе. Под любое изменение масштаба распределение Бенфорда перенастраивается, как будто это делает рука самого Бога.
В течение нескольких десятилетий после открытия закона Бенфорда он считался не более чем аномалией, трюком из шоу иллюзионистов, нумерологией, но никак не математикой. Однако в 90-х годах ХХ столетия профессор Технологического института штата Джорджия Тед Хилл решил найти теоретическое обоснование распространенности этого закона. Сейчас ученый живет в городе Лос-Осос; это чуть дальше вдоль побережья Тихого океана от того места, где обосновался Даррелл Доррелл. Тед — бывший солдат, высокий, широкоплечий стройный мужчина с бритой головой и седыми усами, сохранивший армейскую выправку. Когда я приехал к нему, он повел меня в небольшой деревянный домик в конце сада, из окон которого открывался вид на океан и два национальных парка. В камине потрескивали дрова. Тед назвал этот домик «математической дачей». Это глобальный центр исследования закона Бенфорда.
Первый серьезный результат, полученный Тедом Хиллом, — это доказательство того, что при существовании некой универсальной закономерности распределения первых цифр оно подчиняется исключительно закону Бенфорда. То есть распределение первых цифр по Бенфорду — единственное, которое не меняется в случае изменения масштаба. Этот вывод позволил Теду изобрести игру, в которую мы с ним сыграли.
«Каждый из нас выбирает число, — объяснил мне Тед. — Затем мы их перемножаем. Если произведение начинается с цифры 1, 2 или 3, значит, выигрываю я; если с цифры 4, 5, 6, 7, 8 или 9 — то вы».
На первый взгляд может показаться, что в этой игре явный перевес в мою пользу, поскольку в моем распоряжении шесть цифр, тогда как у Теда — всего три. Тем не менее в большинстве случаев Тед будет выигрывать, выбирая числа в соответствии с распределением Бенфорда, другими словами — если на протяжении нескольких игр он будет выбирать числа, начинающиеся с цифры 1, — то в 30,1 процента случаев, цифру 2 — в 17,6 процента случаев и т. д. Если Тед будет действовать таким образом, от выбранного мной числа не зависит, какая цифра окажется первой: в 30,1 процента случаев это будет цифра 1, в 17,6 процента случаев — цифра 2, в 12,5 процента случаев — цифра 3. Сумма этих трех показателей составляет 60,2 процента; следовательно, Тед выиграет в 60,2 процента случаев. В эту игру хорошо играть на деньги: даже если в вашем распоряжении только 1, 2 и 3 в качестве целевых цифр, ваши шансы на победу гораздо выше, чем в случае цифр 4, 5, 6, 7, 8 и 9, хотя поначалу кажется, что это не так.
Эта игра помогает объяснить, почему многие массивы данных, формирующиеся естественным образом, подчиняются закону Бенфорда. Предположим, мы с Тедом сыграли в эту игру сто раз; у него были числа (a1, a2, a3 … a100), а у меня — числа (b1, b2, b3 … b100). Мы знаем, что если числа Теда удовлетворяют закону Бенфорда, то результат умножения его чисел на мои (a1 × b1, a2 × b2, a3 × b3 … a100 × b100) также подчиняется этому закону. Следовательно, если мы умножим эти числа на еще один набор случайно выбранных чисел (c1, c2, c3 … c100), для того чтобы получить еще один массив чисел (a1 × b1 × c1, a2 × b2 × c2, a3 × b3 × c3 … a100 × b100 × c100), этот массив тоже будет соответствовать закону Бенфорда. Дело в том, что, сколько бы массивов данных мы ни умножали друг на друга, достаточно, чтобы хотя бы один из них удовлетворял закону Бенфорда, для того чтобы этому закону подчинялся и массив результатов умножения. Другими словами, закон Бенфорда настолько заразителен, что наличие в мультипликативной цепочке единственного массива данных, удовлетворяющего ему, влияет на общий результат. Поскольку многие явления (такие как цены акций, численность населения, длина рек и т. д.) формируются под воздействием повышения или снижения различных показателей, обусловленного множеством независимых случайных факторов, это объясняет широкую распространенность неравномерного распределения первых цифр.
Самая известная теорема Теда Хилла гласит:
Если взять случайные выборки из случайным образом выбранных массивов данных, то чем больше количество массивов и выборок, тем ближе к закону Бенфорда будет распределение первых цифр в смешанной выборке.
Эта теорема позволяет определить, когда может иметь место закон Бенфорда. «Если предположение о том, что несмещенные случайные выборки взяты из случайных распределений верно, тогда эти данные должны полностью подчиняться закону Бенфорда», — утверждает Тед. Этот вывод объясняет, почему газеты так хорошо иллюстрируют действие закона первой цифры. Числа, которые появляются в новостях, — это, по сути, произвольные выборки, взятые из случайных массивов данных, таких как цены акций, температура воздуха, распределение голосов во время выборов или результаты лотереи. Хотя многие из этих массивов данных могут не удовлетворять закону Бенфорда, чем больше массивов мы проанализируем и чем больше выборок включим в анализ, тем ближе к распределению Бенфорда будет смешанная выборка. Если продолжать процесс до бесконечности, смешанные выборки будут подчиняться закону Бенфорда с точностью до 100 процентов.
Я спросил Теда, есть ли у его теоремы простое интуитивное объяснение. В ответ он покачал головой. Тед доказал эту теорему, применив эргодическую теорию — передовую область науки, которая представляет собой сочетание теории вероятности и статистической физики и изучается только в аспирантуре. Несмотря на достаточно понятную формулировку, у теоремы нет простого доказательства. «Во всяком случае, такое доказательство не обнаружено», — поясняет Тед.
Тем не менее работа Теда Хилла дает математическое обоснование для использования закона Бенфорда при рассмотрении судебных дел. Впоследствии к Теду начали обращаться за советом ученые, которые хотели знать, соответствуют ли их данные закону первой цифры. По словам Хилла, самая необычная просьба поступила от одной христианской организации. В ней обнаружили, что процентное содержание различных минералов в морской воде и земной коре подчиняется закону Бенфорда. Это открытие так поразило и удивило ее членов, что, по их словам, это мог быть только продукт разумного замысла. Так не согласится ли Тед выступить в рамках их кампании за преподавание учения о сотворении мира в техасских школах?
Теду нравилось выискивать примеры действия закона Бенфорда в чистой математике.
Последовательность, каждый член которой в два раза больше предыдущего:
1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024…
Последовательность, каждый член которой в три раза больше предыдущего:
1, 3, 9, 27, 81, 243, 729, 2187, 6561, 19 683…
Последовательность, каждый член которой поочередно умножается на два и на три: