基本に立ち返って考える:実は「ばらつき」は「量子効果」である
明けましておめでとうございます。今年もよろしくお願いします。
前稿では、20世紀は決められた標準を守る人が必要とされた時代だったのに対し、21世紀は、常識を疑い基本に立ち返って考えることが重要であることを述べました。
この基本に立ち返って考えられる人材を今後育てる必要があります。
基本に立ち返るとは、学校で教わったことやネットの記事に書いてあることを鵜呑みにしないことです。
この「基本に立ち返ること」が必要な局面は、実は至る所にあります。
私の身近では、データを解析したり、そのための人工知能を開発したりしています。その時に大事なのが、データの「ばらつき」です。
最も有名なのが、平均値を中心にばらついた「釣り鐘型」の分布とそのばらつきです(「正規分布」とよばれていて、ばらつきを数値化したものは標準偏差と呼ばれます)。
ところが、このデータを扱う基本である、この「ばらつき」の大きさを決めている本質を答えるのは意外に難しいのです。
ばらつきを単純化してイメージするために、箱と玉を沢山用意します(箱をm個、玉をn個としましょう)。完全にランダムに玉を箱に入れていくと、箱に入っている玉の数は、平均値(N=m/n個)程度になります。しかし、例えば乱数を使ってランダムに玉を入れていったとしても、たまたま運がよかった箱は平均より多く玉が入りますし、運が悪い箱は少なくしか入りません。
この玉の数のばらつき(標準偏差)は、玉が沢山あるとバラツキが相対的には少なくなります。例えば、平均10個の玉を箱にいれると、3個程度のばらつきが生じ、平均40個にすると、6個程度になります。4倍に増やしたのに、2倍にしかなりません。箱毎の平均値Nが増えると、Nの平方根に比例してしか、ばらつきが増えないのです(相対的と書いたのは、Nに対して√Nだからです)。定性的には、玉が増えると何度もチャンスが来るのでプラスマイナスが相殺し合ってばらつきが小さくなると理解できます。
これを説明するとき、多少、統計の知識のある人は、複数回の観測の平均のばらつきは「データ数Nの平方根に反比例する」という「中心極限定理」で説明すると思います。
でも、私には、この説明がピンときません。というのも、基本に戻ると、以下のような疑問がわくのです。
例えば、物理学では、一定の資源を分配するときボルツマン分布という分布になることが知られています。これは物理学の基本中の基本です。上記の正規分布は、ボルツマン分布とは全く違います。なぜ、この箱に玉を入れただけのシンプルなシステムが、この基本法則に従わないのでしょうか(この答は拙著『データの見えざる手』に書きましたので、ご興味ある方は、そちらを参照ください)。
さらに、箱に沢山の玉がある状況では(Nを無限に大きくすると)、玉という単位が、あまり重要でなくなり、水のような流体に近づくと思います。この時に、ばらつきはゼロに近づきます。従って、上記のばらつきは、水のような連続的なものではなく、玉という「つぶつぶ」からなることに起因することになります。このような「つぶつぶ」によって生じる効果を(広義に)「量子効果」と呼びます。例えば、電気(電荷)が、電子という粒から成り立っているために様々な不思議な現象が起きますが、これは「電荷の量子化」、あるいは「単一電子現象」と呼ばれます(実は、私は以前この単一電子分野の研究者でした)。
このように考えると、正規分布のばらつきは、一種の「量子現象」と捉えることができます。玉の数(N)が大きくなると、連続的な流体に近づくために、この量子的なゆらぎが消えていくわけです。そして実は、上記の「中心極限定理」は、沢山の要素(玉)が関わるようになると(Nが増えると)、この量子化の効果が消えていくことを、定量化したものだったのです。
以上のことは、統計学にも、確率論にも、機械学習にも、どこの教科書にも書いてありません。しかし、現実の本物の問題やデータを扱うときには、このような本質の理解が大事なポイントになるのです。
このような一見よく知られたことに関しても、教科書やウェブ記事を鵜呑みにせず、基本に戻って考えないと本質はわからないのです。
基本に戻って考える人を社会に増やしたいと思います。
そして、そのような年にしたいものです。