アナリティクス2.0:予測不能に挑むための3つの原則
毎日のように、新規感染者数のデータやグラフが普通の人の目に入ってくる生活になった。また、PCR検査や抗体検査などの更なるデータ取得の是非にも関心が集まっている。その意味ではデータの重要性は、ますます広く認識されていると思われる。
実は、これまでの伝統的な統計学は、このように、状況が時々刻々変化する状況には使えなかった。
意外に思った人がいるかもしれない。このような時にこそ、データを活用したいからである。しかし、残念ながら、現状の統計学はこのような変化する状況にはフィットしないのである。
統計学ではデータの中に潜む一貫した傾向を抽出し、それがたまたま偶然に起きたのか、そうでないのか区別することに力を注いできた。そして、偶然ではないことを「統計的に有意」であると呼ぶ*(*その仮説が偶然である確率をp値と呼び、これが5%以下というような低い確率になると検証されたという基準がよく使われている)。
学問の世界で、この偶然かどうか(統計的に有意かどうか)は、大変大事である。実際、Natureという最も権威のある科学雑誌の投稿規定には、論文にデータを示す時には、統計有意性を表すp値を示すことが求められている。「偶然ではないことを確認してから論文として発表しなさい」といっているわけだ。
学問では、普遍性のある発見にこそ価値がある。従って、偶然ではないことがしっかり確認されてから発表することは当然の要求と思われる。もし、データが不足して、有意性が確認できなかったのなら、データをもっと積み上げて確証を得てから発表しなさい、というのも頷ける。
しかし、ウイルスとの闘いやビジネスの世界は、学問とは異なる。
今日の決定が、明日の感染者数や企業の存続に直結する。その結果は、不可逆的である。一度起きたことを後で元に戻すことはできないのである。データが不足していても、統計的な有意性が確認されていなくとも、状況は待ってくれないのである。有意性が確認されるまで待つわけにはいかないのである。何もしなければ、「なにもしないで待つ」という重要な判断をしたことになるのである。
さらに、これまでに経験したことのない変化の中では、それまでのデータから傾向を抽出しても、今後はその通りにはならない。さらに常に変化している状況では、偶然か必然かを定義するのさえ難しい。このような状況には、従来の統計学の前提が成り立たないのである。
ところが、データの活用について学ぼうとしても、今も、従来型の統計学を学ぶことになっってしまう。もちろん、それは、学問的な活動のためには有用である。
しかし、タイミングがすべての、実世界の判断では、これはあまり役に立たないのである。この重要な事実が、世の中で認識されていないと思う。
それでは、実世界の判断に使えるデータ解析とはいかなるものになるだろうか。この新しいデータ解析や統計の姿を体系化することは、大変意味のあることだと思う。ここではこの新たなデータ解析を「アナリティクス2.0」とよぼう。
この新しいデータ解析が前提とすべき原則を考えた。この3原則をもとに、最先端の知見を結集すれば、新たな「アナリティクス2.0」が構築可能と考える。
第1原則=未来は予測不能に変化し続ける [予測不能性の原則]
第2原則=データは、能動的に獲得し続ける [データ能動獲得の原則]
第3原則=実験と学習を繰り返して目的を追求し続ける [実験と学習の原則]
3つの原則が、すべて「続ける」で終わっていることが大変重要だ。人生も、ビジネスも社会も、終わりのない動的な営みである。これに正面から向き合うことが必要だと思う。それこそが科学的な態度なのである。
これに対し、従来の統計学では、
第1原則=繰り返し再現可能なことを対象にする [再現可能性の原則]
第2原則=データは与えられるものである [データ所与の原則]
第3原則=仮説の成否の検証を目的とする [仮説検証の原則]
という静的で閉じた世界を前提としている。このため、繰り返しが可能で、再現できることを対象にし、与えられたデータで、検証したい仮説の正否を知ることを目的にしていた。データが足りなければ、このデータ量では不十分です、という答えを出すだけだった。もちろん、今でも、これが役立つ場面ある。その代表が学問的な発見の場である。
しかし今、重要なのは、予測不能に世界が変化する時に、どう判断し、行動するかである。同じことは2度と起きないのである。
人類もウイルスも進化論に従って発展している。進化に繰り返しはなく、再現性はないのである。新しいアナリティクスは、この現実を対象にする。
この時、たった一個の事例のデータも、貴重な情報なのである。N=1では、決して統計有意にならないが、N=1で行動を起こすべきなのである。データが集まるまで待つわけにいかないのである。
しかも、データは誰かに与えてもらうものではない。どんなデータを獲得すべきかこそ、重要な判断である。データを取るのも、コストもリスクも時間もかかる。どんな条件のデータを増やすべきで、どんな条件のデータはそれほど重要でないかを常に問い続ける必要がある。この優先順位付けも、データに基づき、科学的に行うべきなのである。
データを取るというのは、実験を通して学ぶことである。この「実験と学習」を新たな仕事の仕方の原則とすべきである。
もちろん、予測不能な変化が起きる中で、実験が目的に沿ったよい結果が出すとは限らない。しかし、我々は行動すれば必ず学習できる。しかも、よりよく学習できる行動もあれば、既に分かっていることを繰り返しただけの行動もある。データを使えば、よりよき未知の未来を開拓することは可能だし、それを目指すべきだ。即ち、データを使った実験と学習の繰り返しを通じて、目的に効果的に近づくことは常に可能である。常に行動を通して前進するためのものとしてデータを捉える必要がある。
従来は、仕事のオペレーションとデータによる状況の分析は、分離されていた。予測不能な状況では、両者は分離できない。例えば、ウイルス対策に関する判断をする人は、自分でデータ分析の作業をする必要はないが、少なくとも、その手段と結果の本質をきちんと理解でき、判断に反映し、かつそれを自分の言葉で語る必要がある。これはウイルス対策に限らず、あらゆるビジネスの経営判断やアナリティクスについても同様である。
コロナウイルスは、この世界が予測不能性であることを我々に改めて突きつけた。しかし、パンデミックが始まる前から、世界はもともと予測不能なのであり、今回をきっかけに、その事実に、我々が目ざめたのだと思う。
データ活用についても、われわれは今、新たな視点に目ざめる必要があると思う。
より具体的な方法「3P」については、以前の論考に大枠を記載した。
この記事が気に入ったらサポートをしてみませんか?