データは「過去をまねするため」のものか
日経ビジネスの「データより変化を見よ」という記事(20.2.3)で、コンビニを日本に拡げたセブン&アイの鈴木敏文氏の発言に強く共感を覚えた。
「ビッグデータという言葉がよく使われますよね。
私は好きじゃないんですよ。...(中略)、
あれは過去に経験したことをまねするということです。」
現在のデータやAIの使い方は、まさに「過去の経験をまねする」ことである。しかし、これには原理的な問題がある。
まず、新しいことを生み出さないことである。過去のデータを参考に行動することになるので、新しいことはやらなくなる。
このために、変化に弱くなる。ビジネスも地域や国も常に変化の只中にある。しかも未来は予測できない。いかに未来に向けて行動を起こすかが最も重要なことなのに、データやAIに頼ると、過去のデータで経験したことの範囲で行動や判断するようになる。これはバックミラーを見ながら運転しているようなものである。
この4年ぐらいの間に、多くの企業がデータを使ったAIの活用にとり組んだ。大きな成果が生まれていないのは、この原理的な限界があるからである。
よくメディアは、データを大量に持っている企業がAIやデータの時代に勝者になると主張している。これは完全に間違っている。過去のデータは、その後に状況が変われば、何の役にもたたないからだ。
企業のAI適用現場でも、データ量とAIによる予測精度を問題にするところが多い。しかし、データを大量に集めようとしているのは、既に大量の経験のある問題をさらに精度良く判断しようとしているからである。もちろん、それが意味がないとはいわない。
しかし、未知の未来に向かって挑戦することに比べれば、小さな問題である。敢えて強く言おう。それは「くだらない問題」である。そんな後ろ向きのことに、エネルギーを使っていることが大変問題である。さらに、それがシステム化されたらもっと悪い状況になる。過去を繰り返すことしかできない企業システムが完成する。未来に向けて新たな挑戦や試行錯誤を行うことができなくなる。
この問題は、実は問題の捉え方とそのためのデータの使い方が間違っているから生じているのだ。それは、「教師あり学習」という過去を再現するための手法の限界なのである。教師あり学習ができるのは、過去の再現だけで、新しいことを生み出すことはできない。
この教師あり学習は、統計学をベースにしている。そして、統計学では多数のサンプルによって統計的に有意な現象を見出す学問である(その時に登場するのがサンプル数Nと有意水準を表すp値である)。これらはいずれも、未知の状況に向き合う時には無力である。未知の領域では、やったことがあることは少なく(Nが少なく)、だから統計的に有意になりにくい(p値は常に大きいので、偶然と明確な区別はできない)。
そしてなまじ統計や機械学習を学ぶと「統計有意でないことは判断の根拠にしてはならない」「それが科学的態度である」と思っている人がほとんどである。しかし、これは「未知の領域に踏み込むな」といっているに等しい。ビジネスも人生も、常に変化や未知と向き合う営みである。このような考え方は、その根幹を否定するものである。例えば、1個の事例(N=1)では、決して統計有意にならない。しかし、その1個の事例や兆しから何を読みとるかが、常に問題なのである。「統計有意でない=大事でない」などと決して考えてはならない。
私は、以前から、AIやデータの使い方は上記のような過去の繰り返しや過去の真似であってはならないと主張している。それは4年前に書いた「AIで予測不能な時代に挑む」という論考でも明確である。むしろ1個の事例に見えた兆しの意味を、未来への判断にいかに使うが大事なのである。
https://www.hitachihyoron.com/jp/archive/2010s/2016/04/pdf/2016_04_00_view.pdf
そして、これをビジュアルに見えるようにするために、ブランコのこぎ方をデータと行動から見出すデモを作った。これこそが、不確実な未知へ向き合うためのデータの使い方である。
このブランコのようなデータの使い方をすれば、データ量は全く要らない。データ0でも始められる。実際、このブランコのスタート時にはデータは0である。
このブランコのようにデータと行動を組み合わせて、未知の領域に踏みだすことは既に可能である。有名な囲碁のアルファ碁も未知に踏み出している。だからインパクトがあったのである(*注)。
鈴木氏は、これを明確に理解していると思う。しかし、この鈴木氏のような明確な形で、データやAIの意味を理解している企業人が少なすぎる。さらに、残念ながら、データやAIの専門家にもこれを理解している人は少ない。その結果、現状は上記のような過去の繰り返しのためのデータ活用に多くの場合留まっている。
技術は既にある。今すぐデータ活用の考え方を180度変えるべきである。
*注 技術的にはこのブランコで使われている技術は「強化学習」と分類されている。上記のブランコをみて「これってただの強化学習じゃないの?」と聞いてくる人がいる。そういう人の多くは「強化学習」という専門用語をあてはめて分類し、その意味を考えるのをやめている。用語をあてたり分類することは、その意味を理解するのとは全く異なる。むしろ、専門用語を使うとその時点で、その本来の意味を考えなくなる人の方が多い。それこそ専門用語の呪いである。しかし、ビジネスの推進者とAIの専門家が相互理解しなくてはならない時に、専門用語はそれを阻む。このため、このような実ビジネスでの技術の意味を議論する場合には、できるだけ専門用語を使わないようにすべきと考える。専門用語を使わないと説明できないのは、本当の意味が分かっていない場合が多いからである。