見出し画像

スポーツのデータ活用は、ビジネスのデータサイエンスの取り組みのヒントだ!

セイバーメトリクスは、野球の標準「データサイエンス」

 先週、今週と、日本プロ野球界は、ロッテの佐々木朗希選手のピッチングの話題が熱いですね。完全試合、奪三振数、連続無得点など、佐々木朗希選手のピッチングは、記録のパレードになっています。

 このように、スポーツは、数字、つまりデータとの関係が強いです。野球のピッチングでも、球速、投球数、奪三振数など、さまざまなデータが登場します。そして、そのデータの多くは、私たちにも公開されています。

 この野球の試合に関するデータを活用して、野球チームの強化をした取り組みがあります。上記の記事にもある、「マネーボール」です。使われていたデータサイエンスの手法は、セイバーメトリクスと呼ばれるものです。
 この野球にデータサイエンスを持ち込んだ手法は、実はビジネスで、データサイエンスを活用しようとする方にはとても参考になります。理由は、以下のようなものです。

  • 多くの場合実際のデータが公開されている

  • スポーツの場合、勝敗のルールが明確で公開されている

  • 多くのスポーツでそのアプローチ方法、データ分析・活用手法も公開されている

 ビジネスと異なり、スポーツでのデータ活用は、多くの部分が公開されています。これらの理由から、スポーツでのデータ活用を知って、自分で行って、理解することが可能なのです。さらに、野球に関しては、本当に多くの本も出ており、自分で勉強することが可能です。その本の一部を私のサイトでも紹介しているので、参考にしてみてください。

 今回は、データサイエンスの統計手法ではなく、その手前の重要点について、少し整理したいと思います。このことは、あまり多く語られていないのですが、とても重要なのです。

スポーツでのデータ分析の学びのポイント

 以下の記事でも、野球のマネーボールの取り組みは丁寧に説明されています。ところで、皆さん「野球のゲームに勝つ」というのはどのような状態でしょうか?

勝敗の定義をシンプルにする

 これが、今回整理したいひとつ目のポイントです。
 例えば、野球ではなく、白いコマと黒いコマを並べ合う、「オセロ」というゲームであれば、もう少し話は簡単かもしれません。おそらく、多くの場合、「相手のコマより自分のコマの色が多い場合」と、オセロの勝敗について説明されるでしょう。
 ゲーム、スポーツの勝負・勝敗の定義の複雑さは、対戦相手がいることです。これは、実はビジネスも同じでしょう。競合がいて、お客さまもいます。そのゲームやスポーツに詳しい人ほど、その勝敗の定義を丁寧に、そして正確に、対戦相手との状態も含めて、説明しようとします。
 しかし、この丁寧さ、正確さが、時にデータサイエンスの取り組みの難易度を高めます。
 話をオセロに戻しましょう。「相手のコマより自分のコマの色が多い場合」という文章から、極力「相手」の存在を消した勝敗の定義はできないでしょうか?オセロは、8✖️8の盤面のゲームです。なので、「自分の色のコマが32枚より多い時」という定義も可能です。
 この2つの文章は、データサイエンティストにとっては、大きな違いを与えます。「自分の色のコマが32枚より多い時」とオセロのゲームの勝敗の定義を聞いた場合は、相手の分析よりも、自分のオセロのコマの出し方のパターンに注目することになり、相手のパターンの分析の優先度は、低くなる可能性があります。
 実は、この取り組みは、野球でも行われています。マネーボールのストリーに出てくる「セイバーメトリクス」は、「相手よりも多く点を取ること」という野球の勝敗の定義を行い、「自チームのバッターの出塁率が高ければ良い」というアプローチで、チームの選手構成を行いました。
 これを、その後、「相手に点数を多く与えないこと」と野球の勝敗の定義をしてデータ分析を行ったチームがいます。この些細な文章の変更は、データサイエンスでは大きな変更です。データ分析は、「自分のピッチャー」と「相手のバッターの相性」の分析になり、分析すべデータ量は、膨大になるのです。
 データサイエンスをビジネスに持ち込む時にも、同じ議論をすべきです。「会社が儲かるようにしたい」と言われても、どう儲かるようにしたいのかを定義しないといけません。「売上」「利益」。さらには、去年の自分の会社との比較なのか、競合会社との比較なのか。
 そして、最初は、極力、相手のデータを使わずに、自社のデータだけでできるデータ分析にすべきなのでしょう。

取れるデータで行う

 さて、野球のデータ分析が、最初は自分のチームだけ、その後相手のチームの選手に増えたのには、別な理由があります。それは、データ取得の容易さです。

 自分のチームのデータは、自分のチームの試合で自動的にデータが取得できて、そして毎試合データも更新可能でしょう。
 相手のチームのデータの場合はどうでしょうか?より細かなデータを取ろうと思えば、将来の対戦相手のチームの試合のデータを誰かが専門に更新し続けないといけません。
 ビジネスのデータサイエンスの言葉に、ファースト・パーティー・データ、セカンド・パーティー・データ、サード・パーティー・データという言葉があります。このファースト・パーティー、セカンド・パーティーというのは、中学校の英語の時間に出てきた、1人称、2人称、3人称と置き換えると理解しやすいかもしれません。自社で取れるデータ、お客さま・取引先さまの協力で頂けるデータ、第3者から提供されるデータと言い換えれば良いでしょうか。
 この中で、取得が容易なのは、ファースト・パーティー・データ、つまり「自社での取れるデータ」です。
 ビジネスの勝敗の定義をシンプルにして、まずはファースト・パーティー・データで、データサイエンスを行い、それが十分完成したら、次のステップに進むのが良いでしょう。少なくても、野球でのデータサイエンスは、そのように進化したようです。

徐々にバージョンアップ

 そして、勝敗の定義を、より現実的に、丁寧さや正確さを加える。あわせて、データの種類、データ分析の手法を進化させる。このステップ・バイ・ステップの取り組みがとても重要なのです。

負けても良い、学びがあれば

 スポーツのデータサイエンスに学びが多いのは、負けた時に、負けたと潔く認め、なぜ負けたのかを考える点にあります。
 ビジネスにおけるデータサイエンスにも、この姿勢は重要だと思います。そもそも、ビジネスの勝敗の定義が異なっていたのか。見ていたデータの種類が間違っていたのか。データの分析手法に問題があったのか。そもそも予測通りにビジネスが実行できなかったのか。ビジネスにも「負けても良い、学びがあれば」という姿勢も重要なのでしょう。

もし良ければ、サポートをお願いします。今後の執筆のための、調査費用などに、有効に活用して、記事としてお戻しします。