見出し画像

コロナ禍をテーマにデータ分析の要諦を学ぶ〜数学、算数の基本的なミスと混乱〜

はじめに

はじめまして。

「構造と文脈を正しく理解することで物事はシンプルに理解できる」というモットーの元に、現在起きている社会現象が今後どうなっていくかの分析と解説を行っています。

最近は、新型コロナウイルスが今後どうなっていくのかについてマガジンで定期的に分析配信しています。(3/26の記事は、おかげさまで約120万ビューと7600を超えるスキ♡を頂きました)

現在、新型コロナウイルス感染拡大については、毎日様々な報道がなされ、指標や分析についても数多く紹介されていますが、多すぎて混乱されている方多いと思います。

今回、私のnoteマガジンで、データ分析編として2つの記事を投稿しました。

新型コロナウイルスについて⑫ - <データ分析 - 前編>Phaseの目的に応じた正しい分析〜PCR検査は何故増えないか〜

新型コロナウイルスについて⑬:<データ分析 - 後編>数字を出さない官邸と「大阪モデル」〜数値目標なしに出口戦略は見えない〜

COMEMO、初回投稿の今回は、そうした様々な状況分析の時に、鍵となる「データ分析指標についての6つの考え方」について新型コロナウイルスについての実際の事例を基にご紹介したいと思います。


1.絶対値が重要な時(最終的な結果)

最も重要な絶対値としての不動の指標は、「感染死者数」です。
救えるはずの命であり、一人一人の命です。
特に海外から本当にこんなに少ないのかと疑われるほどの低い数値で持ちこたえていますが、検死制度と警察が発達した近代国家において、死者数やその死因を改竄することは不可能です。

PCR検査数は少なくとも、CTが多く導入されていることから肺炎症状の見落としは少ないと予測されるなど、様々な要因からこれまで日本が成果を上げていると考えられている点です。 



ただその成果にも関わらず国民が不安なのは、

その理由が明確にわからないからです。

・水際で押さえられたのか(→違う!帰国便は隔離したが、その後何故か2, 3月の入国はがら空き)

・清潔な国民性だからか(→もちろんそれはそう、でもそれだけ?)

・接触率が十分削減できているからなのか(→そう、でもパチンコ、キャバクラ、沖縄便など一部に不届き者がっ?!)

・集団免疫ができたからなのか(→いやまだまだでしょう、それも違う)

・医療レベルが高いからなのか(→多分それはそう、但し、崩壊寸前状態?)

・緊急医療キャパに余裕があり重篤化死亡が押さえられているからなのか(→これまではそう、それが続くと思いたい)

それらのデータ分析に基づく明確な因果関係がわからないため、
日本人は、清潔好きで、法的強制力がなくても自粛や休業要請に応じる意識高い国民だから?!?だって結局、人あまり死んでないじゃん!いいじゃん!

という謎の「ジャパン・パラドックス」で議論は終わり不安はいつまでも拭えず、国際的に孤立しかねないのです。

なので、さらに状況を理解するための詳細分析が必要です。

2.割合が重要な時 (母集団で何がおきているか - 分母と分子の定義の一致)

最も今重要な指標は、PCRの大規模検査を行うことが不可能である現状、その代替指標としての「PCR検査陽性率」です。

山中教授もこの観点から、ご自身のサイトで東京と大阪のPCR検査陽性率を試算されていますがここで、この指標の計算をする上で、東京都において分母と分子が一致するデータが取得できないという大問題を指摘されています。

 40%は高く見積もり過ぎでした。ここにノーベル賞級の頭脳にすら計算ミスをさせ、謝罪させた厚労省と東京都のトラップがあります。

下記の図をじっと見ても理解するのに時間がかかりますが

要するに、実際の陽性患者数を判定するためのPCRの検査において、分母の定義において「民間検査が含まれない」という問題と、「検査人数と検査回数のデータ混在」の問題が発生しており

・厚労省公表の検査陽性率は民間検査は除かれている

(分母マイナス要因→実際より高く出る...東京40%!!)


・民間検査は検査数しかわからず、陰性確定の為の一人の患者に対する複数回の検査が含まれる

(分母プラス要因→実際より低くでる)

ため、実際は50%の陽性率が、この例では25%〜66.6%までブレる!と指摘されています。

スクリーンショット 2020-05-06 17.55.45

4月26日の下記の記事で東京のPCR検査陽性率が約40%であるという厚労省のデータを紹介しました。その後、厚労省の陽性率(陽性人数/検査人数)の分母には健康保険適用の件数が含まれていないので、陽性率が高くなっていると指摘を頂きました。私は、分子の陽性人数からも健康保険適用分は除外されているに違いないと思い込み、この陽性率を紹介しましたが、データを確認すると除外されていないことがわかりました。ご指摘の通り、厚労省の発表している東京の陽性率は真の値より高くなっていると思われます。再び、お詫びして訂正いたします。<山中教授>

また、分母と分子のデータ採取と判定のタイミングがずれている問題もあります。

これらの、「分母」と「データタイミングの問題」から、全国規模での検査陽性の計算もできない自体に陥っています。

検体を採取する機関が多数ある上に、その検査結果が判明する日にちもバラバラになりがちで、陽性率の算出に不可欠な「分母」(新規検査人数)と「分子」(陽性者)を全国的に把握する仕組みが存在しない<同上>
12に及ぶ都県が応じていない実情もある<同上>

尾身副座長も、事態は認識されていますが、どうしようもありません。

課題の解消には基準の統一や、国と地方の連携改善が必要だが、現場が感染対策に追われ難しい状況

→分母と分子と定義の一致は、小学校で学ぶ基本中の基本です。


3.変化率が重要な時(傾向がみえるとは - 未来への不安と希望)

自粛により、感染爆発は押さえられているのか、これを知るには、期間別の増減率を見るのが重要です。

スクリーンショット 2020-05-06 20.25.50

日別では、土日要因などでブレが生じるのでここでは週単位の比較をしています。

東京も大阪も、自粛の成果が出てきますが、大阪の方がやや迅速に収束に向かっているように見ることができます。


4.指数関数が重要な時(時間経過が与える影響の違いとは)

疫病感染というべき乗で増減する対象を扱う上で、指数関数は基本中の基本の数学です。ただ、これがわかる人とわからない人がいます。

接触率が7割減か8割減かは、14%(0.8/0.7=1.142....)の違いではありません。この場合は1ヶ月の収束を目指すか、2ヶ月かかるか、100%の違いです。

8割おじさんの西浦教授は、ずっと8割と主張しています。

スクリーンショット 2020-05-07 8.06.42

8割が理論的には正しいので、それを目標としてくださいと伝える過程には、簡単ではないせめぎ合いがありました。大臣や緊急事態宣言を担当される部署から、「6割はだめですか?」「それでダメなら7割ではどうですか?」という値切るような聞き方をされました。不思議なことに「基本再生産数が2.5として、医療機関や性風俗のことを考えると、80%減でないと2週間で減らない」というシミュレーションの資料を作っていたのですが、私の知らないところで諮問委員会の資料の数値が書き換えられていたのです。基本再生産数が2.0と、私が作った資料より感染力を低く見積もっての数字になっていたので、「これで大丈夫なのか?」という問い合わせを事前に尾身先生からいただきました。
緊急事態宣言以降、通勤客等が減らず、総理が改めて、出勤者の7割を
要請した時点で、私自身は1ヶ月後の緊急事態宣言の解除はないと諦めていました。

ようやく、指数関数的な分析の意味合いを後に官邸も理解したのか、総理は7割と言わなくなり、西村大臣が、軌道修正しますが時、既に遅しです。

政府側から「最低7割」の発信が消えた。7割削減だと感染抑制のペースが緩み、5月6日までの緊急事態宣言の期間を延長しなければならなくなる可能性があるためで、判断の時期が迫るなか、政府は8割削減の周知に必死だ。

政治家や官僚が指数関数を理解するのに、何故10日かかるのか理解できません。

5.調査粒度が重要な時(意味のある単位とは)


実際に感染者は減っているのか、自粛による行動変容が合ったのか、を分析するには都民の属性に東京都という単位で見ても、港区と多摩地区では大きく住民属性も違います。

そのためには、多少手間でも、意味のあるデータ粒度まで落とし込んで分析する必要があります。

東京都では、新型コロナウイルス感染症対策サイトにおいて、都内の最新感染動向をかなり詳細に情報提供しています。


こちらはこのサイトデータを使った独自の「市区町村ごとの日別陽性患者数分析」です。

スクリーンショット 2020-05-06 18.40.11

こちらをみると、港区、新宿区が一向に沈静化の傾向を示していません

様々な推測が可能ですが、おそらく、接待を伴う飲食業での接触が減ってないことが理由の一つとして考えられます。一方で銀座がある中央区は、収束が見えてきています。

中央区は、ある程度、大型ビルテナント等の商店街コミュニティの自粛規制が効くエリア、港区・新宿区は個人オーナーで、常連客で成り立っているお店が多いエリアなのかも知れません。

先のみえない自粛期間の長期化で、経営が危うくなるとこれまで自粛協力に応じていた飲食店も営業再開するかも知れません

余談:1万人規模のK1が3月末に開催された時、国民の総バッシングを浴びましたが、おそらく責任者は今、周囲に

「やっておいて良かっただろう。今や皆忘れてるし、感染を広げたのかなんて誰もわからない。仮に真面目に自粛に応じてたら、その補償もなく感謝もされず、億単位の借金を背負ってオレたちが潰れていただけだ。」

と言っていると思います。(あくまで個人の想像)

6.True/False検査誤差が重要な時(一見わずかな差が与える影響とは)

これについては、私自身の2/26のnoteの記事で、ダイヤモンドプリンセス号をケースに既に述べているとおりです。


時間をかけて検査をしても、統計学上の「感度」と、「特異度」の関係で必ず、偽陽性、偽陰性の人が若干名必ず生まれてしまい、過剰離隔と検査漏れが発生してしまうということ
ダイヤモンド・プリンセス号の全員検査でも新型コロナウイルス検査の精度は感度90〜95%の範囲、特異度95〜98%の範囲くらいとすると乗客乗員1000人、平均30%の有病率(300人陽性、700人陰性)とすると「感度95%」、「特異度98%」だとしても真陽性285人、偽陰性15人、真陰性686人、偽陽性14人→15人の感染者を逃し、14人間違って隔離

スーパースプレッダーが存在する中で、1000人の検査から15人の感染者を逃し、14人間違って隔離する影響は小さくありません。

最後に

ここまで、「データ分析指標についての6つの考え方」を、今回の新型コロナウイルスの実際のケースでまとめてみました。専門家にしか理解できない複雑怪奇なものでもなく、少し数学と算数のポイントを押さえれば、ニュースやワイドショーの内容を正しく理解できると思います。

これらのデータ分析のポイントを踏まえて、最近の緊急事態宣言の延期と解除の方向性についても投稿していますので、下記、御覧ください。







この記事が気に入ったらサポートをしてみませんか?