統計学的に医療行為が有効かどうか決める場合の有意水準についての話である。前回も書いたようにこの基準は5%未満の間違いは許容しようというものだ。この5%がどれほどに厳しい、あるいは緩い基準なのか、数字だけを眺めてみてもよくわからないというのが正直な反応だろう。そのあいまいさを日常的な出来事を例に説明してみたい。反証可能性を日常に落とし込んで説明しようというわけである。
以前デンマークで行われたランダム化比較試験の結果は、以下のように示されている。
絶対リスク減少 -0.3%、95%信頼区間-1.2~0.4、危険率0.38
相対危険 0.82,95%信頼区間0.54~1.23、危険率0.33
いずれも危険率が有意水準0.05,5%を上回っており、統計学的に有意な差は認められなかったという結果である。危険率とは差がないという仮説の正しさだ。つまり差があるという仮説の正しさは危険率を1から引くことで求められるが、これは絶対リスク減少では62%の確率で差がある方が正しいかもしれないし、相対危険では67%で正しいかもしれないという結果である。効果があるかないかという視点だけで見れば効果がある確率の方が高いのである。ただ効果が五分五分に近いようでは緩すぎる。そこで差がある仮説の正しさが95%、間違いの確率が5%に地点を基準しようというのが、医学論文では伝統的に採用されてきた。ここに科学的な基準はない。
そこでこの有意水準5%を日常に落とし込んで考えてみる。まずはスポーツのコートを選ぶかサーブを選ぶかをコイントスで決める状況を考えよう。ここでは紺の裏表がそれぞれ1/2の確率で出るコインでなければ公平とは言えない。このコインが公平なコインであるか判断するためにどうすればよいか。このコインを2回投げた時、2回とも表が出たとしよう。ここで表が出やすいコインかもしれないというふうに考えて、その確率を計算してみる。表の出る確率も裏の出る確率も等しく1/2だとすると、2回続けて表が出る確率は1/2×1/2=1/4、25%である。有意水準5%よりかなり大きい。そこでもう1回振ってみたところやはり表が出たとしよう。日常的にはこのあたりでもうこのコインは表が出やすいと判断するかもしれないが、この3回続けて表が出る確率は1/2×1/2×1/2=1/8、12.5%で5%よりまだ大きい。それでは4回続けて表ならどうか。1/2の4乗で1/16=6.25%とかなり5%に近づくが、まだ統計学的に有意な表が出るコインとは言えない。さらにコインを投げ続けて5回目もまた表だった時に1/32=3.125%とようやく有意水準5%を下回り、統計学的にも表が出やすいコインという判断になるのである。
それではもう一つ、野球の日本シリーズでも同様に考えてみる。今年の阪神、オリックスの日本シリーズは4勝3敗までもつれたが、これは統計学的に言うとどういうことなのか。阪神とオリックスの間に統計学的に有意な強さの差があるかどうかである。
まず阪神の方が何連勝したら統計学的にオリックスより強いと言えるか。コインの例でみたように5連勝しなければ統計学的にオリックスより強いとは言えない。両者に差がないとして、5連勝する確率は、1/2の5乗で3.125%である。4勝3敗では統計学的に阪神が強いとは言えないのである。さらにオリックスが何連勝したらオリックスの方が強いかも合わせて考えれば、同様に5連勝である。この確率も3.125%なので、どちらが強いかわからない前提で考えているので、両者を足すと6.25%と5%を超えてしまう。つまりどちらが強いかわからない状況で、一方の方が統計学的に強いというためにはどちらかが6連勝しなければ、有意水準5%で強さに差があるとは言えないということだ。
実際にどちらかが6連勝するまで戦い続ける日本シリーズを考えてみよう。おそらくなかなか決着はつかないに違いない。そういう意味ではかなり厳しい基準だといえる。逆に厳しすぎて差を見逃しているかもしれないと考える必要がある。
もう一度デンマークのランダム化比較試験の結果を見てみよう。危険率が30%を超えているので、マスクを着ける推奨がつけない推奨と比べて、2回続けて有効という結果を出すほどの差ではないということである。それでも4勝3敗で勝つ可能性は残る。そんなふうに考えると、この結果はなかなか悩ましい。4勝3敗でも勝ったと喜ぶ日本シリーズに対応させて言えば、デンマークの研究結果はマスクが勝ったということになる。4勝3敗で勝っても、勝った勝ったと喜ぶのが日常である。
日常的に差があると考えていることの中には、統計学を適応すればほとんど差がないと判断されるようなことが多い。このことは心にとめておいてもいいと思う。大体のことに大きな差はないのである。
0 件のコメント:
コメントを投稿