ここで働いています

2024年1月29日月曜日

言語の恣意性:文節の恣意性と医学情報 血圧はいくつ以上が高血圧なのか

 有意水準5%と同様、どこから効果ありとするかも恣意的に決めるほかない

  反証主義の哲学と同様、研究結果をどう個人に役立てるかを考えたときに、もう一つ決定的な影響を受けたのが言語学である。今回からは言語学を通して、研究結果を個人にどう生かすかを考えてみたい。

 私自身の言語学との出会いは偶然である。医学部の低学年だったころだろうか。親しくもあり、いろいろ多くの影響を受けてきた高校の同級生と会った時に、言語学者のソシュールを勉強しているんだがとても面白いという話を聞き、それが何となく気になっていた。それと前後して、大学の書店に「構造と力:記号論を超えて」1)という哲学書が平積みにされていて、これも偶然、手に取ったというところだと思うが、さっぱりわからず、そこで出てきた「構造主義」とやらがソシュールの言語学が元になっていると理解し、ソシュールについて勉強したいと思ったのがきっかけであった。

そのとき読んだのは「ソシュールを読む」2)という本だったが、久し振りにその本を手に取ってみると、ページの角に折り目がつけられていたり、線が引いてあったり、書き込みがあったり、何か他の本とは違った読み方をしていたようだ。医学書で、線を引いた記憶はあるが、ページの角を折ったり、何か書き込んだりしたという記憶はない。医学書よりも気合を入れて読んでいる跡がうかがわれる。今から40年前のことである。

 その後、医学部の高学年になるにつれ、医学以外の勉強から離れ、ソシュールについての興味も疑問も忘れ去られていた。そのソシュールが、根拠に基づく医療:EBMを臨床の現場で使うという時に、再びよみがえった。今から30年前のことだ。そして、今回はそのことについて書きたいと思う。

ソシュールの言語学の重要な要素の一つに「言語の文節の恣意性」がある。「恣意性」とはあまり使われない言葉だが、客観的でなく、むしろ主観的に、勝手にという意味合いである。世界は世界の側で分けられているわけではなく、言語によって、人間が主観的に、勝手に分節しているということだ。文節というのも聞きなれないが、境目を設ける、単に分けることと思ってもいいだろう。

例えば虹について考えてみよう。日本において虹は7色と思われているし、虹を絵に描いたりすると、7色に分けて塗り分けたりする。しかし実際の虹はどうか。実際の虹は7色には分かれていない。なだらかなグラデーションで徐々に色が変化していくだけであって、7色に分けられるようなはっきりした境目はない。虹が7色だというのは実際の虹の話ではなく、人間の認識側の問題で、その境目は人工的に、言語によって作り上げているに過ぎない。それを言語の文節の恣意性と呼んだ。事実言語によっては、虹の色を2色だったり、5色だったりする。境目は認識の側で、恣意的に決められているのだ。

 この「文節の恣意性」を高血圧で考えてみる。現在では上の血圧140mmHg以上を高血圧とする場合が多いが、その反面、ハイリスクの人では130mmHgとする場合もあるし、テレビコマーシャルでは「血圧130は高めです」と繰り返し言っている。また過去をさかのぼれば、30年前は160mmHgが高血圧というほうが一般的であった。さらにそれ以前では、上の血圧180以上、下の血圧120以上という基準も存在する。

これは正常血圧と高血圧の境目が、まさに恣意的に決められているということだ。それは今の時点に限っても色々な基準があるし、過去からこれまでの変化を追えば、現在とは基準が大きく隔たっている。高血圧の基準は、客観的なものでなく、その時々の社会との関係によって決められた恣意的なものだ。

その恣意的な決定の背景にあるものの一つが、高血圧に関する臨床研究、特にランダム化比較試験の結果である。高血圧の最初のランダム化比較試験は、1960年代に報告された退役軍人を対象にしたものであるが、この研究で使われた高血圧の基準は下の血圧が115~129mmHgで、その後1980年代になって、上の血圧160mmH以上の人が対象になり、2000年以降になって、140mmHg以上を高血圧とした臨床試験が行われるようになっている。

そのそれぞれの研究で、血圧を下げることで脳卒中や心不全が少なくなることが示され、その都度基準となった高血圧の境目が、実際の高血圧の基準として用いられたのである。高血圧の基準は、効果を示したランダム化比較試験の高血圧の基準との関係において、恣意的に決まっているということだ。

さらにそれぞれのランダム化比較試験で治療効果が示されたかどうかもまた恣意的に決められている。これはこれまでさんざん示してきた統計学的有意差というものである。有意水準、平たく言えば治療薬がまぐれで勝ったか可能性が5%未満なら有効という基準である。この5%未満という基準も恣意的である。有効かどうかの境目もまた、高血圧の境目と同様に恣意的に決まっている。

そこでいったい何がわかったか。私の中で明確になったことは、EBMのプロセスに沿って、今から30年前「降圧薬を飲めば脳卒中を予防できる」という説明が、必ずしも客観的な情報に基づくものではないということ、さらにそもそも客観的な情報などどこにもなく、恣意的に決められた高血圧の基準によって定められた人たちを対象に、恣意的に決められた有意水準5%で有効と判定された研究によって、恣意的に判定されていたに過ぎないということ、である。「8%の脳卒中が5%に減るというのは薬が効くということなのか」という患者からの問いも、その恣意的な判断という意味では、統計学的に有効というのと同列なのである。

言葉を使う以上、科学的に決められた客観的な定義も、恣意的なものに過ぎない。問題はその恣意性の程度であり、恣意性に影響する周囲の状況、周囲との関係性である。そう明らかになったところで、論文結果をどう生かすかということがどういうことなのか、訳がわからなくなった。そしてそれは今も訳がわからないままである。しかし、そのわけのわからなさについて、さらに言語学を助けに考え続けたい。

参考文献

1) 浅田彰 構造と力 記号論を超えて 1983 勁草書房

2) 丸山慶三郎 ソシュールの思想 1983 岩浪セミナーブックス


2024年1月18日木曜日

言語の恣意性:文節の恣意性と医学情報 血圧はいくつ以上が高血圧なのか 有意水準5%と同様、どこから効果ありとするかも恣意的に決めるほかない

  反証主義の哲学と同様、研究結果をどう個人に役立てるかを考えたときに、もう一つ決定的な影響を受けたのが言語学である。今回からは言語学を通して、研究結果を個人にどう生かすかを考えてみたい。

 私自身の言語学との出会いは偶然である。医学部の低学年だったころだろうか。親しくもあり、いろいろ多くの影響を受けてきた高校の同級生と会った時に、言語学者のソシュールを勉強しているんだがとても面白いという話を聞き、それが何となく気になっていた。それと前後して、大学の書店に「構造と力:記号論を超えて」1)という哲学書が平積みにされていて、これも偶然、手に取ったというところだと思うが、さっぱりわからず、そこで出てきた「構造主義」とやらがソシュールの言語学が元になっていると理解し、ソシュールについて勉強したいと思ったのがきっかけであった。

そのとき読んだのは「ソシュールを読む」2)という本だったが、久し振りにその本を手に取ってみると、ページの角に折り目がつけられていたり、線が引いてあったり、書き込みがあったり、何か他の本とは違った読み方をしていたようだ。医学書で、線を引いた記憶はあるが、ページの角を折ったり、何か書き込んだりしたという記憶はない。医学書よりも気合を入れて読んでいる跡がうかがわれる。今から40年前のことである。

 その後、医学部の高学年になるにつれ、医学以外の勉強から離れ、ソシュールについての興味も疑問も忘れ去られていた。そのソシュールが、根拠に基づく医療:EBMを臨床の現場で使うという時に、再びよみがえった。今から30年前のことだ。そして、今回はそのことについて書きたいと思う。

ソシュールの言語学の重要な要素の一つに「言語の文節の恣意性」がある。「恣意性」とはあまり使われない言葉だが、客観的でなく、むしろ主観的に、勝手にという意味合いである。世界は世界の側で分けられているわけではなく、言語によって、人間が主観的に、勝手に分節しているということだ。文節というのも聞きなれないが、境目を設ける、単に分けることと思ってもいいだろう。

例えば虹について考えてみよう。日本において虹は7色と思われているし、虹を絵に描いたりすると、7色に分けて塗り分けたりする。しかし実際の虹はどうか。実際の虹は7色には分かれていない。なだらかなグラデーションで徐々に色が変化していくだけであって、7色に分けられるようなはっきりした境目はない。虹が7色だというのは実際の虹の話ではなく、人間の認識側の問題で、その境目は人工的に、言語によって作り上げているに過ぎない。それを言語の文節の恣意性と呼んだ。事実言語によっては、虹の色を2色だったり、5色だったりする。境目は認識の側で、恣意的に決められているのだ。

 この「文節の恣意性」を高血圧で考えてみる。現在では上の血圧140mmHg以上を高血圧とする場合が多いが、その反面、ハイリスクの人では130mmHgとする場合もあるし、テレビコマーシャルでは「血圧130は高めです」と繰り返し言っている。また過去をさかのぼれば、30年前は160mmHgが高血圧というほうが一般的であった。さらにそれ以前では、上の血圧180以上、下の血圧120以上という基準も存在する。

これは正常血圧と高血圧の境目が、まさに恣意的に決められているということだ。それは今の時点に限っても色々な基準があるし、過去からこれまでの変化を追えば、現在とは基準が大きく隔たっている。高血圧の基準は、客観的なものでなく、その時々の社会との関係によって決められた恣意的なものだ。

その恣意的な決定の背景にあるものの一つが、高血圧に関する臨床研究、特にランダム化比較試験の結果である。高血圧の最初のランダム化比較試験は、1960年代に報告された退役軍人を対象にしたものであるが、この研究で使われた高血圧の基準は下の血圧が115~129mmHgで、その後1980年代になって、上の血圧160mmH以上の人が対象になり、2000年以降になって、140mmHg以上を高血圧とした臨床試験が行われるようになっている。

そのそれぞれの研究で、血圧を下げることで脳卒中や心不全が少なくなることが示され、その都度基準となった高血圧の境目が、実際の高血圧の基準として用いられたのである。高血圧の基準は、効果を示したランダム化比較試験の高血圧の基準との関係において、恣意的に決まっているということだ。

さらにそれぞれのランダム化比較試験で治療効果が示されたかどうかもまた恣意的に決められている。これはこれまでさんざん示してきた統計学的有意差というものである。有意水準、平たく言えば治療薬がまぐれで勝ったか可能性が5%未満なら有効という基準である。この5%未満という基準も恣意的である。有効かどうかの境目もまた、高血圧の境目と同様に恣意的に決まっている。

そこでいったい何がわかったか。私の中で明確になったことは、EBMのプロセスに沿って、今から30年前「降圧薬を飲めば脳卒中を予防できる」という説明が、必ずしも客観的な情報に基づくものではないということ、さらにそもそも客観的な情報などどこにもなく、恣意的に決められた高血圧の基準によって定められた人たちを対象に、恣意的に決められた有意水準5%で有効と判定された研究によって、恣意的に判定されていたに過ぎないということ、である。「8%の脳卒中が5%に減るというのは薬が効くということなのか」という患者からの問いも、その恣意的な判断という意味では、統計学的に有効というのと同列なのである。

言葉を使う以上、科学的に決められた客観的な定義も、恣意的なものに過ぎない。問題はその恣意性の程度であり、恣意性に影響する周囲の状況、周囲との関係性である。そう明らかになったところで、論文結果をどう生かすかということがどういうことなのか、訳がわからなくなった。そしてそれは今も訳がわからないままである。しかし、そのわけのわからなさについて、さらに言語学を助けに考え続けたい。

参考文献

1) 浅田彰 構造と力 記号論を超えて 1983 勁草書房

2) 丸山慶三郎 ソシュールの思想 1983 岩浪セミナーブックス

----------------------------------------

この原稿が発端となり連載が中止になった。

「私自身の言語学との出会いは偶然である。医学部の低学年だったころだろうか。親しくもあり、いろいろ多くの影響を受けてきた高校の同級生と会った時に、言語学者のソシュールを勉強しているんだがとても面白いという話を聞き、それが何となく気になっていた。それと前後して、大学の書店に「構造と力:記号論を超えて」1)という哲学書が平積みにされていて、これも偶然、手に取ったというところだと思うが、さっぱりわからず、そこで出てきた「構造主義」とやらがソシュールの言語学が元になっていると理解し、ソシュールについて勉強したいと思ったのがきっかけであった。」

上記の部分は単に私の経験に過ぎず、これはブログではないので前半部分は削除するという編集者に対して、削除を拒否、削除するなら連載終了でと反応したところ、それなら連載終了でということになった。

専門的過ぎる、わかりにくい、個人的な経験を書くな。

まあ何とかして私から連載をやめたいと言わせようとしていたのかもしれない。

で、結局編集者の言うように、原稿はブログになったわけだ。

ただこの部分はこの先の原稿とリンクしていて削除するわけにはいかない。

どうリンクするるかは、またこの先のブログで。

2024年1月12日金曜日

反証可能性と社会:有意水準5%をコインと野球の日本シリーズで考える

統計学的に医療行為が有効かどうか決める場合の有意水準についての話である。前回も書いたようにこの基準は5%未満の間違いは許容しようというものだ。この5%がどれほどに厳しい、あるいは緩い基準なのか、数字だけを眺めてみてもよくわからないというのが正直な反応だろう。そのあいまいさを日常的な出来事を例に説明してみたい。反証可能性を日常に落とし込んで説明しようというわけである。

以前デンマークで行われたランダム化比較試験の結果は、以下のように示されている。

絶対リスク減少 -0.3%、95%信頼区間-1.2~0.4、危険率0.38

相対危険 0.82,95%信頼区間0.54~1.23、危険率0.33

いずれも危険率が有意水準0.05,5%を上回っており、統計学的に有意な差は認められなかったという結果である。危険率とは差がないという仮説の正しさだ。つまり差があるという仮説の正しさは危険率を1から引くことで求められるが、これは絶対リスク減少では62%の確率で差がある方が正しいかもしれないし、相対危険では67%で正しいかもしれないという結果である。効果があるかないかという視点だけで見れば効果がある確率の方が高いのである。ただ効果が五分五分に近いようでは緩すぎる。そこで差がある仮説の正しさが95%、間違いの確率が5%に地点を基準しようというのが、医学論文では伝統的に採用されてきた。ここに科学的な基準はない。

そこでこの有意水準5%を日常に落とし込んで考えてみる。まずはスポーツのコートを選ぶかサーブを選ぶかをコイントスで決める状況を考えよう。ここでは紺の裏表がそれぞれ1/2の確率で出るコインでなければ公平とは言えない。このコインが公平なコインであるか判断するためにどうすればよいか。このコインを2回投げた時、2回とも表が出たとしよう。ここで表が出やすいコインかもしれないというふうに考えて、その確率を計算してみる。表の出る確率も裏の出る確率も等しく1/2だとすると、2回続けて表が出る確率は1/2×1/2=1/4、25%である。有意水準5%よりかなり大きい。そこでもう1回振ってみたところやはり表が出たとしよう。日常的にはこのあたりでもうこのコインは表が出やすいと判断するかもしれないが、この3回続けて表が出る確率は1/2×1/2×1/2=1/8、12.5%で5%よりまだ大きい。それでは4回続けて表ならどうか。1/2の4乗で1/16=6.25%とかなり5%に近づくが、まだ統計学的に有意な表が出るコインとは言えない。さらにコインを投げ続けて5回目もまた表だった時に1/32=3.125%とようやく有意水準5%を下回り、統計学的にも表が出やすいコインという判断になるのである。

それではもう一つ、野球の日本シリーズでも同様に考えてみる。今年の阪神、オリックスの日本シリーズは4勝3敗までもつれたが、これは統計学的に言うとどういうことなのか。阪神とオリックスの間に統計学的に有意な強さの差があるかどうかである。

まず阪神の方が何連勝したら統計学的にオリックスより強いと言えるか。コインの例でみたように5連勝しなければ統計学的にオリックスより強いとは言えない。両者に差がないとして、5連勝する確率は、1/2の5乗で3.125%である。4勝3敗では統計学的に阪神が強いとは言えないのである。さらにオリックスが何連勝したらオリックスの方が強いかも合わせて考えれば、同様に5連勝である。この確率も3.125%なので、どちらが強いかわからない前提で考えているので、両者を足すと6.25%と5%を超えてしまう。つまりどちらが強いかわからない状況で、一方の方が統計学的に強いというためにはどちらかが6連勝しなければ、有意水準5%で強さに差があるとは言えないということだ。

実際にどちらかが6連勝するまで戦い続ける日本シリーズを考えてみよう。おそらくなかなか決着はつかないに違いない。そういう意味ではかなり厳しい基準だといえる。逆に厳しすぎて差を見逃しているかもしれないと考える必要がある。

もう一度デンマークのランダム化比較試験の結果を見てみよう。危険率が30%を超えているので、マスクを着ける推奨がつけない推奨と比べて、2回続けて有効という結果を出すほどの差ではないということである。それでも4勝3敗で勝つ可能性は残る。そんなふうに考えると、この結果はなかなか悩ましい。4勝3敗でも勝ったと喜ぶ日本シリーズに対応させて言えば、デンマークの研究結果はマスクが勝ったということになる。4勝3敗で勝っても、勝った勝ったと喜ぶのが日常である。

日常的に差があると考えていることの中には、統計学を適応すればほとんど差がないと判断されるようなことが多い。このことは心にとめておいてもいいと思う。大体のことに大きな差はないのである。


2024年1月5日金曜日

 

反証可能性と統計学的手法

有意水準と検出力

 

 私の書くものに対して、「結局何を言いたいのかわからない」という批判がしばしば寄せられる。マスクの着用に関しても書いてきたこともその通りだと思う。結局どうすればよいかについては書いていない。根拠に基づく医療:EBMについて講演した後の質問でも同様だ。「結局あなたは治療を勧めるんですか、勧めないんですか?」と聞かれることも多い。

 この質問に対する私の回答は明確だ。「それをあなた自身が考えるための手法がEBMです。ご自身で考えてみてください」ということである。この連載も同じである。判断するより、調べよう、考え続けよう、そういうことを繰り返し書いてきた。 

判断というのは考えることをやめることでもある。判断と思考停止はどこが違うのか。思考停止は判断の一部である。そうしなければ判断できない。しかし、それは思考の一旦停止に過ぎない。判断はあくまで暫定的なものである。科学的な視点で言えば、「反証可能性」が科学を担保している。一旦正しいとされても、それが反証の余地を残していることが科学の要件であるという哲学者がいる。カール・ポパーである。

「反証可能性」が科学と科学でないものを区別するということについて、少し説明を加えよう。例えば「神は存在するか」という疑問に対して、「神はいる」「神はいない」とどちらをとるにしても、それを反証する手立てがない。これは科学的な言明ではない。信じるか信じないかというのは科学的言明ではないといってもいい。それに対して、「すべてのカラスは黒い」というのはどうか。これは「白いカラス」が発見されることによって反証される。したがってこれは科学的言明ということになる。

何かおかしな感じがするだろう。帰納法によって、「カラスは黒い」という観察の繰り返しが科学の正しさを支えているにもかかわらず、それが同時に、白いカラスの出現で反証され正しくないということになるのが科学だというのだ。これはある意味帰納法の否定である。統計学は機能的な手続きの代表である。ポパーの反証主義は統計学の否定という側面がある。しかしそうではない。統計学はこの反証主義を取り込むことによってこそ成り立っている。「有意水準」というものである。差があるという結果が間違っている可能性を許容する基準、あるいは検討する医療行為がまぐれでいいと出てしまった可能性をどこまで許するかといってもよい。学論文では通常5%が採用される。つまり統計学的に有意な効果を示した研究であっても、5%はは反証可能性が残っているということである。統計学は反証主義に反するどころか反証主義そのものなのである。

これに対して、効果がないという結果が示されたときにはどのように考えるか。これに対しては「検出力」という基準がある。有意水準は差がないときに差があるとしてしまう間違いでαエラーをも言われる。それに対して差があるときに誤ってないとしてしまうこともある。この間違いをβエラーという。これは有意水準より緩く、10%に設定されることが多い。差を見つけるために研究するという方向のバイアスに対して、間違って見つけるエラーに厳しく、間違って差を見逃すエラーには緩くなっているという背景がある。そのβエラーを1から引いたものが検出力である。差があるときに差があるといえる確率である。βエラーを10%に設定すれば検出力は90%になる。ここにも反証可能性が担保されている 

私が判断を避けて書き続けることに対して、「結論は出ている」と思う人が多いかもしれない。しかしそれは科学的な態度ではない。ましてや統計学的な検討には常に「反証可能性」がある。思考を停止しないためには、判断した後も考え続けなければいけない。科学的思考には一旦停止があるだけである。むしろ必要なのは判断停止の方である。

 マスクに対して結論が出ていると考える人も、もう一度その判断を停止して、勉強を継続するといいのではないだろうか。