RCTは真理という診断に近づくための検査である①

第１回．ランダム化比較試験の「感度」「特異度」

ある日の院内勉強会で、我々は「NIVAS trial」という、腹部術後にICUで急性呼吸不全を発症した患者にNIVを装着することで、通常酸素投与を行うよりも再挿管率を下げられるか、ということを検証したランダム化比較試験（RCT）を題材にジャーナルクラブを行った。その後主催側である我々は、サンプルサイズについての解説を参加者に行っていた。その席でαエラーとβエラーについて、最後まで数人で残って議論している時、とても興味深いことに気が付いた。それは、

「RCTとは、真理に近づくための「道具」である」

ということだ。何のことを言っているのか、と思われることだろう。

いま、あるRCTが行われ、結果、有意差がある、すなわち「ポジティブ」な結果を得たとする。上記のNIVAS trial¹⁾で言えば、「NIVは、腹部術後の急性呼吸不全での再挿管率を減らす」という結果を得たわけだ。ただし、これはあくまで１回の研究で得られた結果に過ぎず、αエラー（真理とは異なる結果が誤って導き出された）の可能性がある。さて、この結果から、腹部術後の呼吸不全患者での再挿管率にNIVが与える影響について、我々は「真理」にどの程度近づいたのだろうか？

まずこの「真理」について少し触れておく。皆さんが、ある病気を疑って何か診察ないし検査をする時、その目的は、「眼の前の患者に、想定する病気が『ある』か『ない』か」ということになる。しかしこの病気のあるなしは、診察前からすでに決まっており、皆さんは、すでに存在しているこの答えに、いろいろな診察手段で近づいていく。この「すでにそこにある２択問題の答え」が、「真理」である。

診察を想定する場合、「真理」は概ね、病気の「ある」「なし」の２つで言い表すことができる。皆さんは、虫垂炎の診断目的に超音波検査を行うことがあるだろう。これは、次のように言い換えることができる。

【目の前の患者において、虫垂炎があるかないかの「真理」に近づくため、「超音波という道具」を用いて検査をした】・・・●

一方、RCTについては、次のように言い表すことができる。

【目の前の患者群において、NIVが腹部術後の急性呼吸不全での再挿管率を減らすかどうかの「真理」に近づくため、「RCTという道具」を用いて検査をした】・・・▲

これらは非常に類似した表現になっていることに気がつく。

RCTにおいてαエラーが「偽陽性」、1-βが「検出率」、ということを思い出してほしい。「検出率」とは「立てた仮説が真理であるときに、それを正しく検出できる確率」である。これは検査においては「病気があるときに、それを正しく検出する確率」すなわち「感度」に相当するものと言える。

αエラーが「偽陽性」、1-βが「感度」・・・■

これらは、診断学で我々が様々な所見、検査について日常的に用いている概念そのものである。ここで、●において、「超音波」に相当する診断ツールは、▲においては見ての通り「RCT」となる。普段我々は、「虫垂炎に対する超音波の感度特異度」について議論しているわけだが、どうやら「仮説に対するRCTの感度特異度」なるものが議論できるようである。周知の通り、

感度：病気がある時に、検査が陽性となる確率
特異度：病気がない時に、検査が陰性となる確率

であり、この数字から、我々は目の前の患者の病気のあるなし、即ち「真理」に近づいていく。では、「RCTの感度特異度」とは何だろうか。上記の●と▲を見比べれば、

虫垂炎がある時に、超音波検査が陽性となる
→NIVが腹部術後の急性呼吸不全での再挿管率を減らすことが真理である時に、RCTがポジティブとなる（RCTの感度）

虫垂炎が無い時に、超音波検査が陰性となる
→NIVが腹部術後の急性呼吸不全の再挿管率を減らすことが真理でない時、RCTがネガティブとなる（RCTの特異度）

ということが理解できる。それでは、RCTの感度特異度は具体的にどの程度だろうか。まず感度については「仮説が正しい＝真理」である時に、それを正しくRCTが検出できない（＝βエラーが起こる）ことがない、ということになる。よって、「1-β」つまり検出力が「感度」に相当し、先の議論（■）と一致する。次に得意度については、「仮説が正しい＝真理」ではない時に、それを間違って真理であると検出してしまう（＝αエラーが起こる）ことがない、ということになる。よって、「1-α」が「特異度」となり、やはり■と一致する。

RCTの感度：1-β
RCTの特異度：1-α

概念的にはこのように表すことができる。立ち返って、RCTの結果により、我々は真理にどれほど近づいたのか、ということを考えてみる。先の虫垂炎に対する超音波検査の場合は、検査の結果が陽性、あるいは陰性だった時、虫垂炎の事前確率、より正確には、「虫垂炎が存在するということが真理であること」の事前確率は、検査によってどの程度に変化するか、というように考える。同様に、RCTの場合、RCTの結果がポジティブ、あるいはネガティブだった時、「NIVが腹部術後の急性呼吸不全の再挿管率を減らすという真理が存在すること」の事前確率は、RCTによってどの程度に変化するか、と考えられる。ここで重要な概念が、陽性尤度比（＋LR）、陰性尤度比（−LR）というもである。

陽性尤度比：結果が陽性だった時、どの程度その疾患の可能性を変化させるか。
陰性尤度比：結果が陰性だった時、どの程度その疾患の可能性を変化させるか。

陽性尤度比、陰性尤度比とも、0＜Ｘ＜∞の値を取り、
１＜Ｘのとき：その疾患の可能性が高まる
Ｘ＜１のとき：その疾患の可能性が減じる
ということを表す。

注意点として、ここで言う陽性、陰性とは、結果や所見がそれぞれ陽性、陰性というだけであり、陽性だから疾患の可能性が高まる、とは限らない。例えば精巣捻転という疾患を疑った時、精巣挙筋反射が「陰性」である場合、精巣捻転の可能性は「上昇」する。よって、精巣捻転に対する精巣挙筋反射の「陰性尤度比」は「１よりも大きな値」を取る。これは「何を以て陽性と言うか」の問題であり、精巣捻転に対する「精巣挙筋反射が消失していること」を「陽性」と取るなら、その陽性尤度比は１よりも大きな値を取ることになる。所見の陰陽と尤度比の大小が逆転する他の例として、

気胸に対するLung slidingの陽性尤度比：１より小さい（陽性なら確率が下がる）
腸閉塞に対する腸管蠕動音の陰性尤度比：１より大きい（陰性なら確率が上がる）

といったものが挙げられる。陽性尤度比、陰性尤度比は、各疾患に対する各検査結果ごとに決まった値を取り、どちらも感度、特異度から計算される。

虫垂炎に対する超音波の陽性尤度比は◯◯、陰性尤度比は●●
消化管穿孔に対する超音波の陽性尤度比は△△、陰性尤度比は▲▲
消化管穿孔に対する腹部CTの陽性尤度比は□□、陰性尤度比は■■

RCTの感度と特異度はそれぞれ1-β、1-αと計算されるので、尤度比を計算すると、

陽性尤度比：（感度）／（１−特異度）＝（1−β）／（1−(1−α)）＝（1−β）／（α）
陰性尤度比：（１−感度）／（特異度）＝（1−(1−β)）／（1−α）＝（β）／（1−α）

多くのRCTにおいて、αは0.05、βは0.1か0.2ですから、仮にβをNIVAS trialのように0.1と置くと、

感度＝1-β＝90％
特異度＝1-α＝95％
陽性尤度比＝0.9/0.05＝18
陰性尤度比＝0.1/0.95≒0.1

となる。つまり、我々は上記のような検査特性（感度・特異度）を備えたRCTを、「ある仮説（例：NIVで腹部術後の急性呼吸不全での再挿管率が減る）の存在」に対して用ることで、その事後確率を導き出し、「真理」に近づこうとしているのだ。

陽性尤度比18、陰性尤度比0.1の特性をもつ検査は、大変優れた検査である。結果が陽性でも陰性でも、事後確率に大きく影響する。特に特異度95％という検査特性は、「ある仮説が存在すること＝真理、ではない」ときに、RCTという検査が95％という高い確率でそれを正しく「真理ではない＝ネガティブである」と判定してくれることを示しています。

ここで仮に、一般的なRCTの特異度が50%程度だったとする。誰かがある真理には反する仮説（例：薬Aが疾患Bの死亡率を改善する）を立てた時、それを検証するためにRCTを行うと、50％の確立で研究結果はポジティブになり、「仮説が正しかった！薬Aは疾患Bの治療に有用だ！すぐに適応を拡大しよう！」と結論づけられかねない。このようなことが起きて良いはずはなく、このことが示すのは、現代の医療倫理が「効きもしない薬剤や介入がうっかり世に出回ることを恐れている」ということなのである。

その一方で、感度（検出力）は80％（β＝0.2）であったり90％（β＝0.1）であったりと、やや低めの数字を取ることが許容されている。即ち「ある仮説が真理として存在する」とき、検証のために行ったRCTがそれを見過ごすことは、勿体無いですが許容されているのだ。

検出感度や特異度について学問領域によって異なる基準が存在することを示す良い例がある。医学領域のRCTでは、αエラーは0.05と定めるのが通例となっているが、例えば物理学の世界では、許容されるαエラーは0.0000003未満となっている²⁾。これは、誤って真理とは異なる仮説を肯定してしまう可能性が350万分の1と非常に小さいことを表しており、1/20の確率でαエラーが起こる医学研究と比べ、ポジティブな結果の信頼性は非常に高くなる。確かに、1/20の確率で物理法則に間違いがあったら、ロケットを飛ばすことはできないだろう。

＞＞第２回へ続く

参考文献

1) Samir Jaber et al. Effect of Noninvasive Ventilation on Tracheal Reintubation Among Patients With Hypoxemic Respiratory Failure Following Abdominal Surgery: A Randomized Clinical Trial. JAMA. 2016 Apr 5;315(13):1345-53.
PMID: 26975890

2) Fatovich DM, Phillips M. The probability of probability and research truths. Emerg Med Australas. 2017 Apr;29(2):242-244.
PMID: 28201852

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル