【統計解析】よくあるP値に関する５つの誤解

備忘録として臨床研究について学んだことを記します

今回はよくあるP値に関する誤解を５つ紹介致します

参考資料
よくあるP値に関する５つの誤解
最後に

参考資料

今回は日本計量生物学会から発表された
「統計的有意性とP値に関するASA声明」
を参考にしています

ちなみにこれは、アメリカ統計協会（American Statistical Association：ASA）が2016年に発表した声明の一部を日本計量生物学会が翻訳したものだそうです。

これを参考に「よくあるP値に関する誤解」としてまとめました♪

よくあるP値に関する５つの誤解

誤①：P値は仮説が正しい確率やデータが偶然のみで得られた確率を意味する

P値はあくまでも

● 統計モデルが正しいという仮定と研究で得られたデータとが矛盾する程度

● 得られたデータから推測される効果の大きさ（点推定値）と効果の大きさの測定精度（区間推定）とを一つの値で示した指標

であるに過ぎません。

P値の説明として1つ目に挙げた統計モデルにはいくつか条件があります。

① 対象者がランダムに割り付けられるなど交絡因子がない

② データにバイアスがない

③ 研究計画が遵守されている（＝示された方法の通りに研究が行われている）

④ 帰無仮説が正しい

P値が十分に小さい場合（慣例的にP≦0.05が用いられることが多い）には、

● 統計モデルが正しい、かつ、研究で収集されるようなデータが得られる

という事象について、①～④のうちいずれかの条件によって矛盾が生じていることを意味します。

矛盾を生じさせている条件は1つの場合もあれば、複数の場合もあります。

しかし、P値を見ただけではどれが矛盾を生じさせている条件なのかは判断できません。

つまりP値は研究者自身が立てた確かめたい仮説が正しい確率を求めている訳でもなければ、研究で得られたデータが偶然のものか必然のものかの確率を求めている訳でもないのです。

誤②：P値だけ見れば正しく科学的結論を導いたり政策決定することができる

誤①でも述べた通り、P値が示しているのは統計モデルと得られたデータとの矛盾の程度でしかありません。

ここで注意が必要なのはP値は統計モデルが適切か否かを示してくれないということです。

● 研究デザインは適切なのか？

● データの測定の質は高いのか？

● データの比較の質は高いのか？

などは全く関係なく、統計ソフトで数字を数式に放り込みさえすればP値を求めることができてしまいます。

つまり極論、どれほど不適切な研究デザインの下で集められた質の悪いデータでもP値を算出することはできますし、その値が0.05以下となる場合もあるのです。

P値だけに基づいて科学的結論を導いたり政策決定をすることは、プロセスを一切無視する行為であり、科学性を著しく損ねていると言えるのです。

例えP≦0.05だったとしても、不適切な研究デザインの下で集められた質の悪いデータから算出された値だったならば、そのような結果に基づいた意思決定は妥当とは言えませんね♪

誤③：複数の統計解析を行いP≦0.05となった結果だけを報告すれば良い

いくつかの統計解析をして都合良くP≦0.05となった結果だけを報告してやれ

このように見込みのありそうなP値だけを抜き出して報告して研究者にとって都合が悪い解析結果は隠してしまう行為を「P値ハッキング」と呼びます

P値ハッキングは研究の透明性を損なう行為として行ってはいけないと注意喚起されています。

あくまでも統計解析は研究計画の段階で、どのような統計解析を行うか予め決めておくべきものです。

万が一、統計解析の結果を確認してから一部の統計解析の結果のみを選択して報告したならば

● 研究者は結果を選択して報告したこと

● 何故報告する結果を選択したかの根拠

以上を示すべきとされています。

誤④：P≦0.05だから「効果が大きい」「結果が重要である」

誤①でも述べたようにP値とは

● 統計モデルが正しいという仮定と研究で得られたデータとが矛盾する程度

● 得られたデータから推測される効果の大きさ（点推定値）と効果の大きさの測定精度（区間推定）とを一つの値で示した指標

以上の特徴を持ちます。

2つ目の特徴から

● 効果が大きければ、効果の大きさの測定精度が低くてもP≦0.05となりうる

● 効果が小さくとも、効果の大きさの測定精度が高ければP≦0.05となりうる

以上のことが起こりえます。

P値は効果の大きさと効果の大きさの測定精度を１つにまとめて数値化してしまっているが故に、P値のみで効果が大きいとは判断できなくなってしまっているのです。

また、P値は効果の大きさだけでなく、データのサンプルサイズによっても値が変わりえます。

統計ソフトを使ってデータの統計解析をしてP値を算出したことのある方ならば分かると思いますが、サンプルサイズが小さいと比較する両群の差が大きくてもP＞0.05となるのに、サンプルサイズが大きくなると先程より比較する両群の差が縮まったのにP≦0.05となることがあります。

例えば、ある運動療法を1年間行った場合の効果を検証したとしましょう。

最新の光学機器などを用いて極めて高い精度の計測の結果、運動療法を1年間行ったグループAは運動療法を行わなかったグループBよりも、10m歩行時間が0.01秒だけ短縮できたとします。

このときに対象者の人数（サンプルサイズ）が1000万人とか2億人とかいれば、P≦0.05となり「統計的に有意差あり」となりえます。

しかし例え統計的に有意差があったとしても、「1年間運動療法を継続したら10m歩行時間が0.01秒短縮できた」という結果にどれほどの重要性があるでしょうか？

研究の結果が重要か否かは、先行研究などのエビデンス、比較の背景など、様々な事柄と合わせて総合的に判断されるべきです。

決してP値のみで判断するべきことではありません。

誤⑤：P値さえ示せばエビデンスを示したことになる

これもよくある誤りです。

誤②でも述べた通り、P値だけに基づいて科学的結論を導いたり政策決定をすることは、プロセスを一切無視する行為であり、科学性を著しく損ねていると言えるのです。

つまり、「P値さえ示せばエビデンスを示したことになる」とはならないのです。

エビデンスを示すためにはP値以外にも、

● 先行研究を踏まえて妥当な研究計画を立案したか

● いかにして交絡を予防したのか

● いかにしてデータのバイアスを予防したのか

● いかにして研究計画を遵守したのか

これらを示すことが重要です。

また、これらに加えて今回参考にしているASAの声明では

● 点推定値

● 区間推定（＝信頼区間）

などを示すのも良いのではないかと提言しています。

エビデンスを示すには多くのことを示さなければならないのですね
P値≦0.05となればエビデンスを示せたと安易な考えだったことを反省しました

最後に

今後も臨床研究に関して学んだことを記していきたいと思います

ありがとうございました!!