【尺度の必須条件】これが信頼性の検証の仕方だ!!

備忘録として臨床研究について学んだことを記します

今回は測定の信頼性の検証の仕方について解説致します

【復習】信頼性とは？

測定における信頼性（reliability）とは、「偶然に左右されず同様の測定結果を得られているか」ということです。

「ぶれ」と呼ばれるものです。

例えば上肢の筋力を計測する場合を考えましょう。以下の２つの方法のうち、どちらが信頼性が高いと思われるでしょうか？

① 握力計を使って握力を計測する

② 公園で拾った石を投げて距離を計測する

おそらく、偶然に左右されず同様の測定結果が得られやすい方法は①でしょう。

疲労に考慮して計測すれば、計測ごとの結果のバラつきは数%というところではないでしょうか？

一方の②では、たまたま拾った石の形・大きさ・重さ、石を上手に投げれたかどうか、風が吹いているか、雨が降っているか、などが影響して測定する度に大きなバラつきが生じそうです。

一般的に信頼性が高いか否かは２つの面から以下の指標で検証されます。

● 内的整合性信頼性（internal consistency reliability）：クロンバックα係数で検証される

● 再テスト信頼性（test-retest reliability）：級内相関係数で検証される

それでは、２つの「信頼性」について解説致します

内的整合性信頼性とは、ある評価スケールが複数の評価項目からなる場合に、それぞれの評価項目が同じような概念を測定しているかということを表します。

例えば、以下に示す架空の評価スケールAと評価スケールBがあったとします。

療法士が目にすれば、評価スケールAは各項目がバランス能力を測定しているのではないかと想像できると思います。

評価スケールAは内的整合性信頼性が高いと言えそうです（あくまで直観的にですが）。

一方の評価スケールBの各項目はいかがでしょうか？それぞれの項目が同じ概念を測定していると言われても、果たして各項目に関連性があるのか怪しいでしょう。

おそらくどのような概念を測定するにしても、評価スケールBは内的整合性信頼性が高いとはならないような気がします（あくまで直観的にですが）。

内的整合性信頼性の検証には、クロンバックα係数が用いられます。

クロンバックα係数は信頼性係数とも呼ばれます。

クロンバックα係数は0から1の間の値を取り、通例0.7以上だと内的整合性信頼性が十分にあるとされています。

一般的に評価スケール内の項目数が多くなるほどクロンバックα係数は高くなる傾向があります。

ちなみに、項目が１つしかない場合は、クロンバックα係数は計算できません。

再テスト信頼性とは、ある評価スケールを実施した場合に、その測定結果が何度実施しても同様の結果となるかということを表します。再現性とも呼ばれます。

特に断りなく「信頼性」という言葉を聞くと
この「再テスト信頼性（＝再現性）」をイメージするかもしれませんね

再テスト信頼瀬の検証には、級内相関係数（ICC：Intraclass Correlation Coefficient）が用いられます。

ICCの値は、1回目の測定結果と2回目の測定結果の一致の程度を表しています。

ICCが１の場合は、1回目の測定結果と2回目の測定結果とが完全に一致していることを意味します。

ICCは通例、0.7以上だと再テスト信頼性が十分にあるとされています。

今後も臨床研究に関して学んだことを記していきたいと思います

ありがとうございました!!