PR

t検定の対応あり/なしの算出方法の違いに関して理解しよう!

統計

エクセルや統計解析ソフトで手軽に求められるためか、意外と流してしまうt検定における対応のある/なしの判別と算出方法の違い。
特に臨床で忙しい合間に研究、実験を行っているような環境で、普段から統計にあまりかかわらない場合、統計学を専門にされている人にとっては常識であろう、このような基礎的な部分に関する事柄は、スルーしがちです。
しかし、実験データをまとめる際に「よくわからないけどそれっぽい値が出たからOK!」というわけにはいきません。

そこで今回は研究論文でもよく使用する統計手法、t検定において、「対応のある/対応のない」の違いはどのようなものかを説明していきます。

対応のある/ない、の違いとは?

臨床でも薬剤の効果判定などでよく見るパターンの対応のある/ない、それぞれに関するデータの例(両側検定を前提)を以下に示します。

左が対応のあるデータ、右が対応のないデータとなります。
対応のある/ない、でどのようにp値が変化するか、わかりやすくするために、両方とも比較対象となる測定値は同じにしています。

それぞれ対応のあるt検定、対応のないt検定に関して、エクセル関数(T.TEST)を用いてp値を算出しています。

対応のあるデータでは5%水準で有意差あり、対応のないデータは有意差なしとなっています。
このように同じ値であっても、対応のある/なしでp値は変わってきます

対応のある/ない、におけるp値の違いはどこからくるのか?

なぜこのように結果(p値)が変わってくるのか?
それは計算方法が異なるためなのですが、具体的にどのように違うのかと聞かれると、わからない方も多いと思います。

両者の違いは、エクセル関数や統計ソフトを使っていると詳細を知らずとも算出できる(スルー出来る)のですが、今回は両者の違いを知るために1つ1つエクセルで計算していきます。

まずはt値を求めよう!

まず、対応のあるt検定において、2群間における個々の差を算出します。
一方の対応のないt検定では、両者の分散(もしくは標準偏差)を算出します。

対応のあるt検定では、2群間における個々の差を算出し、それらを使って標本分散を算出します。エクセル関数「VAR.P」を使って算出できます。

対応のないt検定では、各群の分散もしくは標準偏差を算出します。エクセル関数で分散は「VAR.S」,標準偏差は「STDEV」で算出できます。

そこからt値を算出します。
対応のあるt検定は以下のような式から求められます。

これは両群間の差の平均値を、両群間における差の標本分散を使って計算しています。
※「5−1」は「n−1」、例では、データ数はn=5なので.5-1=4になります。

一方、対応のないt検定は

こちらは両群間の差の平均値を、各群の分散(もしくは標準偏差の2乗)を使って算出しています。
※なお,こちらの式の中にある「5」もそれぞれのグループのデータ数(n=5)のことです

両群とも平均値の差を検定していることは同じなのですが、

対応のあるt検定は2群間に現れた差のバラツキ具合いを検定しているのに対し、
対応のないt検定では両群の測定値のバラツキ具合いを検定しています。

そのため対応のないt検定では両群のn数が異なっていても算出できます。
一方、対応のあるt検定ではn数が違っていたり、データを並べる順番が間違っていたりすると算出できなくなります。その理由は両群の個々の差を算出し、そのデータを使っているからです。

このあたりの理解ができていないと、t検定は個々の全データがなければ算出できないと考えてしまいますが、実は平均値と標準偏差とn数が分かっていれば、対応のないt検定なら有意性の有無を算出できるのです。
標準偏差は2乗すれば分散になりますから、エクセルでなくても電卓さえあれば算出できます。
なので、発表や論文においては、聴者、読者が自分たちでもt検定できるように、「平均値」「標準偏差」「データ数=n数」は、横着せず、きっちりと記載することをおすすめします。

最後の仕上げ!p値を求めよう

最後に、得られたt値からエクセル関数「T.DIST.2T」(両側検定)を使ってp値を算出します。
対応のあるt検定では以下のようになります。

t値を選んだあとは、自由度、nは5となり、「n−1」の「4」を入力します。

対応のないt検定は、

こちらはt値のあとの自由度、nは10となり、「n−2」、の「8」を入力します。

これらの結果(p値)をエクセル関数、T.TESTで直接求めたp値と比べると

このようにエクセル関数で算出したものと同じp値であることが確認できました。

t検定の対応のある/ない、その使い分けついて根拠を知っておこう!

苦労して集めた実験データ、なんでもいいからエクセルでt検定をしておけば良い、とりあえずエクセルを操作してみたら、それっぽい値が算出されたからOK!という考えは大変危険です。
見る人が見たらわかりますし、もしその場はバレなくても、あとから発覚したら問題となり、研究としての価値がなくなりますので、ちゃんと理解したうえで統計処理に取り組みましょう。

統計についてもっと知りたい!無料統計ソフトEZRの使い方を知りたい!という方には下記の本をおすすめします。機会があれば一度読んでみてはいかがでしょうか?

コメント

タイトルとURLをコピーしました