PR

エクセルでできる!t検定の使い方、選び方と具体的な分析方法

エクセルで統計

実験を行った際、学会発表、論文を書くにあたり、t検定を用いたデータ分析・統計処理をしなければいけないことも多いと思います。

t検定といえば、統計の中でも基本的な手法の一つですが,これまで統計自体にあまり関わったことがない、施設に指導者もいないなどで、どうすればいいのか分からず、最終的に心が折れた方もいるのではないのでしょうか?

そこで今回、t検定の使い方に関して、エクセルを用いたt検定の解析方法を実例にして、具体的に説明していきます。

ちなみに今回の内容と合わせて、前回の記事を参照してもらうとt検定に関する理解が深まると思います。参照までにリンクを置いておきます。

エクセルでt検定をダイレクトに算出しよう!

今回は前回の記事と違って、エクセル関数一つでt検定をダイレクトに算出する方法を説明していきます。

例として以下のデータを示します。

5名の被験者に対し、新しい治療法を行い、その前後の値(画像信号、血液データなど)を比較するというものをイメージしています。
「T.TEST関数」をセル(B列11行目)に記入しています。エクセル関数を用いることで、簡単にp値が算出できてしまいます。

ここからは実際の算出過程をエクセル操作しながら順に説明していきます。

まず,p値を出したい(表示させたい)セルを選択します。

次に関数ダイアログを出します。

数式⇒関数の挿入を選択する、もしくはホームの右端、「Σ」マークの右にある下矢印をクリックし、その他の関数を選択します。
すると以下のような画面が登場しますのて、統計⇒T.TESTを選択します。

入力画面が開きますので、「配列1」「配列2」「検定の指定」「検定の種類」の4項目を順に入力していきましょう。

まず,「配列1」のところをクリック、セルシートのデータ、B列3行目からB列7行目まで(治療前データすべて)を選択します。
同様に「配列2」のところをクリック、セルシートのデータ、C列3行目からC列7行目まで(治療後データすべて)を選択します。

次は,「検定の指定」ですが、この部分について「片側検定の場合は1,両側検定の場合は2を指定します」となっています。

一般的にはt検定は、両側検定を行なうことが統計処理の基本というか、お約束なので、特に理由がない場合は「両側検定」の「2」を入力しましょう。

最後に「検定の種類」ですが、ここでどれを選択するのか、迷う方もいると思います。
エクセルの「検定の種類」の部分を読んでみると、
検定の種類:には実行する t 検定の種類を指定します。対応のある検定の場合は 1、標本の等分散が仮定できる場合は 2、標本が非等分散の場合は 3 を指定します。

と書いています。以下に「T.TEST関数」のヘルプの検定の種類の部分を張っておきます。

これだけではよくわからない。という方もいると思いますので、1つずつ説明していきます。

エクセルで行うt検定、1・2・3のどれを選べばいいの?

対をなすデータのt検定とは?

対をなすデータのt検定というのは、ここまで例に挙げたデータが「対をなすデータ」です。

同じ被験者の集団(n=5)に対し,治療前後で効果判定のためのデータをとったもの、これは「対をなすデータ」です。「対をなす」というのは,比較するデータ「配列1」、「配列2」が対をなしている、すなわち同じ集団(抽出元)であることを指します。

この「対をなすデータ」は「対応のあるデータ」(英語ではpaired)とも表現されます。

なので、今回の例では「検定の種類」は対をなすデータである「1」を入力し、OKボタンをクリックすれば,以下のように「p値」が算出されます。

算出されたp値は,「0.0426」、この値がp<0.05なので、今回のデータは「有意差がある」、すなわち、今回の治療手法によって、その測定値(治療効果)に影響が見られたことか示唆されました。
逆に,もし値がp>0.05だったとすると、治療手法に対し統計的には「有意差がない」ということになります。

では、次に検定の種類が「1」以外のものとはどんなものなのかを説明していきます。

対をなしていない2標本を対象とするt検定とは?

「2」または「3」を使用して算出する、
「等分散の2標本を対象とするt検定」
「非等分散の2標本を対象とするt検定」
とはなにか?

まず前提として、「配列1」、「配列2」が「対をなしていない」データです。

「そのままやんけ!」と怒られそうですので、具体的に例を挙げていきます。

10名の被験者を対象に、何らかの手法を施し、測定値を記録したとします。その測定値をエクセルに入力したものが以下の表になります。

この測定値のデータそのものは、いままで例として使用してきた5人の治療前後のデータと同じものです。しかし、ここで確認すべきは、被験者5人(仮にAさん〜Eさん)の処置前後のデータではなく、5人グループ2つ(仮にAさん〜EさんのAグループ、Fさん〜JさんのBグループ)の測定データというところです。

測定データが同じ集団(抽出元:Aグループ)ではなく、異なる集団(抽出元:AグループとBグループ)なので、「対をなしていない」「対応がない」ということになります。
このようなデータ群は「対をなしていないデータ」「対応のないデータ」(英語ではunpaired)とも表現されます。

このようなデータの場合に検定の種類「2」または「3」を使いますが、そうなると、次に迷うのは「2」と「3」のどちらを使うべきか?という点です。

検定の種類の説明のところには、標本の等分散が仮定できる場合は 2、標本が非等分散の場合は 3 を指定します。

ここでいう「2標本の等分散が仮定できる」というのは何か詳しく知りたい!という方は、ウィキペディアの等分散性(Wikipedia)を確認しましょう。詳細が載っています。

「そんなことより2と3のどっちを使えば良いのかだけわかればいい(知りたい)」という人は、とりあえず「F検定」をしましょう。

F検定を使って等分散データか非等分散データか判断しよう!

F検定は「2標本の等分散が仮定できるか」を検定する手法です。F検定によって「2」「3」どちらを使うべきか判断できます。

実際のデータで確かめてみる

F検定は,エクセルの「F.TEST関数」を使って算出できます。

今回はD列12行目にF検定をしています。

配列1がB3:B7、配列2がD3:D7のデータになります。「0.614」という数値が算出されました。

この数値はt検定のp値と同じように「0.05」未満か以上かで判断するため、
0.05以上 = 等分散を仮定したデータ
0.05未満 = 非等分散のデータ

となります。

今回のデータ例であれば0.05以上ですので、「2標本の等分散が仮定できる」データ、すなわち検定の種類は「2」になります。以下のように、「検定の種類(右端の部分)」のところを,2を入力します。

今回は「0.0581」なのでp>0.05となり、「有意差はない」と判断されます。

非等分散のデータはどんなもの?

では,「3」で選択する「非等分散のデータ」とはどのようなものでしょうか?
試しにデータAとBに関して、周囲の測定値よりも大きくして、差をつけてみます。

するとF検定の値が「0.035」となり、0.05未満になりました。

「非等分散のデータ」は、比較している「配列1」と「配列2」のデータのいずれかで、平均値から大きくハズレた値が見られる場合のことを指します。この状態を「等分散していない」と表現しています。

今回のデータの場合は、「非等分散の2標本を対象とするt検定」になるので「3」を入力します。

今回は「0.430」なのでp>0.05となり、「有意差はない」と判断されます。

きっちりと確認しながらt検定していこう!

統計処理ソフトやエクセルによって手軽にt検定などが可能になった反面、なんでもいいから統計処理ソフトやエクセルでt検定をしておけば良い、とりあえず算出してみたら、それっぽい値が算出されたからOK!という考えは危険です。

そうならないためにも、きちんと確認しながら作業を進めていきましょう。

もっと統計について詳しく勉強したい!統計ソフトEZRの使い方を知りたい!という方は下記の本をおすすめします。一度機会があれば読んでみてください。

コメント

タイトルとURLをコピーしました