研究などでデータを取った場合にたまにあるのが「外れ値」。しかし、確実に外れ値と断言するには、一つの集団と計測データの平均的な分布パターンから、その当該データが統計学的に大きく離れた値であることを示す必要があります。
特に発表会場などで突っ込まれないためにも、できれば「統計学的に有意性が認められたため」と言いきりたい!という感じです。
そこで今回、外れ値をエクセルで求める方法について紹介します。
外れ値と証明するには?
考え方としては,「平均値、正規分布からどれだけ離れた値か」を示す必要があります。
簡単な方法として、外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量を算出)、この値が有意点より大きいかどうか、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。という考え方でもOKです。
Smirnov-Grubbs検定で外れ値の判定をしてみよう
今回はより精密に、Smirnov-Grubbs検定を使って外れ値かどうか判定していきます。
具体的な方法について説明します。
まずは処理に必要なデータを算出(平均値と分散)します。
平均値はAVERAGE関数,分散はVAR関数を使いましょう。
平均値は35.1,分散は42.6となりました.あとはここから統計量を出していきます。
ウィキペディアにも算出式が載っていますが、「Smirnov-Grubbs検定」を用いて算出します。
例として仮データを使って算出してみます。
ここでは外れ値の疑いがあるFのデータ「51」を全体の平均値から引き算して差を求め,それを分散の平方根で割るという計算を行い、D列11行目にt値を算出しています。
D列11行目の式は
=ABS(B7-B11)/SQRT(B12)
ここでポイントはABSをつけることです。ABSは絶対値に変換してくれます。
これを忘れると、正の数なら問題ない(値が平均よりも大きい場合)ですが、負の数(値が平均より小さい場合)では、pを求めるときにエラーを起こします。
これでt値が求まったので、エクセル関数「TDIST」を使えば、p値を算出できます。
D列12行目の式は
=TDIST(D11,7,2)
TDISTの自由度には「N−2」を入力します。今回のデータはN=9なので、「7」となります。
尾部は両側検定なので「2」にします。
D列12行目にp値を算出しています。
※先ほど記載したように、ここのデータの値が負であった場合、エラーとなるので負の数にならないよう注意が必要です。
今回の例では「p=0.045」なので、5%水準での有意性が認められました。
つまり,Fの測定値「51」は、外れ値や異常値として処理しても統計学的に妥当だと考えられます。
この手法(Smirnov-Grubbs検定)は、最も外れた1つの値のみを検定し、それが外れ値と判定されたら、それを除外して、Nを一つ減らし、同じように2番目に外れた値を検定し、以下、外れ値が検出されなくなるまで繰り返す必要があります。
今回の例だとFの測定値が外れ値であったため、それを除外して再度外れ値の疑いのある測定値に対して検定を行います。
Fの測定値の次に、値が外れている(平均との差が大きい)Iの測定値に対して検定を行ったところ、外れ値と判定されなかったため、今回の例では、これで終了となります。
実験結果で外れ値として扱う、その根拠を示そう!
苦労して集めた実験データ、発表会場などで「それは何をもって外れ値ですか?」「外れ値として除外してよいのですか?」と突っ込まれない、突っ込まれても大丈夫なように、「統計学的に有意性が認められたため」と根拠を説明できるようにしておきましょう。
もっと統計について詳しく勉強したい!統計ソフトEZRの使い方を知りたい!という方は下記の本をおすすめします。一度機会があれば読んでみてください。
コメント