研究などでデータを取った場合に問題となる「外れ値」。外れ値が存在すると、統計解析の結果が正確に算出できなくなります。
そのため、データ解析する場合は外れ値を除外して解析するのですが、確実に外れ値と断言するには、一つの集団と計測データの平均的な分布パターンから、その当該データが統計学的に大きく離れた値であることを示す必要があります。
特に発表会場などで「それは本当に外れ値ですか?」と突っ込まれないためにも、できれば「統計学的に有意性が認められたため」と根拠を示したい方も多いと思います。
そこで今回、EZRで外れ値を求める方法について解説します。
外れ値と証明するには?
考え方としては,「平均値、正規分布からどれだけ離れた値か」を示す必要があります。
そのために、外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量を算出)、この値が有意点より大きいかどうか、簡単な方法では、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。というようにすればOKです。
EZRでSmirnov-Grubbs検定を使ってみよう!
では実際に例を出しつつ説明していきます。
使用するデータは下記の通りです。早速データを並び替えてみましょう。
次にデータを読み取ります。
いつもはテキスト、もしくはエクセルで読み込みますが、今回はせっかくなので、クリップボードから読み込む方法を説明します。
まず解析したいデータを囲った状態で「右クリック」→「コピー」もしくはctrl+C。
「ファイル」→「データのインポート」→「ファイルまたはクリップボード, URLからテキストデータを読み込む」を選びます。
下図のように(赤枠)「クリップボード」「タブ」にチェックを入れます。
読み込みが終わったら、正常に読み込めているか確認します。
データセットの部分が、先ほど変更した名称になっているか確認し、その後「表示」を選択します。表示されたデータが正しければOKです。
データを解析していきます。今回は外れ値を調べるので、
「統計解析」→「連続変数の解析」→「外れ値の検定と除外(Smirnov-Grubbs検定)」
を選びます。
変数を選択し「OK」。外れ値をNAに変換した変数を作成するは「yes」にした方が楽なのですが、今回は「No」で算出してみます。
結果が出ました。
51が外れ値と判定されました。
この手法(Smirnov-Grubbs検定)は、最も外れた1つの値のみを検定し、それが外れ値と判定されたら、それを除外して、同じように2番目に外れた値を検定し、以下、外れ値が検出されなくなるまで繰り返す必要があります。
データを自分で作成(51を除外)してもいいのですが、EZRでは自動でデータ作成してくれる機能があります。
それが先ほどのデータ解析の部分、外れ値をNAに変換した変数を作成するに対して「yes」にすると、下図(赤枠、赤矢印)のように外れ値「51」がNAとなり、除外されたデータが自動で作成されます。
この状態で先ほどと同様に
「統計解析」→「連続変数の解析」→「外れ値の検定と除外(Smirnov-Grubbs検定)」
変数を選択し「OK」。外れ値をNAに変換した変数を作成する「yes」
の操作をしていきます。
結果が出ました。
51を除外して検定を行ったところ、他の値は外れ値と判定されなかった(赤枠)ため、今回の例では、これで終了となります。
EZRなら外れ値の算出も簡単!
苦労して集めた実験データ、発表会場などで「それは何をもって外れ値ですか?」「外れ値として除外してよいのですか?」と突っ込まれない、突っ込まれても大丈夫なように、「統計学的に有意性が認められたため」と根拠を説明できるようにしておきましょう。
コメント