PR

統計ソフトの落とし穴

統計

以前のエクセル統計の記事でもたびたび触れていますが、統計ソフトがあるのになぜエクセルで統計処理するのか?という部分について、疑問を持たれる方もいるかもしれません。
そこで今回、前回のEZRを用いた外れ値の統計処理を例に説明していきます。

データ整理、取り込みによる失敗(スミルノフ・グラブス検定)

前回の記事(EZRを使って外れ値を判定してみよう!Smirnov-Grubbs検定)と対比しながら話していきます。

使用するデータは以前記事にしたものと同じものを使用します。
復習がてら、データを並び替えてみましょう。

次に並び替えたデータを読み取ります。ここまでの短い段階で失敗する方がいます。
どこを失敗するのか?どのような失敗をしやすいのかを説明していきます。

まずは正しい例です。上記の図のように並び替えたものが正しいデータ配置となります。
valueの下にデータ(数値)としてデータ作成、取り込みます。
これはエクセルでも、クリップボードを使用する際のコピーする範囲としても共通です。

読み込みが終わったら、正常に読み込めているか確認します。

きちんとデータが表示されています。

ここからが失敗例です。
データ整理の時にvalueを入れず、いきなり数値データにしています。

これをエクセルもしくはクリップボードを使用する際のコピーする範囲として取り込むと

このように一番上の数字がデータとしてではなく、名称扱いとなっているのがわかります。

9つあるはずのデータが一番上の数値が名称扱いになったことにより、8つになってしまいました。

このまま計算すると

今回はたまたま同様の結果(外れ値51)になりました。なまじ解析エラーではなく、きちんとそれっぽい結果が出てしまうことで、「これで外れ値の解析OK!」となってしまいます。

これが統計ソフトを扱う際の注意点です。今回の例のように、場合によっては結果が同じになり、失敗に気が付かず、今後の統計処理でも同じ失敗を繰り返す可能性があります。

統計ソフトは正しく使おう!

今回の例のように、結果もたまたま同じになり、間違ったデータを取り込んでいても気づかない可能性もあります。
その場合、間違った手法で統計処理を行うこととなり、正しい解析結果が得られず、誤った内容で発表、論文作成してしまうことになります。
そのようなことにならないように、可能な限り他の方法(エクセルでの解析など)で確認することをおすすめします。

コメント

タイトルとURLをコピーしました