スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

統計的な問題を回避するためのデータ探索手法(文献紹介)

というタイトルの素敵論文があった。

Zuur, Alain F., Elena N. Ieno, and Chris S. Elphick. "A protocol for data exploration to avoid common statistical problems." Methods in Ecology and Evolution 1.1 (2010): 3-14. 

オープンアクセスのようなのでだれでも見られるのはいいことですね。
論文中の図はすべてRにより作られており、
元データやスクリプトがSupporting Informationに上がってます。

内容を一言でまとめると、とにかく可視化しなさいという内容。

昨日のTokyo.R 38でberoberoさんが発表していたように、
データを可視化して傾向をつかむことは非常に重要です。
参照:([R] 散布図行列 (corrplot, pairs, GGally))

この論文では箱ひげ図、Cleveland のドットプロット、散布図行列、
ヒストグラム、Coplotなどの可視化手法を使って、
外れ値や正規性、0データ問題、多重共線性、相互作用などを確認しています。

可視化によるデータの確認に興味を持たれた方は、
元データをダウンロードして写経するといいことがあると思われます。
スポンサーサイト
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。