スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

ピネイロ&ベイツ本1章よんだ

久保先生の緑本を購入後、6章まではさくさくと読み進めてきたわけですが、
混合効果モデルの話が出てきたところで少し足踏みをしていました。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
(2012/05/19)
久保 拓弥

商品詳細を見る


というのも、どうにも固定効果と変量効果という概念があんまり理解できず、
なんとなくGLMMの理解が曖昧でした。
足固めをしないままベイズとかに突入してもいいことはないので、
S-plusによる混合効果モデル解析を参考に、LMMを勉強することにしました。


S-PLUSによる混合効果モデル解析S-PLUSによる混合効果モデル解析
(2012/04/05)
J.C. ピネイロ、D.M. ベイツ 他

商品詳細を見る



というわけで1章を写経。
ブログにはOrthodontの例を投稿することにしました。
書籍内では女児のデータだけを使ってたのでそれに従いました。
まずはデータの様子を見るためにIDごとの散布図と回帰直線を確認します。

> library(nlme)
> Orthodont #男児16, 女児11人の年齢別脳下垂体から翼突上顎裂までの距離を各児童8, 10, 12, 14歳でとったデータ
> OrthoFem <- Orthodont[Orthodont$Sex == "Female”,] #女児だけのデータを抽出。
> fm1OrthF.lis <- lmList (distance ~age, data = OrthoFem) #一人ずつ、年齢と距離で回帰分析した。
> coef(fm1OrthF.lis)#それぞれの傾きを見た
> intervals(fm1OrthF.lis)#切片、年齢の信頼区間も見た
> plot(augPred(fm1OrthF.lis, aspect ="xy", grid = T)) # fm1OrthF.lisすべての散布図+回帰直線を図示
> plot(intervals(fm1OrthF.lis)) #上記信頼区間を図示


年齢とともに翼突上顎裂までの距離は成長する傾向だったが個人差がありそうな雰囲気です。
なので変量効果の部分に個人IDであるSubjectをくわえてみることに。

> fm10rthF <- lme(distance ~ age, data = OrthoFem, random = ~1| Subject) #変量効果として児童のIDを追加
> plot(augPred(fm10rthF), aspect ="xy", grid =T) #fm10rthFすべての散布図+回帰直線を図示

プロットしてみると傾きは一つの値ですが、切片はIDごとに異なってることがわかります。
これは明らかに変量効果が無い回帰分析と違う点だと言えます。

更に、傾きの要素である年齢にも変量効果を追加してみます。

> fm20rthF <- update(fm10rthF, random = ~age| Subject) #変量効果を傾きである年齢にも適用
> plot(augPred(fm20rthF), aspect ="xy", grid =T) #fm20rthFすべての散布図+回帰直線を図示


この結果をプロットしてみると、切片、傾きがいずれもサンプルごとで違っていることがわかります。
つまり変量効果とは、個体差・グループ間の要因になるような、特定の枠組み内で影響する効果のことだとだと言えます。
一方固定効果は回帰式全体に影響する効果であり、個体差については考慮されません。
この2つの効果が合わさっているから混合効果モデルと呼ぶようなのですが、
実際に手を動かしてみるまであんまりピンと来ませんでした。
写経、大事ですね。

最後に作った2つのモデルを比較します。

> anova(fm10rthF, fm20rthF)
これで比較すると、AIC、BIC, logLikや2つのモデルを比較した時のp値などを示してくれます。
その結果、fm10rthのほうがAIC, BICともに低く、p値も0.15と差があるわけではありません。
そのため、よりシンプルなfm10rthFのほうが良いモデルという判断を書籍中では下しています。

モデルそのものとしては fm20rthFのほうが凝ったモデルだと言えますが、
必ずしもそちらのほうが良いモデルでは無いというのも教訓として大事かな、と思いました。

ここまでやってから緑本7章を再読するとかなり理解が進みました。
理論と手を動かすのを半々くらいがいいのかもです。

さて、1章を読み終え、順当に行けば次は2章なのですが、
2章は理論中心なので数学が苦手な私には少々厳しいです。
なので次は3章のコードを写経して気になったものをまとめる方向で。
2章は数学の参考書を横に置きながら写経(手書き)するかな(白目




スポンサーサイト

統計的な問題を回避するためのデータ探索手法(文献紹介)

というタイトルの素敵論文があった。

Zuur, Alain F., Elena N. Ieno, and Chris S. Elphick. "A protocol for data exploration to avoid common statistical problems." Methods in Ecology and Evolution 1.1 (2010): 3-14. 

オープンアクセスのようなのでだれでも見られるのはいいことですね。
論文中の図はすべてRにより作られており、
元データやスクリプトがSupporting Informationに上がってます。

内容を一言でまとめると、とにかく可視化しなさいという内容。

昨日のTokyo.R 38でberoberoさんが発表していたように、
データを可視化して傾向をつかむことは非常に重要です。
参照:([R] 散布図行列 (corrplot, pairs, GGally))

この論文では箱ひげ図、Cleveland のドットプロット、散布図行列、
ヒストグラム、Coplotなどの可視化手法を使って、
外れ値や正規性、0データ問題、多重共線性、相互作用などを確認しています。

可視化によるデータの確認に興味を持たれた方は、
元データをダウンロードして写経するといいことがあると思われます。
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。