スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

R言語徹底解説をご恵贈いただきました

この度、訳者様よりR言語徹底解説をご恵贈いただきました。
本当にありがとうございます!

book.jpg
カバー外すとハードカバーが渋くて超かっこいいですね!

ひとまず基本編を読了し、2章についてはコードの写経を終えたので、お礼に変えてここまでの感想をまとめさせていただきます。

本書はHadley Wickham 著「Advanced R」の邦訳版ですが、ただの翻訳にとどまらず、詳細な訳注や邦訳済みの文献に関しては日本語版を参考文献として載せていただいたりと、日本人読者に向けて非常に親切な作りになっているなと感じました。また、4章: 「ボキャブラリ」に抑えておきたい関数がまとめられていたりと、リファレンスとしても有用だと思います。

本の構成として、各章の頭にクイズで現状の理解度をチェックし、その章を読み飛ばしても良いか確認できるようになっています。また、各節の終わりにはエクササイズがあり、読み終わった際の理解度をそれぞれ確認してくれる構成になっています。エクササイズはなかなか歯応えのある内容になっており、実際にコードを動かしたり、章を振り返って確認することでRの理解度をより深めることができると思います。また、コードの写経中に、「この関数を今実行した関数のかわりに実行したらどうなるかな?」みたいな疑問がわいた時には、ガンガン実験してみることでより理解が深まると思うので、実際にコードを書きながら読むのが良いのではないでしょうか。

私はこれまで統計解析・機械学習のユーザとしてRを使ってきましたが、本書に記載されているような内容は感覚でなんとなくわかっている気にはなっていたものの、体系立てて理解していたわけではなかったので、写経しながら読むとどのページからも発見があり、悔い改めたい気持ちでいっぱいです。写経が終わった2章:「データ構造」1つをとっても、関数 str() で表示されるオブジェクトの詳細は私の中ではRstudioのGlobal Environmentにいつでも表示されているものだったので、実はRstudioに助けられていただけだったことに気がついたりと恥ずかしい限りでした。

1章:「導入」の、「実務におけるRのコードは作成者の差し迫った問題を解決するために書かれており、エレガントではない」という内容はとても突き刺さりました。しかし、身近に師匠がおらず、「S◯SSやS◯Sは高くて買えないからRでなんとか解析を…」という環境では、blogや質問サイトなどに載っている動くコードの変数名を入れ替えて目の前の解析を進めるので必死で、言語としてのRにあまり触れないままということもあると思います(私はそうだったんですがどうでしょうか…)。ユーザが慣れるまではそれでもよいかもしれませんが、データの再現性を高め、解析のミスを減らし、「単なるユーザから能動的なプログラマに変貌を遂げる」ためには、本書のコードを写経しながら読んで、それぞれのコードの意味を考えることが1つの近道になるのではないかと思います。

都内で開催されるデータ系の勉強会に出だして約2年、Rをインストールしてからだともう6年経っての遅いスタートですが、これを機にユーザからプログラマに変貌できるよう頑張ってみたいと思います。後半のアドバンスな内容の書評についてはきっと他の誰かが…。
スポンサーサイト

みどりぼんの次を考える: R Advent Calendar 2014 12日目


本投稿はR Advent Calendar 2014 12日目の記事となります。

今年の4月から継続的に、@yamakatuさん主催の、
「データ解析のための統計モデリング入門(みどりぼん)」 読書会に参加し、
統計モデリングの勉強を進めてきました。

現在この本の勉強会として
「続・わかりやすいパターン認識」読書会を主催させて頂いていますが、
GLM, GLMM, MCMCについての勉強も続けねば、と考えています。

さて、この時、みどりぼんを読み終えたあと、
次に何を読みながら勉強するのが良いのかと思い、調べてみることにしました。

巷の評判では、以下の The BUGS Bookの評判が良いようです。

The BUGS Book: A Practical Introduction to Bayesian Analysis (Chapman & Hall/CRC Texts in Statistical Science)The BUGS Book: A Practical Introduction to Bayesian Analysis (Chapman & Hall/CRC Texts in Statistical Science)
(2012/11/01)
David Lunn、Chris Jackson 他

商品詳細を見る


しかし、本をめくってみたところコードは充実しているものの、
私にとっては理論の比重が重く、実用から入った私にはちょっと高度でした。
(理論ベースの方なら多分問題ない)

そこで色々探した結果、最初の記事で言及した論文の著者、
Alain F Zuurの著書が目に止まりました。


Amazonで普通に買えるのは以下の本、

Mixed Effects Models and Extensions in Ecology with R (Statistics for Biology and Health)Mixed Effects Models and Extensions in Ecology with R (Statistics for Biology and Health)
(2009/03/12)
Alain Zuur、Elena N. Ieno 他

商品詳細を見る


もうひとつはアマゾンにずっと在庫がありませんが、
Beginner's Guide to GLM and GLMM with R
こちらの本になります。

内容を読み比べたところ、
前者がGLM and GAM, zero inflated models, GEE, GLMM, GAMMなどの広い内容を、
後者はGLM, GLMMとそのMCMCへの拡張に絞っています。
個人的にはみどりぼん直後に読むなら後者のほうがフレンドリーかと思いますが、
いずれも非常にわかり易い内容ですし、前者はAmazonでもかなり高い評価になっています。

みどりぼんと比較すると
数式多め、実例に近い例題データの2点が特徴ですが、
数式につづいてコード、結果が載っているので、
作ったモデルの意味するところを考えながら読み進められると思います。
この点については理論の勉強が足りない私にはありがたく、
理論系に進むための足がかりになりそうだな、と感じています。

Webのサポートページからはコードだけでなく、
例題用の生態系関連データもダウンロードできるため、
単純にデータに対してアプローチしてみたい上級者にも嬉しい仕様だと思います。
(コードは解凍にパスが必要なので購入者しか使えませんが…

立ち読みができなかったので勢いで購入しましたが、
結果的に買ってよかったな、と思える内容でした。
(前者はSpringerのサイトから一部確認可能

とは言え7章立ての2章からJAGSをぶっこんできたり、
交互作用、オフセット項を3ページで説明してきたりするので、
個人的にはみどりぼんを読んどいて正解だったと感じています。

この方の論文、
A protocol for data exploration to avoid common statistical problems
フリーアクセスになっているので、内容を見て感じる所があれば、
購入を検討されても良いかと思います。

また、以下4冊は買ってしまったので、
中身が見たい方がいれば私が参加する勉強会の前に
お声掛けいただければ持っていきます!

Beginner's Guide to GLM and GLMM with R

Beginner's Guide to Generalized Additive Models with R

Mixed Effects Models and Extensions in Ecology with R (Statistics for Biology and Health)Mixed Effects Models and Extensions in Ecology with R (Statistics for Biology and Health)
(2009/03/12)
Alain Zuur、Elena N. Ieno 他

商品詳細を見る


Zero Inflated Models and Generalized Linear Mixed Models with RZero Inflated Models and Generalized Linear Mixed Models with R
(2012/03/15)
Alain F. Zuur、Anatoly A. Savaliev 他

商品詳細を見る

統計的な問題を回避するためのデータ探索手法(文献紹介)

というタイトルの素敵論文があった。

Zuur, Alain F., Elena N. Ieno, and Chris S. Elphick. "A protocol for data exploration to avoid common statistical problems." Methods in Ecology and Evolution 1.1 (2010): 3-14. 

オープンアクセスのようなのでだれでも見られるのはいいことですね。
論文中の図はすべてRにより作られており、
元データやスクリプトがSupporting Informationに上がってます。

内容を一言でまとめると、とにかく可視化しなさいという内容。

昨日のTokyo.R 38でberoberoさんが発表していたように、
データを可視化して傾向をつかむことは非常に重要です。
参照:([R] 散布図行列 (corrplot, pairs, GGally))

この論文では箱ひげ図、Cleveland のドットプロット、散布図行列、
ヒストグラム、Coplotなどの可視化手法を使って、
外れ値や正規性、0データ問題、多重共線性、相互作用などを確認しています。

可視化によるデータの確認に興味を持たれた方は、
元データをダウンロードして写経するといいことがあると思われます。
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。