スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

#JapanR でLT発表しました

昨日参加したJapanRでRandomforestで高次元の変数重要度を見るというLTをやりました。下記が元ネタの論文です。
A computationally fast variable importance test for random forests for high-dimensional data

投稿中の論文でこの手法を試してみたので、
帰ってくるまでに背景を抑えておこうというのがモチベーションでした。

Permutationに基づく変数重要度の歴史も合わせて書かれており、
ここに至るまでの流れをある程度つかむことができたかなと思います。

下記パッケージから割りとかんたんに試して見ることができるので、
使ってみると便利かもしれません。
ranger: A Fast Implementation of Random Forests
vita: Variable Importance Testing Approaches

以下スライド


LT大会では生存報告が重要だというコメントが出ておりましたので、
もうちょっと生きている感じを出していきたいと思います。
スポンサーサイト

統計的学習の基礎読書会 6章前半 #カステラ本

本日赤坂のYahoo!で開催された統計的学習の基礎読書会で発表しました。
序盤はある程度形になったような気もするのですが、
中盤以降スライドを作ったときにはわかった気がしていたけど、
実際に話してみるとうまく説明ができないいつものパターン。

なかなか説明できるまで理解を深めるのは難しいです...。



本日は機会をいただきありがとうございました。
また次があれば頑張ります。

DSLT祭りとか講演資料とか

ここへのアウトプットサボってましたが、
Yahoo!さんで開催されたDSLT祭りで発表したので資料上げておきます。

Kaggle上位陣と同じことができなくても、
後で公開された結果見て何やってるのか分かるところまで行きたいですね。


母校で専門分野のデータ分析入門で思うところを話したので、そちらの資料もついでに。

第53回 Tokyo.Rで発表しました

ご無沙汰しております。
第53回 Tokyo.RでMxnetによる回帰というタイトルで発表しました。

発表自体は回帰の記事は少ないので試してみたという内容でしたが、
発表のために手を動かしてコードを書いていると、
直感的に隠れ層やdropputを書けるように作られていることがわかりました。

今からRで深層学習を始めたい人にも向いているかもしれません。
私にとっては慣れたRで実行可能というのは大きな利点ですね。

また、現在は判別のみですが、caretにも"avMxnet"が追加されており、
慣れ親しんだcaretのフレームワークでチューニングもできるようです。
今後も注目していきたいパッケージですね。

下記発表スライドです。

R言語徹底解説をご恵贈いただきました

この度、訳者様よりR言語徹底解説をご恵贈いただきました。
本当にありがとうございます!

book.jpg
カバー外すとハードカバーが渋くて超かっこいいですね!

ひとまず基本編を読了し、2章についてはコードの写経を終えたので、お礼に変えてここまでの感想をまとめさせていただきます。

本書はHadley Wickham 著「Advanced R」の邦訳版ですが、ただの翻訳にとどまらず、詳細な訳注や邦訳済みの文献に関しては日本語版を参考文献として載せていただいたりと、日本人読者に向けて非常に親切な作りになっているなと感じました。また、4章: 「ボキャブラリ」に抑えておきたい関数がまとめられていたりと、リファレンスとしても有用だと思います。

本の構成として、各章の頭にクイズで現状の理解度をチェックし、その章を読み飛ばしても良いか確認できるようになっています。また、各節の終わりにはエクササイズがあり、読み終わった際の理解度をそれぞれ確認してくれる構成になっています。エクササイズはなかなか歯応えのある内容になっており、実際にコードを動かしたり、章を振り返って確認することでRの理解度をより深めることができると思います。また、コードの写経中に、「この関数を今実行した関数のかわりに実行したらどうなるかな?」みたいな疑問がわいた時には、ガンガン実験してみることでより理解が深まると思うので、実際にコードを書きながら読むのが良いのではないでしょうか。

私はこれまで統計解析・機械学習のユーザとしてRを使ってきましたが、本書に記載されているような内容は感覚でなんとなくわかっている気にはなっていたものの、体系立てて理解していたわけではなかったので、写経しながら読むとどのページからも発見があり、悔い改めたい気持ちでいっぱいです。写経が終わった2章:「データ構造」1つをとっても、関数 str() で表示されるオブジェクトの詳細は私の中ではRstudioのGlobal Environmentにいつでも表示されているものだったので、実はRstudioに助けられていただけだったことに気がついたりと恥ずかしい限りでした。

1章:「導入」の、「実務におけるRのコードは作成者の差し迫った問題を解決するために書かれており、エレガントではない」という内容はとても突き刺さりました。しかし、身近に師匠がおらず、「S◯SSやS◯Sは高くて買えないからRでなんとか解析を…」という環境では、blogや質問サイトなどに載っている動くコードの変数名を入れ替えて目の前の解析を進めるので必死で、言語としてのRにあまり触れないままということもあると思います(私はそうだったんですがどうでしょうか…)。ユーザが慣れるまではそれでもよいかもしれませんが、データの再現性を高め、解析のミスを減らし、「単なるユーザから能動的なプログラマに変貌を遂げる」ためには、本書のコードを写経しながら読んで、それぞれのコードの意味を考えることが1つの近道になるのではないかと思います。

都内で開催されるデータ系の勉強会に出だして約2年、Rをインストールしてからだともう6年経っての遅いスタートですが、これを機にユーザからプログラマに変貌できるよう頑張ってみたいと思います。後半のアドバンスな内容の書評についてはきっと他の誰かが…。
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。