スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

Tokyowebminingで発表しました

昨日の第50回 データマイニング+WEB @東京( #TokyoWebmining 50th ) ー機械学習 実活用 祭りーで発表してきました。

発表の機会を下さった主催者の皆様、議論にご参加くださった参加者の皆様、また、会場をご提供頂いたフリークアウトの皆様、ありがとうございました。

今回の内容は昨年2月にsubmitし、9月にacceptになった自分の論文の話でした。関東に移ってきてからTokyoWebminingやTokyo.R、そこで知り合った人たちから刺激を受けてはじめた機械学習を実活用できた初めての形のある結果だったので、内容の良さはおいておくにしても思い入れのある論文になりました。こういう適用法もありかな、くらいの知見になれば幸いです。今後とも宜しくお願いいたします。

#ぞくパタ 12-15回(最終回)

忙しさを理由にすっかり放置してしまいましたが、
読書会はは少しづつ進み、めでたく完走することが出来ました。

12章以降はノンパラベイズの数理(@sfchaosさん)やディリクレ過程混合モデルによるクラスタリング(@aich_08_さん、@yamakatuさん)などの難しい内容が続きました。特にディリクレ過程やウィシャート分布あたりではとても苦戦したので、数学をもうちょっとちゃんとやらないとだめだなと言う思いが強くなりましたね…。13回には、理論と実装の橋渡の部分となる内容で、@shuyoさんにノンパラベイズ実装のコツについてLTでご発表いただきました。数式のとおりにプログラムを書いても、すぐに処理できる桁数を上回ってしまうため、logを上手く使ってコントロールする必要があるなど、実践的な内容だったと思います。

@aich_08_さんのスライド


また、最終回には私が共クラスタリングについて発表させていただきました。私自身は共クラスタリングと言う名前を聞いたのがこの本で見たのが最初だったこともあり、まずは本で紹介されている無限混合モデルは後回しにして、共クラスタリングとは、から入っていくことにしました。後半の数式周りは理解が怪しいですが、共クラスタリングを実際に動かしてみたことは良い経験になったと思います。


今回でぞくパタ読書会は終了ですが、読書会そのものは継続していくようなので、また何らかの形で関わっていきたいと思います。発表の中で数式がゴリゴリ出てくるところについてどうやって喋るといいのかを学ぶことが当初の課題かなと思っています。

最後になりましたが、会場を提供して下さったドワンゴ様、
難しい内容にも関わらず発表を引き受けて下さった発表者のみなさま、
読書会にご参加いただいたみなさま、本当にありがとうございました。

何かの機会にはまたよろしくお願いいたします。

第11回「続・わかりやすいパターン認識」読書会を開催しました #ぞくパタ

去る7月14日にドワンゴ様で、
第11回「続・わかりやすいパターン認識」読書会を開催しました。
ドワンゴ様、会場をご提供いただき、本当にありがとうございました!
また、参加者のみなさま、発表者のみなさま、
ご参加いただきありがとうございました。

今回は第11章「第11章「ノンパラメトリックベイズモデル」が範囲で、
前半11:4節までを@teramonagiさんに発表していただきました。

クラスタ構造のモデリングをしよう、ということで、
データをどのように分割するのかについての基礎的な手法を
ご紹介いただきました。
ホップの壺や中華料理店過程について、
図と数式を組み合わせてもらったおかげで、
非常にわかりやすかったです。

また、中華料理店過程、ピットマン・ヨー過程については
Rでの実行例を示していただき、数式とプログラムを見比べながら
理解を進めることができました。
ありがとうございます!

また、質問としてあげられた、クラスタ数が増えるにつれ、
クラスタ1つあたりの大きさがだんだん小さくなって行くように見えるが、
均等に別れるべきデータの場合はどうなるのか?については、
@shuyoさんがフォローしてくださったので、ぜひ見に行きましょう!

「続・わかりやすいパターン認識」11章「ノンパラメトリックベイズ」の「クラスタリングの事前確率」について

次回は8月18日。
ノンパラベイズ後半戦です。
先行して予習を始めていますが、
11:6の難易度はかなりきつめです。
ちゃんと予習して、何とかついて行きたいと思います...

第10回「続・わかりやすいパターン認識」読書会

去る6月30日にドワンゴ様で、
第10回「続・わかりやすいパターン認識」読書会を開催しました。
ドワンゴ様、会場をご提供いただき、本当にありがとうございました!
また、参加者のみなさま、発表者のみなさま、
ご参加いただきありがとうございました。

今回は第10章「クラスタリング」が範囲で、
発表者は@KotaMori1さんでした。

前回9章の混合正規分布とK-means, 凸クラスタリングとの違いを、
最適化、クラスタ数、割り当て法の観点から丁寧に解説いただきました。
また、数式の展開や演習問題の範囲についても補足していただき、
非常に勉強になりました。
ありがとうございました。

また、LTとして@y__utiさんが、
各言語の k-means 比較について発表してくださいました。

私自身はR以外あまり触らない身ですが、言語ごとに、
果ては同じ言語であっても違いがいろいろあって興味深かったです。
同じK-meansであっても考え方が色々あるということですね。

さて、次回は7月14日。
山場のノンパラベイズに突入します。
@shuyoさんの予習エントリにもあったように、
ちゃんと予習しないと(予習しても?)ついていけなそうです。
振り落とされないよう頑張りたいと思いますので、
またよろしくお願いいたします。

TokyoR 48で発表しました

昨日のTokyoR 48で発表してきました。

@dichikaさんの提唱する、Data science for meの精神に則り、
自分のデータを公開するぞ!ということで分野的に身近な装置で
自分の尿を化学分析したデータを公開しました。


当該データは以下URLで公開しています。
https://gist.github.com/siero5335/c7323407efb2b0b20b55

発表に際し、どうしてしまったんだ、変態になってしまったなど、
さまざまな褒め言葉をいただき嬉しかったです(こなみ



また、@dichikaさんがこのデータを簡単に取得できるようにしてくれました。
ありがとうございました!
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。