MLマラソンon Saturday!
Introduction
今日のメイン
MLアドベントカレンダー
・
なんかとりあえず多次元なものを低次元のものにする。
ボストンハウスプライスを、行列の固有値分解とか使って固有ベクトルに分解して次元落としてるけど、よくわかんないんだよね。
多次元だと、↓の参考記事の理論から、端に集まってしまうからよくないらしい。(厳密なことはようわからん)
参考
次元の呪い、あるいは「サクサクメロンパン問題」 - 蛍光ペンの交差点[別館]
・
tf-idfについてざっくりまとめ_理論編 | Developers.IO
tf-idfについて勉強したのでざっくりまとめ_pythonでやってみた | Developers.IO
TF-IDF(Term Frequency- Inverse Document Frequency)とは文章中の単語のレア度、ユニークネスっていうか、
その単語がその文章のアイデンティティなのかそうでないのか測る手法なんですが、それ業務で今ぶちあたったんですよね。
TFは、ドキュメントにどのくらいの頻度で出るのか、
IDFは、どんだけその単語が、それにしか出ないのか、
どちらもレアかつ、選択ドキュメント群のアイデンティティとなるものであればあるほど大きくなるという仕組みです。
似たものでコサイン類似度もどこが絡むのかよくわからないけど使うらしい。
自然言語処理やるなら避けては通れない壁、BoW(Bags of Word)の意味もよくわかんないので、次はそっちも深掘りします。
Working With Text Data — scikit-learn 0.18.2 documentation
上記のtf-idfについての日本語の解説はこちらのものを動かして解説しているだけなので、こちらも読みました。
こっちのTutorialは、tf-idfは特徴量紹介で、ゴールは文章の分類です。
Bags of Wordわかんないね袋?単語の袋??
ちなみにこっちはsci-kitlearnのGrid searchも使っていました。(ハイパーパラメータのチューニングに使う)
・
ナイーブベイズについて勉強したのでざっくりまとめ — pythonでやってみた | Developers.IO
ナイーブベイズもどうやら自然言語処理に関連の大きいものらしい。
学習が高速、かつ実装が容易
このMLアドベントカレンダーが自然言語処理よりでよい。
まあ基本は条件付き確率のベイズの定理使うぽいスネー。仮説をたてて問題を単純化するらしい。
TF-IDFと同じじゃないか?クラス(ドキュメント群)とか単語とか、よく見たらさっき貼ったsci-kit learnのチュートリアルで一続きに扱われているみたいですね..
・
k-meansを実装してみよう | Developers.IO
機械学習の分類でも回帰でもないクラスタリングに使われるk-means法の話。
人間がなんか指定するわけではなく、データ群を、機械学習によってふるいにかけて、なんらかの基準で分類する感じ。
セントロイド(初期クラスタの中心地?)を決めて、距離の近いものをあつめて、重心に近づけて、とかいろいろするらしい。幾何学出てきたわ
おわりに
12月10日まで進んだ。
エンジニアの12月ってこんなに密度高いんだねって感じです。。
最近自然言語処理さぼってて全然用語わかんねえなって感じです。
3月は別れの時期で、雪解けの時期で、わくわくもあり、捨てるものも有り、いろいろな気持ちなんですが、
とりあえず学校も始まるので、数学の授業に向けて、かつ、今バイトで使ってるところ、社会ではやってるものから数学のウォームアップもしていきます。
Webアプリ開発もしたいから本んも読むし、人も集めるし、
3月つっぱしるぜえええ
今日の午後は、ちょっとマクロに
The Art of Choosing,とMastering Bitcoin、はじめての数論やってこうと思います。
選択の科学 コロンビア大学ビジネススクール特別講義 (文春文庫)
- 作者: シーナアイエンガー,櫻井祐子
- 出版社/メーカー: 文藝春秋
- 発売日: 2014/07/10
- メディア: 文庫
- この商品を含むブログ (6件) を見る
- 作者: Andreas M. Antonopoulos
- 出版社/メーカー: Oreilly & Associates Inc
- 発売日: 2014/12/20
- メディア: ペーパーバック
- この商品を含むブログ (7件) を見る
次に勉強読むものやること
MLアドベントカレンダーどうやらちょっと古いけど同じくなんかまとめてくれてるのあったからこっちも読もうと思う。なんかよくわからない言語使ってるので、理論とかの参考程度かな
ロジスティック回帰をしてみる #alteryx #11 | Alteryx Advent Calendar 2016 | Developers.IO
tf-idfがよくわかんなかったんだけど、それ以前にBoWがわかんなかった
【特別連載】 さぁ、自然言語処理を始めよう!(第1回: Fluentd による Tweet データ収集) | DATUM STUDIO株式会社
PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind
ここいらが、僕にでもとっつきやすいのかもしれない
あと↓の本でもうちょっとsci-kit learnの復習をするよ