Bow,Word2vec on Python
ああ落合さんの言う言葉が胸に刺さる数日間でした。
意識が高いというのはいい面もあり悪い面もあり、
意識だけ高いのは悪いことって
くうってなります。
とりあえず意識高いこと僕は言ってるので、そのプレッシャーを楽しみながら、
脳の体力を春休みのうちに作りたいと思います。
長くても数日しか連続勉強できなかった気がするから、
先の予定を考えたり、あんまり遠いところの予測をするのは嫌ですが、
さて今日も機械学習、自然言語処理とりあえず読んで動かします。
Justin Bieber ft. The Chainsmokers - Everything I Gave You (Lyrics) 4K
今日読むものとそのmotivation
PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind
Bags of wordとかの意味と使い方を知りたいのでとりあえず動かしてるブログを
Hironsan - Qiita
自然言語処理 カテゴリーの記事一覧 - 自然言語処理の深遠
↑から順に、今日の午後は営業時代の先輩とご飯をしそうなので12時か13時くらいまで突っ走ります。
読んでみた、動かしてみた感想、わからなかったところ
Bags of word
PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind
・概要
Gensimとscikitlearnを使ってニュースのカテゴリ分類をする。
gensimは初めて使うな
Teaching a Computer to Read: - Scripted
どうやら上記ブログはこちらのEnglish siteを動かした概要らしいのでこちらを読んでいく
gensimにも重要語抽出の関数あるんやね一発でできるらしい
・わからなかったところ
潜在意味解析(Latent Semantic Indexing)はじめてきいた。
予想以上にわからないこと多かったのと、いろんな人の同記事参考コードを動かしてちょっと時間かかったので、Python2→3変換してとりあえず全部動かす。
Bags of word は、
単語それぞれ独立した次元のベクトルとしてコーパスの空間作って、一回出現するごとに1を追加して、ベクトル化(普通は正規化する?)
感じってのがわかったのでとりあえずおいておきます
tf-idfと並ぶ専門用語抽出アルゴリズムみたいですね。
gensimが便利そうなので詳細をまた後で調べようと思います。
・参考
潜在意味解析
潜在意味解析 - Wikipedia
Deepleaning for java BoW tf-idf
Bag of Words(単語の袋) & TF-IDF - Deeplearning4j: Open-source, Distributed Deep Learning for the JVM
Python3で上記コードを置換と、Livedoor newsコーパスを使う
scikit-learnとgensimでニュース記事を分類する - Qiita
全体的にやってて思ったこと、次にやろうと思うこととか。参考とか
BoWとかについては、英語のテキストに対してやってるのよりlivedoor newsコーパス使ってるこっちをより詳細見ていきたいと思います。
解説も細かいのでありがたいです。
scikit-learnとgensimでニュース記事を分類する - Qiita
断片的にコードをGithubで公開する方法があるみたいで、汎用関数とか書いとくと便利そうなのでちょっと使ってみようと思いました。
GitHubについてもう少し知ってみる。その5(Gistでお手軽コード管理) | Alpac@labo:大分県臼杵市でホームページ運営やWordPressやってます。