Pythonと数学と音楽とetcの落書き帳

かなりテキトーに、断片的に離散的にプログラミングや、音楽やいろいろなことを書いていく。洋楽のレビューのついでにPythonその他のブログや本のノート、備忘録を書いていきます。

Ubuntu環境でJupyter notebookをインストールしようとしたら

久々に更新します。

いろいろありました。いや、特にないかもしれません。

 

更新できなかった理由は、バイトでAI講習会のカメラマンに行ったのですが、準備不足の面が目立って、ほぼ素人の僕がTAまでしていたり、

そのおかげでトレーニングもできなかったり、いろいろありました。

 

そうゴタゴタしている間に、他のプロジェクトのタスクとか、やるべきことがどんどん雪だるま式に増えていきました。

 

ubuntuでのmecab環境構築

・sci-kitlearnを使ったkerasの復習

 

が必要になったので、今日はそれをして、つまったところをメモしていきます。

まず、職場のゲーミングPCのウブンツを使ったら既存のユーザーのJupyter configureを書き換えてSU剥奪されたので(ええ。)

職場のノートPC(Win10, 32bit)のWSLでします

バージョンで言うと16.04なので、書きの記事がそのまま使えます 

Windows Subsystem for Linuxをインストールしてみよう! - Qiita

 

Ubuntu で Anaconda 5.0.1 のインストールと Python 3.6 の設定(パッケージのインストールなど)

Ubuntu16.04LTS環境にMeCab-Python3を導入する | Linuxとかプログラミングとか。

 

もう、、WSLのサイトはgitとかのインストール方法も書いてくれてるし、親切すぎますね。。。

 

こういうサイトが溢れている現代に生きていてよかったと感じざるをえない

 

このサイト見ながらAnacondaを入れれば、普通にゲーミングPCでTF-IDF計算できた。。

今ノートPCで動かしてみているんですが(僕のPCだとスペックが落ちてて動かない。)

ダメだったらgensim使った手法も講習会で知ったので、それとか、sci-kit learnの使ってやってみようと思います。

 

よーし今日は捗りそうじゃぞ!

Bow,Word2vec on Python

ああ落合さんの言う言葉が胸に刺さる数日間でした。


意識が高いというのはいい面もあり悪い面もあり、

意識だけ高いのは悪いことって

くうってなります。

とりあえず意識高いこと僕は言ってるので、そのプレッシャーを楽しみながら、

脳の体力を春休みのうちに作りたいと思います。


長くても数日しか連続勉強できなかった気がするから、
先の予定を考えたり、あんまり遠いところの予測をするのは嫌ですが、

さて今日も機械学習自然言語処理とりあえず読んで動かします。



Justin Bieber ft. The Chainsmokers - Everything I Gave You (Lyrics) 4K

今日読むものとそのmotivation

PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind
Bags of wordとかの意味と使い方を知りたいのでとりあえず動かしてるブログを

Hironsan - Qiita
自然言語処理 カテゴリーの記事一覧 - 自然言語処理の深遠



↑から順に、今日の午後は営業時代の先輩とご飯をしそうなので12時か13時くらいまで突っ走ります。

読んでみた、動かしてみた感想、わからなかったところ

Bags of word

PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind

・概要
Gensimとscikitlearnを使ってニュースのカテゴリ分類をする。
gensimは初めて使うな
Teaching a Computer to Read: - Scripted
どうやら上記ブログはこちらのEnglish siteを動かした概要らしいのでこちらを読んでいく
gensimにも重要語抽出の関数あるんやね一発でできるらしい
・わからなかったところ

潜在意味解析(Latent Semantic Indexing)はじめてきいた。


予想以上にわからないこと多かったのと、いろんな人の同記事参考コードを動かしてちょっと時間かかったので、Python2→3変換してとりあえず全部動かす。

Bags of word は、
単語それぞれ独立した次元のベクトルとしてコーパスの空間作って、一回出現するごとに1を追加して、ベクトル化(普通は正規化する?)
感じってのがわかったのでとりあえずおいておきます
tf-idfと並ぶ専門用語抽出アルゴリズムみたいですね。
gensimが便利そうなので詳細をまた後で調べようと思います。
・参考
潜在意味解析
潜在意味解析 - Wikipedia
Deepleaning for java BoW tf-idf
Bag of Words(単語の袋) & TF-IDF - Deeplearning4j: Open-source, Distributed Deep Learning for the JVM
Python3で上記コードを置換と、Livedoor newsコーパスを使う
scikit-learnとgensimでニュース記事を分類する - Qiita

全体的にやってて思ったこと、次にやろうと思うこととか。参考とか

BoWとかについては、英語のテキストに対してやってるのよりlivedoor newsコーパス使ってるこっちをより詳細見ていきたいと思います。
解説も細かいのでありがたいです。
scikit-learnとgensimでニュース記事を分類する - Qiita
断片的にコードをGithubで公開する方法があるみたいで、汎用関数とか書いとくと便利そうなのでちょっと使ってみようと思いました。
GitHubについてもう少し知ってみる。その5(Gistでお手軽コード管理) | Alpac@labo:大分県臼杵市でホームページ運営やWordPressやってます。

MLマラソンon Saturday!

おはようございます、
最近拙い内容を、素早く書くことを意識してたんですが、毎日はブログ書けなくて、Twitterに思考を吐いてしまっている。
なんかTwitterって、良くない気がする。なんかよくない。
フォロワー増やせばよいかな?
思いっきりポジションを取るのと、空気を読むことのバランスを全然掴んでない僕です。
 
 
 
さて作業音楽については、最近AvicciとThe chainsmorkersしか聞いていません。


Avicii - Levels


The Chainsmokers - All We Know (Audio) ft. Phoebe Ryan

作業BGMにノリノリ系はちょうど良いんですよね。

この前久々に歌を歌う機会があったんですが、まあまったく声がでなくなってて、歌えるような曲聴きながら歌おうかなと思いつつも、
最近はPythonのこと調べながら聞いてるので、歌うとそっちの質が落ちるのが嫌なので、
休憩時間と、北海道の雪が溶けてから、宇多田ヒカル、Adele、Bruno Marsあたりすらすら歌っていきたいですね。
 
 
 
 

 Introduction

 
さて!
今のバイト先の自然言語処理に加えて、なんと僕がAIプログラミングスクールのメンターもしてしまうTragedyがちょっと予測できているので、
せめてMachine learningのPythonパッケージは一通り扱えて、数学的、技術的議論は社会人レベルにできるレベルにしよう!
 
という目論見で、ML関係の教材、自然言語処理のWebsiteをPickして、この土日集中的にやっていこうと思います。
 
どうもダラダラしてしまっていたので、この土日に今からあげるものを全て読んで、コードを動かしていきます。
 
TwitterでフォローしてるPonanza(囲碁AI?)開発者の方がバグが1番学び大きいよね。とにかく実行!Run and Run!っていってたので、
バグに対してもゴチゴチぶつかって、原因解析等をしていきたいと思います。
 
どっかの人たちがMLのことをアドベントカレンダーでまとめてくれてます。
アドベントカレンダープログラマー文化の一つで、12月のクリスマスまでに技術ブログを毎日更新するイベントみたいなものらしいです。
僕の勉強の題材にぴったり!]
とりあえずk-meansのところまでつきすすんでみます。
 
 
 
自然言語処理について、いろいろコードを動かして公開してくれたり、解説してくれたりする、なんとも素晴らしい方にたまたまQiitaで出会いましたので、とりあえずこの人のブログをぼーんって全部読んでみます。
そんなに量なさそうだしね。
 

 

今日のメイン

MLアドベントカレンダー

線形回帰を実装してみよう | Developers.IO

線形回帰、つまり一次式で予測をするModelを作る。(よくわかってない。)
ボストンハウスプライスのデータを使って、(sci-kit learnのデータセット)Kerasなどのライブラリは使わず、Numpyを使って損失関数(は実施してないけど、それを微分した勾配)をしっかり実装、解説してくれていてとてもよかった
 
あと、Pandasがmatplotlibをちょっとwrapしてて、DFを簡単にグラフにプロットできるのを知ったのでよかった
 
あやめ(花)の品種分類。花弁の長さとか、なんやらいろんなのから、多値(品種)分類をする。
ロジスティック回帰って、回帰なん?分類なの?
よくわかんなくなってきたけど、分類に近い気がするよ
 
 

主成分分析を実装してみよう | Developers.IO

 なんかとりあえず多次元なものを低次元のものにする。

ボストンハウスプライスを、行列の固有値分解とか使って固有ベクトルに分解して次元落としてるけど、よくわかんないんだよね。

 

多次元だと、↓の参考記事の理論から、端に集まってしまうからよくないらしい。(厳密なことはようわからん)

参考

次元の呪い、あるいは「サクサクメロンパン問題」 - 蛍光ペンの交差点[別館]

 

 ・

tf-idfについてざっくりまとめ_理論編 | Developers.IO

tf-idfについて勉強したのでざっくりまとめ_pythonでやってみた | Developers.IO

 TF-IDF(Term Frequency- Inverse Document Frequency)とは文章中の単語のレア度、ユニークネスっていうか、

その単語がその文章のアイデンティティなのかそうでないのか測る手法なんですが、それ業務で今ぶちあたったんですよね。

TFは、ドキュメントにどのくらいの頻度で出るのか、

IDFは、どんだけその単語が、それにしか出ないのか、

どちらもレアかつ、選択ドキュメント群のアイデンティティとなるものであればあるほど大きくなるという仕組みです。

似たものでコサイン類似度もどこが絡むのかよくわからないけど使うらしい。

ベクトルのなす角 - Wikipedia

自然言語処理やるなら避けては通れない壁、BoW(Bags of Word)の意味もよくわかんないので、次はそっちも深掘りします。

Working With Text Data — scikit-learn 0.18.2 documentation

上記のtf-idfについての日本語の解説はこちらのものを動かして解説しているだけなので、こちらも読みました。

こっちのTutorialは、tf-idfは特徴量紹介で、ゴールは文章の分類です。

Bags of Wordわかんないね袋?単語の袋??

ちなみにこっちはsci-kitlearnのGrid searchも使っていました。(ハイパーパラメータのチューニングに使う)

 

ナイーブベイズについて勉強したのでざっくりまとめ — pythonでやってみた | Developers.IO

ナイーブベイズもどうやら自然言語処理に関連の大きいものらしい。

学習が高速、かつ実装が容易

このMLアドベントカレンダー自然言語処理よりでよい。

まあ基本は条件付き確率のベイズの定理使うぽいスネー。仮説をたてて問題を単純化するらしい。

TF-IDFと同じじゃないか?クラス(ドキュメント群)とか単語とか、よく見たらさっき貼ったsci-kit learnのチュートリアルで一続きに扱われているみたいですね..

言語モデルにおける未知語の扱いとスムージング | Developers.IO

形態素解析ではなく、N-gramを使って解析することの統計的な話(よくわからんかった)

マルコフ性というのは1つ前の状態のみが現在の状態に影響を与えると仮定したものになっています。
これ僕の専門のランダムウォークの本の微分方程式のところで出てきてました。
この話にもランダムウォーク出ていますね
Markov Chain Monte Carlo
これはalphaGOとかでも使うらしいすねー
Google Page Rankの理論らしい。
なんかこう、数学的に奥が深くなってきても現実とのつながりのあるサービスにしっかり理論の応用ができるGoogleすげえ。
 

k-meansを実装してみよう | Developers.IO

機械学習の分類でも回帰でもないクラスタリングに使われるk-means法の話。

人間がなんか指定するわけではなく、データ群を、機械学習によってふるいにかけて、なんらかの基準で分類する感じ。

セントロイド(初期クラスタの中心地?)を決めて、距離の近いものをあつめて、重心に近づけて、とかいろいろするらしい。幾何学出てきたわ

 

おわりに

12月10日まで進んだ。

エンジニアの12月ってこんなに密度高いんだねって感じです。。

最近自然言語処理さぼってて全然用語わかんねえなって感じです。

3月は別れの時期で、雪解けの時期で、わくわくもあり、捨てるものも有り、いろいろな気持ちなんですが、

とりあえず学校も始まるので、数学の授業に向けて、かつ、今バイトで使ってるところ、社会ではやってるものから数学のウォームアップもしていきます。

Webアプリ開発もしたいから本んも読むし、人も集めるし、

3月つっぱしるぜえええ

今日の午後は、ちょっとマクロに

The Art of Choosing,とMastering Bitcoin、はじめての数論やってこうと思います。

 

選択の科学 コロンビア大学ビジネススクール特別講義 (文春文庫)

選択の科学 コロンビア大学ビジネススクール特別講義 (文春文庫)

 

 

 

Mastering Bitcoin

Mastering Bitcoin

 

 

次に勉強読むものやること

MLアドベントカレンダーどうやらちょっと古いけど同じくなんかまとめてくれてるのあったからこっちも読もうと思う。なんかよくわからない言語使ってるので、理論とかの参考程度かな

ロジスティック回帰をしてみる #alteryx #11 | Alteryx Advent Calendar 2016 | Developers.IO

 

tf-idfがよくわかんなかったんだけど、それ以前にBoWがわかんなかった

【特別連載】 さぁ、自然言語処理を始めよう!(第1回: Fluentd による Tweet データ収集) | DATUM STUDIO株式会社

 

PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind

ここいらが、僕にでもとっつきやすいのかもしれない

 あと↓の本でもうちょっとsci-kit learnの復習をするよ

Pythonによる機械学習入門

Pythonによる機械学習入門

 

自然言語処理の深遠

Hironsan - Qiita

参考

ビットコイン、ブロックチェーンを動かすマラソン!!

おはようございます。
抱えていた口内炎も治り、新しい仕事もはじまり、気分一新な朝ですが、

最近自然言語処理のことしか勉強してなかったんですが、春休みそういえばブロックチェーンビットコインアルゴリズムの方も勉強したかったんだってことを思い出しまして。


仮想通貨愛好会にもお声をかけていただいているので、ご期待に添える知識をつけるべく。

Pythonでのブロックチェーンの実装と、Mastering BitcoinとBlock Chainのオライリーの本を一気にバッと今日で読み切ろうかなとか考えています。

でもこういうの勉強してる時話しかけられるの嫌いなんだよな。。
あなたの都合で、僕の神聖なる集中の意識を濁さないでくれ本当にって。なってしまいます。
今日オフィスに人が来たりしたら途中で終えます。

さて!今日読んでいくもの、書籍をご紹介します!
書籍とはいえ、全てネットに落ちているものなので、完全にトレースできます!オライリーは、型落ちの本とか意外とPDFで落ちてるんですよね。
お金がなかったりなんだったりしても、一度はぐぐってみるものです

Pythonのデコレータについて - Qiita

python3でブロックチェーンを作ってみる - Qiita

Translations – Mastering Bitcoin



Introduction

さて!ようやくやくBitcoinのアルゴリズムの勉強に移ります!!オソスギィ!
最近なんだか得体がしれないけど、すごいとか金の数字に目を奪われて思考停止でブロックチェーンビットコインという言葉を使っている人が多いです、。
僕は思考停止でブロックチェーンとかビットコインに手を出すことに反対はしませんが、せめて手を出した後にはもっと勉強すべきだと思います。

成功とかお金儲けは確率的な要素がかなり多いので多分向こう見ずでいろんなことに取り組む人にそういったものが集中するものだと思いますが。
そういうのの確率的な要素を操作するためにはやはり論理的な考え方、基本原理についての知識などが必要になります

僕は、少しでも人生の失敗を減らしたいし(でも失敗などは歓迎すべきもの)苦しい時間を減らして、クリティカルに成功していく時間を味わいたいという欲があるので、しっかり自分の予測の源となるような、脳の筋肉を育てていきたいと思います。

さて!
自然言語処理のようにざっくりと概要と、わからなくてハマったところを要所調べてまとめます。
の前に今日のヘビロテソング。


The Chainsmokers - Inside Out (Audio) ft. Charlee

chainsmorkersエモい。
Inside outで好きになる恋愛って理想ですけど、僕はわりとスタイルとか顔とかから性格を許容していくOutside inな思考が多いんですが、まあ長く続けることとか考えたらやっぱInside outですよねって(多分この曲のmeaningはちょっと違うかも。しらん)

概要と考えたこととか

ブロックチェーンを作ることで学ぶ 〜ブロックチェーンがどのように動いているのか学ぶ最速の方法は作ってみることだ〜 - Qiita

・概要
PythonのFlask, requestsライブラリ使ってブロックチェーン作るよ!!
PoWの実装と、トランザクションの実装をする!

・その他参考
僕はオブジェクト指向プログラミングてのがあんまりよくまだわかんなくて、Classとかも正直ありがたみがいまいちわかってない状況だったんですが、
Pythonのデコレータについて - Qiita
ブロックチェーンクラスのメソッドについてる@マーク。たまにPythonのコードに現れるけどなんなのかしらなかった
デコレーターというもので、関数をなにやら修飾するものらしい(そのまんまやん)
Python
def name():で関数を定義しますが、なにやらその↑に@関数名で、既存の関数で修飾するらしいですね。
関数を関数でデコレートする感じですかね。既存の関数を変更せずに使えるって感じかな
Pythonで classmethod、staticmethod を使う - Qiita
ブロックチェーンの記事には、staticmethod,propertyがデコレータ使って宣言されてますね
その2つもまだよくわからん
し、そんなのまだまだ序の口で、Flask使うあたりからもうさっぱり、githubのコードcloneしても動かなかった。。

python3でブロックチェーンを作ってみる - Qiita

・概要
Pythonでただ時間とかをインプットにハッシュ値を生成するブロックチェーンコマンドラインで動かす!
僕のコマンドラインでも動いた!

Block 1 has been added to the blockchain!
Hash: 199ee2b48adaae1ee3a2764b98e144a4bd4020774ad3d57cc82c304d266c3fb2

Block 2 has been added to the blockchain!
Hash: ad67df2e682f0205ff309e9af37fb39cf78f4b1ec30e8c524056cda294b6c811

Block 3 has been added to the blockchain!
Hash: 85f0b778e00fba0ae64840438c80d16355a97f299a2354f439b92b7af205ea85

生成時の時間とか、ブロックのインデックス、前のブロックのハッシュ値を引数にハッシュを通すのをfor ループしてる

超簡易ブロックチェーンって感じPythonのHash関数のupdateとかようわからんな

・わからない
ハッシュ関数アルゴリズムとか、気になるよね
・参考
14.1. hashlib — セキュアハッシュおよびメッセージダイジェスト — Python 2.7.14 ドキュメント

Mastering Bitcoin

Translations – Mastering Bitcoin
・概要
とりあえず邦訳のもの読みましたが、けっこーHTTPの知識とか、Linuxコマンドとか乗って解説があって、ちょっとそこに触れないように読んで(つまりBitcoinの理論のエッセンシャルなところだけ読んだ)みたんですが、まあほとんどわからん。
やっぱBitcoinのコアなところは暗号理論にもとづいてどんだけ信用されるかってところなんで、あんまり理解できないですねわからない用語ばかりです。

Bitcoinは、金融機関を通さない直接的オンライン取引で、二重使用問題へのソリューションとして革新的な技術であるってところが味噌な気がします。
(紙の紙幣でいう、製造技術、印刷技術を暗号技術によって肩代わりするもの)
数独(Number Place)に似た方法でトランザクションの記録を行うマイニングとか。


トランザクションの仕組みなども、、C++,Pythonのコードで書かれています。(PythonにBitcoin用のライブラリがあるのは知らんかった。)

なんかとにかく暗号理論とHTTPとかネットワークの知識の融合した技術であって、まだまだ理解するには経験と知識足りないなって感じでした。

ハッシュ関数SHA256、公開鍵秘密鍵楕円曲線記号、マルチシグネチャ

おわりに

最近流行りのBitcoinビジネスとか、まあ前からあるんですがバブル的な対象のビジネスに対しては、僕も同じような商材を扱って営業したこともあってすごく思い入れがあります。

馬鹿が馬鹿に対して売るようなビジネスをなくしてフェアな消費活動を行える経済を作りたいなと思います。

学校教育って、手法とか体制に問題がかなりあるんですが、そこでやってるコンテンツ(数学、文学、言語学)ってとても人間の人生を豊かにするのに役立つ宝石のようなものだなと最近思うんですが、
なんかそれが軽視されてるのって、今のビジネスってやっぱITリテラシーのない人々の情報格差につけこんだマーケティングが、簡単でそれなりに成り立ってしまうからだなって思うんです。
もちろんそういった行動力は人間の貴重な部分ではあるんですが、僕は堀江さん(元ライブドア堀江貴文さん)が言うように、もっとフェアな戦いしたいなと。(まあ考えること放棄して人に雇われていきたいとかいう人はおいといて)

現代の流れを読み解いて、自分の人生の時間を投資する対象を選ぶための道標としての学問がもっと尊重されるように、社会の方のリテラシーあげたいなって思いました。

まあこんなこと言っててもしょうがないので、僕が社会的にImpressionを持った人間になれるように、数学とプログラミング(とあわよくば英語コミュニケーション)を武器に戦える人間になれるようにしっかり実践ベースの勉強をしたいと思います。



次にBitcoinの勉強するために読むのはサトシナカモトの原著邦訳にしましょう
http://www.kk-kernel.co.jp/qgis/HALTAK/FEBupload/nakamotosatoshi-paper.pdf
それと、ブロックチェーンの本ですね
http://w2.blockchain-tec.net/blockchain/blockchain-by-melanie-swan.pdf

今日の午後は春休み明けの次の学期に向けて数学の勉強もしておきたいので、がっつり数論の本とか読んで暗号理論と数学への橋渡しをしようと思います。

はじめての数論 原著第3版 発見と証明の大航海‐ピタゴラスの定理から楕円曲線まで

はじめての数論 原著第3版 発見と証明の大航海‐ピタゴラスの定理から楕円曲線まで

参考

自然言語処理100本ノック30~

こんにちは。
身近な人が、就活に失敗して、精神不安定になり、消費者金融からお金を借りて仮想通貨の詐欺に投資し、豪遊してしまっていて、親が六ヶ月たったあと発見して自発的に返済する。ということがおきましていろいろ考えます。

精神不安定な人につけこむ奴恐ろしい、というのと、そういう時にHelp出せないと危ないなと。

わからないことやできないことを素直に言える相手って大切です。
もはや僕は知らない人にでもそういう話をできるような、真っ裸になれるような人になりたいなと思ったりもしたりです。

さてそれとは別に、昨日、仲の良い先輩の京大M進祝をして、モチベーションが上がっているのと、
もう少し早く細かいところに入りたいので、言語処理100本ノックをしていきたいと思います。
1時間30分タイムアタックということで、いつもどおり総なめしていきます。

But first, let me take a selfie.


The Chainsmokers - #Selfie (Club Mix) (Out Now)

Introduction

自然言語処理100本ノック
言語処理100本ノック 2015
30~はじめていきます。
今日はMeCab使った形態素解析がMainかな!

概要とはまったところとか

30

・概要
neko.txtを形態素解析するよ!!
一文毎に辞書型のリストで返すものを作ります。
MeCabは業務で使って、標準辞書を
GitHub - neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic
に設定してあるので僕はこれでやります!!
参考サイトでは、ジェネレータを
yieldで作ってなにかしてる。調べてみよう

・よくわからん
Pythonのイテレータとジェネレータ - Qiita
ジェネレータ…イテレータの一種で、要素を取り出すたびに処理を行い要素を生成する。
イテレータは反復処理で、for文?
ジェネレータ関数というものが存在して、return の変わりにyieldを使っているようだ。
リストとして用意するより、ジェネレータとして用意することによって、計算コストを節約するために使ったりするらしい

・参考
Pythonのイテレータとジェネレータ - Qiita
素人の言語処理100本ノック:31 - Qiita

31

・概要
MeCab形態素解析して動詞の表層系抜き出すだけ。
・よくわからん
よくやってた

・参考
素人の言語処理100本ノック:31 - Qiita

32

・概要
↑と同じで原型抜き出すだけ

・参考
素人の言語処理100本ノック:32 - Qiita

33

・概要
サ変接続を抜き出す、。


・参考
素人の言語処理100本ノック:33 - Qiita

34

・概要
名詞+の+名詞を検出して出力

・参考

35

・概要
名詞があったらリストに加えて、名詞以外がきたらelseで吐いてリストリセット


・参考
素人の言語処理100本ノック:35 - Qiita

36

・概要
collectionライブラリのCounter関数で、名詞出現頻度のカウント

・参考

37

・概要
36の上位をmatplotlibでプロット
・よくわからん


・参考

38

・概要
単語出現頻度のヒストグラム

・参考

39

・概要
→(順位)↑(出現頻度)の散布図

・参考

おわりに

既知のことばっかだったのでテキトーに、次はcabochaを使うようですが、環境構築が上手く行かず今のところほとんど動かないのでどきどき

参考

自然言語処理100本ノック20~29

こんにちは。
さあ自然言語処理100本ノックの続きを!
言語処理100本ノック 2015

素人の言語処理100本ノック:まとめ - Qiita


Talking To The Moon Bruno Mars Lyrics

Bruno Mars Talking To The Moon (Official Video)
語りながらやります。

Introduction

最近漠然と極性辞書を作って、テキトーに応募したプログラミングスクールのメンターに落ちて、
ちょっとテキトーにやりすぎたので、ポンポン定量的にできることをやろうと。
思ったのと、自然言語処理は完走するぜよ!
目標と期限

概要、わからんかった

20

・概要
Python:gzipモジュールを使って、gzipファイルを解凍、読み取りモードで開く
・よくわからん
13.2. gzip — gzip ファイルのサポート — Python 3.6.4 ドキュメント
19.2. json — JSON エンコーダおよびデコーダ — Python 3.6.4 ドキュメント
ライブラリの詳細はここ

・参考
素人の言語処理100本ノック:20 - Qiita

21

・概要
Python:なんか20で作ったイギリスタイトル見つけてテキストを取ってくるやつとreライブラリを使ってカテゴリータグのタイトルを取ってきている。


・よくわからん
6.2. re — 正規表現操作 — Python 3.6.4 ドキュメント
正規表現って何?(ぎょええ)
→表現にマッチする文字列の集合
正規表現とは? - Qiita
様々な文字列を一つの文字列で表現?
文字を特徴付けでくくって、命名して、それで検索とか置換をするってことかな?

サルにもわかる正規表現入門
こっちのが詳しい、
検索を便利にするために、文字の集合をいくつかの記号で表してる

なんだこれはたまげたなあ
reは、業務でも使ってるんだけど全く理解してないなあ。
メタ文字
貪欲マッチ?
・参考
素人の言語処理100本ノック:21 - Qiita

22

・概要
Python:正規表現コンパイル??

・よくわからん
貪欲マッチ、非貪欲マッチ?

・参考
素人の言語処理100本ノック:22 - Qiita

23

・概要
Help:早見表 - Wikipedia
見出しにはレベルがあるらしい、==の数?
セクション名と、そのレベルを求める
Python: reが、適切な正規表現の指定をすることによって、特定の文字の組み合わせを取り除いたりすることができるのはわかった。

・よくわからん
reの詳細は未だ不明
・参考
素人の言語処理100本ノック:23 - Qiita

24

・概要
Json記事中で参照されていたメディアファイルの名前を抜き出してる。
・よくわからん
わからん
・参考
素人の言語処理100本ノック:24 - Qiita

25

・概要
記事中の基礎情報テンプレートのフィールド名と値を抜き出す?

・よくわからん
基礎情報テンプレートについても参考サイトに書いてあったありがたい
どうやらWikipediaなどの右の方に表示されてるような、タイトル付きデータのこと?
Template:基礎情報 国 - Wikipedia

・参考
素人の言語処理100本ノック:25 - Qiita
Template:基礎情報 国 - Wikipedia

26

・概要
25でやったテンプレートの値から強調マークアップを取り除いてテキストに
コード的には、25の参考サイトに書いてあるのとかわらない。
わからないのは、強調マークアップという言葉である。参考サイトによると、
’’’~~’’'
Pythonのドキュメントコメントみたいな漢字で、マークアップの強調度が表されてるらしい。
ふーん

・よくわからん

・参考
素人の言語処理100本ノック:26 - Qiita

27

・概要
内部リンクマークアップを除去してテキストに変換する
Python:

・よくわからん
なにがわからないかわからないので、時間がある時にもう一度みます。()

・参考
素人の言語処理100本ノック:27 - Qiita

28

・概要
Python:MediaWikiマークアップを可能な限り除去
・よくわからん

・参考
素人の言語処理100本ノック:28 - Qiita

29

・概要
Python:
テキスト中の画像リンクを取り出した。
・よくわからん
何がわからないかわからないけど便利そう()
・参考




おわりに

reモジュールの使い方は、PythonJavaSでやるか!
車輪の再発明は嫌なのでとりあえず自分のPCで動かしました。
僕のPCはPythonでファイル開く時のモードを'r'にする必要があったのですが、それ以外はそのまま動きました。
こんなこともできるんだくらいな感じで
gzipファイルについても、分からないことだらけです。

冒頭にも書きましたが、メンターを落とされて、まあスキルチェックのプライベートメソッドもわかんんない。みたいな知識の少なさもあるんですが、
もっと問題なのは、わかりやすい成果、プロジェクト開発実績がないことだと思います。
Visualizeするのはフロントエンドだし、自然言語処理はWebからスクレイピングするので、HTMLとJavaSくらいは軽くしって、春休み中に、なんとか胸貼れるくらいの機械学習系の判別機とか作りたいスね。

なんかちょっと最近いろいろかじかじしてましたが分散してしまったので、一回春休みやってきたことと、4月までに達成する目標また整理したいと思います。

あと、僕のLet's note、大学入学時に買ったもので今年で3年目に入るんですが、SPECはいい方だと思うんですが、扱いが悪かったのもあって、ブログ執筆中によく固まります。
IMEの変換履歴とか削除したら軽くなるとか聴いたりします。

ただこれ親に買ってもらったものですし、なんか自分の身を削って買ってないところから、物の大切さを感じれていません。


【160万のPC】フルスペックのiMac Proがキター!【ヒカキン流買い物論】
彼女の影響でYoutube見るようになって、これ見たんですが、
やっぱり自分の人生ともなるような仕事Work as lifeに対しては、お金を惜しむべきではないですし、覚悟も付きますし、(ほとんどヒカキン受け売りやn)
UNIXベースのCUIにも慣れたいので、MacBoook Proを買おう

参考

機械学習のアブスト的なのを読んでいくよ

こんにちは。
何度も復唱しますがひきこもりがちです。
運動もしているけど、なかなかストレス溜まってきますね

まあこのストレスを目的を終わらせるためのエネルギーとしてゴリゴリやっていこうと思いますよ。
なんかやること多いんだけど整理できないからとりあえずこれ終わったらまとめよう。

今日はAvicci聴いていきます。

Avicii - Avicii - X You (Original mix) (FULL SONG) HQ

がっつりEDMって感じで、まあなんにも考えなくてもリズムに乗れる曲ばかりきいてますね.
今日はこの曲だけヘビロテして落合先生風に1時間で、次の記事を読んで次に何をするべきかまとめようと思います。
この曲Youtubeの漫画ネタバレ動画のBGMのひとつなんだよね(あああ)

Introduction

あー機械学習と専門とするところで働いているけど、用語も概念もやっぱり全然知らないよ!
ってことで、なんかそれっぽいこと書いてあるブログを読んでいきますよ。
英語です。Google翻訳を使います。要約に英語がまじるかもしれません
概要、よくわからなかったところ、次に調べるべきことやるべきこととします。
早くクラウドソーシングくらいできるようになるで。お金稼ぐ!Imac買うぞ!

読むのは
Data, Learning and Modeling - Machine Learning Mastery
Where Does Machine Learning Fit In? - Machine Learning Mastery
Programmers Should Get Into Machine Learning - Machine Learning Mastery
Machine Learning is Popular Right Now - Machine Learning Mastery
Machine Learning is Fascinating - Machine Learning Mastery
Machine Learning Matters - Machine Learning Mastery
これら

この人はPython,Keras,LSTM推しの海外の博士

それぞれの要約

Data, Learning and Modeling

概要

機械学習の用語集、あるある現象や手法、データの概念etc

Where Does Machine Learning Fit In?

概要

機械学習の歴史と位置づけ、
確率統計か基本、
人工知能の研究の発展(学習は脳の学習から来てる。)

Programmers Should Get Into Machine Learning

概要

プログラマ機械学習しとけいいことあるから。

概要

データがたくさんあるし計算機もたくさんあるし、理論としても成熟してきたから人気だよ

Machine Learning is Fascinating

概要

マシンラーニングはOnly one!
データから学習するプログラムが作れる。
問題を対処するプログラムを作れるプログラムが作れる。

Machine Learning Matters

概要

機械学習は、従来のアルゴリズムと違い、プログラマが方法や、パラメータを完全に知らずに、目的と大量のデータがあれば未知のデータに対応するアルゴリズムである!

おわりに、次に勉強すべきことなど

だいたい言ってること同じだった
もうこういう概念的なのいらねえ。