Pythonと数学と音楽とetcの落書き帳

かなりテキトーに、断片的に離散的にプログラミングや、音楽やいろいろなことを書いていく。洋楽のレビューのついでにPythonその他のブログや本のノート、備忘録を書いていきます。

自然言語処理100本ノック20~29

こんにちは。
さあ自然言語処理100本ノックの続きを!
言語処理100本ノック 2015

素人の言語処理100本ノック:まとめ - Qiita


Talking To The Moon Bruno Mars Lyrics

Bruno Mars Talking To The Moon (Official Video)
語りながらやります。

Introduction

最近漠然と極性辞書を作って、テキトーに応募したプログラミングスクールのメンターに落ちて、
ちょっとテキトーにやりすぎたので、ポンポン定量的にできることをやろうと。
思ったのと、自然言語処理は完走するぜよ!
目標と期限

概要、わからんかった

20

・概要
Python:gzipモジュールを使って、gzipファイルを解凍、読み取りモードで開く
・よくわからん
13.2. gzip — gzip ファイルのサポート — Python 3.6.4 ドキュメント
19.2. json — JSON エンコーダおよびデコーダ — Python 3.6.4 ドキュメント
ライブラリの詳細はここ

・参考
素人の言語処理100本ノック:20 - Qiita

21

・概要
Python:なんか20で作ったイギリスタイトル見つけてテキストを取ってくるやつとreライブラリを使ってカテゴリータグのタイトルを取ってきている。


・よくわからん
6.2. re — 正規表現操作 — Python 3.6.4 ドキュメント
正規表現って何?(ぎょええ)
→表現にマッチする文字列の集合
正規表現とは? - Qiita
様々な文字列を一つの文字列で表現?
文字を特徴付けでくくって、命名して、それで検索とか置換をするってことかな?

サルにもわかる正規表現入門
こっちのが詳しい、
検索を便利にするために、文字の集合をいくつかの記号で表してる

なんだこれはたまげたなあ
reは、業務でも使ってるんだけど全く理解してないなあ。
メタ文字
貪欲マッチ?
・参考
素人の言語処理100本ノック:21 - Qiita

22

・概要
Python:正規表現コンパイル??

・よくわからん
貪欲マッチ、非貪欲マッチ?

・参考
素人の言語処理100本ノック:22 - Qiita

23

・概要
Help:早見表 - Wikipedia
見出しにはレベルがあるらしい、==の数?
セクション名と、そのレベルを求める
Python: reが、適切な正規表現の指定をすることによって、特定の文字の組み合わせを取り除いたりすることができるのはわかった。

・よくわからん
reの詳細は未だ不明
・参考
素人の言語処理100本ノック:23 - Qiita

24

・概要
Json記事中で参照されていたメディアファイルの名前を抜き出してる。
・よくわからん
わからん
・参考
素人の言語処理100本ノック:24 - Qiita

25

・概要
記事中の基礎情報テンプレートのフィールド名と値を抜き出す?

・よくわからん
基礎情報テンプレートについても参考サイトに書いてあったありがたい
どうやらWikipediaなどの右の方に表示されてるような、タイトル付きデータのこと?
Template:基礎情報 国 - Wikipedia

・参考
素人の言語処理100本ノック:25 - Qiita
Template:基礎情報 国 - Wikipedia

26

・概要
25でやったテンプレートの値から強調マークアップを取り除いてテキストに
コード的には、25の参考サイトに書いてあるのとかわらない。
わからないのは、強調マークアップという言葉である。参考サイトによると、
’’’~~’’'
Pythonのドキュメントコメントみたいな漢字で、マークアップの強調度が表されてるらしい。
ふーん

・よくわからん

・参考
素人の言語処理100本ノック:26 - Qiita

27

・概要
内部リンクマークアップを除去してテキストに変換する
Python:

・よくわからん
なにがわからないかわからないので、時間がある時にもう一度みます。()

・参考
素人の言語処理100本ノック:27 - Qiita

28

・概要
Python:MediaWikiマークアップを可能な限り除去
・よくわからん

・参考
素人の言語処理100本ノック:28 - Qiita

29

・概要
Python:
テキスト中の画像リンクを取り出した。
・よくわからん
何がわからないかわからないけど便利そう()
・参考




おわりに

reモジュールの使い方は、PythonJavaSでやるか!
車輪の再発明は嫌なのでとりあえず自分のPCで動かしました。
僕のPCはPythonでファイル開く時のモードを'r'にする必要があったのですが、それ以外はそのまま動きました。
こんなこともできるんだくらいな感じで
gzipファイルについても、分からないことだらけです。

冒頭にも書きましたが、メンターを落とされて、まあスキルチェックのプライベートメソッドもわかんんない。みたいな知識の少なさもあるんですが、
もっと問題なのは、わかりやすい成果、プロジェクト開発実績がないことだと思います。
Visualizeするのはフロントエンドだし、自然言語処理はWebからスクレイピングするので、HTMLとJavaSくらいは軽くしって、春休み中に、なんとか胸貼れるくらいの機械学習系の判別機とか作りたいスね。

なんかちょっと最近いろいろかじかじしてましたが分散してしまったので、一回春休みやってきたことと、4月までに達成する目標また整理したいと思います。

あと、僕のLet's note、大学入学時に買ったもので今年で3年目に入るんですが、SPECはいい方だと思うんですが、扱いが悪かったのもあって、ブログ執筆中によく固まります。
IMEの変換履歴とか削除したら軽くなるとか聴いたりします。

ただこれ親に買ってもらったものですし、なんか自分の身を削って買ってないところから、物の大切さを感じれていません。


【160万のPC】フルスペックのiMac Proがキター!【ヒカキン流買い物論】
彼女の影響でYoutube見るようになって、これ見たんですが、
やっぱり自分の人生ともなるような仕事Work as lifeに対しては、お金を惜しむべきではないですし、覚悟も付きますし、(ほとんどヒカキン受け売りやn)
UNIXベースのCUIにも慣れたいので、MacBoook Proを買おう

参考