自然言語処理100本ノック20~29
こんにちは。
さあ自然言語処理100本ノックの続きを!
言語処理100本ノック 2015
Talking To The Moon Bruno Mars Lyrics
Bruno Mars Talking To The Moon (Official Video)
語りながらやります。
Introduction
最近漠然と極性辞書を作って、テキトーに応募したプログラミングスクールのメンターに落ちて、
ちょっとテキトーにやりすぎたので、ポンポン定量的にできることをやろうと。
思ったのと、自然言語処理は完走するぜよ!
目標と期限
概要、わからんかった
20
・概要
Python:gzipモジュールを使って、gzipファイルを解凍、読み取りモードで開く
・よくわからん
13.2. gzip — gzip ファイルのサポート — Python 3.6.4 ドキュメント
19.2. json — JSON エンコーダおよびデコーダ — Python 3.6.4 ドキュメント
ライブラリの詳細はここ
21
・概要
Python:なんか20で作ったイギリスタイトル見つけてテキストを取ってくるやつとreライブラリを使ってカテゴリータグのタイトルを取ってきている。
・よくわからん
6.2. re — 正規表現操作 — Python 3.6.4 ドキュメント
正規表現って何?(ぎょええ)
→表現にマッチする文字列の集合
正規表現とは? - Qiita
様々な文字列を一つの文字列で表現?
文字を特徴付けでくくって、命名して、それで検索とか置換をするってことかな?
サルにもわかる正規表現入門
こっちのが詳しい、
検索を便利にするために、文字の集合をいくつかの記号で表してる
なんだこれはたまげたなあ
reは、業務でも使ってるんだけど全く理解してないなあ。
メタ文字
貪欲マッチ?
・参考
素人の言語処理100本ノック:21 - Qiita
23
・概要
Help:早見表 - Wikipedia
見出しにはレベルがあるらしい、==の数?
セクション名と、そのレベルを求める
Python: reが、適切な正規表現の指定をすることによって、特定の文字の組み合わせを取り除いたりすることができるのはわかった。
・よくわからん
reの詳細は未だ不明
・参考
素人の言語処理100本ノック:23 - Qiita
24
・概要
Json記事中で参照されていたメディアファイルの名前を抜き出してる。
・よくわからん
わからん
・参考
素人の言語処理100本ノック:24 - Qiita
25
・概要
記事中の基礎情報テンプレートのフィールド名と値を抜き出す?
・よくわからん
基礎情報テンプレートについても参考サイトに書いてあったありがたい
どうやらWikipediaなどの右の方に表示されてるような、タイトル付きデータのこと?
Template:基礎情報 国 - Wikipedia
26
・概要
25でやったテンプレートの値から強調マークアップを取り除いてテキストに
コード的には、25の参考サイトに書いてあるのとかわらない。
わからないのは、強調マークアップという言葉である。参考サイトによると、
’’’~~’’'
Pythonのドキュメントコメントみたいな漢字で、マークアップの強調度が表されてるらしい。
ふーん
・よくわからん
29
・概要
Python:
テキスト中の画像リンクを取り出した。
・よくわからん
何がわからないかわからないけど便利そう()
・参考
おわりに
reモジュールの使い方は、PythonJavaSでやるか!
車輪の再発明は嫌なのでとりあえず自分のPCで動かしました。
僕のPCはPythonでファイル開く時のモードを'r'にする必要があったのですが、それ以外はそのまま動きました。
こんなこともできるんだくらいな感じで
gzipファイルについても、分からないことだらけです。
冒頭にも書きましたが、メンターを落とされて、まあスキルチェックのプライベートメソッドもわかんんない。みたいな知識の少なさもあるんですが、
もっと問題なのは、わかりやすい成果、プロジェクト開発実績がないことだと思います。
Visualizeするのはフロントエンドだし、自然言語処理はWebからスクレイピングするので、HTMLとJavaSくらいは軽くしって、春休み中に、なんとか胸貼れるくらいの機械学習系の判別機とか作りたいスね。
なんかちょっと最近いろいろかじかじしてましたが分散してしまったので、一回春休みやってきたことと、4月までに達成する目標また整理したいと思います。
あと、僕のLet's note、大学入学時に買ったもので今年で3年目に入るんですが、SPECはいい方だと思うんですが、扱いが悪かったのもあって、ブログ執筆中によく固まります。
IMEの変換履歴とか削除したら軽くなるとか聴いたりします。
ただこれ親に買ってもらったものですし、なんか自分の身を削って買ってないところから、物の大切さを感じれていません。
【160万のPC】フルスペックのiMac Proがキター!【ヒカキン流買い物論】
彼女の影響でYoutube見るようになって、これ見たんですが、
やっぱり自分の人生ともなるような仕事Work as lifeに対しては、お金を惜しむべきではないですし、覚悟も付きますし、(ほとんどヒカキン受け売りやn)
UNIXベースのCUIにも慣れたいので、MacBoook Proを買おう