自然言語処理の紹介 - 電電のブログ

どうも電電です．先日無事に京都大学工学部電気電子工学科を卒業しました．
f:id:denden_seven:20190404154348p:plain:w300

このことについてはまた別でブログに書くかもしれないし，書かないかもしれません．書く暇があれば描きたいです．（ただのポエムになる可能性が高い）

そして今年から京都大学院の方に進学しました．
新たに修士１年生となったんですが，その重みに耐えれそうにないです．
これからは研究とかで忙しくなって「にゃーん」って呟いてそうな気がします．精進します．

さて僕は以前から褒めたもん
褒めたもん (@denden_by) | Twitter
という褒めてくれるアカウントを作成しています．
このアカウントはフォローして呟くと以下のような感じで

f:id:denden_seven:20190308002145p:plain:w300 — こんな感じで褒めてくれます

褒めてくれます．

僕が寝ている間も褒めに褒めまくっているようでちょっとずつフォロワーが増えています．（フォロワーのみなさまありがとうございます）（メタモンかわいい）
このままでもいいんですが，以前から機械学習でこの褒めたもんを賢くしたい！！
とおもっており，試験的にババっと書いてみました．

まあ，と言ってもエンコーダーやデコーダーなどを使った対話システムなんかは計算リソース的にちょっと難しいと思ったので，褒める判断の部分について行いました．
要は任意のツイートに対して褒めるべきか褒めるべきでないかを判断してもらいたいということです．

現在の褒めたもんの動きはフォロワーの呟きを一定時間ごとにスクロールして，その中に特定のワードがあればそれを元に褒めるという仕組みで動いています．しかしながらこれはあまりいい仕組みとは言えません．
なぜなら否定とかの言葉を考慮していないからです．時には煽りっぽく褒めてしまう時もあって難しい．

さらには「えらい」という単語ひとつとっても

えら‐い

「えら‐い」の辞書の結果

【偉い・豪い】

    1.

    《形》他（の水準）を抜いて、まさっている。

    2.

    [偉] 品行や経歴や才能が立派だ。すぐれた。

参照(google辞書)

のように異なる意味を持っており，褒めたもんは２番の意味で捉えて褒めているのに実際は異なるといったことがあり得ます．

f:id:denden_seven:20190308002150p:plain:w300 — 間違った褒め方

まずはこのような問題を解決したいというモチベーションで自然言語処理を勉強して実装しようというものです．

いきなり自然言語処理って言っても何かわからないと思うので，今回の記事では
まず自然言語処理についてちょっと話していこうと思います．

自然言語処理はそもそも人間が書いたり，話したりする”文章”というものをどうにかしてコンピューターに落とし込められないかというものです．
言葉というあやふやなものをどのようにしてプログラムに理解させたり，記述させたりするかというのがここで問題になります．

実際の流れを見ていきましょう．

自然言語処理についてはその方法はいくつかあるのですが，今の主流となっているものの流れは

分かち書き
ベクトル化
この文章ベクトルを用いて作成しておいたモデルを学習

という流れになっています．

1.分かち書き

分かち書きです．これは名前の通り文章などの連続の文字列を単語(名詞，動詞，冠詞など)に分けることです．
特にこれは日本語特有の悩みですが，日本語は英語やスペイン語のような単語の切れ目がなく，文章から単語を特定するのが難しいです．
(日これはなんですか？)→パッとみただけでは区切れない
(英 what`s is this?)→what/is/this/?
(西 Que es esto?)→que/es/esto/?

なので単語の切り取りには苦労しますが，ここではMeCabという分かち書きプログラムを用いました．
このMeCabというプログラムは辞書データを加えることでより正確な単語の分割ができるのですが，今回は
東北大学の乾・鈴木研究室様のmecab-ipadic-neologdを使いました．
https://github.com/neologd/mecab-ipadic-neologd/wiki/About

これを用いることで

「すもももももももものうち」を

f:id:denden_seven:20190404154723p:plain:w300 — MeCab

のように分けることができます．これで各文章をそれぞれの単語ごとに分けることができました．

2.ベクトル化

次にこの単語ごとにバラバラにしたものを計算機が取り扱うためには

言葉を数字に置き換える必要があります．この時数字だとデータ量が圧縮されすぎるのでベクトルを用います．
つまり，単語のベクトル化というのはひとつの単語(例えば”テスト”)を
一定のルールに基づいて，数字の塊([1, 0.3, 0.2, 0, 0.4,,,])に変換します．
この一定のルールというのがとても大切でできるだけ意味の近い単語同士(”テスト”,”試験”)
は同じようなベクトルになってほしいです．

このベクトル化の手法は大きく分けると
bag-of-wordsとwords-to-vecの二つの手法が存在します．（doc to vecは話がややこしくなるので割愛）

bag-of-wordsは単語の出現度に注目することによってその特徴量を求めます.
ただ単純な方法では単語の頻出度合いや有無にしか注目しないので文脈情報や，単語の順番の情報が失われます．
参照【特別連載】さぁ、自然言語処理を始めよう！（第2回：単純集計によるテキストマイニング） | DATUM STUDIO株式会社

words-to-vecは相互の単語の位置からその単語の相関性をみて特徴量とします．(前と後ろの単語をみてそれをエンコーダーとして，入力し，デコーダーで予測したりします．)
参照https://www.tech-tech.xyz/machine-leaning-word2vec.html

今回はwords-to-vecを用いて単語のベクトル化を行い．一つの単語を128次元のベクトルに変換しました．
この作業を単語に対して行うと

”もも”→1*128次元のベクトル

のようになります．
この手法を先ほどの単語に用いると

"すもももももももものうち"→”すもも，も，もも，も，もも，の，うち”→7*1*128次元のベクトル
という風になります．