自然言語処理 - うっくつさん本を読む。

うん、人工無脳よりもこっちの方がしっくりくる。

辞書無しで学習するためにはどうしたらよいか。
単語学習は統計的にのみ扱えばよい。
つまり、 $i$ 番目の文字 $l_{i}$ に対してその出現確率 $P(l_{i})$ を定義し、同様に文字列 $l_{i},l_{i+1},\cdot\cdot\cdot,l_{i+n}$ に対してその出現確率 $P(l_{i},l_{i+1},\cdot\cdot\cdot,l_{i+n})$ を定義する。 $P(l_{i})P(l_{i+1})\cdot\cdot\cdotP(l_{i+n})$ と $P(l_{i},l_{i+1},\cdot\cdot\cdot,l_{i+n})$ を比較し、出現確率が等しくない文字列 $l_{i},l_{i+1},\cdot\cdot\cdot,l_{i+n}$ を探す。ここで有意に出現確率が高いとされた文字列（上側1%くらい？）は単語であるとみなしてよい。
論理的には正しいはずだけど、関係無いものも沢山拾ってしまうのが欠点か。

と思ったのだけど、任意の部分文字列の組と比較しなければならないことに気付いた。長さ $n$ の文字列に対して任意の部分文字列を求めるには $2^{n}-1$ 回の計算が必要なわけで、あまり長い単語を探すことは出来ない。確度の高い部分文字列については探索を中止してもよいのかも。