自然言語処理
うん、人工無脳よりもこっちの方がしっくりくる。
辞書無しで学習するためにはどうしたらよいか。
単語学習は統計的にのみ扱えばよい。
つまり、番目の文字に対してその出現確率を定義し、同様に文字列に対してその出現確率を定義する。とを比較し、出現確率が等しくない文字列を探す。ここで有意に出現確率が高いとされた文字列(上側1%くらい?)は単語であるとみなしてよい。
論理的には正しいはずだけど、関係無いものも沢山拾ってしまうのが欠点か。
と思ったのだけど、任意の部分文字列の組と比較しなければならないことに気付いた。長さの文字列に対して任意の部分文字列を求めるには回の計算が必要なわけで、あまり長い単語を探すことは出来ない。確度の高い部分文字列については探索を中止してもよいのかも。