2004-01-31から1日間の記事一覧

自然言語処理

とりあえず、上のものを実装してみた。やはり単語ではない頻度の高い文字列を多数拾ってしまう。それから類似性の判断も何とかしたいところ。

うん、人工無脳よりもこっちの方がしっくりくる。辞書無しで学習するためにはどうしたらよいか。単語学習は統計的にのみ扱えばよい。つまり、番目の文字に対してその出現確率を定義し、同様に文字列に対してその出現確率を定義する。とを比較し、出現確率…