ナイーブベイズ分類器やSVM分類器などを継続的に訓練させたいとき、訓練に使う文書からどのように特徴を選択・抽出したらよいのか、という問題がある。
まず、特徴選択においては、対象の文書に含まれる言葉に対して
相互情報量 (Mutual Information)
χ2乗値 (Chi-square)
情報ゲイン (Information Gain)
を計算して高いものを採用していく方法が一般的なようだが、例えば、新しいニュース記事が入る度にカテゴリを割り当てて分類器を訓練させていきたい場合はどういう手法が有効なのであろうか。
参考)
A comparison of feature selection methods for an evolving RSS feed corpus
http://www.scit.wlv.ac.uk/~cm1993/papers/comparison_feature_selection.pdf
Feature Selection: An Ever Evolving Frontier in Data Mining
http://jmlr.csail.mit.edu/proceedings/papers/v10/liu10b/liu10b.pdf
0 件のコメント:
コメントを投稿