カテゴリ判定器を作った。
カテゴリ判定器
http://classify.id774.net/classify/
試しに適当なニュースをコピペして送信ボタンを押してみてほしい。カテゴリが自動的に判定され表示されるはずである。
判定にはナイーブベイズの多項モデルを利用している。教師データは以前にも書いたニュースサイトで収集したニュースのうち、前日分を見るようにしている。
ちなみにもとのニュースサイトも少々機能追加されているので見てみてほしい。今回公開した判定器はこのニュースのカテゴリ判定部分だけを切り出したものである。すなわち判定器としては全く同一のものである。
試してみればわかると思うがフリーなテキストに対するカテゴリ判定の精度は正直言ってあまり良くない。しかし同一の判定器を利用しているはずのニュースサイトのほうはそこそこ精度が良いように見える。このことは良い素性を選定することがいかに重要かという証左となろう。