以前、人々の語彙を調べるサービスを作ったら、そこそこ反響があったので機能を追加した。

語彙抽出器
http://vocabulary.id774.net/vocabulary/

「スクリーンネーム」に Twitter の名前を入れて送信すると、その人の語彙がよく使う順に一覧表示されるのは今まで通りだが、その上に似たような語彙のユーザーアカウントが表示される。

ちなみに調査対象だが基本的に 2011 年から 2013 年 9 月までの、当方の Twitter アカウントにフォローされていた人およそ 18,000 人が対象である。期間内に全体公開となっていた情報が対象なので、現在は鍵がかかっていたり存在しないアカウントも含まれている。

この約 18,000 人について K 平均法クラスタリングをおこない、クラスタを 100 分割している。語彙の類似度が高いユーザーアカウントごとにまとめられているので、それらが表示されるというわけである。

K-means clustering
https://rubygems.org/gems/kmeans

この K 平均法のライブラリについてもアップデートをおこなった。今まではあるラベルに対して空のハッシュを入力に与えるとゼロ除算を引き起こしていたのでこの問題に対応した。

今後似たような実験の調査対象になりたい人は当方の Twitter アカウントをフォローすれば対象となるかもしれない。

投稿日: 作成者: 774