Hadoop Streaming でジョブの連結をする

すでに前回のプレゼン資料などでもチラッと触れているので目新しい情報は無いのだけど Hadoop Streaming でジョブを次々と連結させて何かをしたいときのノウハウまとめ。 ジョブの正常終了を確認する 出力ディレクト … 続きを読む

カテゴリー tech

夏休み自由研究発表会 (2013) 資料

昨年の発表に引き続き平田さん主催の夏休み自由研究発表会でプレゼンさせていただけることになりました。お約束のタイトル詐欺でほとんどは公開しているオープンソースソフトウェアやらソーシャルデータの分析やらに関するお話です。 T … 続きを読む

カテゴリー tech

GitHub の最新の Automatic Ruby を使う

Automatic Ruby を使うなら、リリース版を使っても十分な品質が保証されるし良いのだが、 GitHub の最新状態を使うのがよりオススメである。 日々の開発の成果がすぐに反映されるし (言うほど開発してないけど … 続きを読む

カテゴリー tech

文書をクラスタリングする

人間、生きてるといろんな情報と出会い、それらをクラスタリングしたくなるのがこの世の常である。機械学習ライブラリは一から自分で実装するよりはすでに実績のあるものを利用するのが良いだろう。まずは Mahout を使ってみる。 … 続きを読む

カテゴリー tech