会社の同僚とMahout in Actionの勉強会を始めたので、Chapter1についての自分の理解をメモ。
Mahoutとは?
- インドの像使いという意味の言葉
- Apacheプロジェクトのオープンソース機械学習ライブラリ
- 主要テーマは推薦エンジン(協調フィルタリング)、集団形成(clustering)、分類(classification)
- スケーラブル
- Javaで書かれたJavaライブラリ
- Hadoopの上で動かすように作られている
- Apache Luceneのサブプロジェクトとしてスタートして2010年にトップレベルプロジェクトになった
MahoutとHadoopで大規模データに取り組む
Mahoutセットアップ
- Java6以上が必要
- IDEの使用をオススメ(Eclipse, NetBeans, IntelliJ IDEAなど)
- Mavenをインストールする
- Mahoutはまだ開発中で、執筆時のバージョンは0.5
- ダウンロードサイトからダウンロード可能
- もしくはSubversionから最新のコードを取得可能
https://cwiki.apache.org/confluence/display/MAHOUT/Version+Control - 取得したソースからIDEでMavenプロジェクトを作成(方法はIDEによって異なる)
- Hadoopを擬似分散モードでインストールする(本書ではVersion 0.20.2を使用)
- ちょっと違う方法で自分なりに環境を作ってみたエントリはこちら