Mahout開発環境の作成

Mahout In Actionのコードを実行するために、EclipseでMahoutの開発をする環境を作成してみました。

下記サイトを参考にさせていただきました。
mahout/レコメンドシステムの作り方

前提

手順

  1. m2eclipseプラグインのインストール
  2. Maven Projectの作成
  3. M2_REPOの設定
  4. mahout-coreのdependency設定
  5. Javaクラスの作成

それぞれの手順の内容は下記のとおりです。

・m2eclipseプラグインのインストール

Eclipse上からMavenの操作ができるようにするために、m2eclipseというプラグインをインストールします。
Eclipse の Helpメニュー > Install New Software... で下記URLを指定してインストールします。

http://m2eclipse.sonatype.org/sites/m2e

インストール後にはEclipseの再起動が必要です。

Maven Projectの作成

Eclipse の Fileメニュー > New > Other...
Maven > Maven Project を選択して Maven Project を作成します。

・M2_REPOの設定

MavenのローカルリポジトリのパスをM2_REPOという変数名で設定します。

Eclipse の Windowメニュー > Preferences
Java > Build Path > Classpath Variables
Newボタンをクリックして Name と Value を設定します。私の場合は下記の用に設定しました。

  • Name: M2_REPO
  • Value: /home/h-akanuma/.m2/repository

・mahout-coreのdependency設定

Mahout のライブラリを使用できるようにするために、mahout-core の dependency を設定します。pom.xml に下記の内容を追加します。

   <dependency>
      <groupId>org.apache.mahout</groupId>
      <artifactId>mahout-core</artifactId>
      <version>0.5</version>
    </dependency>  
    <dependency>
      <groupId>org.slf4j</groupId>
      <artifactId>slf4j-jcl</artifactId>
      <version>1.6.0</version>
      <scope>test</scope>
    </dependency>

追加後にworkspace内のプロジェクトのディレクトリで下記mvnコマンドを実行して、依存性の解決とソースコードをダウンロードしてEclipseから参照できるようにします。

~/workspace/ml$ mvn eclipse:eclipse -DdownloadSources=true

Javaクラスの作成

Mahout In Action のサンプルクラスを作成してみます。

public class RecommenderIntro {
  public static void main(String[] args) throws Exception {
    DataModel model = new FileDataModel (new File("/tmp/intro.csv"));
    UserSimilarity similarity = new PearsonCorrelationSimilarity (model);
    UserNeighborhood neighborhood = new NearestNUserNeighborhood (2, similarity, model);
    Recommender recommender = new GenericUserBasedRecommender (model, neighborhood, similarity);
    List<RecommendedItem> recommendations = recommender.recommend(1, 1);
    for (RecommendedItem recommendation : recommendations) {
      System.out.println(recommendation);
    }
  }
}

Ctrl+Shift+O などでクラスパスを解決できればMahoutのライブラリが参照できているので環境としてはとりあえずOKです。
上記Javaクラス内で使用している intro.csv の内容は下記のとおりです。

1,101,5.0
1,102,3.0
1,103,2.5

2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0

3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0

4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0

5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0

Javaクラスと同じパスに保存してEclipse上から実行すると下記のような結果が得られます。

RecommendedItem[item:104, value:4.257081]

※初稿掲載時は実行時に「intro.csvが見つからないと言われてしまう」と書いていましたが、intro.csvをフルパスで /tmp/intro.csv と指定することで解決しました。