Mahout In Actionのコードを実行するために、EclipseでMahoutの開発をする環境を作成してみました。
下記サイトを参考にさせていただきました。
mahout/レコメンドシステムの作り方
前提
手順
- m2eclipseプラグインのインストール
- Maven Projectの作成
- M2_REPOの設定
- mahout-coreのdependency設定
- Javaクラスの作成
それぞれの手順の内容は下記のとおりです。
・m2eclipseプラグインのインストール
Eclipse上からMavenの操作ができるようにするために、m2eclipseというプラグインをインストールします。
Eclipse の Helpメニュー > Install New Software... で下記URLを指定してインストールします。
http://m2eclipse.sonatype.org/sites/m2e
インストール後にはEclipseの再起動が必要です。
・Maven Projectの作成
Eclipse の Fileメニュー > New > Other...
Maven > Maven Project を選択して Maven Project を作成します。
・M2_REPOの設定
MavenのローカルリポジトリのパスをM2_REPOという変数名で設定します。
Eclipse の Windowメニュー > Preferences
Java > Build Path > Classpath Variables
Newボタンをクリックして Name と Value を設定します。私の場合は下記の用に設定しました。
- Name: M2_REPO
- Value: /home/h-akanuma/.m2/repository
・mahout-coreのdependency設定
Mahout のライブラリを使用できるようにするために、mahout-core の dependency を設定します。pom.xml の
<dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.5</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-jcl</artifactId> <version>1.6.0</version> <scope>test</scope> </dependency>
追加後にworkspace内のプロジェクトのディレクトリで下記mvnコマンドを実行して、依存性の解決とソースコードをダウンロードしてEclipseから参照できるようにします。
~/workspace/ml$ mvn eclipse:eclipse -DdownloadSources=true
・Javaクラスの作成
Mahout In Action のサンプルクラスを作成してみます。
public class RecommenderIntro { public static void main(String[] args) throws Exception { DataModel model = new FileDataModel (new File("/tmp/intro.csv")); UserSimilarity similarity = new PearsonCorrelationSimilarity (model); UserNeighborhood neighborhood = new NearestNUserNeighborhood (2, similarity, model); Recommender recommender = new GenericUserBasedRecommender (model, neighborhood, similarity); List<RecommendedItem> recommendations = recommender.recommend(1, 1); for (RecommendedItem recommendation : recommendations) { System.out.println(recommendation); } } }
Ctrl+Shift+O などでクラスパスを解決できればMahoutのライブラリが参照できているので環境としてはとりあえずOKです。
上記Javaクラス内で使用している intro.csv の内容は下記のとおりです。
1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.5 3,104,4.0 3,105,4.5 3,107,5.0 4,101,5.0 4,103,3.0 4,104,4.5 4,106,4.0 5,101,4.0 5,102,3.0 5,103,2.0 5,104,4.0 5,105,3.5 5,106,4.0
Javaクラスと同じパスに保存してEclipse上から実行すると下記のような結果が得られます。
RecommendedItem[item:104, value:4.257081]
※初稿掲載時は実行時に「intro.csvが見つからないと言われてしまう」と書いていましたが、intro.csvをフルパスで /tmp/intro.csv と指定することで解決しました。