Hadoopソースコードリーディング第7回に行ってきました

　Hadoop World NYC 2011の参加レポートがあるということをTwitterで発見して、Hadoop ソースコードリーディング第7回に行ってきました。

アジェンダは下記の3つ

Hadoop World NYC 2011 参加レポート Part.1
Hadoop Troubleshooting 101 セッションレポート
Hadoop World NYC 2011 参加レポート Part.2

それぞれで気になったところをメモ。

Hadoop World NYC 2011 参加レポート Part.1

　Hadoop World NYC 2011の概要紹介と基調講演の内容の紹介といった感じ。会場の様子の紹介を聞く限りは盛況だったようですね。

　参加者についてのトピックとしては、

利用者の平均Hadoop クラスタは120ノード
12.8％は1PB以上のデータ量

だとか。

　基調講演の内容としては事例紹介が多かったようで、その中でおもしろそうだと思ったのはWibiDataとThe Walt Disney Companyの話。

　WibiDataはHBaseを使ったアプリの実装例で、Androidの通知バーにパーソナライズしたレコメンドを表示するサービスで、Wikipediaなどがすでに顧客になっているそう。ちょっとググってみましたがまだあんまり情報がなさそうなところをみると、始まったばかりなんですかね。

　The Walt Disney Companyではテーマパークの交通流解析などにHadoopを使っているのだとか。ディズニーランドとかは徹底的に裏側を隠してイメージさせないようになってるので、こういうところで裏側がちょっとのぞける気分になるのはおもしろい。データ的にも膨大なデータをもってそうなので分析するのもおもしろそうです。

　全体的なトピックとしては、HBaseの利用が増加しているそうです。一時期HBaseを業務で利用することを検討していた自分としては興味深いですね。AWSがHBaseのサービスとかやってくれないでしょうか。でもEC2は結構高くつきそうなので、EC2上で動くとなると気軽に使うわけにはいかないかな。

　あとはHadoop自体だけでなく、そのエコシステムが占める割合はどんどん増えていそうです。確かにHadoop本体だけではできることの幅は狭いので、エコシステムをいかにうまく使うか次第でHadoopはいいものにも悪いものにもなりそうだと思いました。

　そしてMapReduce技術者やHadoop関連の技術者が足りていないということは色々なところでいわれているようです。今Hadoop周りの技術を身につければしばらく仕事に困らないですかね？もう遅い？

Hadoop Troubleshooting 101 セッションレポート

　「Hadoop クラスタを壊す7つの設定ミス」ということで、代表的な7つのエラーについて現象や解決策の紹介がありました。パラメータの数字はどのぐらいにするのがいいかといったような細かいところも聞けたので、実際に運用する場合にはとても役に立ちそうです。

　「コミュニティはバグを直せるが設定を直せるのは自分だけ」という言葉が印象的でした。確かにそうですね。

　あと、これは重要なので机に貼っておくこと↓

Total RAM ＝ (Mappers + Reducers)Child Task Heap
＋ DN heap
＋ TT heap
＋ 3GB
＋ RS heap
＋ Other Services' heap

Hadoop World NYC 2011 参加レポート Part.2

　こちらはいくつかのセッションをピックアップして紹介。

　「RとHadoopの融合」は、統計解析言語であるRをHadoop上で、Hadoopの中身を意識せずに動かせるように、rhdfs、rhbase、rmrを開発したという内容。Javaで書くよりはシンプルで、Hive、Pigほどシンプルではないけど汎用的に書けるそうです。MapReduceの中身の処理を書くことが可能で、多段にMapReduceを動かすことも可能だそうです。「Hadoopの中身を意識せずに」という割にはこの辺は意識する必要があるよなぁと思ったりもしますが。。。すでにR言語を使ってる人には良いかもしれませんね。

　「Hadoopを使った衛星画像解析」は、タスクの中でネイティブコード（C言語）を呼び出す仕組みを構築したという話でした。これによって既存の画像解析ライブラリをJavaで再実装することなく使用可能になったということです。個人的にはネイティブコードを呼び出すとかは敬遠しがちですが、今後Hadoopを様々なフレームワークと連携させたり、既存のライブラリを使うケースが増えてくるとこういった使い方も増えてくるんでしょうか。

　あとはHadoopを仮想環境で動かすというセッションの紹介もありました。個人的にはAWSとかがもっとHadoop関連のサービスを充実させてくると、運用の手間とかを考えるともっとAWSへ流れていくんじゃないかなぁと思ってたりします。

　また、Hadoopのトレンドとして、Hadoopはインフラとなりつつあり、MapReduceで計算して終わり、というのはもう古くて、目的としてではなく手段として、大量データを分析して役立てるためにHadoopを使いましょう、ということでした。最近のHadoop関連の話題を見ているとHadoop単体で扱われることは少なくて、エコシステムを組み合わせてどう問題を解決していくか、という内容になってきてるように思えるのもそうしたことの表れなのかな、と思いました。