kaz29

第16回オープンソーステクノロジー勉強会に参加してきました

勉強会

Hadoopの話を聞きにGREEさんの第16回オープンソーステクノロジー勉強会に参加してきました。

「Hadoopの概要と最新の動向」株式会社プリファードインフラストラクチャー太田一樹さん

YahooやAmazonでログ解析等の処理に使われている
はてぶでもログ解析や全文検索まわりで使われている
最新の0.19はまだ安定していない
- でもappend機能が追加されたので期待大
facebookで構造化したデータを扱うパッケージをリリースした？
想定される規模
- 10G〜20G以上のでかいデータを扱う場合に有用
ファイルのappendは（今は）出来ない
- ファイルサイズでrotateするとかして、appendが不要な構造にする
データ処理がメイン
可用性が高いストレージとしての事例は少ないかも
リアルタイムの同期とか考えない
- 数時間に１回DBから落としてくるとか
オーバーヘッドは10秒から20秒程度ある
- 100Kのワードカウントとかでも10秒くらいはかかってしまう
- 十分に大きいデータを扱う場合でないと意味がない

「HadoopとEC2による、『安くて簡単』大規模データ処理」blogeye開発者大倉務さん

500万位のblogを解析
- ２億記事!!!
- 60万記事／日追加
EC2とS3の間のデータ通信は無料
S3にデータをストアしMySQLにキャッシュ
クロールと著者属性推定にHadoopを使っている
クロール
- マスターではやらない
- とりあえずMySQLに保存
- １日一回S3に保存
- インデックスはMySQL+Senna
Mapperが起動されると同時にReducerが確保される
- もったいないのでMapperが完了してからReducerが確保する様に書き換えてる
  - 今後のバージョンでサポートされると良いね
Hadoopのログが巨大になる事があるので注意
- デバッグに有用なログ
- １週間くらいで消してた

まとめ

オープンソーステクノロジー勉強会はいつも面白いネタで参考になります。今の所実務で使う予定は無いけど(^^;
ログ解析は苦労する事も多いので何かの時に試してみたいと思います。

そして、懇親会で色々お話しした（聞いた）中でFlareが気になりました。
使ってみたいと思ってます。