第16回オープンソーステクノロジー勉強会に参加してきました

Hadoopの話を聞きにGREEさんの第16回オープンソーステクノロジー勉強会に参加してきました。

「Hadoopの概要と最新の動向」株式会社プリファードインフラストラクチャー 太田 一樹さん

  • YahooやAmazonでログ解析等の処理に使われている
  • はてぶでもログ解析や全文検索まわりで使われている
  • 最新の0.19はまだ安定していない
    • でもappend機能が追加されたので期待大
  • facebookで構造化したデータを扱うパッケージをリリースした?
  • 想定される規模
    • 10G〜20G以上のでかいデータを扱う場合に有用
  • ファイルのappendは(今は)出来ない
    • ファイルサイズでrotateするとかして、appendが不要な構造にする
  • データ処理がメイン
  • 可用性が高いストレージとしての事例は少ないかも
  • リアルタイムの同期とか考えない
    • 数時間に1回DBから落としてくるとか
  • オーバーヘッドは10秒から20秒程度ある
    • 100Kのワードカウントとかでも10秒くらいはかかってしまう
    • 十分に大きいデータを扱う場合でないと意味がない

参考資料

「HadoopとEC2による、『安くて簡単』大規模データ処理」blogeye開発者 大倉 務さん

  • 500万位のblogを解析
    • 2億記事!!!
    • 60万記事/日追加
  • EC2とS3の間のデータ通信は無料
  • S3にデータをストアしMySQLにキャッシュ
  • クロールと著者属性推定にHadoopを使っている
  • クロール
    • マスターではやらない
    • とりあえずMySQLに保存
    • 1日一回S3に保存
    • インデックスはMySQL+Senna
  • Mapperが起動されると同時にReducerが確保される
    • もったいないのでMapperが完了してからReducerが確保する様に書き換えてる
      • 今後のバージョンでサポートされると良いね
  • Hadoopのログが巨大になる事があるので注意
    • デバッグに有用なログ
    • 1週間くらいで消してた

まとめ

オープンソーステクノロジー勉強会はいつも面白いネタで参考になります。今の所実務で使う予定は無いけど(^^;
ログ解析は苦労する事も多いので何かの時に試してみたいと思います。

そして、懇親会で色々お話しした(聞いた)中でFlareが気になりました。
使ってみたいと思ってます。