Hadoopの話を聞きにGREEさんの第16回オープンソーステクノロジー勉強会に参加してきました。
「Hadoopの概要と最新の動向」株式会社プリファードインフラストラクチャー 太田 一樹さん
- YahooやAmazonでログ解析等の処理に使われている
- はてぶでもログ解析や全文検索まわりで使われている
- 最新の0.19はまだ安定していない
- でもappend機能が追加されたので期待大
- facebookで構造化したデータを扱うパッケージをリリースした?
- 想定される規模
- 10G〜20G以上のでかいデータを扱う場合に有用
- ファイルのappendは(今は)出来ない
- ファイルサイズでrotateするとかして、appendが不要な構造にする
- データ処理がメイン
- 可用性が高いストレージとしての事例は少ないかも
- リアルタイムの同期とか考えない
- 数時間に1回DBから落としてくるとか
- オーバーヘッドは10秒から20秒程度ある
- 100Kのワードカウントとかでも10秒くらいはかかってしまう
- 十分に大きいデータを扱う場合でないと意味がない