Hadoop Hack Nightに行ってきた

March 9, 2010 - hadoop

3月8日に開催されたHadoop Hack Nightに行ってきました。
ハッシュタグは#hadoophn

最近Hadoop界隈を色々調査していたので、これは!と思い応募開始のアナウンスとともに申し込み。
応募者多数のため、申し込み期限が切り上げられたほどの人気ぶりだったようで。
抽選に当たったのは奇跡。なのでかなり気合入れていってきました。

一番印象にのこったのは、

  • HDFSは信頼性が低い
  • Pigでカバーできない処理はほぼない

の2点でした。

以下、それについての感想です。

HDFSは信頼性が低い

HDFSはあくまで処理データの一時保存場所とすること。別にマスタデータは保持しておくべきだと。
まだ不安定性に遭遇したことがないのですが、この点はかなり重要になりそう。
確かに分散するのでコピーした分だけデータ量は増えるので、ずっとHDFS上のみで保管するのは現実的でないのかも。
※ファイル圧縮の機能はHDFSは備えているけど、どちらかと言えば転送量を減らすのが目的のようですね。

PIGでカバーできない処理はほとんどない

PIGはMapReduceを使い易くした、一種のスクリプト言語のようなもの(と認識しています。)
逐次処理をJavaとかよりもと単純に書けます。
で、PIGはかなりドメインを限定して開発されたものと勝手にイメージしていたので、だいたいの処理がまかなえると聞いてちょっと驚き。
Hadoop本にはあまり細かいことが書かれていなかったし、「ほぼSQL」なHive中心に調査していたのですが、PIGもドキュメントとかもう少し見てみようと思います。

主催者の皆様、講演者の皆様、参加者の皆様お疲れ様でした。
非常に有意義な時間が過ごせました。

※全体を通してのメモは整理して後日追記します