Hadoop Hack Nightに行ってきた
March 9, 2010 - hadoop
3月8日に開催されたHadoop Hack Nightに行ってきました。
ハッシュタグは#hadoophn。
最近Hadoop界隈を色々調査していたので、これは!と思い応募開始のアナウンスとともに申し込み。
応募者多数のため、申し込み期限が切り上げられたほどの人気ぶりだったようで。
抽選に当たったのは奇跡。なのでかなり気合入れていってきました。
一番印象にのこったのは、
の2点でした。
以下、それについての感想です。
HDFSは信頼性が低い
HDFSはあくまで処理データの一時保存場所とすること。別にマスタデータは保持しておくべきだと。
まだ不安定性に遭遇したことがないのですが、この点はかなり重要になりそう。
確かに分散するのでコピーした分だけデータ量は増えるので、ずっとHDFS上のみで保管するのは現実的でないのかも。
※ファイル圧縮の機能はHDFSは備えているけど、どちらかと言えば転送量を減らすのが目的のようですね。
PIGでカバーできない処理はほとんどない
PIGはMapReduceを使い易くした、一種のスクリプト言語のようなもの(と認識しています。)
逐次処理をJavaとかよりもと単純に書けます。
で、PIGはかなりドメインを限定して開発されたものと勝手にイメージしていたので、だいたいの処理がまかなえると聞いてちょっと驚き。
Hadoop本にはあまり細かいことが書かれていなかったし、「ほぼSQL」なHive中心に調査していたのですが、PIGもドキュメントとかもう少し見てみようと思います。
主催者の皆様、講演者の皆様、参加者の皆様お疲れ様でした。
非常に有意義な時間が過ごせました。
※全体を通してのメモは整理して後日追記します