Hadoop Hack Nightに行ってきた

Posted by ReSTARTR - 2010/03/09 23:39

このエントリーをはてなブックマークに追加
はてなブックマーク - Hadoop Hack Nightに行ってきた
Share on Facebook
Post to Google Buzz
Bookmark this on Yahoo Bookmark
Bookmark this on Livedoor Clip
Share on FriendFeed
Hadoop Hack Nightに行ってきたReSTARTR

3月8日に開催されたHadoop Hack Nightに行ってきました。 ハッシュタグは#hadoophn

最近Hadoop界隈を色々調査していたので、これは!と思い応募開始のアナウンスとともに申し込み。 応募者多数のため、申し込み期限が切り上げられたほどの人気ぶりだったようで。 抽選に当たったのは奇跡。なのでかなり気合入れていってきました。

一番印象にのこったのは、

  • HDFSは信頼性が低い
  • Pigでカバーできない処理はほぼない

の2点でした。

以下、それについての感想です。

HDFSは信頼性が低い

HDFSはあくまで処理データの一時保存場所とすること。別にマスタデータは保持しておくべきだと。 まだ不安定性に遭遇したことがないのですが、この点はかなり重要になりそう。 確かに分散するのでコピーした分だけデータ量は増えるので、ずっとHDFS上のみで保管するのは現実的でないのかも。 ※ファイル圧縮の機能はHDFSは備えているけど、どちらかと言えば転送量を減らすのが目的のようですね。

PIGでカバーできない処理はほとんどない

PIGはMapReduceを使い易くした、一種のスクリプト言語のようなもの(と認識しています。) 逐次処理をJavaとかよりもと単純に書けます。 で、PIGはかなりドメインを限定して開発されたものと勝手にイメージしていたので、だいたいの処理がまかなえると聞いてちょっと驚き。 Hadoop本にはあまり細かいことが書かれていなかったし、「ほぼSQL」なHive中心に調査していたのですが、PIGもドキュメントとかもう少し見てみようと思います。

主催者の皆様、講演者の皆様、参加者の皆様お疲れ様でした。 非常に有意義な時間が過ごせました。

※全体を通してのメモは整理して後日追記します

Fork me on GitHub

Leave a Reply

I would love to hear your view.