Hadoop conference japan 2011に参加してきた #hcj2011

February 24, 2011 - hadoop

Hadoop conference japan 2011に参加してきました。

今回の個人的トピック

  • AWSがHBaseサポート予定
  • DremelはHadoopの補完的位置づけ
  • DSLとしてのAsakusaの魅力
  • AmebaのpatriotはRubyDSLで簡単ジョブ記述
  • MySQLでもMapReduceできるよ
  • HBaseを使うとシステムがシンプルになるよ
以下、メモ書きです。

Hadoop on クラウド / Amazon Elastic MapReduceの真価

* 11:30?12:05 * Amazon Web Services, Jeff Barr ( @jeffbarr ) * EMR removes ‘MUCK’(=ぬかるんだ感じ) from big data operation * hard to manage, tuning, monitoring, debug * issues prevent operation in cloud * instance types * data or I/O intensive * compute or I/O intensive * BestBuy * 100 node on demand * 3.5 billion records, 71 million unique cookies. * increased ROAS(returns of advertising spend) by 500% * QA * HBaseのサポートもやります。

MapReduceによる大規模データを利用した機械学習

* 12:05?12:40 * 株式会社Preferred Infrastructure, 岡野原 大輔 ( @hillbig ) * mahout * 大規模分散並列処理 * グラフィカルモデル * 写真の人物切り出しとか、これでできる * グラフィカルモデルの推論は一般に困難 * [S, Singh LCCC 2010] * 数値最適化の並列分散化 * 最適なのは[Iterative Parameter Mixture] 1. データ分割してshardに配布 2. shardごとに最適化 3. 全部のθの平均をとる 4. θを再度各shardに配り1からくりかえす * Dremel * MRにくらべて低レイテンシ * 簡単な統計処理のみ * クエリ言語はSQL * top-k, joinなども可能 * use 6 years in google * クロール、障害分析などに利用 * 列志向DB * 木構造に列志向を導入 * M/Rの補助にDremel * 使い分け * データの構築コストは高い

モバゲーの大規模データマイニング基盤におけるHadoop活用

* 13:40?14:15 * 株式会社ディー・エヌ・エー, 濱田 晃一( @hamadakoichi ) * DeNA: 201007 23億のアクティビティ * データマイニング基盤 * KPI定常算出・共有 * 変化の検知基盤 * Business Planning * 意思決定 * Service * Hadoop * DFS * 全行動ログを統一形式で蓄積 * 適用範囲 * Pig * 一時的なもの、BI * Zebra * スキーマ管理(+Pig) * M/R * JavaだけでなくPerlでも。 * ゲームの分散シミュレーション * R * 二次集計 * データマイニング * Streamingもあわせて活用 * Mahout * データマイニング&機械学習 * DeNA Datamining libraries * 独自レコメンドエンジン * Tuning * LZOなど最適化 * Pig * Partitioner実装最適化 * 多段M/RのTempを圧縮 * 独自UDF * 汎用の日次処理や文字列処理、ソーシャル用の独自Mapも。 * 共通ログ:Loader * Mahout * 目的に応じた組み合わせ、ジョブの実装 * 楽しさ * 統計的有意 * 多くの人々への還元(2300万ユーザー) * 感情を伴った行動情報 * ユーザーのソーシャル体験への還元 * パターン * 楽しさ:夢中になるきっかけ * 健全なプラットフォームへ * 不正書きこみの判別、年齢詐称の判別 * ユーザーの声 * テキストマイニング * 統一の行動記述 * 重要な要素 * Hadoop上にすべてある。 * 記述が統一されている * すべてがHadoop上に統一されている * 解析に力を入れることができる

Enterprise Batch Processing Framework for Hadoop

* 14:15?14:50 * ウルシステムズ株式会社, 神林 飛志( @okachimachiorz1 ) * Asakusa * 基幹バッチ * 夜間バッチゼロ。 * Hadoopは開発手法や運用に問題有り。 * Pig/Hiveでは足りない * DAGベースの多層DSL * TX/Rollback制御をHadoopの外(Asakusa)でやる * MRコンパイラ * Ashigel * 運用スクリプトまではく。 * ModelGenerator * データ層の自動化 * テストのインテグレーション

Hiveを用いたAmebaサービスのログ解析共通基盤

* 14:50?15:25 * 株式会社サイバーエージェント, 福田 一郎( @toutou ) * Blog: http://ameblo.jp/principia-ca/entry-10635727790.html * 非エンジニア向け * hadoop実績 * pigg:HDFS * pico:ログ解析にEMR/Pig * アクセス解析(0.13.1) * 解析基盤partiot * 独自に解析してるけどだいたい定形 * サービス全体の統合的な現状把握と未来予測 * 結果の表示にpatriot * アドホック集計にhue * patriot * CDH3b1 * puppet/nagios/ganglia * ext_js/hue/hinemos * gzip/sequenceFileのブロック単位圧縮 * インポート:scp/hdfs get * importDSL * log * 600job/daily * 700job/monthly * record 1300万以上 * 前処理を3〜4時間 * Replication * clusterをmaster/slaveにする * slaveを非エンジニアに利用させる

ライトニングトーク

  • 15:40?16:30

分散ファイルシステムGfarm上でのHadoop MapReduce

* Shunsuke Mikami( @shun0102 ) * GlusterFS * Ceph: 高負荷で固まる * Lustre,PVFS2 * GFarm: ≒HDFS * 複製の作成は同期的 * 他FSの利用 * JNIのlayer / マウント * GlusterFS * マスターなし * FUSEベース * HDFS>HDFS(3reps)>GlusterFS

MySQLにMapReduceジョブトラッカを実装する

  • Sadayuki Furuhashi( @frsyuki )

Hadoop and HBase for ranking processing at Rakuten

  • Yifeng Jiang( @uprush )
  • Hadoop
    • リアルタイムから年次まで。
    • mutable data?扱いにくい
  • HBase
    • usecase
    • pig: realtime ranking
    • 100 pure java jobs per day
  • HBase
    • soft realtime access
    • 40x faster on ranking contents
  • before
    • DB -> HDFS
    • table split is boring
  • after
    • data go to hBase, the processed by MR
    • 1.5k rows insert /s
    • 0.3M rows scan /s
    • system become simple
  • balance
    • HW
    • OS resources
    • config
    • application design

Sneak Preview of “Hapyrus” ~ Hadoopアプリ開発&共有サービス on the CLOUD

* Fujikawa Koichi( @fujibee ) * 敷居が高い(セットアップ?M/R?運用の工数) * Hapyrus * サイト:http://hapyrus.com/ * デモビデオ: http://www.youtube.com/watch?v=1cF-1tcapvE * ホスティング(=EMR) * ディストリビューション=マーケットプレイス * 基本無料

Bonding とネットワークスループット

  • Takahiro Kaneko
  • 802.3ad + src-dst-id

Yuuna Kurita: Hadoop+MongoDBでRで出力する時にRubyでミドルウェアを使う

※これ以降も有用な発表でしたがバッテリー切れのためメモはなしです…orz※

マルチユーザーでHadoop環境を利用するためのポイント

  • 16:30?17:05
  • 株式会社NTTデータ, 山下 真一

Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用

  • 17:05?17:40
  • 株式会社リクルート, 中野 猛

関連エントリ