Hadoop conference japan 2011に参加してきた #hcj2011
February 24, 2011 - hadoop
Hadoop conference japan 2011に参加してきました。
今回の個人的トピック
- AWSがHBaseサポート予定
- DremelはHadoopの補完的位置づけ
- DSLとしてのAsakusaの魅力
- AmebaのpatriotはRubyDSLで簡単ジョブ記述
- MySQLでもMapReduceできるよ
- HBaseを使うとシステムがシンプルになるよ
Hadoop on クラウド / Amazon Elastic MapReduceの真価
Amazon Elastic MapReduceの紹介(英語)
* 11:30?12:05
* Amazon Web Services, Jeff Barr ( @jeffbarr )
* EMR removes ‘MUCK’(=ぬかるんだ感じ) from big data operation
* hard to manage, tuning, monitoring, debug
* issues prevent operation in cloud
* instance types
* data or I/O intensive
* compute or I/O intensive
* BestBuy
* 100 node on demand
* 3.5 billion records, 71 million unique cookies.
* increased ROAS(returns of advertising spend) by 500%
* QA
* HBaseのサポートもやります。
View more presentations from 玉川憲 (Ken Tamagawa) - Amazon Web Services
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
* 12:05?12:40
* 株式会社Preferred Infrastructure, 岡野原 大輔 ( @hillbig )
* mahout
* 大規模分散並列処理
* グラフィカルモデル
* 写真の人物切り出しとか、これでできる
* グラフィカルモデルの推論は一般に困難
* [S, Singh LCCC 2010]
* 数値最適化の並列分散化
* 最適なのは[Iterative Parameter Mixture]
1. データ分割してshardに配布
2. shardごとに最適化
3. 全部のθの平均をとる
4. θを再度各shardに配り1からくりかえす
* Dremel
* MRにくらべて低レイテンシ
* 簡単な統計処理のみ
* クエリ言語はSQL
* top-k, joinなども可能
* use 6 years in google
* クロール、障害分析などに利用
* 列志向DB
* 木構造に列志向を導入
* M/Rの補助にDremel
* 使い分け
* データの構築コストは高い
View more presentations from PFI Marketing
モバゲーの大規模データマイニング基盤におけるHadoop活用
モバゲーの大規模データマイニング基盤におけるHadoop活用?Hadoop Conference Japan 2011? #hcj2011
* 13:40?14:15
* 株式会社ディー・エヌ・エー, 濱田 晃一( @hamadakoichi )
* DeNA: 2010⁄07 23億のアクティビティ
* データマイニング基盤
* KPI定常算出・共有
* 変化の検知基盤
* Business Planning
* 意思決定
* Service
* Hadoop
* DFS
* 全行動ログを統一形式で蓄積
* 適用範囲
* Pig
* 一時的なもの、BI
* Zebra
* スキーマ管理(+Pig)
* M/R
* JavaだけでなくPerlでも。
* ゲームの分散シミュレーション
* R
* 二次集計
* データマイニング
* Streamingもあわせて活用
* Mahout
* データマイニング&機械学習
* DeNA Datamining libraries
* 独自レコメンドエンジン
* Tuning
* LZOなど最適化
* Pig
* Partitioner実装最適化
* 多段M/RのTempを圧縮
* 独自UDF
* 汎用の日次処理や文字列処理、ソーシャル用の独自Mapも。
* 共通ログ:Loader
* Mahout
* 目的に応じた組み合わせ、ジョブの実装
* 楽しさ
* 統計的有意
* 多くの人々への還元(2300万ユーザー)
* 感情を伴った行動情報
* ユーザーのソーシャル体験への還元
* パターン
* 楽しさ:夢中になるきっかけ
* 健全なプラットフォームへ
* 不正書きこみの判別、年齢詐称の判別
* ユーザーの声
* テキストマイニング
* 統一の行動記述
* 重要な要素
* Hadoop上にすべてある。
* 記述が統一されている
* すべてがHadoop上に統一されている
* 解析に力を入れることができる
View more presentations from Koichi Hamada
Enterprise Batch Processing Framework for Hadoop
* 14:15?14:50 * ウルシステムズ株式会社, 神林 飛志( @okachimachiorz1 ) * Asakusa * 基幹バッチ * 夜間バッチゼロ。 * Hadoopは開発手法や運用に問題有り。 * Pig/Hiveでは足りない * DAGベースの多層DSL * TX/Rollback制御をHadoopの外(Asakusa)でやる * MRコンパイラ * Ashigel * 運用スクリプトまではく。 * ModelGenerator * データ層の自動化 * テストのインテグレーションHiveを用いたAmebaサービスのログ解析共通基盤
Hadoop conferencejapan2011
* 14:50?15:25
* 株式会社サイバーエージェント, 福田 一郎( @toutou )
* Blog: http://ameblo.jp/principia-ca/entry-10635727790.html
* 非エンジニア向け
* hadoop実績
* pigg:HDFS
* pico:ログ解析にEMR/Pig
* アクセス解析(0.13.1)
* 解析基盤partiot
* 独自に解析してるけどだいたい定形
* サービス全体の統合的な現状把握と未来予測
* 結果の表示にpatriot
* アドホック集計にhue
* patriot
* CDH3b1
* puppet/nagios/ganglia
* ext_js/hue/hinemos
* gzip/sequenceFileのブロック単位圧縮
* インポート:scp/hdfs get
* importDSL
* log
* 600job/daily
* 700job/monthly
* record 1300万以上
* 前処理を3〜4時間
* Replication
* clusterをmaster/slaveにする
* slaveを非エンジニアに利用させる
View more presentations from Ichiro Fukuda
ライトニングトーク
- 15:40?16:30
分散ファイルシステムGfarm上でのHadoop MapReduce
分散ファイルシステムGfarm上でのHadoop MapReduce
* Shunsuke Mikami( @shun0102 )
* GlusterFS
* Ceph: 高負荷で固まる
* Lustre,PVFS2
* GFarm: ≒HDFS
* 複製の作成は同期的
* 他FSの利用
* JNIのlayer / マウント
* GlusterFS
* マスターなし
* FUSEベース
* HDFS>HDFS(3reps)>GlusterFS
View more presentations from shun0102
MySQLにMapReduceジョブトラッカを実装する
- Sadayuki Furuhashi( @frsyuki )
Hadoop and HBase for ranking processing at Rakuten
- Yifeng Jiang( @uprush )
- Hadoop
- リアルタイムから年次まで。
- mutable data?扱いにくい
- HBase
- usecase
- pig: realtime ranking
- 100 pure java jobs per day
- HBase
- soft realtime access
- 40x faster on ranking contents
- before
- DB -> HDFS
- table split is boring
- after
- data go to hBase, the processed by MR
- 1.5k rows insert /s
- 0.3M rows scan /s
- system become simple
- balance
- HW
- OS resources
- config
- application design
Sneak Preview of “Hapyrus” ~ Hadoopアプリ開発&共有サービス on the CLOUD
Hadoop Conference Japan 2011 LT Hapyrus
* Fujikawa Koichi( @fujibee )
* 敷居が高い(セットアップ?M/R?運用の工数)
* Hapyrus
* サイト:http://hapyrus.com/
* デモビデオ: http://www.youtube.com/watch?v=1cF-1tcapvE
* ホスティング(=EMR)
* ディストリビューション=マーケットプレイス
* 基本無料
View more presentations from Koichi Fujikawa
Bonding とネットワークスループット
- Takahiro Kaneko
- 802.3ad + src-dst-id
Yuuna Kurita: Hadoop+MongoDBでRで出力する時にRubyでミドルウェアを使う
※これ以降も有用な発表でしたがバッテリー切れのためメモはなしです…orz※
マルチユーザーでHadoop環境を利用するためのポイント
- 16:30?17:05
- 株式会社NTTデータ, 山下 真一
Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用
- 17:05?17:40
- 株式会社リクルート, 中野 猛