DMMではより高精度なサービス提供の為にHadoopの基盤上に大量データ(ビッグデータ)の収集を行っています。DMMではSparkを使った並列分散処理基盤の構築を行ってきましたが、大規模なデータ分析を実現するためにストリームデータの収集にも課題を持って取り組んでいます。本講演ではデータ収集部分に着目し、Kafka/HBaseを使ったデータ収集部のシステムの構築手順や取り組みについて判りやすく説明します。
田中 裕一 [DMM.comラボ]
株式会社 DMM.comラボ
CTO室
金融系・組み込み系・コミュニティサービス・ゲーム・広告等の各システムを経てDMMへ。DMM.comラボにおいて、検索システムの刷新、レコメンドエンジンの新規開発など、基盤技術の開発を担当しております。
サーバーサイド、フロントエンド、ミドルウェア、インフラと領域問わず、提案から構築・実装まで幅広くやらせてもらっています。その他OSSのcontributor等もやっております。今後より活動の幅を広げて行きたいと思いますので、どうぞよろしくお願いします。