【B-5】 Apache SparkとIBMの取り組み、そしてストリーム・コンピューティングのポイント

Apache Sparkは、分散インメモリを使って大量データに対する中間結果などの繰り返し処理が短い時間で実現でき、Hadoop MapReduceとは違ったアイデアで分散データを処理するテクノロジーです。機械学習、グラフ処理、ストリーム処理など、ビッグデータの先進的な活用にとって重要な様々な処理を実現することができ、多くの業務に適用されることが期待されています。Sparkで実現できるインメモリのマイクロバッチ処理とストリーム処理の世界をはじめ、Sparkの技術的全貌とIBMのSparkへの取り組みについてお話します。

土屋 敦 [日本アイ・ビー・エム]

日本アイ・ビー・エム株式会社
IBMアナリティクス事業部 ワールドワイド・ビッグデータ・タイガーチーム テクニカル・リード

ストリーム・コンピューティング(スマートフォンやセンサーなど多種多様なIT機器から収集できるデータをサーバーでリアルタイムに処理する先端技術)を軸に、多くのお客様のビッグデータ分析に関わる案件を支援。