【18-B-3】 Apache Sparkに手を出してヤケドしないための基本~「Apache Spark入門より」~

Apache Spark(以降、Spark)はOSSの分散処理ミドルウェアです。Sparkを使うと、大規模なデータを対象とした処理を驚くほど柔軟に実装できます。Scala、Python、Javaなどから利用できるAPIの便利さ、ストリーム処理や機械学習などの各種ライブラリが標準で備わっている点などがポイントでしょう。
その一方で「何が基本で、どう使えば良いのか」分かりづらい面が生じています。2014年5月のバージョン1.0リリース以降、本当にたくさんの改善や機能追加がありました。日頃の業務や開発コミュニティで数年間Sparkに携わってきた立場から、あらためて理解しておきたい基本やSparkのイマをお伝えします。
本セッションでは、「翔泳社 Apache Spark入門」からポイントを抜粋しつつ、補足しながら説明します。

土橋 昌 [NTTデータ]

株式会社NTTデータ
OSSプロフェッショナルサービス シニアITスペシャリスト

オープンソースを徹底活用してシステム開発/運用するプロジェクト、R&Dに従事。Hadoop、Spark、Stormは小規模なものから大規模なものまで携わっています。Spark Summit 2014、Hadoop Conference Japan、Strata + Hadoop World Singaporeに登壇。Spark関連の執筆では「Apache Spark入門」や「初めてのSpark」付録など。ベースはインフラエンジニアですが、コードを書いて手を動かすのも好きです。また大規模クラスタの開発・運用の中で構成管理や運用の面も携わってきました。
masaru_dobashi



吉田 耕陽 [NTTデータ]

株式会社NTTデータ
OSSプロフェッショナルサービス

入社以来、Hadoopをはじめとする分散処理OSS関連の案件に従事。小規模のスタートアップ構成から1000台超の大規模クラスタなど様々なクラスタで、インフラの設計・構築・運用サポートからアプリ開発・チューニングなど、Hadoop関連でいろいろと活動しています。「Spark入門」(翔泳社)共著者です。
ysd0615