Heron (event processor) とは

Heronは、Twitterで開発された分散ストリーミング処理エンジンです。 Twitterのクリエイターによると、Twitterデータの規模と多様性が高まっており、Heronはストリーミングを処理するリアルタイムの分析プラットフォームです。それはSIGMOD 2015で導入されました。

Apache Samza とは

Apache Samzaは、ScalaとJavaのApache Software Foundationによって開発されたストリーム処理用の、オープンソースに近い、リアルタイムで非同期な計算フレームワークです。

Apache Apex とは

Apache Apexは、ストリーム処理とバッチ処理を統一するYARNネイティブプラットフォームです。スケーラブルで、パフォーマンスが高く、フォールトトレラントで、ステートフルで、安全で、分散され、簡単に操作できる方法で大きなデータ移動を処理します。
Apache Apexは、2016年4月25日にApache Software Foundationによってトップレベルのプロジェクトに選ばれました。

Storm (event processor) とは

Apache Stormは、主にClojureプログラミング言語で記述された分散ストリーム処理計算フレームワークです。もともとNathan MarzとBackTypeのチームによって作成されたこのプロジェクトは、Twitterによって取得された後に公開されました。カスタマイズされた「スパウト」と「ボルト」を使用して情報ソースと操作を定義し、ストリーミングデータのバッチ処理を分散処理できるようにします。最初のリリースは2011年9月17日でした。
Stormアプリケーションは、スパークとボルトがグラフの頂点として機能する有向非循環グラフ(DAG)の形の「トポロジ」として設計されています。グラフ上のエッジはストリームと呼ばれ、あるノードから別のノードにデータを転送します。一緒に、トポロジはデータ変換パイプラインとして機能します。表面的なレベルでは、一般的なトポロジ構造はMapReduceジョブに似ていますが、主な違いは、データが個々のバッチではなくリアルタイムで処理されることです。さらに、Stormトポロジは無期限に実行され、MapReduceジョブDAGは最終的に終了する必要があります。
Stormは、2014年9月にApacheトップレベルプロジェクトになり、以前は2013年9月以来インキュベーション中でした。

Apache Flink とは

Apache FlinkはApache Software Foundationによって開発されたオープンソースのストリーム処理フレームワークです。 Apache Flinkの核心は、JavaとScalaで書かれた分散ストリーミングデータフローエンジンです。 Flinkは任意のデータフロープログラムをデータ並列およびパイプライン方式で実行します。 Flinkのパイプライン実行時システムは、バルク/バッチおよびストリーム処理プログラムの実行を可能にします。さらに、Flinkのランタイムは反復アルゴリズムの実行をネイティブにサポートしています。
Flinkは、ハイスループット、低レイテンシのストリーミングエンジンを提供するだけでなく、イベント時の処理と状態管理をサポートします。 Flinkアプリケーションは、マシン障害が発生した場合にフォールトトレラントであり、正確に一度のセマンティクスをサポートします。プログラムは、Java、Scala、Python、およびSQLで記述することができ、自動的にコンパイルされ、クラスタまたはクラウド環境で実行されるデータフロープログラムに最適化されます。
Flinkは独自のデータストレージシステムを提供せず、Amazon Kinesis、Apache Kafka、HDFS、Apache Cassandra、ElasticSearchなどのシステムにデータソースおよびシンクコネクタを提供します。

Apache Beam とは

Apache Beamは、ETL、バッチ、ストリーム(連続)処理などのデータ処理パイプラインを定義して実行するオープンソースの統一プログラミングモデルです。 Beam Pipelineは、提供されているSDKの1つを使用して定義され、Apache Apex、Apache Flink、Apache Spark、Google Cloud DataflowなどのBeamのサポートランナー(分散処理バックエンド)の1つで実行されます
これは「ビッグデータ用のuber-API」と呼ばれています。