Apache Avro とは

Avroは、ApacheのHadoopプロジェクトで開発されたリモートプロシージャコールとデータのシリアル化フレームワークです。 JSONを使用してデータ型とプロトコルを定義し、コンパクトなバイナリ形式でデータをシリアライズします。主な用途はApache Hadoopで、永続データのシリアライズ形式と、Hadoopノード間の通信、およびクライアントプログラムからHadoopサービスへの通信のためのワイヤ形式の両方を提供できます。
これは、ThriftとProtocol Bufferに似ていますが、スキーマが変更されたときにコード生成プログラムを実行する必要はありません(静的型言語では必要ありません)。
Apache Spark SQLはデータソースとしてAvroにアクセスできます。