Apache Arrow IPC (Spaltenorientierter In-Memory-Speicher)
Apache Arrow IPC ist ein binäres Format für den effizienten Austausch von spaltenorientierten Daten im Speicher zwischen verschiedenen Systemen und Programmiersprachen.
MIME-Typ
application/vnd.apache.arrow.file
Typ
Binaer
Komprimierung
Verlustfrei
Vorteile
- + Zero-copy data sharing between languages and processes
- + Optimized for SIMD and vectorized computation
- + Standard memory layout for modern data tools (DuckDB, Polars, Pandas)
Nachteile
- − Not designed for persistent storage — use Parquet for that
- − Files are larger than compressed Parquet or CSV
- − More complex than CSV for simple data exchange
Wann Sie .ARROW verwenden sollten
Verwenden Sie Arrow IPC für den effizienten Datenaustausch zwischen Analysesystemen — Spark, pandas, DuckDB und jeder Anwendung, die schnelle spaltenorientierte Verarbeitung benötigt.
Technische Details
Arrow IPC verwendet Flatbuffers-Serialisierung mit einem definierten spaltenorientierten Memory-Layout. Es ermöglicht Zero-Copy-Datentransfer zwischen Prozessen und unterstützt Record Batches mit Schema-Metadaten.
Geschichte
Apache Arrow wurde 2016 als sprachübergreifendes In-Memory-Datenformat gestartet. Es wurde von den Entwicklern von pandas, Spark und Drill als gemeinsame Grundlage entwickelt.