Apache Arrow IPC (Spaltenorientierter In-Memory-Speicher)

Apache Arrow IPC ist ein binäres Format für den effizienten Austausch von spaltenorientierten Daten im Speicher zwischen verschiedenen Systemen und Programmiersprachen.

MIME-Typ

application/vnd.apache.arrow.file

Typ

Binaer

Komprimierung

Verlustfrei

Vorteile

+ Zero-copy data sharing between languages and processes
+ Optimized for SIMD and vectorized computation
+ Standard memory layout for modern data tools (DuckDB, Polars, Pandas)

Nachteile

− Not designed for persistent storage — use Parquet for that
− Files are larger than compressed Parquet or CSV
− More complex than CSV for simple data exchange

Wann Sie .ARROW verwenden sollten

Verwenden Sie Arrow IPC für den effizienten Datenaustausch zwischen Analysesystemen — Spark, pandas, DuckDB und jeder Anwendung, die schnelle spaltenorientierte Verarbeitung benötigt.

Technische Details

Arrow IPC verwendet Flatbuffers-Serialisierung mit einem definierten spaltenorientierten Memory-Layout. Es ermöglicht Zero-Copy-Datentransfer zwischen Prozessen und unterstützt Record Batches mit Schema-Metadaten.

Geschichte

Apache Arrow wurde 2016 als sprachübergreifendes In-Memory-Datenformat gestartet. Es wurde von den Entwicklern von pandas, Spark und Drill als gemeinsame Grundlage entwickelt.

Von .ARROW konvertieren

.arrow → .avro .arrow → .csv .arrow → .json .arrow → .ndjson .arrow → .parquet .arrow → .xlsx

In .ARROW konvertieren

.avro → .arrow .csv → .arrow .json → .arrow .ndjson → .arrow .parquet → .arrow .xlsx → .arrow

Categories