Wat is het parketgegevensformaat?
Wat is het parketgegevensformaat?

Video: Wat is het parketgegevensformaat?

Video: Wat is het parketgegevensformaat?
Video: An introduction to Apache Parquet 2024, Mei
Anonim

Apache Parket is een gratis en open-source column-georiënteerd gegevens opslag formaat van het Apache Hadoop-ecosysteem. Het is compatibel met de meeste gegevens verwerkingsframeworks in de Hadoop-omgeving. Het biedt efficiënte gegevens compressie- en coderingsschema's met verbeterde prestaties om complexe gegevens massaal.

Simpel gezegd, wat is het parketbestandsformaat?

Parket , een open source bestandsformaat voor Hadoop. Parket slaat geneste gegevensstructuren op in een platte kolom formaat . Vergeleken met een traditionele benadering waarbij gegevens worden opgeslagen in een rijgerichte benadering, parket is efficiënter in termen van opslag en prestaties.

En waar wordt parket voor gebruikt? Parket is een open source-bestandsindeling die beschikbaar is voor elk project in het Hadoop-ecosysteem. Apache Parket is ontworpen voor een efficiënt en performant plat kolomvormig opslagformaat van gegevens in vergelijking met op rijen gebaseerde bestanden zoals CSV- of TSV-bestanden.

Bovendien, hoe slaat parketformaat gegevens op?

GEGEVENS BLOK Elk blok in de parket bestand is opgeslagen in de vorm van rijgroepen. Dus, gegevens in een parket bestand is opgedeeld in meerdere rijgroepen. Deze rijgroepen bestaan op hun beurt weer uit een of meer kolomblokken die overeenkomen met een kolom in de gegevens set. De gegevens voor elke kolombrok geschreven in de vorm van pagina's.

Is parket menselijk leesbaar?

ORC, Parket , en Avro zijn ook machine- leesbaar binaire formaten, dat wil zeggen dat de bestanden eruitzien als wartaal om mensen . Als je nodig hebt een mens - leesbaar formaat zoals JSON of XML, dan moet je waarschijnlijk opnieuw overwegen waarom je Hadoop in de eerste plaats gebruikt.

Aanbevolen: