Inhoudsopgave:

Wat zijn verschillende bestandsformaten in Hadoop?
Wat zijn verschillende bestandsformaten in Hadoop?

Video: Wat zijn verschillende bestandsformaten in Hadoop?

Video: Wat zijn verschillende bestandsformaten in Hadoop?
Video: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, December
Anonim

Gelukkig voor jou heeft de big data-community in principe genoegen genomen met drie geoptimaliseerde bestandsformaten voor gebruik in Hadoop clusters: geoptimaliseerde rij zuilvormig (ORC), Avro en parket.

Vervolgens kan men zich afvragen, wat zijn de verschillende soorten dataformaten?

Er zijn er drie soorten gegevens mapping en GIS dataformaten . Elk type wordt anders aangepakt.

Typen gegevensindeling

  • Bestandsgebaseerde Shapefiles, Microstation Design Files (DGN), GeoTIFF-afbeeldingen.
  • Op directory's gebaseerd - ESRI ArcInfo Coverages, US Census TIGER.
  • Databaseverbindingen - PostGIS, ESRI ArcSDE, MySQL.

Bovendien, welk bestandsformaat is het beste in hive? RCFile is rij kolomvormig bestandsformaat . Dit is een andere vorm van Hive-bestandsindeling die hoge compressiesnelheden op rijniveau biedt. Als u meerdere rijen tegelijk moet uitvoeren, kunt u RCFile gebruiken formaat.

Dit in overweging nemend, wat zijn de gebruikelijke invoerformaten in Hadoop?

InputFormat creëert Inputsplit

  • De meest voorkomende InputFormat zijn:
  • FileInputFormat- Het is de basisklasse voor alle op bestanden gebaseerde InputFormat.
  • TextInputFormat- Het is de standaard InputFormat vanMapReduce.
  • KeyValueTextInputFormat- Het is vergelijkbaar met TextInputFormat.
  • Volg de link voor meer informatie over InputFormat in Hadoop.

Wat is het orc-bestandsformaat in Hadoop?

ORC-bestandsindeling De geoptimaliseerde rij zuilvormig ( ORC ) bestandsformaat biedt een zeer efficiënte manier om Hive-gegevens op te slaan. Het was ontworpen om de beperkingen van de andere Hive te overwinnen bestandsformaten . Gebruik makend van ORC-bestanden verbetert de prestaties wanneer Hive gegevens leest, schrijft en verwerkt.

Aanbevolen: