Inhoudsopgave:
2025 Auteur: Lynn Donovan | [email protected]. Laatst gewijzigd: 2025-01-13 06:17
Gelukkig voor jou heeft de big data-community in principe genoegen genomen met drie geoptimaliseerde bestandsformaten voor gebruik in Hadoop clusters: geoptimaliseerde rij zuilvormig (ORC), Avro en parket.
Vervolgens kan men zich afvragen, wat zijn de verschillende soorten dataformaten?
Er zijn er drie soorten gegevens mapping en GIS dataformaten . Elk type wordt anders aangepakt.
Typen gegevensindeling
- Bestandsgebaseerde Shapefiles, Microstation Design Files (DGN), GeoTIFF-afbeeldingen.
- Op directory's gebaseerd - ESRI ArcInfo Coverages, US Census TIGER.
- Databaseverbindingen - PostGIS, ESRI ArcSDE, MySQL.
Bovendien, welk bestandsformaat is het beste in hive? RCFile is rij kolomvormig bestandsformaat . Dit is een andere vorm van Hive-bestandsindeling die hoge compressiesnelheden op rijniveau biedt. Als u meerdere rijen tegelijk moet uitvoeren, kunt u RCFile gebruiken formaat.
Dit in overweging nemend, wat zijn de gebruikelijke invoerformaten in Hadoop?
InputFormat creëert Inputsplit
- De meest voorkomende InputFormat zijn:
- FileInputFormat- Het is de basisklasse voor alle op bestanden gebaseerde InputFormat.
- TextInputFormat- Het is de standaard InputFormat vanMapReduce.
- KeyValueTextInputFormat- Het is vergelijkbaar met TextInputFormat.
- Volg de link voor meer informatie over InputFormat in Hadoop.
Wat is het orc-bestandsformaat in Hadoop?
ORC-bestandsindeling De geoptimaliseerde rij zuilvormig ( ORC ) bestandsformaat biedt een zeer efficiënte manier om Hive-gegevens op te slaan. Het was ontworpen om de beperkingen van de andere Hive te overwinnen bestandsformaten . Gebruik makend van ORC-bestanden verbetert de prestaties wanneer Hive gegevens leest, schrijft en verwerkt.