Inhoudsopgave:
2025 Auteur: Lynn Donovan | [email protected]. Laatst gewijzigd: 2025-01-13 06:17
Om te optimaliseren uitvoering , set de aantal kaarttaken naar een waarde lager dan de maximum aantal verbindingen dat de database ondersteunt. Controle de hoeveelheid parallellisme dat Sqoop zal gebruiken om gegevens over te dragen is de belangrijkste manier om te controleren de laden op jouw databank.
Dienovereenkomstig, wat gebeurt er als shoop mislukt tussen een proces?
een typische Sqoop taak die gegevens uit een brondatabase opneemt in HDFS, kopieert de gegevens naar een doelmap. Het gekopieerde bestand wordt verwijderd als skoop mislukt zonder te voltooien.
Je kunt je ook afvragen, hoe bereik je parallellisme in skoop? Controle parallellisme . Sqoop importeert gegevens parallel uit de meeste databasebronnen. U kunt het aantal kaarttaken (parallelle processen) specificeren dat moet worden gebruikt om de import uit te voeren door het argument -m of --num-mappers te gebruiken. Elk van deze argumenten heeft een geheel getal dat overeenkomt met de mate van parallellisme in dienst te nemen
Dus hoe kan ik de prestaties van mijn Hive-query verbeteren?
Hieronder vindt u de lijst met praktijken die we kunnen volgen om Hive-query's te optimaliseren
- Compressie inschakelen in Hive.
- Koppelingen optimaliseren.
- Vermijd globale sortering in Hive.
- Schakel Tez Execution Engine in.
- Optimaliseer de LIMIT-operator.
- Parallelle uitvoering inschakelen.
- Schakel de strikte modus Mapreduce in.
- Enkele reductie voor meerdere groepen BY.
Hoe werkt skoop splitsen?
Het kan worden gebruikt om de importprestaties te verbeteren door meer parallelliteit te bereiken. Sqoop creëert splitst gebaseerd op waarden in een bepaalde kolom van de tabel die wordt gespecificeerd door -- splitsen -by door de gebruiker via het importcommando. Als deze niet beschikbaar is, wordt de primaire sleutel van de invoertabel gebruikt om de splitst.