Inhoudsopgave:

Kan ik Python op Hadoop uitvoeren?
Kan ik Python op Hadoop uitvoeren?

Video: Kan ik Python op Hadoop uitvoeren?

Video: Kan ik Python op Hadoop uitvoeren?
Video: MapReduce Jobs For Distributed Hadoop Clusters in Python 2024, Mei
Anonim

Met keuze uit programmeertalen zoals Java, Scala en Python voor Hadoop ecosysteem, de meeste ontwikkelaars gebruiken Python vanwege de ondersteunende bibliotheken voor gegevensanalysetaken. Hadoop streaming stelt de gebruiker in staat om te creëren en uitvoeren Map/Reduce-taken met elk script of uitvoerbaar bestand als mapper en/of reducer.

Evenzo wordt gevraagd, hoe maakt Python verbinding met Hadoop?

Hadoop HDFS verbinden met Python

  1. Stap 1: Zorg ervoor dat Hadoop HDFS correct werkt. Open Terminal/Opdrachtprompt, controleer of HDFS werkt met behulp van de volgende opdrachten: start-dfs.sh.
  2. Stap 2: Installeer de libhdfs3-bibliotheek.
  3. Stap 3: Installeer de hdfs3-bibliotheek.
  4. Stap 4: Controleer of de verbinding met HDFS is gelukt.

Evenzo, wat is Hadoop in Python? Python is een algemene programmeertaal die kan worden gebruikt om bijna alles in de programmeerwereld te doen. Hadoop is een big data framework geschreven in Java om met enorme hoeveelheden data om te gaan. Er zijn talloze online instituten die: Hadoop met Python cursussen zoals: Analytixlabs. Edureka.

Vervolgens is de vraag, hoe voer ik een Python MapReduce-programma uit in Hadoop?

Een Hadoop MapReduce-programma schrijven in Python

  1. Motivatie.
  2. Wat we willen doen.
  3. Vereisten.
  4. Python MapReduce-code. Kaartstap: mapper.py. Stap verkleinen: reducer.py.
  5. De Python-code uitvoeren op Hadoop. Download voorbeeld invoergegevens. Kopieer lokale voorbeeldgegevens naar HDFS.
  6. Verbeterde Mapper- en Reducer-code: met behulp van Python-iterators en generators. mapper.py. verloopstuk.py.

Wat is Hadoop Streaming-pot?

Hadoop distributie biedt een Java-hulpprogramma genaamd Hadoop-streaming . Het is verpakt in een kan het dossier. Met Hadoop-streaming , kunnen we Map Reduce-taken maken en uitvoeren met een uitvoerbaar script. Hadoop-streaming is een hulpprogramma dat wordt geleverd met de Hadoop verdeling. Het kan worden gebruikt om programma's voor big data-analyse uit te voeren.

Aanbevolen: