Hoe maak ik een PySpark DataFrame van een lijst?
Hoe maak ik een PySpark DataFrame van een lijst?
Anonim

Ik volg deze stappen voor het maken van een DataFrame uit een lijst met tuples:

  1. Creëren een lijst van tupels. Elke tupel bevat de naam van een persoon met leeftijd.
  2. Creëren een RDD van de lijst bovenstaand.
  3. Overzetten elke tupel op een rij.
  4. Creëren een DataFrame door createDataFrame op RDD toe te passen met behulp van sqlContext.

Met dit in het achterhoofd, hoe converteer je een DataFrame naar een lijst in Python?

  1. Stap 1: Converteer het dataframe naar een geneste Numpy-array met behulp van DataFrame.to_numpy() d.w.z.
  2. Stap 2: Converteer 2D Numpy-array naar een lijst met lijsten.
  3. Stap 1: transponeer het dataframe om rijen als kolommen en kolommen als rijen te converteren.
  4. Stap 2: Converteer het dataframe naar een geneste Numpy-array met DataFrame.to_numpy()

Bovendien, wat is een Spark DataFrame? EEN Spark-gegevensframe is een gedistribueerde verzameling gegevens georganiseerd in benoemde kolommen die bewerkingen biedt voor het filteren, groeperen of berekenen van aggregaten, en kan worden gebruikt met Vonk Sql. DataFrames kan worden opgebouwd uit gestructureerde gegevensbestanden, bestaande RDD's, tabellen in Hive of externe databases.

Weet ook, wat is PySpark SQL?

Spark-SQL is een Vonk module voor gestructureerde gegevensverwerking. Het biedt een programmeerabstractie genaamd DataFrames en kan ook fungeren als een gedistribueerde SQL query-engine. Hiermee kunnen ongewijzigde Hadoop Hive-query's tot 100x sneller worden uitgevoerd op bestaande implementaties en gegevens.

Zijn Spark DataFrames onveranderlijk?

In Vonk je kunt niet - DataFrames zijn onveranderlijk . Je zou … moeten gebruiken.