Wat is Spark-uitzending?
Wat is Spark-uitzending?

Video: Wat is Spark-uitzending?

Video: Wat is Spark-uitzending?
Video: Collega Ed van Savooyen (Spark) geeft visie op de deelauto in live-uitzending RTV Discus 2024, Mei
Anonim

Uitzending variabelen in Apache Vonk is een mechanisme voor het delen van variabelen tussen uitvoerders die bedoeld zijn om alleen-lezen te zijn. Zonder uitzending variabelen deze variabelen zouden voor elke transformatie en actie naar elke uitvoerder worden verzonden, en dit kan netwerkoverhead veroorzaken.

Evenzo vragen mensen: wanneer moet ik Spark uitzenden?

Uitzending variabelen worden meestal gebruikt wanneer de taken in meerdere fasen dezelfde gegevens vereisen of wanneer de gegevens in de gedeserialiseerde vorm moeten worden opgeslagen. Uitzending variabelen worden gemaakt met behulp van een variabele v door SparkContext aan te roepen.

En wat zijn accumulatoren en uitzendvariabelen in Spark? Vonk ondersteunt twee soorten gedeelde variabelen : uitzendvariabelen , die kan worden gebruikt om een waarde in het geheugen op alle knooppunten te cachen, en accumulatoren , welke zijn variabelen die alleen worden “opgeteld”, zoals tellers en sommen.

Gezien dit, wat is een vonkaccumulator?

Accumulatoren zijn variabelen die alleen door een associatieve bewerking worden "toegevoegd" en daarom efficiënt parallel kunnen worden ondersteund. Ze kunnen worden gebruikt om tellers (zoals in MapReduce) of sommen te implementeren. Vonk native ondersteunt accumulatoren van numerieke typen, en programmeurs kunnen ondersteuning voor nieuwe typen toevoegen.

Hoe werk ik mijn uitzendvariabele in Spark bij?

  1. Verplaats het opzoeken van referentiegegevens naar een forEachPartition of forEachRdd, zodat het volledig op de werkers staat.
  2. Start de Spark-context elke keer dat de refdata verandert, opnieuw met een nieuwe Broadcast-variabele.

Aanbevolen: