Wat is de gegevensverwerkingsengine achter Amazon Elastic MapReduce?
Wat is de gegevensverwerkingsengine achter Amazon Elastic MapReduce?

Video: Wat is de gegevensverwerkingsengine achter Amazon Elastic MapReduce?

Video: Wat is de gegevensverwerkingsengine achter Amazon Elastic MapReduce?
Video: Essential Scale-Out Computing by James Cuff 2024, Mei
Anonim

Amazon EMR gebruikt Apache Hadoop als gedistribueerd gegevensverwerkingsengine: . Hadoop is een open source Java-softwareframework dat ondersteuning biedt voor gegevens -intensieve gedistribueerde applicaties die op grote clusters draaien van goederenhardware.

Bovendien, wat is Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) is een Amazon-webservices ( AWS ) tool voor het verwerken en analyseren van big data. Amazon EMR verwerkt big data over een Hadoop-cluster van virtuele servers op Amazon Elastic Computercloud ( EC2 ) en Amazone Eenvoudige opslagservice ( S3 ).

Wordt Amazon EMR bovendien volledig beheerd? Het is een volledig beheerd data lake-service die gegevensopslag kan loskoppelen van rekenbronnen en in plaats daarvan rekenclusters schaalbaar maakt, beschikbaar is voor on-demand gebruik, en de mogelijkheid biedt voor meerdere clusters om toegang te krijgen tot dezelfde gegevenssets tegelijk.

Je kunt je ook afvragen, hoe werkt AWS EMR?

Over het algemeen geldt dat wanneer u gegevens verwerkt in Amazon EMR , de invoer zijn gegevens die zijn opgeslagen als bestanden in het door u gekozen onderliggende bestandssysteem, zoals: Amazone S3 of HDFS. Deze gegevens gaan van de ene stap naar de volgende in de verwerkingsvolgorde. De laatste stap schrijft de uitvoergegevens naar een gespecificeerde locatie, zoals een Amazone S3 emmer.

Wat is het verschil tussen ec2 en EMR?

in tegenstelling tot EMR , EC2 categoriseert slave-knooppunten niet in kern- en taakknooppunten. Dit verhoogt het risico op verlies van HDFS-gegevens in het geval dat een knooppunt wordt verwijderd/verloren. EC2 gebruikt Apache-bibliotheken (s3a) om toegang te krijgen tot gegevens op s3. Anderzijds, EMR gebruikt AWS-eigen code om sneller toegang te krijgen tot s3.

Aanbevolen: