Wat is het probleem met kleine bestanden in Hadoop?
Wat is het probleem met kleine bestanden in Hadoop?

Video: Wat is het probleem met kleine bestanden in Hadoop?

Video: Wat is het probleem met kleine bestanden in Hadoop?
Video: Hadoop Small File Issue | Hadoop Interview Questions 2024, November
Anonim

1) Klein bestand probleem in HDFS : Veel opslaan kleine bestanden die extreem zijn kleiner dan kan de blokgrootte niet efficiënt worden afgehandeld door HDFS . Doorlezen kleine bestanden veel zoeken en veel hoppen tussen gegevensknooppunt naar gegevensknooppunt, wat op zijn beurt inefficiënte gegevensverwerking is.

Daarnaast, welke bestanden behandelen problemen met kleine bestanden in Hadoop?

1) HAR ( Hadoop Archief) Bestanden heeft kennis gemaakt met omgaan met kleine bestandsproblemen . HAR heeft er een laag bovenop gentroduceerd HDFS , die een interface bieden voor het dossier toegang krijgen. Gebruik makend van Hadoop archiefopdracht, HAR bestanden worden gemaakt, die loopt KaartVerminderen taak om de bestanden gearchiveerd worden in kleiner aantal HDFS-bestanden.

Kan ik bovendien meerdere bestanden in HDFS verschillende blokgroottes laten gebruiken? Standaard maat van blok is 64 MB. jij kan verander het afhankelijk van uw behoefte. Komend op je vraag ja jij kan meerdere bestanden maken door te variëren blok maten maar in realtime dit zullen niet gunstig voor de productie.

Bovendien, waarom kan HDFS kleine bestanden niet optimaal verwerken?

Problemen met kleine bestanden en HDFS Elk het dossier , directory en blok in HDFS is weergegeven als een object in het geheugen van de namenode, die elk 150 bytes in beslag nemen, als vuistregel. Verder, HDFS is niet gericht op efficiënt toegang kleine bestanden : het is voornamelijk ontworpen voor streamingtoegang van grote bestanden.

Waarom is Hadoop traag?

Traag Verwerkingssnelheid Deze schijf zoeken kost tijd, waardoor het hele proces erg traag . Indien Hadoop gegevens in een klein volume verwerkt, is het erg traag relatief. Het is ideaal voor grote datasets. Als Hadoop heeft een batchverwerkingsengine als kern, de snelheid voor realtime verwerking is minder.

Aanbevolen: