Inleiding tot het Hadoop-ecosysteem

Apache Hadoop is een open source-systeem om op een betrouwbare manier veel informatie op te slaan en te verwerken op veel basiscomputers. Hadoop is voor het eerst in een paper geschreven en in oktober 2013 gepubliceerd als 'Google File System'. Doug Cutting, die op dat moment in Yahoo werkte, introduceerde de naam Hadoop Ecosystem op basis van de speelgoedolifantnaam van zijn zoon. Als we de belangrijkste kern van Apache Hadoop beschouwen, dan kan het ten eerste het opslaggedeelte, dat bekend staat als Hadoop Distributed File System (HDFS), en ten tweede het verwerkingsgedeelte, dat bekend staat als de Map Reduce Programming-module. Hadoop splitst eigenlijk een enorm bestand en slaat ze op in meerdere knooppunten in het cluster.

Het concept van Hadoop Ecosystem

Het Apache Hadoop-framework bevat voornamelijk onderstaande modules:

  1. Hadoop Common: bevat alle bibliotheken en hulpprogramma's die nodig zijn voor het gebruik van de Hadoop-module.
  2. Hadoop Distributed File System (HDFS): het is een van de gedistribueerde bestandssystemen die helpt enorme gegevens op te slaan op meerdere of standaardmachines. Zorg ook voor een groot nut in geval van bandbreedte, het bood normaal gesproken een zeer hoge bandbreedte in een soort aggregaat op een cluster.
  3. Hadoop-garen: geïntroduceerd in 2012. Het is voornamelijk geïntroduceerd voor het beheer van resources op alle systemen in grondstoffen, zelfs in een cluster. Gebaseerd op de mogelijkheden van resources die het heeft gedistribueerd of de toepassing van de gebruiker volgens planning plant.
  4. Hadoop MapReduce: het helpt vooral om grootschalige gegevens te verwerken via programmeermethodes die de kaart verminderen.

Apache Hadoop helpt altijd bij het verlagen van IT-kosten bij het slim verwerken en opslaan van enorme gegevens. Omdat Apache Hadoop een open source is en hardware zeer algemeen beschikbaar is, helpt het ons altijd bij het omgaan met een juiste verlaging van de IT-kosten.

Open Source Software + Commodity Hardware = IT-kostenreductie

Als we bijvoorbeeld overwegen om dagelijks 942787 bestanden en mappen te ontvangen, waarvoor 4077936 blokken nodig zijn, totaal 5020723 blokken. Dus als we ten minste 1, 46 PB-capaciteit hebben geconfigureerd, gebruikt het gedistribueerde bestandssysteem voor afhandeling boven de belasting 1, 09 PB, dat is gemiddeld bijna 74, 85% van de totale geconfigureerde capaciteit, terwijl we rekening houden met 178 live knooppunten en 24 dode knooppunten.

Hadoop-ecosysteem voornamelijk ontworpen voor het opslaan en verwerken van big data, die normaal enkele belangrijke kenmerken hebben zoals hieronder:

  • Volume

Volume staat voor de grootte van gegevens die daadwerkelijk zijn opgeslagen en gegenereerd. Afhankelijk van de grootte van de gegevens is vastgesteld dat de gegevensset big data is of niet.

  • Verscheidenheid

Variatie staat voor aard, structuur en type gegevens dat wordt gebruikt.

  • Snelheid

Velocity staat voor de snelheid van gegevens die zijn opgeslagen en gegenereerd in een bepaalde ontwikkelingsprocesstroom.

  • veracity

Waarachtigheid betekent de kwaliteit van de gegevens die zijn vastgelegd en helpt ook gegevensanalyse om het beoogde doel te bereiken.

HDFS is hoofdzakelijk ontworpen om een ​​zeer grote hoeveelheid informatie (terabytes of petabytes) op te slaan op een groot aantal machines in een cluster. Het onderhoudt altijd een aantal gemeenschappelijke kenmerken, zoals gegevensbetrouwbaarheid, draait op basishardware, gebruikt blokken om een ​​bestand of een deel van dat bestand op te slaan, maakt gebruik van het 'write once read many'-model.

HDFS volgt onderstaande architectuur met het concept van Name Node en Data Node.

De verantwoordelijkheid van de Name Node (Master):

- beheert de naamruimte van het bestandssysteem

- onderhoudt clusterconfiguratie

- Verantwoordelijk voor replicatiebeheer

De verantwoordelijkheid van Data Node (Slaves):

- Sla gegevens op in het lokale bestandssysteem

- Meld u periodiek terug aan het naamknooppunt door middel van een hartslag

HDFS-schrijfbewerking:

Hadoop volgt de onderstaande stappen voor het schrijven van elk groot bestand:

  1. Maak een bestand en werk de FS-afbeelding bij nadat u een bestandsverzoek van een willekeurige HDFS-client hebt ontvangen.
  2. Haal bloklocatie- of gegevensknooppuntgegevens op van het naamknooppunt.
  3. Schrijf het pakket parallel op een individuele dataknoop.
  4. Bevestig de voltooiing of accepteer het schrijven van pakketten en stuur informatie terug naar de Hadoop-client.

Pijplijn HDFS-blokreplicatie:

  1. De client haalt een lijst met Datanodes op van de Namenode die een replica van dat blok zal hosten
  2. De client spoelt vervolgens het gegevensblok naar de eerste Datanode
  3. De eerste Datanode ontvangt een blok, schrijft het en draagt ​​het over naar het volgende dataknooppunt in de pijplijn
  4. Wanneer alle replica's zijn geschreven, gaat de client door naar het volgende blok in het bestand

HDFS fouttolerantie:

Eén dataknooppunt is plotseling uitgevallen, in dat geval heeft HDFS de mogelijkheid om dat scenario automatisch te beheren. Ten eerste ontvangt elk naamknooppunt altijd één hartslag van elk gegevensknooppunt, als het op de een of andere manier één hartslag verloor van één gegevensknooppunt, rekening houdend met hetzelfde gegevensknooppunt als down, onmiddellijk actie ondernemen om alle blokken op resterende knooppunten onmiddellijk automatisch te repliceren om de replicatie te bevredigen factor.

Als het naamknooppunt een nieuw gegevensknooppunt in het cluster detecteert, worden alle blokken onmiddellijk opnieuw in evenwicht gebracht, inclusief het toegevoegde gegevensknooppunt.

Nu is op de een of andere manier het verlies van het naamknooppunt of mislukt, in dat geval ook een back-upknooppunt met één FS-afbeelding van het naamknooppunt, alle FS-bewerkingen onmiddellijk opnieuw afspelen en het naamknooppunt naar behoefte bijwerken. Maar in dat geval is handmatige interventie vereist en zal het hele Hadoop-ecosysteemraamwerk een paar keer down zijn om opnieuw een nieuw naamknooppunt op te zetten. Dus in dit geval kan het naamknooppunt een enkele puntfout zijn, om te voorkomen dat dit scenario HDFS Federation die meerdere clusters installeert van het naamknooppunt, en ZooKeeper onmiddellijk een alternatief naamknooppunt kan beheren zoals vereist.

Voorbeelden van Hadoop Ecosystem

Het volledige voorbeeld van het Hadoop-ecosysteem kan goed worden uitgelegd in de onderstaande afbeelding:

Gegevens kunnen afkomstig zijn van elke soort bron, zoals Data Warehouse, Managed Document Repository, File Shares, normale RDMS-databases of cloud- of externe bronnen. Al die gegevens kwamen op structuur of niet-structuur of semi-gestructureerde manier naar HDFS. HDFS slaat al die gegevens op als een gedistribueerde manier, wat betekent dat ze heel slim in een gedistribueerd commodity-systeem worden opgeslagen.

Conclusie

Hadoop-ecosysteem voornamelijk ontworpen voor het opslaan en verwerken van enorme gegevens die elk van de twee factoren tussen volume, snelheid en variëteit had moeten weergeven. Het slaat gegevens op in een gedistribueerd verwerkingssysteem dat op basis van hardware draait. Rekening houdend met het volledige Hadoop-ecosysteemproces, distribueert HDFS de gegevensblokken en biedt Map Reduce het programmeerraamwerk om gegevens te lezen uit een bestand dat is opgeslagen in HDFS.

Aanbevolen artikelen:

Dit is een gids geweest voor Hadoop Ecosystem. Hier hebben we het basisconcept over Hadoop Ecosystem besproken, de architectuur, HDFS-bewerkingen, voorbeelden, HDFS-fouttolerantie enz. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Gebruik van Hadoop in Real World
  2. Hadoop vs Splunk
  3. Carrière in Hadoop
  4. Hadoop versus SQL-prestaties

Categorie: