Overzicht van Install Hadoop

Het volgende artikel, Hadoop installeren, biedt een overzicht van de meest voorkomende Hadoop-framework-sleutelmodules en stapsgewijze installatie voor Hadoop. De Apache Hadoop is een verzameling software waarmee grote gegevenssets en gedistribueerde opslag over een cluster van verschillende typen computersystemen kunnen worden verwerkt. Momenteel blijft Hadoop het meest gebruikte analyseplatform voor big data ('Sanchita Lobo, auteur bij Analytics Training Blog', nd).

Hadoop Framework

Het Apache Hadoop-framework bestaat uit de volgende belangrijke modules.

  • Apache Hadoop Common.
  • Apache Hadoop Distributed File System (HDFS).
  • Apache Hadoop Map Reduce
  • Apache Hadoop YARN (Yet Another Resource Manager).

Apache Hadoop Common

Apache Hadoop Common-module bestaat uit gedeelde bibliotheken die worden gebruikt in alle andere modules, waaronder sleutelbeheer, generieke I / O-pakketten, bibliotheken voor metrische verzameling en hulpprogramma's voor het register, beveiliging en streaming.

HDFS

De HDFS is gebaseerd op het Google-bestandssysteem en is gestructureerd om op goedkope hardware te werken. HDFS is tolerant voor fouten en is ontworpen voor toepassingen met grote gegevenssets.

MapReduce

MapReduce is een inherent parallel programmeermodel voor gegevensverwerking en Hadoop kan MapReduce-programma's uitvoeren die zijn geschreven in verschillende talen, zoals Java. MapReduce werkt door de verwerking in de kaartfase te splitsen en de fase te verminderen.

Apache Hadoop GAREN

Apache Hadoop YARN is een kerncomponent en is resourcebeheer en taakplanningstechnologie in het door Hadoop gedistribueerde verwerkingsraamwerk.

In dit artikel zullen we de installatie en configuratie van Hadoop 2.7.4 op een cluster met één knooppunt bespreken en de configuratie testen door het MapReduce-programma wordcount uit te voeren om het aantal woorden in het bestand te tellen. We zullen verder enkele belangrijke Hadoop File System-opdrachten bekijken.

Stappen om Hadoop te installeren

Het volgende is een samenvatting van de taken die betrokken zijn bij de configuratie van Apache Hadoop.

Taak 1: De eerste taak in de Hadoop-installatie omvatte het instellen van een sjabloon voor een virtuele machine die was geconfigureerd met Cent OS7. Pakketten zoals Java SDK 1.8 en Runtime Systems vereist om Hadoop uit te voeren, zijn gedownload en de Java-omgevingsvariabele voor Hadoop is geconfigureerd door bash_rc te bewerken.

Taak 2: Hadoop Release 2.7.4-pakket werd gedownload van de apache-website en werd geëxtraheerd in de opt-map. Die vervolgens werd omgedoopt tot Hadoop voor gemakkelijke toegang.

Taak 3: Nadat de Hadoop-pakketten waren uitgepakt, omvatte de volgende stap het configureren van de omgevingsvariabele voor de Hadoop-gebruiker, gevolgd door het configureren van de XML-bestanden van het Hadoop-knooppunt. In deze stap werd NameNode geconfigureerd in core-site.xml en DataNode werd geconfigureerd in hdfs-site.xml. Resource manager en node manager zijn geconfigureerd binnen yarn-site.xml.

Taak 4: De firewall is uitgeschakeld om YARN en DFS te starten. JPS-opdracht werd gebruikt om te controleren of relevante daemons op de achtergrond worden uitgevoerd. Het poortnummer voor toegang tot Hadoop is geconfigureerd als http: // localhost: 50070 /

Taak 5: De volgende paar stappen werden gebruikt om Hadoop te verifiëren en testen. Hiervoor hebben we een tijdelijk testbestand gemaakt in de invoermap voor het WordCount-programma. Map-reduce programma Hadoop-MapReduce-voorbeelden2.7.4.jar werd gebruikt om het aantal woorden in het bestand te tellen. Resultaten werden geëvalueerd op de localhost en logs van de ingediende aanvraag werden geanalyseerd. Alle ingediende MapReduce-aanvragen kunnen worden bekeken via de online interface, het standaardpoortnummer is 8088.

Taak 6: In de laatste taak zullen we enkele basis Hadoop File System-commando's introduceren en hun gebruik controleren. We zullen zien hoe een map kan worden gemaakt binnen het Hadoop-bestandssysteem, om de inhoud van een map weer te geven, de grootte ervan in bytes. We zullen verder zien hoe een specifieke map en bestand te verwijderen.

Resultaten in Hadoop-installatie

Hieronder ziet u de resultaten van elk van de bovenstaande taken:

Resultaat van taak 1

Een nieuwe virtuele machine met een cenOS7-afbeelding is geconfigureerd om Apache Hadoop uit te voeren. Afbeelding 1 laat zien hoe CenOS 7-afbeelding werd geconfigureerd in de virtuele machine. Afbeelding 1.2 toont de configuratie van de JAVA-omgevingsvariabele binnen .bash_rc.

Figuur 1: Configuratie van de virtuele machine

Afbeelding 1.2: Configuratie van de Java-omgevingsvariabele

Resultaat van taak 2

Afbeelding 2 toont de taak die is uitgevoerd om het Hadoop 2.7.4-pakket uit te pakken in de opt-map.

Figuur 2: Extractie van Hadoop 2.7.4-pakket

Resultaat van taak 3

Afbeelding 3 toont de configuratie voor de omgevingsvariabele voor Hadoop-gebruiker, Afbeelding 3.1 tot 3.4 toont de configuratie voor XML-bestanden die vereist zijn voor Hadoop-configuratie.

Figuur 3: Configureren van de omgevingsvariabele voor Hadoop-gebruiker

Afbeelding 3.1: Configuratie van core-site.xml

Afbeelding 3.2: Configuratie van hdfs-site.xml

Afbeelding 3.3: Configuratie van het bestand mapred-site.xml

Afbeelding 3.4: Configuratie van het bestand thread-site.xml

Resultaat van taak 4

Afbeelding 4 toont het gebruik van het jps-commando om te controleren of relevante daemons op de achtergrond worden uitgevoerd en de volgende afbeelding toont de online gebruikersinterface van Hadoop.

Afbeelding 4: jps-opdracht om actieve daemons te verifiëren.

Afbeelding 4.1: Toegang tot de online interface van Hadoop op poort http://hadoop1.example.com:50070/

Resultaat van taak 5

Afbeelding 5 toont het resultaat voor het MapReduce-programma wordcount dat het aantal woorden in het bestand telt. De volgende cijfers tonen de online gebruikersinterface van de YARN resource manager voor de ingediende taak.

Afbeelding 5: programmaresultaten van MapReduce

Afbeelding 5.1: Ingediende kaart-verklein applicatie.

Afbeelding 5.2: Logboeken voor ingediende MapReduce-aanvraag.

Resultaat van taak 6

Afbeelding 6 laat zien hoe u een map binnen het Hadoop-bestandssysteem kunt maken en een lijst met de hdf-map kunt uitvoeren.

Afbeelding 6: Een map maken binnen het Hadoop-bestandssysteem

Afbeelding 6.1 laat zien hoe een bestand in het door Hadoop gedistribueerde bestandssysteem wordt geplaatst en figuur 6.2 toont het gemaakte bestand in de map dirB.

Afbeelding 6.1: Een bestand maken in HDFS.

Afbeelding 6.2: Nieuw bestand gemaakt.

De volgende afbeeldingen laten zien hoe u de inhoud van bepaalde mappen kunt weergeven:

Figuur 6.3: Inhoud van dirA

Figuur 6.4: Inhoud van dirB

De volgende afbeelding toont hoe de bestands- en mapgrootte kan worden weergegeven:

Afbeelding 6.5: Geef een bestands- en mapgrootte weer.

Het verwijderen van een map of een bestand kan eenvoudig worden uitgevoerd met de opdracht -rm.

Afbeelding 6.6: Een bestand verwijderen.

Conclusie

Big Data heeft een zeer belangrijke rol gespeeld bij het vormgeven van de wereldmarkt van vandaag. Hadoop-framework maakt het leven van data-analisten gemakkelijk terwijl u aan grote datasets werkt. De configuratie van Apache Hadoop was vrij eenvoudig en de online gebruikersinterface bood de gebruiker meerdere opties om de applicatie af te stemmen en te beheren. Hadoop is massaal gebruikt in organisaties voor gegevensopslag, analyse van machine learning en back-up van gegevens. Het beheren van een grote hoeveelheid gegevens is heel handig geweest vanwege de door Hadoop gedistribueerde omgeving en MapReduce. De ontwikkeling van Hadoop was behoorlijk verbluffend in vergelijking met relationele databases, omdat ze geen afstemmings- en prestatie-opties hebben. Apache Hadoop is een gebruiksvriendelijke en goedkope oplossing voor het efficiënt beheren en opslaan van big data. HDFS helpt ook bij het opslaan van gegevens.

Aanbevolen artikelen

Dit is een handleiding voor het installeren van Hadoop. Hier bespreken we de introductie van Instal Hadoop, de stapsgewijze installatie van Hadoop samen met de resultaten van Hadoop-installatie. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Inleiding tot Hadoop Streaming
  2. Wat is Hadoop Cluster en hoe werkt het?
  3. Apache Hadoop Ecosystem en zijn componenten
  4. Wat zijn de Hadoop-alternatieven?

Categorie: