Inleiding tot HDFS-opdrachten
Big data is een woord voor datasets die zo groot of samengesteld zijn dat conventionele applicatiesoftware voor gegevensverwerking niet genoeg is om ermee te werken. Hadoop is een open source, op Java gebaseerd programmeerraamwerk dat de verwerkings- en opslagruimte van enorm omvangrijke gegevenssets in een verspreide computeromgeving combineert. Apache software foundation is de sleutel voor het installeren van Hadoop
Kenmerken van HDFS:
- HDFS draait op Master / slave-architectuur
- Bestanden worden door HDFS gebruikt voor het opslaan van gebruikersgerelateerde gegevens
- bevat een enorme reeks mappen en bestanden die zijn opgeslagen in een hiërarchisch formaat.
- Aan de binnenkant wordt een bestand in kleinere blokken geript en deze blokken worden opgeslagen in een set Datanodes.
- Namenode en Datanode zijn het deel van de software dat bedoeld is om te worden uitgevoerd op productmachines die klassiek worden uitgevoerd op GNU / Linux OS.
Namenode:
- Hier wordt het bestandssysteem onderhouden door naamknooppunt
- Namenode is ook verantwoordelijk voor het loggen van alle wijzigingen in het bestandssysteem en behoudt bovendien een afbeelding van de volledige naamruimte van het bestandssysteem en de blockmap van het bestand in het geheugen
- Controlepunten worden periodiek uitgevoerd. vandaar gemakkelijk herstellen naar het podium voordat het crashpunt hier kan worden bereikt.
Datanode:
- Een Datanode bevat gegevens in bestanden in het lokale bestandssysteem
- Om het bestaan ervan in te schatten, stuurt de dataknoop de hartslag naar de namenode
- Voor elke ontvangen 10e hartslag wordt een blokrapport gegenereerd
- Replicatie wordt geïmpliceerd op de gegevens die zijn opgeslagen in deze gegevensknooppunten
Gegevensreplicatie:
- Hier vormt de reeks blokken een bestand met een standaardblokgrootte van 128 MB
- Alle blokken in het bestand, behalve de finale, zijn van vergelijkbare grootte.
- Van elke gegevensknoop in het cluster ontvangt het naamode-element een hartslag
- BlockReport bevat alle blokken op een Datanode.
- bevat een enorme reeks mappen en bestanden die zijn opgeslagen in een hiërarchisch formaat.
- Aan de binnenkant wordt een bestand in kleinere blokken geript en deze blokken worden opgeslagen in een set Datanodes.
- Namenode en Datanode zijn het deel van de software dat bedoeld is om te worden uitgevoerd op productmachines die klassiek worden uitgevoerd op GNU / Linux OS.
Job tracker: JobTracker-debat naar de NameNode om de positie van de gegevens te bepalen. Zoek ook de beste TaskTracker-knooppunten om taken uit te voeren op basis van de gegevenslocatie
Taaktracker : een TaskTracker is een knooppunt in het cluster dat taken accepteert - Map-, Verkleinen en Shuffle-bewerkingen - van een JobTracker.
Secundaire naamknooppunt (of) controlepuntknooppunt: haalt het EditLog regelmatig uit het naamknooppunt en is van toepassing op de FS-afbeelding. En kopieert een voltooide FS-afbeelding terug naar het naamknooppunt tijdens de herstart. Het hele doel van de secundaire naamknoop is om een controlepunt in HDFS te hebben.
GAREN:
- YARN heeft een centrale resource manager-component die resources beheert en de resources toewijst aan elke applicatie.
- Hier is de Resource Manager de master die de resources beoordeelt die aan het cluster zijn gekoppeld, de resource manager is opgerold van twee componenten, de applicatiebeheerder en een planner. Deze twee componenten beheren samen de taken op de clustersystemen. een ander onderdeel roept de Node Manager (NM) op die verantwoordelijk is voor het beheer van de taken en workflow van de gebruikers op een bepaald knooppunt.
- Een exacte replicatie van de gegevens in actieve namenode wordt bewaard door de Standby NameNode. Het fungeert als een slaaf, behoudt voldoende staat om indien nodig een snelle failover te leveren.
Basic HDFS-opdrachten:
Standaard HDFS-opdrachten |
||
Sorry. Nee | HDFS-opdrachteigenschap | HDFS-opdracht |
1 | Hadoop-versie afdrukken | $ hadoop-versie |
2 | Geef de inhoud van de hoofdmap weer in HDFS | $ hadoop fs -ls |
3 | Rapporteer de hoeveelheid beschikbare en beschikbare ruimte op een momenteel aangekoppeld bestandssysteem | $ hadoop fs -df hdfs: / |
4 | De HDFS-balancer brengt gegevens over de DataNodes opnieuw in evenwicht en verplaatst blokken van te veel gebruikte naar te weinig gebruikte knooppunten. | $ hadoop balancer |
5 | Help-opdracht | $ hadoop fs -help |
Tussentijdse HDFS-opdrachten:
Gemiddelde HDFS-opdrachten |
||
Sorry. Nee | HDFS-opdrachteigenschap | HDFS-opdracht |
6 | maakt een map op de opgegeven HDFS-locatie | $ hadoop fs -mkdir / user / cloudera / |
7 | Kopieert gegevens van de ene locatie naar de andere | $ hadoop fs -put data / sample.txt / user / training / hadoop |
8 | Bekijk de ruimte die wordt ingenomen door een bepaalde map in HDFS | $ hadoop fs -du -s -h / user / cloudera / |
9 | Verwijder een map in Hadoop | $ hadoop fs -rm -r / user / cloudera / pigjobs / |
10 | Hiermee verwijdert u alle bestanden in de opgegeven map | $ hadoop fs -rm -skipTrash hadoop / retail / * |
11 | Om de prullenbak te legen | $ hadoop fs -expunge |
12 | kopieert gegevens van en naar lokaal naar HDFS | $ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /
$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie / |
Geavanceerde HDFS-opdrachten:
Gemiddelde HDFS-opdrachten |
||
Sorry. Nee | HDFS-opdrachteigenschap | HDFS-opdracht |
13 | bestandsrechten wijzigen | $ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume / |
14 | gegevensreplicatiefactor instellen voor een bestand | $ hadoop fs -setrep -w 5 / user / cloudera / pigjobs / |
15 | Tel het aantal mappen, bestanden en bytes onder hdf's | $ hadoop fs -count hdfs: / |
16 | maak namenode bestaan veilige modus | $ sudo -u hdfs hdfs dfsadmin -safemode verlaten |
17 | Hadoop heeft een namenode opgemaakt | $ hadoop namenode -format |
Tips en trucs voor HDFS:
1) We kunnen sneller herstel realiseren als het aantal clusterknopen hoger is.
2) De toename in opslag per tijdseenheid verhoogt de hersteltijd.
3) Namenode-hardware moet zeer betrouwbaar zijn.
4) Geavanceerde monitoring kan worden bereikt via ambari.
5) De uithongering van het systeem kan worden verminderd door het aantal reducers te verhogen.
Aanbevolen artikelen
Dit is een gids voor HDFS-opdrachten geweest. Hier hebben we HDFS-opdrachten, functies, de basis-, tussen- en geavanceerde opdrachten besproken met afbeeldingen, tips en trucs over de opdrachten. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -
- Knooppuntopdrachten
- Matlab-opdrachten
- Voordelen van DBMS
- Hadoop Ecosysteem
- Hadoop fs Commando's