HDFS-opdracht - Basis tot geavanceerd commando met tips en trucs

Inleiding tot HDFS-opdrachten

Big data is een woord voor datasets die zo groot of samengesteld zijn dat conventionele applicatiesoftware voor gegevensverwerking niet genoeg is om ermee te werken. Hadoop is een open source, op Java gebaseerd programmeerraamwerk dat de verwerkings- en opslagruimte van enorm omvangrijke gegevenssets in een verspreide computeromgeving combineert. Apache software foundation is de sleutel voor het installeren van Hadoop

Kenmerken van HDFS:

HDFS draait op Master / slave-architectuur
Bestanden worden door HDFS gebruikt voor het opslaan van gebruikersgerelateerde gegevens
bevat een enorme reeks mappen en bestanden die zijn opgeslagen in een hiërarchisch formaat.
Aan de binnenkant wordt een bestand in kleinere blokken geript en deze blokken worden opgeslagen in een set Datanodes.
Namenode en Datanode zijn het deel van de software dat bedoeld is om te worden uitgevoerd op productmachines die klassiek worden uitgevoerd op GNU / Linux OS.

Namenode:

Hier wordt het bestandssysteem onderhouden door naamknooppunt
Namenode is ook verantwoordelijk voor het loggen van alle wijzigingen in het bestandssysteem en behoudt bovendien een afbeelding van de volledige naamruimte van het bestandssysteem en de blockmap van het bestand in het geheugen
Controlepunten worden periodiek uitgevoerd. vandaar gemakkelijk herstellen naar het podium voordat het crashpunt hier kan worden bereikt.

Datanode:

Een Datanode bevat gegevens in bestanden in het lokale bestandssysteem
Om het bestaan ervan in te schatten, stuurt de dataknoop de hartslag naar de namenode
Voor elke ontvangen 10e hartslag wordt een blokrapport gegenereerd
Replicatie wordt geïmpliceerd op de gegevens die zijn opgeslagen in deze gegevensknooppunten

Gegevensreplicatie:

Hier vormt de reeks blokken een bestand met een standaardblokgrootte van 128 MB
Alle blokken in het bestand, behalve de finale, zijn van vergelijkbare grootte.
Van elke gegevensknoop in het cluster ontvangt het naamode-element een hartslag
BlockReport bevat alle blokken op een Datanode.
bevat een enorme reeks mappen en bestanden die zijn opgeslagen in een hiërarchisch formaat.
Aan de binnenkant wordt een bestand in kleinere blokken geript en deze blokken worden opgeslagen in een set Datanodes.
Namenode en Datanode zijn het deel van de software dat bedoeld is om te worden uitgevoerd op productmachines die klassiek worden uitgevoerd op GNU / Linux OS.

Job tracker: JobTracker-debat naar de NameNode om de positie van de gegevens te bepalen. Zoek ook de beste TaskTracker-knooppunten om taken uit te voeren op basis van de gegevenslocatie

Taaktracker : een TaskTracker is een knooppunt in het cluster dat taken accepteert - Map-, Verkleinen en Shuffle-bewerkingen - van een JobTracker.

Secundaire naamknooppunt (of) controlepuntknooppunt: haalt het EditLog regelmatig uit het naamknooppunt en is van toepassing op de FS-afbeelding. En kopieert een voltooide FS-afbeelding terug naar het naamknooppunt tijdens de herstart. Het hele doel van de secundaire naamknoop is om een controlepunt in HDFS te hebben.

GAREN:

YARN heeft een centrale resource manager-component die resources beheert en de resources toewijst aan elke applicatie.
Hier is de Resource Manager de master die de resources beoordeelt die aan het cluster zijn gekoppeld, de resource manager is opgerold van twee componenten, de applicatiebeheerder en een planner. Deze twee componenten beheren samen de taken op de clustersystemen. een ander onderdeel roept de Node Manager (NM) op die verantwoordelijk is voor het beheer van de taken en workflow van de gebruikers op een bepaald knooppunt.
Een exacte replicatie van de gegevens in actieve namenode wordt bewaard door de Standby NameNode. Het fungeert als een slaaf, behoudt voldoende staat om indien nodig een snelle failover te leveren.

Basic HDFS-opdrachten:

Standaard HDFS-opdrachten
Sorry. Nee	HDFS-opdrachteigenschap	HDFS-opdracht
1	Hadoop-versie afdrukken	$ hadoop-versie
2	Geef de inhoud van de hoofdmap weer in HDFS	$ hadoop fs -ls
3	Rapporteer de hoeveelheid beschikbare en beschikbare ruimte op een momenteel aangekoppeld bestandssysteem	$ hadoop fs -df hdfs: /
4	De HDFS-balancer brengt gegevens over de DataNodes opnieuw in evenwicht en verplaatst blokken van te veel gebruikte naar te weinig gebruikte knooppunten.	$ hadoop balancer
5	Help-opdracht	$ hadoop fs -help

Tussentijdse HDFS-opdrachten:

Gemiddelde HDFS-opdrachten
Sorry. Nee	HDFS-opdrachteigenschap	HDFS-opdracht
6	maakt een map op de opgegeven HDFS-locatie	$ hadoop fs -mkdir / user / cloudera /
7	Kopieert gegevens van de ene locatie naar de andere	$ hadoop fs -put data / sample.txt / user / training / hadoop
8	Bekijk de ruimte die wordt ingenomen door een bepaalde map in HDFS	$ hadoop fs -du -s -h / user / cloudera /
9	Verwijder een map in Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
10	Hiermee verwijdert u alle bestanden in de opgegeven map	$ hadoop fs -rm -skipTrash hadoop / retail / *
11	Om de prullenbak te legen	$ hadoop fs -expunge
12	kopieert gegevens van en naar lokaal naar HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Geavanceerde HDFS-opdrachten:

Gemiddelde HDFS-opdrachten
Sorry. Nee	HDFS-opdrachteigenschap	HDFS-opdracht
13	bestandsrechten wijzigen	$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14	gegevensreplicatiefactor instellen voor een bestand	$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15	Tel het aantal mappen, bestanden en bytes onder hdf's	$ hadoop fs -count hdfs: /
16	maak namenode bestaan veilige modus	$ sudo -u hdfs hdfs dfsadmin -safemode verlaten
17	Hadoop heeft een namenode opgemaakt	$ hadoop namenode -format

Tips en trucs voor HDFS:

1) We kunnen sneller herstel realiseren als het aantal clusterknopen hoger is.

2) De toename in opslag per tijdseenheid verhoogt de hersteltijd.

3) Namenode-hardware moet zeer betrouwbaar zijn.

4) Geavanceerde monitoring kan worden bereikt via ambari.

5) De uithongering van het systeem kan worden verminderd door het aantal reducers te verhogen.

Aanbevolen artikelen

Dit is een gids voor HDFS-opdrachten geweest. Hier hebben we HDFS-opdrachten, functies, de basis-, tussen- en geavanceerde opdrachten besproken met afbeeldingen, tips en trucs over de opdrachten. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

Knooppuntopdrachten
Matlab-opdrachten
Voordelen van DBMS
Hadoop Ecosysteem
Hadoop fs Commando's

HDFS-opdracht - Basis tot geavanceerd commando met tips en trucs

Inhoudsopgave:

Inleiding tot HDFS-opdrachten

Kenmerken van HDFS:

Namenode:

Datanode:

Gegevensreplicatie:

GAREN:

Basic HDFS-opdrachten:

Tussentijdse HDFS-opdrachten:

Geavanceerde HDFS-opdrachten:

Tips en trucs voor HDFS:

Aanbevolen artikelen

INDEX-functie in Excel - Hoe de INDEX-functie in Excel te gebruiken?

Inflatieboekhouding - Typen en componenten - Voordeel nadeel

Informatica ETL Tools - Belangrijkste kenmerken van Informatica Power Center

INDIRECTE formule in Excel - Hoe de INDIRECT-formule in Excel te gebruiken?

Informatica-architectuur - Volledige gids voor Informatica-architectuur

Hadoop ecosysteemcomponenten - 12 componenten van Hadoop Ecosystem

Hadoop Framework - Top 4 Framework van Hadoop die je moet kennen

Interview met ontwikkelaar van Hadoop Vragen - Top 5 trucs om te weten - edu MKBA

Hadoop fs Commando's - Uitgebreide gids voor Hadoop fs-opdrachten

Hadoop Ecosysteem - Handleiding voor concept en voorbeeld van Hadoop-ecosysteem

Strategische planhulpmiddelen (belangrijke factoren) - Top 8 strategische hulpmiddelen

Strategische marketing versus tactische marketing: wat is beter?

4 Belangrijke strategische managementdoelstellingen - Definitie - Werkwijze

8 nuttige stappen om geavanceerde verhaalkaarten te maken voor uw project

Strategisch proces voor bedrijfsplanning - Top 9 bedrijfsplanning strategisch