Hadoop Cluster: sollicitatievragen en antwoorden

Het doel van dit artikel is om alle Big Data-aspiranten te helpen bij het beantwoorden van alle Hadoop Cluster Interview-vragen met betrekking tot het instellen van Big Data-omgevingen in een organisatie. Deze vragenlijst zal helpen bij het opzetten van dataknooppunten, naamknooppunten en het definiëren van de capaciteit van de gehoste server van Big Data-daemons.

Dus als je eindelijk je droombaan in Hadoop Cluster hebt gevonden, maar je je afvraagt ​​hoe je het Hadoop Cluster-interview kunt kraken en wat de waarschijnlijke interviewvragen voor Hadoop Cluster zouden kunnen zijn. Elk interview is anders en de reikwijdte van een baan is ook anders. Met dit in gedachten hebben we de meest voorkomende sollicitatievragen en antwoorden voor Hadoop Cluster ontworpen om u te helpen succes te behalen in uw interview.

Enkele van de belangrijkste sollicitatievragen voor Hadoop Cluster die vaak in een interview worden gesteld, zijn de volgende:

1.Wat zijn de belangrijkste Hadoop-componenten in het Hadoop-cluster?

Antwoord :
Hadoop is een framework waar we big data verwerken of Hadoop is het platform waar je de enorme hoeveelheid data op commodity-servers kunt verwerken. Hadoop is de combinatie van veel componenten. Hieronder volgen de belangrijkste componenten in de Hadoop-omgeving.
Name Node : Het is de Master Node die zorgt voor alle datanode-informatie en gegevensopslaglocatie in metadata-indeling.
Secundaire naamknoop : het werkt als primaire naamknoop als de primaire naamknoop naar beneden gaat.
HDFS (Hadoop Distributed File System) : het zorgt voor alle opslag van het Hadoop-cluster.
Gegevensknooppunten : gegevensknooppunten zijn slave-knooppunten. Werkelijke gegevens worden opgeslagen op Slave Nodes voor verwerking.
YARN (Yet Another Resource Negotiator) : een softwareframework voor het schrijven van de toepassingen en voor het verwerken van grote hoeveelheden gegevens. Het biedt dezelfde functies als MapReduce en bovendien kan elke batchopdracht parallel worden uitgevoerd in het Hadoop-cluster.

2. Hoe gegevensopslag in Hadoop-cluster te plannen?

Antwoord :
Opslag is gebaseerd op formule (Opslag = dagelijkse gegevensopname * Replicatie).
Als het Hadoop-cluster dagelijks 120 TB aan gegevens krijgt en we een standaardreplicatiefactor hebben, zou de dagelijkse gegevensopslag vereist zijn
Opslagvereiste = 120 TB (dagelijkse gegevensopname) * 3 (standaardreplicatie) => 360 TB
Daarom moeten we ten minste 360 ​​TB gegevenscluster instellen voor de dagelijkse gegevensinname.
Opslag hangt ook af van de vereiste voor het bewaren van gegevens. Als we willen dat gegevens 2 jaar in hetzelfde cluster worden opgeslagen, moeten we dataknooppunten ordenen volgens de bewaarplicht.

3. Bereken aantallen gegevensknooppunt.

Antwoord :
We moeten een aantal dataknooppunten berekenen die nodig zijn voor het Hadoop-cluster. Stel dat we servers hebben met JBOD van 10 schijven en elke schijf heeft een opslagcapaciteit van 4 TB, dus elke server heeft 40 TB opslag. Hadoop-cluster krijgt gegevens 120 TB per dag en 360 TB na toepassing van de standaard replicatiefactor.
Aantal gegevensknooppunten = Dagelijkse gegevensopname / capaciteit van gegevensknooppunten
Aantal gegevensknooppunten = 360/40 => 9 gegevensknooppunten
Daarom heeft het Hadoop-cluster 120 TB-gegevens met bovenstaande configuratie nodig, alleen 9 gegevensknooppunten instellen.

4. Hoe kan ik de replicatiefactor in het Hadoop-cluster wijzigen?

Antwoord :
Bewerk het bestand hdfs-site.xml. Het standaardpad bevindt zich onder conf / map van de Hadoop-installatiemap. volgende eigenschap wijzigen / toevoegen in hdfs-site.xml:
dfs.replication
3
Blokreplicatie
Het is niet verplicht om replicatiefactor 3 te hebben. Het kan ook als 1 worden ingesteld. Replicatiefactor 5 werkt ook in Hadoop-cluster. Door de standaardwaarde in te stellen, wordt het cluster efficiënter en is minimale hardware vereist.
Een toenemende replicatiefactor zou de hardwarevereiste verhogen, omdat de gegevensopslag wordt vermenigvuldigd met de replicatiefactor.

5.Wat is de standaard gegevensblokgrootte in Hadoop en hoe kan ik deze wijzigen?

Antwoord :
Blokgrootte verkleint / verdeelt de gegevens in blokken en bewaart deze op verschillend-verschillende dataknooppunten.
Standaard is de blokgrootte 128 MB (in Apache Hadoop) en kunnen we de standaardblokgrootte aanpassen.
Bewerk het bestand hdfs-site.xml. Het standaardpad bevindt zich onder conf / map van de Hadoop-installatiemap. volgende eigenschap wijzigen / toevoegen in hdfs-site.xml:
dfs.block.size
134217728
Blokgrootte
blokgrootte in bytes is 134, 217, 728 of 128 MB. Geef ook de grootte op met het achtervoegsel (niet hoofdlettergevoelig) zoals k (kilo-), m (mega-), g (giga-) of t (tera-) om de blokgrootte in KB, MB, TB enz. In te stellen.

6. Hoelang moet een Hadoop-cluster een verwijderd HDFS-bestand in de map delete / trash bewaren?

Antwoord :
De "fs.trash.interval" is de parameter die aangeeft hoelang HDFS elk verwijderd bestand in de Hadoop-omgeving kan behouden om het verwijderde bestand op te halen.
Intervalperiode kan alleen in minuten worden gedefinieerd. Voor het ophaalinterval van 2 dagen moeten we de eigenschap in een vloeiend formaat opgeven.
Bewerk het bestand core-site.xml en voeg het toe / wijzig het met de volgende eigenschap
fs.trash.interval
2880
Standaard is het ophaalinterval 0, maar Hadoop-beheerder kan per eigenschap bovenstaande eigenschappen toevoegen / wijzigen.

7.Wat zijn de basisopdrachten om Hadoop-daemons te starten en te stoppen?

Antwoord :
Alle opdrachten om de daemons te starten en stoppen die zijn opgeslagen in sbin / folder.
./sbin/stop-all.sh - Om alle daemons tegelijk te stoppen.
hadoop-daemon.sh startnaam knooppunt
Hadoop-daemon.sh start gegevensknooppunt
yarn-daemon.sh, start resource manager
yarn-daemon.sh, start knooppuntmanager
mr-jobhistory-daemon.sh startgeschiedenis-server

8.Wat is de eigenschap om geheugentoewijzing te definiëren voor taken beheerd door YARN?

Antwoord :
Eigenschap "yarn.nodemanager.resource.memory-mb" moet worden aangepast / toegevoegd om de geheugentoewijzing te wijzigen voor alle taken die door YARN worden beheerd.
Het specificeert de hoeveelheid RAM in MB. Gegevensknooppunten gebruiken 70% van het werkelijke RAM-geheugen voor YARN. Dataknooppunt met 96 GB gebruikt 68 GB voor YARN, de rest van het RAM-geheugen wordt gebruikt door Data Node daemon voor "Non-YARN-Work"
Bewerk het bestand "yarn.xml file" en voeg de volgende eigenschap toe / wijzig deze.
yarn.nodemanager.resource.memory-mb
68608
yarn.nodemanager.resource.memory-mb standaardwaarde is 8.192MB (8GB). Als dataknopen een grote RAM-capaciteit hebben, moeten we de waarde wijzigen tot 70%, anders verspillen we ons geheugen.

9.Wat zijn de aanbevelingen voor het aanpassen van de naamknoop?

Antwoord :
De volgende details worden aanbevolen voor het instellen van Master Node in een zeer eerste fase.
Processoren: voor processen is één CPU met 6-8 cores voldoende.
RAM-geheugen: voor gegevens- en taakverwerking moet de server ten minste 24-96 GB RAM hebben.
Opslag: Aangezien er geen HDFS-gegevens zijn opgeslagen op het Master-knooppunt. U kunt 1-2 TB gebruiken als lokale opslag
Omdat het moeilijk is om toekomstige werkbelastingen te bepalen, moet u uw cluster ontwerpen door hardware zoals CPU, RAM en geheugen te selecteren die na verloop van tijd eenvoudig kan worden opgewaardeerd.

10.Wat zijn de standaardpoorten in het Hadoop-cluster?

Antwoord :

Daemon naamStandaard poortnr
Naam Knooppunt.50070
Gegevensknopen.50075
Secundaire naam Knooppunt.50090
Backup / Checkpoint-knooppunt.50105
Job Tracker.50030
Taakvolgers.50060

Aanbevolen artikelen

Dit is een handleiding voor de lijst met sollicitatievragen en antwoorden voor Hadoop Cluster zodat de kandidaat deze interviewvragen voor Hadoop Cluster gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Elasticsearch Interview Vragen en antwoord-Top en meest nuttig
  2. 9 Verbazingwekkende MapReduce-interviewvragen en -antwoorden
  3. 8 Meest nuttige gids voor Big Data-interviewvragen
  4. ETL-interviewvragen en antwoorden die u moet weten