Inleiding tot Hadoop Admin Interview Vragen en antwoorden

Dus je hebt eindelijk je droombaan gevonden in Hadoop Admin, maar je vraagt ​​je af hoe je het Hadoop Admin Interview kunt kraken en wat de waarschijnlijke Hadoop Admin Interview-vragen kunnen zijn. Elk interview is anders en de reikwijdte van een baan is ook anders. Met dit in gedachten hebben we de meest voorkomende Hadoop Admin Interview-vragen en antwoorden ontworpen om u te helpen succes te behalen in uw interview.

Hieronder volgen de Hadoop Admin Interview-vragen die u zullen helpen bij het kraken van een interview met Hadoop.

1. Wat is rekbewustzijn? En waarom is het nodig?

Antwoord:
Rack awareness gaat over het distribueren van data nodes over meerdere racks.HDFS volgt het rack awareness algoritme om de datablokken te plaatsen. Een rack bevat meerdere servers. En voor een cluster kunnen er meerdere racks zijn. Laten we zeggen dat er een Hadoop-cluster is met 12 knooppunten. Er kunnen 3 racks zijn met elk 4 servers. Alle 3 racks zijn verbonden zodat alle 12 knooppunten zijn verbonden en die een cluster vormen. Bij het bepalen van het aantal racks, is het belangrijk om te overwegen de replicatiefactor. Als er 100 GB aan gegevens is die elke dag met de replicatiefactor 3 zullen stromen, dan is het 300 GB aan gegevens die zich in het cluster moeten bevinden. Het is een betere optie om de gegevens over de racks te laten repliceren. Zelfs als een knooppunt uitvalt, bevindt de replica zich in een ander rek.

2. Wat is de standaard blokgrootte en hoe wordt deze gedefinieerd?

Antwoord:
128 MB en het is gedefinieerd in hdfs-site.xml en dit kan ook worden aangepast, afhankelijk van het volume van de gegevens en het toegangsniveau. Stel, 100 GB aan gegevens die binnen een dag stromen, de gegevens worden gescheiden en opgeslagen in het cluster. Wat zal het aantal bestanden zijn? 800 bestanden. (1024 * 100/128) (1024 à een GB omgezet in MB.) Er zijn twee manieren om de grootte van het gegevensblok aan te passen.

  1. hadoop fs -D fs.local.block.size = 134217728 (in bits)
  2. Voeg in hdfs-site.xml deze eigenschap à block.size toe met de bitsgrootte.

Als u de standaardgrootte wijzigt in 512 MB, omdat de gegevensgrootte enorm is, zijn het aantal gegenereerde bestanden 200. (1024 * 100/512)

3. Hoe krijgt u het rapport van het hdfs-bestandssysteem? Over schijfbeschikbaarheid en aantal actieve knooppunten?

Antwoord:
Commando: sudo -u hdfs dfsadmin –rapport

Dit is de lijst met informatie die wordt weergegeven,

  1. Geconfigureerde capaciteit - Totale beschikbare capaciteit in hdf's
  2. Huidige capaciteit - Dit is de totale hoeveelheid ruimte die is toegewezen aan de bronnen om naast de metastore en fsimage gebruik van ruimte te verblijven.
  3. Resterende DFS - Dit is de hoeveelheid opslagruimte die nog beschikbaar is voor de HDFS om meer bestanden op te slaan
  4. Gebruikt DFS - Dit is de opslagruimte die door HDFS is opgebruikt.
  5. DFS gebruikt% - in percentage
  6. Onder gerepliceerde blokken - Aantal blokken
  7. Blokken met corrupte replica's - Beschadigde blokken
  8. Ontbrekende blokken
  9. Ontbrekende blokken (met replicatiefactor 1)

4. Wat is Hadoop balancer en waarom is het nodig?

Antwoord:
De gegevens verspreid over de knooppunten zijn niet in de juiste verhouding verdeeld, wat betekent dat het gebruik van elk knooppunt mogelijk niet in balans is. Eén knooppunt kan overmatig worden gebruikt en de andere kan onderbenut zijn. Dit leidt tot een hoog kosteneffect tijdens het uitvoeren van elk proces en zou uiteindelijk worden uitgevoerd bij intensief gebruik van die knooppunten. Om dit op te lossen, wordt Hadoop balancer gebruikt die het gebruik van de gegevens in de knooppunten in evenwicht brengt. Dus wanneer een balancer wordt uitgevoerd, worden de gegevens verplaatst naar waar de te weinig gebruikte knooppunten worden opgevuld en de te veel gebruikte knooppunten worden vrijgegeven.

5. Verschil tussen Cloudera en Ambari?

Antwoord:

Cloudera ManagerAmbari
Beheertool voor ClouderaBeheertool voor werken van Horton
Bewaakt en beheert het hele cluster en rapporteert het gebruik en eventuele problemenBewaakt en beheert het hele cluster en rapporteert het gebruik en eventuele problemen
Wordt geleverd met Cloudera betaalde serviceOpen source

6. Wat zijn de belangrijkste acties die worden uitgevoerd door de Hadoop-beheerder?

Antwoord:
Monitorstatus van cluster - Er zijn veel toepassingspagina's die moeten worden gecontroleerd als er processen worden uitgevoerd. (Taakhistorieserver, YARN resource manager, Cloudera manager / ambary afhankelijk van de distributie)

beveiliging inschakelen - SSL of Kerberos

Stem af op prestaties - Hadoop balancer

Voeg indien nodig nieuwe dataknooppunten toe - Infrastructuurwijzigingen en configuraties

Optioneel om MapReduce Tracking-opdrachttracking-server in te schakelen à Soms kan het opnieuw opstarten van de services helpen om cachegeheugen vrij te maken. Dit is wanneer het cluster met een leeg proces.

7. Wat is Kerberos?

Antwoord:
Het is een authenticatie vereist voor elke service om te synchroniseren om het proces uit te voeren. Het wordt aanbevolen om Kerberos in te schakelen. Aangezien we te maken hebben met de gedistribueerde computer, is het altijd een goede gewoonte om encryptie te hebben terwijl u toegang heeft tot de gegevens en deze verwerkt. Omdat elk knooppunt is verbonden en elke informatiepassage via een netwerk verloopt. Omdat Hadoop Kerberos gebruikt, worden wachtwoorden niet over de netwerken verzonden. In plaats daarvan worden wachtwoorden gebruikt om de coderingssleutels te berekenen. De berichten worden uitgewisseld tussen de client en de server. In eenvoudige bewoordingen biedt Kerberos identiteit aan elkaar (knooppunten) op een veilige manier met de codering.

Configuratie in core-site.xml
Hadoop.security.authentication: Kerberos

8. Wat is de belangrijke lijst met hdfs-opdrachten?

Antwoord:

commando'sDoel
hdfs dfs –lsOm de bestanden van het hdfs-bestandssysteem weer te geven.
Hdfs dfs –putKopieer het bestand van het lokale systeem naar het hdfs-bestandssysteem
Hdfs dfs –chmod 777Geef het bestand lees-, schrijf- en uitvoeringsrechten
Hdfs dfs –getKopieer het bestand van het hdfs-bestandssysteem naar het lokale bestandssysteem
Hdfs dfs –catBekijk de bestandsinhoud van het hdfs-bestandssysteem
Hdfs dfs –rmVerwijder het bestand uit het hdfs-bestandssysteem. Maar het wordt verplaatst naar het prullenbakbestand (het lijkt op een prullenbak in Windows)
Hdfs dfs –rm –skipTrashHiermee wordt het bestand permanent uit het cluster verwijderd.
Hdfs dfs –touchzMaak een bestand in het hdfs-bestandssysteem

9. Hoe kunt u de logboeken van een Hadoop-taak die in het cluster is ingediend, controleren en hoe een reeds lopend proces beëindigen?

Antwoord:
garenlogboeken –applicationId - De applicatiemaster genereert logboeken in de container en deze wordt toegevoegd met de id die hij genereert. Dit is handig om de lopende status van het proces en de loginformatie te controleren.

garentoepassing - doden - Als een bestaand proces dat in het cluster werd uitgevoerd moet worden beëindigd, wordt het kill-commando gebruikt waar het applicatie-ID wordt gebruikt om de taak in het cluster te beëindigen.

Aanbevolen artikel

Dit is een handleiding voor de lijst met Interviewvragen en antwoorden van Hadoop Admin, zodat de kandidaat deze Hadoop Admin Interview-vragen gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie

  1. Hadoop Cluster: sollicitatievragen en antwoord - Top 10 meest nuttig
  2. Interviewvragen datamodellering - 10 Belangrijke vraag
  3. Sollicitatievragen voor SAS-systeem - Top 10 nuttige vragen