Hadoop: sollicitatievragen voor Admin - Meest nuttig en meest gevraagd

Inleiding tot Hadoop Admin Interview Vragen en antwoorden

Dus je hebt eindelijk je droombaan gevonden in Hadoop Admin, maar je vraagt je af hoe je het Hadoop Admin Interview kunt kraken en wat de waarschijnlijke Hadoop Admin Interview-vragen kunnen zijn. Elk interview is anders en de reikwijdte van een baan is ook anders. Met dit in gedachten hebben we de meest voorkomende Hadoop Admin Interview-vragen en antwoorden ontworpen om u te helpen succes te behalen in uw interview.

Hieronder volgen de Hadoop Admin Interview-vragen die u zullen helpen bij het kraken van een interview met Hadoop.

1. Wat is rekbewustzijn? En waarom is het nodig?

Antwoord:
Rack awareness gaat over het distribueren van data nodes over meerdere racks.HDFS volgt het rack awareness algoritme om de datablokken te plaatsen. Een rack bevat meerdere servers. En voor een cluster kunnen er meerdere racks zijn. Laten we zeggen dat er een Hadoop-cluster is met 12 knooppunten. Er kunnen 3 racks zijn met elk 4 servers. Alle 3 racks zijn verbonden zodat alle 12 knooppunten zijn verbonden en die een cluster vormen. Bij het bepalen van het aantal racks, is het belangrijk om te overwegen de replicatiefactor. Als er 100 GB aan gegevens is die elke dag met de replicatiefactor 3 zullen stromen, dan is het 300 GB aan gegevens die zich in het cluster moeten bevinden. Het is een betere optie om de gegevens over de racks te laten repliceren. Zelfs als een knooppunt uitvalt, bevindt de replica zich in een ander rek.

2. Wat is de standaard blokgrootte en hoe wordt deze gedefinieerd?

Antwoord:
128 MB en het is gedefinieerd in hdfs-site.xml en dit kan ook worden aangepast, afhankelijk van het volume van de gegevens en het toegangsniveau. Stel, 100 GB aan gegevens die binnen een dag stromen, de gegevens worden gescheiden en opgeslagen in het cluster. Wat zal het aantal bestanden zijn? 800 bestanden. (1024 * 100/128) (1024 à een GB omgezet in MB.) Er zijn twee manieren om de grootte van het gegevensblok aan te passen.

hadoop fs -D fs.local.block.size = 134217728 (in bits)
Voeg in hdfs-site.xml deze eigenschap à block.size toe met de bitsgrootte.

Als u de standaardgrootte wijzigt in 512 MB, omdat de gegevensgrootte enorm is, zijn het aantal gegenereerde bestanden 200. (1024 * 100/512)

3. Hoe krijgt u het rapport van het hdfs-bestandssysteem? Over schijfbeschikbaarheid en aantal actieve knooppunten?

Antwoord:
Commando: sudo -u hdfs dfsadmin –rapport

Dit is de lijst met informatie die wordt weergegeven,

Geconfigureerde capaciteit - Totale beschikbare capaciteit in hdf's
Huidige capaciteit - Dit is de totale hoeveelheid ruimte die is toegewezen aan de bronnen om naast de metastore en fsimage gebruik van ruimte te verblijven.
Resterende DFS - Dit is de hoeveelheid opslagruimte die nog beschikbaar is voor de HDFS om meer bestanden op te slaan
Gebruikt DFS - Dit is de opslagruimte die door HDFS is opgebruikt.
DFS gebruikt% - in percentage
Onder gerepliceerde blokken - Aantal blokken
Blokken met corrupte replica's - Beschadigde blokken
Ontbrekende blokken
Ontbrekende blokken (met replicatiefactor 1)

4. Wat is Hadoop balancer en waarom is het nodig?

Antwoord:
De gegevens verspreid over de knooppunten zijn niet in de juiste verhouding verdeeld, wat betekent dat het gebruik van elk knooppunt mogelijk niet in balans is. Eén knooppunt kan overmatig worden gebruikt en de andere kan onderbenut zijn. Dit leidt tot een hoog kosteneffect tijdens het uitvoeren van elk proces en zou uiteindelijk worden uitgevoerd bij intensief gebruik van die knooppunten. Om dit op te lossen, wordt Hadoop balancer gebruikt die het gebruik van de gegevens in de knooppunten in evenwicht brengt. Dus wanneer een balancer wordt uitgevoerd, worden de gegevens verplaatst naar waar de te weinig gebruikte knooppunten worden opgevuld en de te veel gebruikte knooppunten worden vrijgegeven.

5. Verschil tussen Cloudera en Ambari?

Antwoord:

Cloudera Manager	Ambari
Beheertool voor Cloudera	Beheertool voor werken van Horton
Bewaakt en beheert het hele cluster en rapporteert het gebruik en eventuele problemen	Bewaakt en beheert het hele cluster en rapporteert het gebruik en eventuele problemen
Wordt geleverd met Cloudera betaalde service	Open source

6. Wat zijn de belangrijkste acties die worden uitgevoerd door de Hadoop-beheerder?

Antwoord:
Monitorstatus van cluster - Er zijn veel toepassingspagina's die moeten worden gecontroleerd als er processen worden uitgevoerd. (Taakhistorieserver, YARN resource manager, Cloudera manager / ambary afhankelijk van de distributie)

beveiliging inschakelen - SSL of Kerberos

Stem af op prestaties - Hadoop balancer

Voeg indien nodig nieuwe dataknooppunten toe - Infrastructuurwijzigingen en configuraties

Optioneel om MapReduce Tracking-opdrachttracking-server in te schakelen à Soms kan het opnieuw opstarten van de services helpen om cachegeheugen vrij te maken. Dit is wanneer het cluster met een leeg proces.

7. Wat is Kerberos?

Antwoord:
Het is een authenticatie vereist voor elke service om te synchroniseren om het proces uit te voeren. Het wordt aanbevolen om Kerberos in te schakelen. Aangezien we te maken hebben met de gedistribueerde computer, is het altijd een goede gewoonte om encryptie te hebben terwijl u toegang heeft tot de gegevens en deze verwerkt. Omdat elk knooppunt is verbonden en elke informatiepassage via een netwerk verloopt. Omdat Hadoop Kerberos gebruikt, worden wachtwoorden niet over de netwerken verzonden. In plaats daarvan worden wachtwoorden gebruikt om de coderingssleutels te berekenen. De berichten worden uitgewisseld tussen de client en de server. In eenvoudige bewoordingen biedt Kerberos identiteit aan elkaar (knooppunten) op een veilige manier met de codering.

Configuratie in core-site.xml
Hadoop.security.authentication: Kerberos

8. Wat is de belangrijke lijst met hdfs-opdrachten?

Antwoord:

commando's	Doel
hdfs dfs –ls	Om de bestanden van het hdfs-bestandssysteem weer te geven.
Hdfs dfs –put	Kopieer het bestand van het lokale systeem naar het hdfs-bestandssysteem
Hdfs dfs –chmod 777	Geef het bestand lees-, schrijf- en uitvoeringsrechten
Hdfs dfs –get	Kopieer het bestand van het hdfs-bestandssysteem naar het lokale bestandssysteem
Hdfs dfs –cat	Bekijk de bestandsinhoud van het hdfs-bestandssysteem
Hdfs dfs –rm	Verwijder het bestand uit het hdfs-bestandssysteem. Maar het wordt verplaatst naar het prullenbakbestand (het lijkt op een prullenbak in Windows)
Hdfs dfs –rm –skipTrash	Hiermee wordt het bestand permanent uit het cluster verwijderd.
Hdfs dfs –touchz	Maak een bestand in het hdfs-bestandssysteem

9. Hoe kunt u de logboeken van een Hadoop-taak die in het cluster is ingediend, controleren en hoe een reeds lopend proces beëindigen?

Antwoord:
garenlogboeken –applicationId - De applicatiemaster genereert logboeken in de container en deze wordt toegevoegd met de id die hij genereert. Dit is handig om de lopende status van het proces en de loginformatie te controleren.

garentoepassing - doden - Als een bestaand proces dat in het cluster werd uitgevoerd moet worden beëindigd, wordt het kill-commando gebruikt waar het applicatie-ID wordt gebruikt om de taak in het cluster te beëindigen.

Aanbevolen artikel

Dit is een handleiding voor de lijst met Interviewvragen en antwoorden van Hadoop Admin, zodat de kandidaat deze Hadoop Admin Interview-vragen gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie

Hadoop Cluster: sollicitatievragen en antwoord - Top 10 meest nuttig
Interviewvragen datamodellering - 10 Belangrijke vraag
Sollicitatievragen voor SAS-systeem - Top 10 nuttige vragen

Hadoop: sollicitatievragen voor Admin - Meest nuttig en meest gevraagd

Inhoudsopgave:

Inleiding tot Hadoop Admin Interview Vragen en antwoorden

1. Wat is rekbewustzijn? En waarom is het nodig?

2. Wat is de standaard blokgrootte en hoe wordt deze gedefinieerd?

3. Hoe krijgt u het rapport van het hdfs-bestandssysteem? Over schijfbeschikbaarheid en aantal actieve knooppunten?

4. Wat is Hadoop balancer en waarom is het nodig?

5. Verschil tussen Cloudera en Ambari?

6. Wat zijn de belangrijkste acties die worden uitgevoerd door de Hadoop-beheerder?

7. Wat is Kerberos?

8. Wat is de belangrijke lijst met hdfs-opdrachten?

9. Hoe kunt u de logboeken van een Hadoop-taak die in het cluster is ingediend, controleren en hoe een reeds lopend proces beëindigen?

Aanbevolen artikel

Schuld versus aandelenfinanciering - Top 8 verschillen die u moet weten

Schuld versus eigen vermogen - Top 5 nuttige verschillen (met infographics)

Beslisboom in machinaal leren - Split creatie en een boom bouwen

Beslisboom in datamining - Toepassing en onmacht van beslissingsboom

Formule dekkingsgraad schuldendienst - Calculator (Excel-sjabloon)

8 meest populaire stappen nichemarktstrategie - Ideeën - Voordelen

Top 7 stappen om door te breken in een nieuw carrièrepad zonder ervaring

Nmap-opdrachten - Typen Nmap-opdrachten met voorbeelden

Knooppuntopdrachten - Concepten - Basis tot geavanceerde commando's

Vermogenswaarde formule - Calculator (voorbeelden met Excel-sjabloon)

Een vorm vullen met een foto in Photoshop

Vormen en vormen van Photoshop Essentials

Nieuwe functies in Photoshop CS4 - Documentvensters met tabbladen

Typ op een pad in Photoshop

Hoe afbeeldingen in een cirkelvorm bij te snijden met Photoshop