Inleiding tot Map Vragen en antwoorden over sollicitatiegesprekken verminderen
MapReduce is een eenvoudig, parallel gegevensprogrammeermodel dat is ontworpen voor schaalbaarheid en fouttolerantie. We kunnen zeggen dat MapReduce een raamwerk is, dat het concept van knooppunten gebruikt om de problemen die zich voordoen in grote gegevenssets te parallelliseren, als het een lokaal netwerk is, gebruikt het dezelfde hardware en als MapReduce geografisch gedistribueerd is, gebruikt het respectievelijk andere hardware. MapReduce bestaat hoofdzakelijk uit de functie Map () en de functie Reduce (). Het werd populair gemaakt door het open-source Hadoop-project.
Hieronder staan de 9 belangrijke interviewvragen en antwoorden over MapReduce 2019:
Als je op zoek bent naar een baan die gerelateerd is aan MapReduce, moet je je voorbereiden op de MapReduce-sollicitatievragen voor 2019. Hoewel elk MapReduce-interview anders is en de reikwijdte van een baan ook anders, kunnen we u helpen met de beste MapReduce-interviewvragen met antwoorden, die u helpen de sprong te wagen en uw succes in uw interview te behalen.
Deze vragen zijn als volgt verdeeld in twee delen:
Deel 1 - Interviewvragen MapReduce (basis)
Dit eerste deel behandelt basisvragen en antwoorden over MapReduce-interviews.
1. Wat is MapReduce?
Antwoord:
MapReduce is een eenvoudig, parallel gegevensprogrammeermodel dat is ontworpen voor schaalbaarheid en fouttolerantie. Met andere woorden, het is een raamwerk dat parallelle problemen in grote gegevenssets verwerkt met behulp van het concept van knooppunten (het aantal computers) die op hun beurt worden geclassificeerd als clusters als het een lokaal netwerk is en dezelfde hardware of rasters gebruikt als ze geografisch verdeeld en gebruik verschillende hardware. De MapReduce bestaat in wezen uit een Map () -functie en een Reduce () -functie. Het werd gepionierd door Google en verwerkt elke dag vele petabytes aan gegevens. Het werd populair gemaakt door het open-source Hadoop-project en wordt gebruikt bij Yahoo, Facebook en Amazon om er een paar te noemen.
2. Waarvoor wordt MapReduce gebruikt?
Antwoord:
Google
• Constructie van index voor Google Zoeken
Het proces van het construeren van een positionele of niet-positionele index wordt indexconstructie of indexering genoemd. De rol van MapReduce is Indexconstructie en is ontworpen voor grote computerclusters. Het doel van het cluster is het oplossen van computerproblemen voor knooppunten of computers die zijn gebouwd met standaardonderdelen in plaats van een supercomputer.
• Artikelclustering voor Google Nieuws
Voor artikelclustering worden de pagina's eerst geclassificeerd op basis van of ze nodig zijn voor clustering. Pagina's bevatten veel informatie die niet nodig is voor de clustering. Vervolgens wordt het artikel naar zijn vectorvorm gebracht op basis van trefwoorden en het gewicht dat het krijgt. Vervolgens worden ze geclusterd met behulp van algoritmen.
• Statistische machinevertaling
De vertaling van tweetalige tekstcorpora door analyse genereert statistische modellen die de ene taal naar de andere vertalen met behulp van gewichten en wordt herleid tot de meest waarschijnlijke vertaling.
Yahoo
• "Webmap" voor Yahoo! Zoeken
Vergelijkbaar met het artikel clustering voor Google Nieuws, wordt MapReduce gebruikt voor het clusteren van zoekoutputs op de Yahoo! Platform.
• Spamdetectie voor Yahoo! Mail
Facebook
• Datamining
De recente trend van data-explosie heeft geresulteerd in de behoefte aan geavanceerde methoden om de gegevens op te delen in brokken die gemakkelijk kunnen worden gebruikt voor de volgende stap van het analyseren.
• d Optimaliseren
• Spamdetectie
Laten we doorgaan naar de volgende interviewvragen voor MapReduce.
3. Wat zijn de MapReduce-ontwerpdoelen
Antwoord:
• Schaalbaarheid naar grote gegevensvolumes
Aangezien MapReduce een raamwerk is dat is gericht op het werken met parallelliseerbare gegevens met behulp van het concept van knooppunten die het aantal computers zijn, hetzij als clusters of rasters, is het schaalbaar naar n aantal computermachines. Een belangrijk ontwerpdoel van MapReduce is dus dat het schaalbaar is tot duizenden machines en dus 10.000 schijven.
• Kostenefficiëntie
Aangezien MapReduce werkt met het parallel maken van gegevens op de knooppunten of het aantal computers, zijn de volgende redenen waarom het kostenefficiënt is:
-Goedkope warenmachines in plaats van een supercomputer. Hoewel ze goedkoop zijn, zijn ze onbetrouwbaar.
-Commodity Network
-Automatische fouttolerantie, dwz er zijn minder beheerders nodig.
-Het is gemakkelijk te gebruiken, dwz het vereist minder programmeurs.
4. Wat zijn de uitdagingen van MapReduce?
Antwoord:
Dit zijn de algemene MapReduce-interviewvragen die in een interview worden gesteld. De belangrijkste uitdagingen van MapReduce zijn:
-Goedkoopknooppunten mislukken, vooral als je er veel hebt
De gemiddelde tijd tussen storingen voor 1 knooppunt is gelijk aan 3 jaar. De gemiddelde tijd tussen storingen voor 1000 knooppunten is gelijk aan 1 dag. De oplossing is om fouttolerantie in het systeem zelf op te nemen.
-Commodity-netwerk is gelijk aan of impliceert lage bandbreedte
De oplossing voor een lage bandbreedte is om de berekening naar de gegevens te duwen.
-Het programmeren van gedistribueerde systemen is moeilijk
De oplossing hiervoor is dat gebruikers volgens het data-parallel programmeermodel de functies "map" en "verkleinen" schrijven. Het systeem verdeelt het werk en behandelt de fouten.
5. Wat is het MapReduce-programmeermodel?
Antwoord:
Het MapReduce-programmeermodel is gebaseerd op een concept met de sleutelwaarde-records. Het biedt ook paradigma's voor parallelle gegevensverwerking. Voor het verwerken van de gegevens in MapReduce moeten zowel de invoergegevens als de uitvoer worden toegewezen aan het formaat van meerdere sleutel / waarde-paren. Het enkele sleutel / waarde-paar wordt ook wel een record genoemd. Het programmeermodel MapReduce bestaat uit een Map () -functie en een Reduce-functie. Het model hiervoor is als volgt.
Map () functie: (K in, V in) lijst (K inter, V inter)
Reduce () functie: (K inter, list (V inter)) list (K out, V out)
Deel 2 - Interviewvragen MapReduce (geavanceerd)
Laten we nu eens kijken naar de geavanceerde interviewvragen van MapReduce.
6. Wat zijn de uitvoeringsdetails van MapReduce?
Antwoord:
In het geval van MapReduce-uitvoering regelt een enkele master de taakuitvoering op meerdere slaves. De mappers worden bij voorkeur op hetzelfde knooppunt of hetzelfde rek geplaatst als hun invoerblok, zodat het netwerkgebruik wordt geminimaliseerd. Ook slaan mappers uitgangen op de lokale schijf op voordat ze aan reductiemiddelen worden aangeboden. Dit maakt herstel mogelijk als een verloopstuk crasht en laat meer verloopstukken toe dan knooppunten.
7. Wat is een combiner?
Antwoord:
De combiner, ook bekend als de semi-reductor, werkt door invoer van de Map-klasse te accepteren en de output-sleutel / waarde-paren door te geven aan de Reducer-klasse. De belangrijkste functie van een combiner is het samenvatten van kaartuitgangsrecords met dezelfde sleutel. Met andere woorden, een combiner is een lokale aggregatiefunctie voor herhaalde sleutels geproduceerd door dezelfde kaart. Het werkt voor associatieve functies zoals SOM, COUNT en MAX. Het verkleint de grootte van de tussenliggende gegevens omdat het een samenvatting is van de verzameling waarden voor alle herhaalde sleutels.
Laten we doorgaan naar de volgende interviewvragen voor MapReduce.
8. Waarom varken? Waarom MapReduce niet?
Antwoord:
• Met MapReduce kan de programmeur een kaartfunctie uitvoeren, gevolgd door een verkleiningsfunctie, maar werken aan hoe u uw gegevensverwerking in dit patroon kunt passen, waarvoor vaak meerdere MapReduce-fasen nodig zijn, kan een uitdaging zijn.
• Met Pig zijn de gegevensstructuren veel rijker, omdat ze meerwaardig zijn en genest en de set transformaties die u op de gegevens kunt toepassen, veel krachtiger is. Ze bevatten bijvoorbeeld joins die niet mogelijk zijn in MapReduce.
• Pig is ook een programma dat de transformatie omzet in een reeks MapReduce Jobs.
9.MapKritiek verminderen
Antwoord:
Een prominente kritiek op MapReduce is dat de ontwikkelingscyclus erg lang is. Het schrijven van de mappers en verloopstukken, het compileren en verpakken van de code, het verzenden van de taak en het ophalen van de resultaten is tijdrovend. Zelfs met streaming, waardoor de compileer- en pakketstap wordt verwijderd, duurt de ervaring nog lang.
Aanbevolen artikel
Dit is een gids voor de lijst met interviewvragen en antwoorden van MapReduce zodat de kandidaat deze MapReduce-interviewvragen gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie -
- Sollicitatievragen voor Belangrijke gegevensanalyse
- 10 beste sollicitatievragen voor ontwerppatronen
- Vragen tijdens solliciteren bij Elasticsearch
- Meest nuttige sollicitatievragen voor Ruby
- Hoe MapReduce werkt