Wat is MapReduce in Hadoop
MapReduce is een framework van Hadoop dat wordt gebruikt om parallelle enorme hoeveelheden gegevens op grote clusters van commodity-hardware op een betrouwbare manier te verwerken. Hadoop is een open-sourceproject van de Apache-softwarestichting. Hadoop voerde vroeger snel en betrouwbaar analyses uit voor zowel gestructureerde gegevens als ongestructureerde gegevens. Hadoop kan omgaan met zeer grote gegevenssets en dit kunnen zowel gestructureerde gegevens als ongestructureerde gegevens zijn, die eigenlijk geassocieerd worden met grote gegevens. Hadoop-framework waarmee een applicatie de gegevens in een gedistribueerde vorm kan opslaan en grote datasets over clusters van computers kan verwerken met behulp van een eenvoudig programmeermodel, dat is wat Map Reduce is, dus met andere woorden, we kunnen Map Reduce noemen als een programmeermodel dat wordt gebruikt voor verwerking enorme hoeveelheid gegevens verdeeld over het aantal clusters. Hadoop kan opschalen van enkele servers naar duizenden rekenknooppunten of machines die elk worden gebruikt voor berekening en opslag.
Het Apache Hadoop-project bevat een aantal subprojecten zoals:
- Hadoop Common: de Hadoop Common met hulpprogramma's die de andere Hadoop-subprojecten ondersteunen.
- Hadoop Distributed File System (HDFS): Hadoop Distributed File System biedt toegang tot het gedistribueerde bestand tot applicatiegegevens.
- Hadoop MapReduce: Hadoop MapReduce is een softwareframework voor het verwerken van grote gedistribueerde gegevenssets op rekenclusters.
- Hadoop YARN: Hadoop YARN is een raamwerk voor resourcebeheer en planningsopdrachten.
Hoe maakt MapReduce in Hadoop werken zo gemakkelijk?
De MapReduce maakt het eenvoudig om gegevensverwerking op te schalen over honderden of duizenden clustermachines. Het MapReduce-model werkt eigenlijk in twee stappen, respectievelijk map en reduce genoemd en de verwerking respectievelijk als mapper en reducer. Nadat we MapReduce voor een toepassing hebben geschreven, is de toepassing om op te schalen om over meerdere of zelfs meerdere van duizend clusters te lopen slechts een configuratiewijziging. Deze functie van het MapReduce-model heeft veel programmeurs aangetrokken om het te gebruiken.
Hoe werkt MapReduce in Hadoop?
Het MapReduce-programma wordt voornamelijk in vier stappen uitgevoerd:
- Input splitst
- Kaart
- schuifelen
- Verminderen
Nu zullen we elke stap zien hoe ze werken.
1. Kaartstap-
Deze stap is de combinatie van de invoersplitsingsstap en de kaartstap. In de stap Map wordt het bronbestand regel voor regel doorgegeven. Voordat de invoer wordt doorgegeven aan de taak van de kaartfunctie, wordt de invoer verdeeld in het kleine vaste formaat genaamd Invoersplitsingen. De invoersplitsing is een deel van de invoer dat door een enkele kaart kan worden gebruikt. In de stap Map worden alle gesplitste gegevens doorgegeven aan de mapperfunctie, vervolgens verwerkt de mapperfunctie de gegevens en voert vervolgens waarden uit. Over het algemeen hebben de taakinvoergegevens van de kaart of kaartmaker de vorm van een bestand of map die is opgeslagen in het Hadoop-bestandssysteem (HDFS).
2. Stap verminderen
Deze stap is de combinatie van de stap Shuffle en de verkleinen. De functie verkleinen of de taak van Reducer neemt de gegevens die het resultaat zijn van de kaartfunctie. Na verwerking door de functie te verminderen, produceert een nieuwe reeks resultaten die opnieuw worden opgeslagen in de HDFS.
In een Hadoop-framework is het niet zeker dat elke cluster welke taak uitvoert, of Map of Reduce of zowel Map en Reduce. Het verzoek voor de taken Map en Verkleinen moet daarom naar de juiste servers in het cluster worden verzonden. Het Hadoop-framework beheert zelf alle taken van uitgeven, controleren van voltooiing van werk, ophalen van gegevens van HDFS, kopiëren van gegevens naar het cluster van knooppunten enzovoort. In Hadoop vindt het computergebruik meestal plaats op knooppunten, samen met gegevens in knooppunten zelf, waardoor het netwerkverkeer wordt verminderd.
Het MapReduce-framework is dus erg handig in het Hadoop-framework.
Voordelen van MapReduce
- Schaalbaarheid - De MapReduce maakt Hadoop zeer schaalbaar omdat het mogelijk maakt om grote gegevenssets op te slaan in distributie-vorm over meerdere servers. Omdat het over meerdere is verdeeld, kan het parallel werken.
- Kostenbesparende oplossing - MapReduce biedt een zeer kosteneffectieve oplossing voor bedrijven die de groeiende gegevens moeten opslaan en de gegevens op een zeer kosteneffectieve manier moeten verwerken, wat de zakelijke behoefte van vandaag is.
- Flexibiliteit - De MapReduce maakt Hadoop zeer flexibel voor verschillende gegevensbronnen en zelfs voor verschillende soorten gegevens, zoals gestructureerde of ongestructureerde gegevens. Het is dus zeer flexibel om toegang te krijgen tot gestructureerde of ongestructureerde gegevens en deze te verwerken.
- Snel - Als Hadoop-opslaggegevens in het gedistribueerde bestandssysteem, waardoor het opslaan van de gegevens op de lokale schijf van een cluster en de MapReduce-programma's zich over het algemeen ook op dezelfde servers bevinden, waardoor gegevens sneller kunnen worden verwerkt, omdat er geen toegang tot is vereist de gegevens van andere servers.
- Parallelle verwerking - Omdat Hadoop-opslaggegevens in het gedistribueerde bestandssysteem en de werking van het MapReduce-programma zodanig zijn dat het taken, taken en taken verdeelt en dat parallel kan worden uitgevoerd. En nogmaals, vanwege de parallelle uitvoering, vermindert het de hele looptijd.
Vaardigheden
Vereiste vaardigheden voor MapReduce in Hadoop zijn goede programmeerkennis van Java (verplicht), besturingssysteem Linux en kennis van SQL-zoekopdrachten.
Het bereik van de MapReduce in Hadoop
De MapReduce in Hadoop is een snelgroeiend veld omdat het big data-veld groeit, dus de reikwijdte van MapReduce in Hadoop is veelbelovend in de toekomst, omdat de hoeveelheid gestructureerde en ongestructureerde gegevens met de dag exponentieel toeneemt. Social media platforms genereren veel ongestructureerde gegevens die kunnen worden gedolven om echte inzichten in verschillende domeinen te krijgen.
Conclusie
- MapReduce is een framework van Hadoop dat wordt gebruikt om parallelle enorme hoeveelheden gegevens op grote clusters van commodity-hardware op een betrouwbare manier te verwerken.
- Het Apache Hadoop-project bevat een aantal subprojecten als Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
- In de kaartstap worden alle gesplitste gegevens doorgegeven aan de mapperfunctie, vervolgens verwerkt de mapperfunctie de gegevens en voert vervolgens waarden uit.
- De functie verkleinen of de taak van Reducer neemt de gegevens die het resultaat zijn van de kaartfunctie.
- De voordelen van MapReduce zoals opgesomd als schaalbaarheid, kosteneffectieve oplossing, flexibiliteit, snelle, parallelle verwerking.
Aanbevolen artikelen
Dit is een gids voor Wat is MapReduce in Hadoop. Hier hebben we de componenten, werken, vaardigheden, carrièregroei en voordelen van MapReduce in Hadoop besproken. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie
- Wat is een algoritme?
- Verschillen tussen Hadoop versus MapReduce
- Wat is Azure?
- Wat is big data-technologie?
- Hoe MapReduce werkt