Inleiding tot Hadoop Tools

Hadoop-tools zijn het framework dat wordt gebruikt om een ​​grote hoeveelheid gegevens te verwerken. Deze gegevens worden verspreid op een cluster en gedistribueerde computing is klaar. De gegevens worden opgeslagen in blokken van 128 MB en voor het verwerken en bereiken van een resultaat wordt Map Reduce gebruikt. Traditioneel werden Map en Reduce geschreven in Java, maar het was moeilijk om de middelen die in het Datawarehouse werken, te overschrijden omdat ze er geen ervaring mee hadden. SQL is bekend en gemakkelijk te gebruiken, dus door een manier te vinden om een ​​SQL te schrijven, zoals een query die wordt geconverteerd naar Map and Reduce, werd deze opgericht door Facebook en later gedoneerd aan Apache, deze tool staat bekend als Hive. Yahoo heeft ook een tool bedacht die Pig wordt genoemd en dat tijdens de uitvoering wordt omgezet in Map Reduce. Op dezelfde manier hebben we Sqoop en flume voor tools voor gegevensbeweging en injectie. HBase is een tool voor databasebeheersystemen.

Kenmerken van Hadoop Tools

  1. Bijenkorf
  2. Varken
  3. Sqoop
  4. HBase
  5. Dierentuinmedewerker
  6. Fluim

Nu zullen we de functies zien met een korte uitleg.

1. Bijenkorf

De Apache Hive is opgericht door Facebook en later gedoneerd aan de Apache-stichting, een datawarehouse-infrastructuur. Het vergemakkelijkt het schrijven van SQL zoals Query genaamd HQL of HiveQL. Deze vragen worden intern geconverteerd naar Map Reduce-taken en de verwerking gebeurt met behulp van Hadoop's gedistribueerde computing. Het kan de gegevens verwerken die zich bevinden in HDFS, S3 en alle opslag die compatibel is met Hadoop. We kunnen gebruik maken van de faciliteiten van Map Reduce wanneer we iets moeilijk te implementeren vinden in Hive door het te implementeren in User Defined Functions. Hiermee kan de gebruiker UDF's registreren en gebruiken in de taken.

Kenmerken van Hive

  • Hive kan vele soorten bestandsformaten verwerken, zoals Sequence File, ORC File, TextFile, etc.
  • Partitioning, Bucketing en Indexing zijn beschikbaar voor snellere uitvoering.
  • Gecomprimeerde gegevens kunnen ook in een componenttabel worden geladen.
  • Beheerde of interne tabellen en externe tabellen zijn de prominente kenmerken van Hive.

2. Varken

Yahoo ontwikkelde het Apache Pig om een ​​extra hulpmiddel te hebben om Hadoop te versterken door een ad hoc manier te hebben om Map Reduce te implementeren. Pig heeft een engine genaamd Pig Engine die scripts converteert naar Map Reduce. Pig is een scripttaal, de scripts die voor Pig zijn geschreven zijn in PigLatin, net als Hive kunnen we ook UDF's hebben om de functionaliteit te verbeteren. Taken in Pig worden automatisch geoptimaliseerd, zodat programmeurs zich daar geen zorgen over hoeven te maken. Pig verwerkt zowel gestructureerde als ongestructureerde gegevens.

Kenmerken van Pig

  • Gebruikers kunnen hun eigen functies hebben om een ​​speciaal type gegevensverwerking uit te voeren.
  • Het is gemakkelijk om codes in Pig te schrijven en ook de lengte van de code is minder.
  • Het systeem kan de uitvoering automatisch optimaliseren.

3. Sqoop

Sqoop wordt gebruikt om gegevens over te dragen van HDFS naar RDBMS en vice versa. We kunnen de gegevens van RDBMS, Hive, enz. Naar HDFS halen en we kunnen deze verwerken en exporteren naar RDBMS. We kunnen de gegevens vele malen in een tabel toevoegen, we kunnen ook een Sqoop-taak maken en deze een aantal keer uitvoeren.

Kenmerken van Sqoop

  • Sqoop kan alle tabellen in één keer in HDFS importeren.
  • We kunnen SQL-query's en voorwaarden voor het importeren van gegevens insluiten.
  • We kunnen gegevens importeren om bijenkorf te krijgen als er een tabel aanwezig is van HDFS.
  • Het aantal mappers kan worden bestuurd, dwz parallelle uitvoering kan worden bestuurd door het aantal mappers op te geven.

4. HBase

Het databasebeheersysteem bovenop HDFS wordt HBase genoemd. HBase is een NoSQL-database, die bovenop HDFS is ontwikkeld. HBase is geen relationele database, het ondersteunt geen gestructureerde query-talen. HBase maakt gebruik van gedistribueerde verwerking van HDFS. Het kan grote tabellen hebben met miljoenen en miljoenen records.

Kenmerken van HBase

  • HBase biedt schaalbaarheid in zowel lineair als modulair.
  • API's in JAVA kunnen worden gebruikt voor clienttoegang.
  • HBase biedt een shell voor het uitvoeren van query's.

5. Zookeeper

Apache Zookeeper is een gecentraliseerde service voor configuratieonderhoud, het registreert informatie, naamgeving en biedt ook gedistribueerde synchronisatie- en groepsservices. Zookeeper is een gecentraliseerde repository die door gedistribueerde applicaties wordt gebruikt om er gegevens van te zetten en op te halen. Het helpt ook bij het beheren van knooppunten, dat wil zeggen om toe te treden of een knooppunt in het cluster te laten. Het biedt een zeer betrouwbaar gegevensregister wanneer slechts enkele knooppunten niet beschikbaar zijn.

Kenmerken van Zookeeper

  • De prestaties kunnen worden verbeterd door de taken te verdelen die worden bereikt door meer machines toe te voegen.
  • Het verbergt de complexiteit van de distributie en portretteert zichzelf als een enkele machine.
  • Het falen van enkele systemen heeft geen invloed op het gehele systeem, maar het nadeel is dat het kan leiden tot gedeeltelijk gegevensverlies.
  • Het biedt atomiciteit, dwz dat de transactie succesvol of mislukt is maar niet in een onvolmaakte staat.

6. Goot

Apache Flume is een tool voor het opnemen van gegevens, waarmee een enorme hoeveelheid gegevens van verschillende bronnen naar een HDFS, HBase, etc. kan worden verzameld, geaggregeerd en getransporteerd. Flume is zeer betrouwbaar en kan worden geconfigureerd. Het is ontworpen om streaminggegevens van de webserver of gebeurtenisgegevens naar HDFS op te nemen, het kan bijvoorbeeld twittergegevens naar HDFS opnemen. Flume kan gegevens opslaan in elk van de gecentraliseerde gegevensopslagplaatsen, zoals HBase / HDFS. Als er een situatie is waarbij de gegevensproductie hoger is dan die van de snelheid waarmee de gegevens kunnen worden geschreven, fungeert flume als een bemiddelaar en zorgt het ervoor dat de gegevens gestaag worden doorgegeven.

Kenmerken van Flume

  • Het kan gegevens van webservers opnemen, samen met de gebeurtenisgegevens, zoals gegevens van sociale media.
  • Flume-transacties zijn kanaalgebaseerd, dwz er worden twee berichten onderhouden, één voor verzenden en één voor ontvangen.
  • Horizontaal schalen is mogelijk in een goot.
  • Het is zeer foutief tolerant omdat contextuele routing aanwezig is in een goot.

Conclusie - Hadoop Tools

Hier in dit artikel hebben we geleerd over enkele van de Hadoop-tools en hoe ze nuttig zijn in de wereld van data. We hebben Hive en Pig gezien dat wordt gebruikt om gegevens op te vragen en te analyseren, sqoop om gegevens te verplaatsen en flume om streaming gegevens naar HDFS op te nemen.

Aanbevolen artikelen

Dit is een handleiding voor Hadoop Tools geweest. Hier bespreken we verschillende Tools van Hadoop met hun functies. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Alternatieven voor Hadoop
  2. Hadoop-database
  3. SQL String-functies
  4. Wat is big data

Categorie: