Inleiding tot Hive-alternatieven

Voordat we de alternatieven van HIVE bespreken. Laten we eerst begrijpen wat een bijenkorf is? HIVE is dus eigenlijk een tool voor datawarehousing die is ontwikkeld bovenop HDFS (Hadoop Distributed File System). Het wordt gebruikt voor het geven van een SQL-achtige query-interface aan query-gegevens die zijn opgeslagen in verschillende bestanden die zijn geïntegreerd met Hadoop. Het converteert SQL-achtige query's naar Map Reduce-taken die helpen bij het gemakkelijk uitvoeren van grote hoeveelheden gegevens.

Kenmerken

Hieronder staan ​​enkele kenmerken van Hive:

  • Net als SQL heeft het zijn eigen declaratieve taal genaamd HiveQL.
  • Het heeft een tabelstructuur vergelijkbaar met tabellen in de Relational-database en biedt ook ondersteuning voor ETL (extract / support / load).
  • Een interessante functie is dat het de conversie van formaten mogelijk maakt vanuit de HIVE.

Beperking van Hive-alternatieven

Laten we een paar beperkingen van Hive kennen:

  • Het is niet ontworpen voor OLTP (Online Transactieverwerking) maar ondersteunt OLAP (Online Analytical Processing).
  • Een belangrijke beperking is dat het geen updates en verwijderingen ondersteunt.
  • In Hive worden subquery's ook niet ondersteund.

5 Belangrijke Hive-alternatieven

Hieronder gaan we vijf belangrijke alternatieven van HIVE in de markt bespreken:

1. Apache Impala

Het is een open-source parallelle SQL-query-engine voor gegevens die zijn opgeslagen in een computercluster met Apache Hadoop. Het werd aangekondigd in het jaar oktober 2012. Hieronder staan ​​de meest opvallende kenmerken van Apache Impala als een alternatief voor HIVE.

  • Impala is een goede keuze voor mensen die SQL-query's uitvoeren op Hadoop en Apache HBase zonder de gegevens te transformeren, omdat het niet nodig is om de gegevens te transformeren of te verplaatsen, in tegenstelling tot HIVE.
  • Een ander verschil tussen deze twee is het genereren van query-expressies. Impala genereert ze tijdens runtime met behulp van llvm, terwijl HIVE ze tijdens het compileren genereert.
  • Hive Queries heeft een probleem van koude start, wat niet het geval is voor Impala-query's omdat in Impala daemon-processen worden gestart tijdens het opstarten zelf, altijd klaar om een ​​query te verwerken, waardoor het probleem van koude start wordt vermeden.
  • Impala herkent Hadoop-bestandsindelingen, Hadoop-beveiliging, ODBC-stuurprogramma.
  • De belangrijkste USP van impala is de brute kracht van parallelle verwerking. Impala is dus een beter alternatief als men een nieuw project begint.

2. Presto DB

Presto is een ander alternatief voor HIVE ontwikkeld door Facebook. De USP is dat het zelfs gegevens uit meerdere bronnen binnen een enkele query kan opvragen. Hieronder staan ​​de meest opvallende kenmerken van PrestoDB als alternatief voor HIVE.

  • Presto is een in het geheugen gedistribueerde SQL-query-engine, die ook erg snel is, omdat de query-engine van Presto snel is en goed geschikt voor interactieve analyse.
  • De USP voor Presto ten opzichte van anderen is het plug and play-model met verschillende gegevensbronnen. Dankzij dit plug-and-play-model is het koppelen van vragen in verschillende gegevensbronnen heel eenvoudig met Presto.
  • In Presto zijn join-tabellen met kleine afmetingen sneller gemaakt. Presto blinkt uit met de meeste andere gedistribueerde query-engines.
  • Presto is niet geschikt voor grote feit-joins, omdat het geen schijf gebruikt en geheugen gebruikt voor verwerking.
  • Nog een belangrijk punt voor Presto is de toewijzing van middelen. Het heeft een prioritaire wachtrij gebaseerde brontoewijzing.
  • Een afweging voor goede prestaties in Presto is dat UDF-ondersteuning niet beschikbaar is in Presto, waardoor iemand zijn eigen functie moet schrijven die de overhead verhoogt omdat het exclusief voor Presto moet worden gebouwd en de interoperabiliteit belemmert.

3. Spark SQL

Het is een module voor ook gestructureerde gegevensverwerking en ook open-source. Het kan ook fungeren als een gedistribueerde SQL-query-engine en ook een uniek onderdeel hiervan is dat het programmeerabstractie biedt die bekend staat als dataframes. Het werd voor het eerst uitgebracht in 2014 ontwikkeld door Apache Software Foundation. Hieronder staan ​​enkele van de meest opvallende kenmerken van Spark SQL als alternatief voor HIVE.

  • Het goede van Spark SQL is dat het kan worden geïmplementeerd in de taal Java, Scala, Python en R, terwijl HIVE kan worden geïmplementeerd in de Java-taal.
  • Er is een volledige gelijkenis in het primaire databasemodel tussen HIVE en Spark omdat beide primaire databasemodellen relationeel DBMS zijn.
  • Het is ook vergelijkbaar met HIVE omdat beide de Key-Value store ondersteunen als een extra databasemodel.
  • Het heeft vooraf gedefinieerde gegevenstypen zoals float en datum.
  • Het ondersteunt SQL omdat het DML- en DDL-instructies bezit.
  • In tegenstelling tot HIVE die JDBC, ODBC en Thrift ondersteunt, ondersteunt Spark SQL alleen JDBC en ODBC.
  • Spark SQL gebruikt spark core voor het opslaan van gegevens in verschillende knooppunten.
  • Een ander groot verschil tussen spark en HIVE is replicatiemethoden: er is een selectieve replicatiefactor in HIVE voor het opslaan van redundante gegevens op meerdere knooppunten, maar er is geen replicatiefactor beschikbaar in Spark SQL.
  • In Spark SQL zijn er geen toegangsrechten voor gebruikers, terwijl we in Apache Hive toegangsrechten hebben voor gebruikers, groepen.
  • Het ondersteunt geen transactietabel en geen ondersteuning voor char type.

4. Haai

Het is een open-source SQL-query-engine die is geschreven in Scala. Het interessante feit van Shark is in plaats van Map-Reduce te gebruiken om zijn vragen uit te voeren, het gebruikt zijn eigen sets werkknopen. Hieronder staan ​​enkele kenmerken van Shark:

  • Het gebruikt een opdrachtregelclient.
  • Het biedt interoperabiliteit met Hive voor het delen van schema's.
  • Het biedt ondersteuning voor bestaande bijenkorfextensies zoals UDF's.

Het is nog niet erg beroemd, maar het biedt een alternatief voor HIVE.

5. BigSQL door IBM

Het wordt geleverd door Big Blue (IBM). IBM heeft zijn eigen Hadoop-distributie genaamd Big Insights. Dus wordt Big SQL aangeboden als onderdeel ervan. Het is geen open source omdat het wordt geleverd door IBM. Sommige van de dingen die ze bieden zijn als volgt:

  • Ze ondersteunen zowel JDBC- als OJDBC-stuurprogramma's.
  • Ze bieden SQL-ondersteuning
  • Ze kunnen worden gebruikt om gegevens van HDFS op te vragen.

Aanbevolen artikelen

Dit is een handleiding voor Hive-alternatieven. Hier bespreken we functies, beperking en 5 belangrijke Hive-alternatieven. U kunt ook onze andere gerelateerde artikelen doornemen voor meer informatie-

  1. Alternatieven voor Hadoop
  2. Tableau-alternatieven
  3. Google Analytics-alternatieven
  4. Hadoop Streaming
  5. Bijenkorf sorteren op
  6. Bijenkorfinstallatie
  7. Gegevenskaders in R

Categorie: