Verschil tussen bijenkorf en impala

Hive is een datawarehouse-softwareproject gebouwd bovenop APACHE HADOOP, ontwikkeld door Jeff's team op Facebook met een huidige stabiele versie van 2.3.0 uitgebracht. Het wordt gebruikt voor het samenvatten van Big data en maakt het opvragen en analyseren eenvoudig. Apache Hive is een effectieve standaard voor SQL-in Hadoop. Impala is een SQL-query-engine voor parallelle verwerking die wordt uitgevoerd op Apache Hadoop en wordt gebruikt om de gegevens te verwerken die worden opgeslagen in HBase (Hadoop Database) en Hadoop Distributed File System. Impala is een open-source product voor parallelle verwerking (MPP) SQL-query-engine voor gegevens die zijn opgeslagen in een lokaal systeemcluster dat op Apache Hadoop wordt uitgevoerd. Apache Hive en Impala zijn beide belangrijke onderdelen van het Hadoop-systeem.

Laten we dus zowel Hive als Impala in detail bestuderen:

BIJENKORF

  • Apache Hive helpt bij het analyseren van de enorme dataset die is opgeslagen in het Hadoop-bestandssysteem (HDFS) en andere compatibele bestandssystemen.
  • Hive QL - Voor het opvragen van gegevens die zijn opgeslagen in Hadoop Cluster .
  • Maakt gebruik van de schaalbaarheid van Hadoop door vertaling .
  • Hive is GEEN volledige database .
  • Het biedt geen updates op recordniveau .
  • Hadoop is Batch Oriented System .
  • Hive Query's hebben een hoge latentie vanwege MapReduce .
  • Hive biedt geen functies die dicht bij OLAP liggen .
  • Meest geschikt voor Data Warehouse-toepassingen .
  • Zoekopdracht uitvoeren via MapReduce .
  • Query-taal kan worden gebruikt met aangepaste scalaire functies (UDF's), aggregaties (UDAF's) en tabelfuncties (UDTF's) .
  • Hive biedt ook indexering om te versnellen, indextype inclusief verdichting en bitmapindex vanaf 0, 10, er zijn meer indextypen gepland.
  • Opslagtypen die worden ondersteund door Hive zijn RCfile, HBase, ORC en platte tekst .
  • SQL-achtige query's (Hive QL), die impliciet worden omgezet in MapReduce- of Tez- of Spark-taken .
  • Standaard slaat Hive metagegevens op in een ingesloten Apache Derby-database .

IMPALA

  • Impala is een query-engine die op Hadoop draait . De openbare bètatestdistributie werd aangekondigd in oktober 2012 en werd algemeen beschikbaar in mei 2013.
  • Het ondersteunt HDFS Apache HBase-opslag en Amazon S3 .
  • Leest Hadoop-bestandsindelingen, waaronder tekst, Parket, Avro, RCFile, LZO en Sequence-bestand .
  • Ondersteunt Hadoop Security (Kerberos-authenticatie) .
  • Gebruikt metagegevens, ODBC-stuurprogramma en SQL-syntaxis van Apache Hive .
  • Het ondersteunt meerdere compressiecodecs:

(a) Snappy (aanbevolen voor de effectieve balans tussen compressieverhouding en decompressiesnelheid),

(b) Gzip (aanbevolen wanneer het hoogste compressieniveau wordt bereikt),

(c) Leeglopen (niet ondersteund voor tekstbestanden), Bzip2, LZO (alleen voor tekstbestanden);

  • Hiermee kunt u query's uitvoeren op geneste structuren, waaronder kaarten, structuren en arrays.
  • Het maakt multi-user gelijktijdige vragen mogelijk en biedt ook toegangscontrole op basis van prioriteitstelling en wachtrijen van vragen.

Head-to-Head-vergelijkingen tussen bijenkorf versus impala (infographics)

Hieronder vindt u de Top 20-vergelijking tussen Hive vs Impala

Belangrijk verschil tussen bijenkorf versus impala

De verschillen tussen Hive versus Impala worden verklaard in de hieronder gepresenteerde punten:

  • Hive is ontwikkeld door Jeff's team op Facebook, maar Impala is ontwikkeld door Apache Software Foundation .
  • Hive ondersteunt het bestandsformaat Optimized row columnar (ORC) met Zlib-compressie, maar Impala ondersteunt het Parket-formaat met pittige compressie .
  • Hive is geschreven in Java, maar Impala is geschreven in C ++.
  • De verwerkingssnelheid van de query in Hive is traag, maar Impala is 6-69 keer sneller dan Hive .
  • In Hive Latency is hoog, maar in Impala is Latency laag .
  • Hive ondersteunt de opslag van RC-bestanden en ORC, maar Impala- opslag ondersteunt Hadoop en Apache HBase .
  • Hive genereert query-expressie tijdens het compileren, maar in Impala-codegeneratie voor '' grote lussen 'gebeurt tijdens runtime .
  • Hive ondersteunt geen parallelle verwerking, maar Impala ondersteunt parallelle verwerking.
  • Hive ondersteunt MapReduce maar Impala biedt geen ondersteuning voor MapReduce .
  • In Hive is er geen beveiligingsfunctie, maar Impala ondersteunt Kerberos-verificatie .
  • Bij een upgrade van elk project waar compatibiliteit en snelheid beide belangrijk zijn, is Hive een ideale keuze, maar voor een nieuw project is Impala de ideale keuze .
  • Hive is fouttolerant, maar Impala ondersteunt geen fouttolerantie .
  • Hive ondersteunt complex type, maar Impala ondersteunt geen complexe typen .
  • Hive is batchgebaseerd Hadoop MapReduce maar Impala is een MPP-database .
  • Hive ondersteunt geen interactief computergebruik, maar Impala ondersteunt interactief computergebruik .
  • Bijenkorfquery heeft een probleem van 'koude start', maar in Impala wordt het daemon-proces tijdens het opstarten zelf gestart .
  • Hive resource manager is YARN (Yet Another Resource Negotiator) maar in Impala is resource manager native * YARN .
  • Bijenkorfdistributies zijn allemaal Hadoop-distributie, Hortonworks (Tez, LLAP) maar in Impala-distributie zijn Cloudera MapR (* Amazon EMR) .
  • Hive publiek is Data Engineers maar in Impala publiek zijn Data Analyst / Data wetenschappers.
  • De doorvoer van bijenkorven is hoog, maar in Impala is de doorvoer laag .

Hive vs Impala Vergelijkingstabel

Serienummer.Basis voor vergelijkingBijenkorfImpala
1.Ontwikkeld doorFacebookApache-software
fundament
2.Bestandsformaat
  • Reeksbestand.
  • Tekstbestand.
  • Geoptimaliseerd rij-kolomvormig (ORC) -formaat met Zlib-compressie.
  • RC-bestandsformaat.
  • Parketformaat met pittige compressie.
  • Avro
  • LZO
  • Reeksbestand.
3.TaalGeschreven in JAVAGeschreven in C ++
4.VerwerkingssnelheidHive is traagImpala is snel
5.WachttijdhoogLaag
6.Ondersteuning voor opslagRC-bestand, ORCHadoop, Apache HBase
7.Code conversieGenereert query-expressie tijdens het compilerenCodegeneratie gebeurt tijdens runtime.
8.Ondersteunt parallelle verwerkingNeeJa
9.Ondersteuning voor MapReduceJaNee
10.Hadoop-beveiligingNeeOndersteunt Kerberos-verificatie.
11.GebruikIdeaal voor het opwaarderen van projectenIdeaal voor het starten van een nieuw project.
12.FouttoleranteHive is fouttolerant.Ondersteunt geen fouttolerantie.
13.Complexe typenHive ondersteunt complexe typen.Impala ondersteunt geen complexe typen.
14.DatabasetypeHive is een batchgebaseerde Hadoop MapReduce.Het is een MPP-database
15.Interactief computergebruikOndersteunt geen interactief computergebruik.Ondersteunt interactief computergebruik.
16.ExecutieHive-query heeft een probleem met "Koude start"Impala-proces begint altijd tijdens de opstarttijd van Daemons.
17.Beheer van middelenGARENInheems * YARN
18.uitkeringenHIVE - alle Hadoop-distributies, Hortonworks (Tez, LLAP)Cloudera MapR,
(* Amazon EMR)
19.PubliekData EngineersData-analist / Data Scientists
20.DoorvoerHoge doorvoerLage doorvoer

Conclusie - Hive vs Impala

In dit artikel hebben we geprobeerd te laten zien dat wat twee technologieën zijn, namelijk Hive en Impala, en ook het fundamentele verschil tussen deze technologieën. In praktische termen kunnen we zeggen dat Hive en Impala niet de concurrenten zijn, ze behoren allebei tot dezelfde stichting die bekend staat als MapReduce voor het uitvoeren van de vragen, het gebruik van beide kan het verschil maken. Afhankelijk van onze behoefte kunnen we het samen gebruiken of het beste volgens de compatibiliteit, behoefte en prestaties. Hive-taal voor zoekopdrachten is Hive QL, een zeer veelzijdige en universele taal, terwijl Impala geheugenintensief is en niet goed werkt voor het verwerken van zware gegevensbewerkingen, bijvoorbeeld joinquery's. Als in uw project werk verband houdt met batchverwerking voor een grote hoeveelheid gegevens, zal de Hive in dat geval beter zijn en als uw werk verband houdt met het realtime proces van een ad-hocquery op gegevens, is Impala beter in dat geval.

Aanbevolen artikel

Dit is een leidraad geweest voor Hive Vs Impala, hun betekenis, vergelijking van persoon tot persoon, belangrijkste verschillen, vergelijkingstabel en conclusie. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Apache Hive vs Apache Spark SQL - 13 verbazingwekkende verschillen
  2. Hive VS HUE - Top 6 nuttige vergelijkingen om te leren
  3. Apache Pig vs Apache Hive - Top 12 nuttige verschillen
  4. Hadoop vs Hive - Ontdek de beste verschillen
  5. ORDER BY-functie gebruiken in Hive

Categorie: