Hive vs Impala - 20 meest nuttige dingen die u moet weten

Verschil tussen bijenkorf en impala

Hive is een datawarehouse-softwareproject gebouwd bovenop APACHE HADOOP, ontwikkeld door Jeff's team op Facebook met een huidige stabiele versie van 2.3.0 uitgebracht. Het wordt gebruikt voor het samenvatten van Big data en maakt het opvragen en analyseren eenvoudig. Apache Hive is een effectieve standaard voor SQL-in Hadoop. Impala is een SQL-query-engine voor parallelle verwerking die wordt uitgevoerd op Apache Hadoop en wordt gebruikt om de gegevens te verwerken die worden opgeslagen in HBase (Hadoop Database) en Hadoop Distributed File System. Impala is een open-source product voor parallelle verwerking (MPP) SQL-query-engine voor gegevens die zijn opgeslagen in een lokaal systeemcluster dat op Apache Hadoop wordt uitgevoerd. Apache Hive en Impala zijn beide belangrijke onderdelen van het Hadoop-systeem.

Laten we dus zowel Hive als Impala in detail bestuderen:

BIJENKORF

Apache Hive helpt bij het analyseren van de enorme dataset die is opgeslagen in het Hadoop-bestandssysteem (HDFS) en andere compatibele bestandssystemen.
Hive QL - Voor het opvragen van gegevens die zijn opgeslagen in Hadoop Cluster .
Maakt gebruik van de schaalbaarheid van Hadoop door vertaling .
Hive is GEEN volledige database .
Het biedt geen updates op recordniveau .
Hadoop is Batch Oriented System .
Hive Query's hebben een hoge latentie vanwege MapReduce .
Hive biedt geen functies die dicht bij OLAP liggen .
Meest geschikt voor Data Warehouse-toepassingen .
Zoekopdracht uitvoeren via MapReduce .
Query-taal kan worden gebruikt met aangepaste scalaire functies (UDF's), aggregaties (UDAF's) en tabelfuncties (UDTF's) .
Hive biedt ook indexering om te versnellen, indextype inclusief verdichting en bitmapindex vanaf 0, 10, er zijn meer indextypen gepland.
Opslagtypen die worden ondersteund door Hive zijn RCfile, HBase, ORC en platte tekst .
SQL-achtige query's (Hive QL), die impliciet worden omgezet in MapReduce- of Tez- of Spark-taken .
Standaard slaat Hive metagegevens op in een ingesloten Apache Derby-database .

IMPALA

Impala is een query-engine die op Hadoop draait . De openbare bètatestdistributie werd aangekondigd in oktober 2012 en werd algemeen beschikbaar in mei 2013.
Het ondersteunt HDFS Apache HBase-opslag en Amazon S3 .
Leest Hadoop-bestandsindelingen, waaronder tekst, Parket, Avro, RCFile, LZO en Sequence-bestand .
Ondersteunt Hadoop Security (Kerberos-authenticatie) .
Gebruikt metagegevens, ODBC-stuurprogramma en SQL-syntaxis van Apache Hive .
Het ondersteunt meerdere compressiecodecs:

(a) Snappy (aanbevolen voor de effectieve balans tussen compressieverhouding en decompressiesnelheid),

(b) Gzip (aanbevolen wanneer het hoogste compressieniveau wordt bereikt),

Hiermee kunt u query's uitvoeren op geneste structuren, waaronder kaarten, structuren en arrays.
Het maakt multi-user gelijktijdige vragen mogelijk en biedt ook toegangscontrole op basis van prioriteitstelling en wachtrijen van vragen.

Head-to-Head-vergelijkingen tussen bijenkorf versus impala (infographics)

Hieronder vindt u de Top 20-vergelijking tussen Hive vs Impala

Belangrijk verschil tussen bijenkorf versus impala

De verschillen tussen Hive versus Impala worden verklaard in de hieronder gepresenteerde punten:

Hive is ontwikkeld door Jeff's team op Facebook, maar Impala is ontwikkeld door Apache Software Foundation .
Hive ondersteunt het bestandsformaat Optimized row columnar (ORC) met Zlib-compressie, maar Impala ondersteunt het Parket-formaat met pittige compressie .
Hive is geschreven in Java, maar Impala is geschreven in C ++.
De verwerkingssnelheid van de query in Hive is traag, maar Impala is 6-69 keer sneller dan Hive .
In Hive Latency is hoog, maar in Impala is Latency laag .
Hive ondersteunt de opslag van RC-bestanden en ORC, maar Impala- opslag ondersteunt Hadoop en Apache HBase .
Hive genereert query-expressie tijdens het compileren, maar in Impala-codegeneratie voor '' grote lussen 'gebeurt tijdens runtime .
Hive ondersteunt geen parallelle verwerking, maar Impala ondersteunt parallelle verwerking.
Hive ondersteunt MapReduce maar Impala biedt geen ondersteuning voor MapReduce .
In Hive is er geen beveiligingsfunctie, maar Impala ondersteunt Kerberos-verificatie .
Bij een upgrade van elk project waar compatibiliteit en snelheid beide belangrijk zijn, is Hive een ideale keuze, maar voor een nieuw project is Impala de ideale keuze .
Hive is fouttolerant, maar Impala ondersteunt geen fouttolerantie .
Hive ondersteunt complex type, maar Impala ondersteunt geen complexe typen .
Hive is batchgebaseerd Hadoop MapReduce maar Impala is een MPP-database .
Hive ondersteunt geen interactief computergebruik, maar Impala ondersteunt interactief computergebruik .
Bijenkorfquery heeft een probleem van 'koude start', maar in Impala wordt het daemon-proces tijdens het opstarten zelf gestart .
Hive resource manager is YARN (Yet Another Resource Negotiator) maar in Impala is resource manager native * YARN .
Bijenkorfdistributies zijn allemaal Hadoop-distributie, Hortonworks (Tez, LLAP) maar in Impala-distributie zijn Cloudera MapR (* Amazon EMR) .
Hive publiek is Data Engineers maar in Impala publiek zijn Data Analyst / Data wetenschappers.
De doorvoer van bijenkorven is hoog, maar in Impala is de doorvoer laag .

Hive vs Impala Vergelijkingstabel

Serienummer.	Basis voor vergelijking	Bijenkorf	Impala
1.	Ontwikkeld door	Facebook	Apache-software fundament
2.	Bestandsformaat	Reeksbestand. Tekstbestand. Geoptimaliseerd rij-kolomvormig (ORC) -formaat met Zlib-compressie. RC-bestandsformaat.	Parketformaat met pittige compressie. Avro LZO Reeksbestand.
3.	Taal	Geschreven in JAVA	Geschreven in C ++
4.	Verwerkingssnelheid	Hive is traag	Impala is snel
5.	Wachttijd	hoog	Laag
6.	Ondersteuning voor opslag	RC-bestand, ORC	Hadoop, Apache HBase
7.	Code conversie	Genereert query-expressie tijdens het compileren	Codegeneratie gebeurt tijdens runtime.
8.	Ondersteunt parallelle verwerking	Nee	Ja
9.	Ondersteuning voor MapReduce	Ja	Nee
10.	Hadoop-beveiliging	Nee	Ondersteunt Kerberos-verificatie.
11.	Gebruik	Ideaal voor het opwaarderen van projecten	Ideaal voor het starten van een nieuw project.
12.	Fouttolerante	Hive is fouttolerant.	Ondersteunt geen fouttolerantie.
13.	Complexe typen	Hive ondersteunt complexe typen.	Impala ondersteunt geen complexe typen.
14.	Databasetype	Hive is een batchgebaseerde Hadoop MapReduce.	Het is een MPP-database
15.	Interactief computergebruik	Ondersteunt geen interactief computergebruik.	Ondersteunt interactief computergebruik.
16.	Executie	Hive-query heeft een probleem met "Koude start"	Impala-proces begint altijd tijdens de opstarttijd van Daemons.
17.	Beheer van middelen	GAREN	Inheems * YARN
18.	uitkeringen	HIVE - alle Hadoop-distributies, Hortonworks (Tez, LLAP)	Cloudera MapR, (* Amazon EMR)
19.	Publiek	Data Engineers	Data-analist / Data Scientists
20.	Doorvoer	Hoge doorvoer	Lage doorvoer

Conclusie - Hive vs Impala

In dit artikel hebben we geprobeerd te laten zien dat wat twee technologieën zijn, namelijk Hive en Impala, en ook het fundamentele verschil tussen deze technologieën. In praktische termen kunnen we zeggen dat Hive en Impala niet de concurrenten zijn, ze behoren allebei tot dezelfde stichting die bekend staat als MapReduce voor het uitvoeren van de vragen, het gebruik van beide kan het verschil maken. Afhankelijk van onze behoefte kunnen we het samen gebruiken of het beste volgens de compatibiliteit, behoefte en prestaties. Hive-taal voor zoekopdrachten is Hive QL, een zeer veelzijdige en universele taal, terwijl Impala geheugenintensief is en niet goed werkt voor het verwerken van zware gegevensbewerkingen, bijvoorbeeld joinquery's. Als in uw project werk verband houdt met batchverwerking voor een grote hoeveelheid gegevens, zal de Hive in dat geval beter zijn en als uw werk verband houdt met het realtime proces van een ad-hocquery op gegevens, is Impala beter in dat geval.

Aanbevolen artikel

Dit is een leidraad geweest voor Hive Vs Impala, hun betekenis, vergelijking van persoon tot persoon, belangrijkste verschillen, vergelijkingstabel en conclusie. U kunt ook de volgende artikelen bekijken voor meer informatie -