Inleiding tot Hive Interviewvragen en antwoorden

In het nieuwe datatijdperk is Hive een open source ETL- en datawarehousing-infrastructuurtoolpakket op petabyteschaal om gestructureerde en ongestructureerde gegevens op te slaan op basis van Distributed File System (HDFS)
voor het analyseren, bevragen en ontginnen van grote hoeveelheden gegevenssets door SQL-achtige taal genaamd HiveQL (HQL) in te schakelen en eenvoudige query-uitvoering door Hadoop MapReduce te plannen.

Hive is gebouwd bovenop Hadoop om Big Data te verwerken en te analyseren en maakt zoekopdrachten eenvoudig.
De korf werd in eerste instantie gemaakt door Facebook, later werd deze verder verbeterd en ontwikkeld als een open source door Apache Software Foundation en noemde deze als Apache Hive. Er zijn nu veel bedrijven die Apache Hive gebruiken voor hun Big Data-oplossingen.

Als je op zoek bent naar een baan die gerelateerd is aan Hive, moet je je voorbereiden op de sollicitatievragen voor Hive 2018. Hoewel elk interview anders is en de reikwijdte van een baan ook anders, kunnen we je helpen met de beste Hive Interview-vragen en -antwoorden van 2018, die je helpen de sprong te wagen en je succes in je interview te krijgen.

Hieronder is de toplijst van Hive-interviewvragen die meestal in een interview worden gesteld. Deze vragen zijn als volgt verdeeld in twee delen:

Deel 1 - Interviewvragen bij Hive (basis)

Dit eerste deel behandelt basisvragen en antwoorden over Hive-interviews.

1. Noem de verschillende componenten van Hive-architectuur?

Antwoord:
Er zijn vijf kerncomponenten in Hive-architectuur die hieronder worden vermeld:
• Gebruikersinterface (UI): het fungeert als een communicator tussen gebruikers en stuurprogramma's wanneer de gebruiker de vragen schrijft die de UI accepteert en uitvoert op het stuurprogramma, er zijn twee soorten interfaces beschikbaar: de opdrachtregel en de GUI-interface.
• Stuurprogramma: het onderhoudt de levenscyclus van de HiveQL-query. Het ontvangt de query's van de gebruikersinterface en maakt de sessie om de query te verwerken.
• Compiler: het ontvangt de queryplannen van het stuurprogramma en krijgt de vereiste informatie van Metastore om het plan uit te voeren.
• Metastore: het slaat de informatie over de gegevens op als een tabel; het kan een interne of externe tabel zijn. Het stuurt de metadata-informatie naar de compiler om de query uit te voeren.
• Motor uitvoeren: Hive-service voert het resultaat uit in de uitvoering-engine; het voert de query in MapReduce uit om de gegevens te verwerken. Het is verantwoordelijk voor het regelen van elke fase voor al deze componenten.

2. Wat zijn de verschillende soorten modi die Hive kan bedienen?

Antwoord:
Dit zijn de meest voorkomende Hive Interview-vragen die in een interview worden gesteld. Hive kan op twee modi werken op basis van de gegevensgrootte,
Deze modi zijn:
• Kaart verkleinen
•Lokale modus

3. In welke scenario's kan Hive worden gebruikt en niet worden gebruikt?

Antwoord :
Wanneer u Data Warehouse-toepassingen maakt terwijl uw gegevens statisch zijn, wanneer uw toepassing geen hoge responstijd nodig heeft, wanneer het gegevensvolume enorm is, wanneer de gegevens niet snel veranderen en wanneer u query's gebruikt in plaats van scripting. Hive ondersteunt alleen OLAP-transacties en is niet geschikt voor OLTP-transacties.

Laten we doorgaan naar de volgende Hive Interview-vragen.

4. Wat zijn de bestandsindelingen die Hive ondersteunt? Lijst van het type applicaties dat wordt ondersteund door HIVE?

Antwoord:
Standaard ondersteunt Hive tekstbestandsindeling en ondersteunt het ook de binaire bestandsindeling zoals Sequence-bestand, ORC-bestanden, parketbestanden, Avro-gegevensbestanden.
• Reeksbestand: het is meestal een bestand in binaire indeling dat kan worden gecomprimeerd en kan worden gesplitst.
• ORC-bestand: geoptimaliseerd rij-kolombestand is een op een kolom gebaseerd bestand en een op de kolom gericht opslagbestand.
• Parketbestand: het is een kolomgericht binair bestand dat zeer efficiënt is voor grootschalige zoekopdrachten.
• Avro-gegevensbestand: het is hetzelfde als een reeks bestandsindelingen die een splitsbaar, comprimeerbaar en rijgericht bestand is.
De maximale grootte van het stringgegeven gegevenstype dat in Hive is toegestaan, is 2 GB.

Hive is een datawarehouse-framework dat geschikt is voor die applicaties die zijn geschreven in Java, C ++, PHP, Python of Ruby.

5. Wat zijn de verschillende soorten tabellen die beschikbaar zijn in Hive?

Antwoord:
Er zijn twee soorten tabellen in Hive-toepassing, deze zijn:
• Beheerde tabellen: de gegevens en het schema beheren Hive.
• Externe tabellen: alleen het schema beheert de component.

Deel 2 - Interviewvragen bij Hive (geavanceerd)

Laten we nu eens kijken naar de geavanceerde interviewvragen van Hive.

6. Wat is een metastore in Hive? Lijst en leg de verschillende soorten configuratie van Hive Metastores uit?

Antwoord:
Metastore in Hive wordt gebruikt om de metadata-informatie op te slaan, het is een centrale repository in Hive. Hiermee kunt u de metagegevens in een externe database opslaan. Standaard slaat Hive Metadata-informatie op in de Derby-database, maar deze kan ook worden opgeslagen in andere databases zoals Oracle, MySql enz.
Er zijn drie soorten Metastore-configuratie, deze zijn:
• Ingesloten metastore: het is een standaardmodus; het kan lokaal toegang krijgen tot de Hive-bibliotheek, alle commandoregelbewerkingen worden uitgevoerd in de ingesloten modus. De Hive-service, de metastore-service en de database worden in dezelfde JVM uitgevoerd.
• Lokale metastore: het slaat gegevens op in een externe database zoals MySql of Oracle. De Hive-service en metastore-service worden uitgevoerd in dezelfde JVM, deze maakt verbinding met de database die wordt uitgevoerd in een afzonderlijke JVM.
• Externe metastore: het gebruikt de externe modus om query's uit te voeren, hier worden de metastore-service en de bijenkorfservice in een afzonderlijke JVM uitgevoerd. U kunt meerdere metastore-servers hebben om de beschikbaarheid te vergroten.

7. Wat is een Hive Query-processor? Wat zijn de verschillende componenten van de Hive Query-processor?

Antwoord:
Dit zijn de veelgestelde interviewvragen van Hive in een interview. Hive Query Processor wordt gebruikt om SQL te converteren naar MapReduce-taken. Op basis van de volgorde van afhankelijkheden worden de taken uitgevoerd.
De componenten van Hive Query Processor worden hieronder weergegeven:
• Semantische analyse
• UDF's en UDAF's
• Optimizer
• Operator
• Parser
• Uitvoering Engine
• Type controleren
• Logisch plan genereren
• Fysiek plan genereren

8. Wat is de functionaliteit van Object-Inspector in Hive?

Antwoord:
Het is samengesteld uit Hive dat wordt gebruikt om de structuur van de afzonderlijke kolommen en de interne structuur van rijobjecten te identificeren. De complexe objecten die in meerdere indelingen zijn opgeslagen, zijn toegankelijk via Object-Inspector in Hive.
Object-Inspector identificeert de structuur van een object en manieren om toegang te krijgen tot de interne velden in het object.

Laten we doorgaan naar de volgende Hive Interview-vragen.

9. Wat zijn de verschillende manieren om de applicaties te verbinden met Hive Server?

Antwoord:
Er zijn drie manieren om de applicaties met de Hive-server te verbinden, ze zijn:
• Thrift Client: dit wordt gebruikt om alle bijenkorfopdrachten uit te voeren met een andere programmeertaal zoals Java, C ++, PHP, Python of Ruby.
• ODBC-stuurprogramma: dit ondersteunt het ODBC-protocol
• JDBC-stuurprogramma: dit ondersteunt het JDBC-protocol

10. Wat zijn de standaard lees- en schrijfklassen in Hive?

Antwoord:
Hieronder staan ​​de lees- en schrijfklassen die beschikbaar zijn in Hive:
• TextInputFormat - Deze klasse wordt gebruikt om gegevens in platte tekstindeling te lezen.
• HiveIgnoreKeyTextOutputFormat - Deze klasse wordt gebruikt om gegevens in gewone tekstindeling te schrijven.
• SequenceFileInputFormat - Deze klasse wordt gebruikt om gegevens in Hadoop Sequence-bestandsindeling te lezen.
• SequenceFileOutputFormat - Deze klasse wordt gebruikt om gegevens in Hadoop Sequence-bestandsindeling te schrijven.

Aanbevolen artikel

Dit is een leidraad geweest voor de lijst met interviewvragen en antwoorden, zodat de kandidaat deze interviewvragen gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Top 5 nuttige DBA-interviewvragen en -antwoorden
  2. 12 meest geweldige GitHub-interviewvragen en -antwoorden
  3. 15 belangrijkste sollicitatievragen en antwoorden voor Ruby
  4. Top 10 meest nuttige HBase sollicitatievragen