Inleiding tot vragen en antwoorden over Hbase-sollicitatiegesprekken

HBase is een populair kolomgericht NoSQL-databasebeheersysteem dat wordt uitgevoerd bovenop het Hadoop Distributed File System (HDFS). Het is goed geschikt voor schaarse gegevenssets, die gebruikelijk zijn in veel gevallen waarin big data worden gebruikt.

Hier zijn de top 10 meest gestelde 2019 HBase sollicitatievragen en antwoorden: dus je hebt eindelijk je droombaan gevonden in HBase, maar je vraagt ​​je af hoe je het Hbase-interview kunt kraken en wat de waarschijnlijke 2019 Hbase-interviewvragen kunnen zijn. Elk interview is anders en de reikwijdte van een baan is ook anders. Met dit in gedachten hebben we de meest voorkomende Hbase-interviewvragen en -antwoorden ontworpen om u te helpen succes te behalen in uw interview. Deze vragen zijn als volgt verdeeld in twee delen:

Deel 1 - HBase sollicitatievragen (basis)

Dit eerste deel behandelt de basisvragen en antwoorden van HBase.

1. Wanneer moet u HBase gebruiken?

Antwoord:
Hbase is niet geschikt voor alle gebruiksscenario's. Een best geschikt scenario kan worden geïdentificeerd met de volgende controles -
i.Data-volume: er moeten petabytes aan gegevens worden verwerkt in een gedistribueerde omgeving.
ii. Toepassing: HBase is niet geschikt voor OLTP-systemen (Online Transaction Processing) waarvoor complexe multi-statement transacties nodig zijn. Het ontbreekt ook aan complexe SQL-ondersteuning die vereist is voor relationele analyse. Het heeft de voorkeur wanneer u een enorme hoeveelheid gegevens hebt met een iets ander schema.
iii.Cluster Hardware: HBase wordt uitgevoerd op HDFS. En HDFS werkt efficiënt met een groot aantal knooppunten (minimaal 5). HBase kan dus alleen een goede selectie zijn met goede hardware-ondersteuning.
iv.Niet traditionele RDBMS: Hbase ondersteunt geen gebruikssituaties waarvoor traditionele functies nodig zijn, zoals het samenvoegen van meerdere tabellen, complexe SQls met geneste of vensterfuncties enz.
v.Snelle willekeurige toegang tot gegevens: als u willekeurige en realtime toegang tot uw gegevens nodig hebt, is HBase een geschikte kandidaat. Het is ook perfect geschikt voor het opslaan van grote tabellen met multi-gestructureerde gegevens.

2. Wat is het verschil tussen Cassandra en HBase?

Antwoord:
Zowel HBase als Cassandra hebben de NoSQL-database voor Big Data van het Hadoop-ecosysteem verspreid. Beide gebouwd voor verschillende gebruikssituaties.
De HBase heeft een soort master-slave-architectuur met verschillende componenten zoals Zookeeper, Namenode, HBase Master (Hmaster) en dataknopen enz. Cassandra behandelt alle knooppunten als masters, wat betekent dat alle knooppunten gelijk zijn en alle functies uitvoeren.
HBase is geoptimaliseerd voor lezen, schrijven gebeurt alleen met het hoofdknooppunt en heeft een sterke consistentie voor lezen na schrijven. Cassandra heeft uitstekende leesprestaties op één rij als de uiteindelijke consistentie is geselecteerd.
Hbase ondersteunt geen native indexen, Cassandra ondersteunt secundaire indexen op kolomfamilies waarvan de kolomnaam bekend is.
Aanvankelijk is Hbase gemaakt in Google en zij noemden het BigTable. Zelfs nu zijn API's van Bigtable en HBase compatibel. De oorsprong van Cassandra komt uit een paper voor DynamoDB, een NoSQL-database van AWS.

Laten we doorgaan naar de volgende HBase-interviewvragen.

3. Wat zijn de belangrijkste componenten van Hbase?

Antwoord:
HBase a heeft drie belangrijke componenten: HMaster, Region Server en ZooKeeper.
i.HBase Master - HBase-tabellen zijn onderverdeeld in regio's. Terwijl startup Master beslist welke regio aan welke regioserver moet worden toegewezen (regioserver zal een knooppunt in een cluster zijn). Het verwerkt ook metagegevensbewerkingen in de tabel, zoals aanmaken of wijzigen van het schema. Dit onderdeel speelt ook een belangrijke rol bij het herstel van storingen
ii. Regioserver - Zoals hierboven vermeld, gebeurt hier het feitelijke schrijven en lezen van gegevens. Dit zijn echte clusterknooppunten. Dit zal gebieden van vele tabellen hebben die worden bepaald door de rijtoetsen te beginnen en te beëindigen. Een typische regioserver kan maximaal duizend regio's bedienen
iii.ZooKeeper - ZooKeeper is een clustercoördinatiekader dat veel wordt gebruikt in het ecosysteem van Hadoop. Zoooker volgt alle servers (master- en regioservers) die aanwezig zijn in cluster HMaster-contacten ZooKeeper en er worden meldingen gegenereerd in geval van fouten.

4. Wat is HBase Bloom-filter?

Antwoord:
Dit zijn de algemene HBase-interviewvragen die in een interview worden gesteld. Een HBase Bloom-filter is een efficiënt mechanisme om te testen of een winkelbestand (wanneer iets naar HBase wordt geschreven, het eerst naar een geheugenopslag wordt geschreven, zodra deze memstore een bepaalde grootte bereikt, wordt het naar schijf in een winkelbestand gespoeld ) bevat een specifieke rij of rij-col-cel. Normaal gesproken is de enige manier om te beslissen of een rijsleutel aanwezig is in een winkelbestand, de blokindex van het bestand in te checken, die de startrij-sleutel heeft van elk blok in het winkelbestand. Bloom-filters fungeren als een gegevensstructuur in het geheugen die helpt bij het verminderen van schijflezingen tot alleen de bestanden die waarschijnlijk die rij bevatten - niet alle winkelbestanden. Het werkt dus als een index in het geheugen om een ​​kans aan te geven om een ​​rij in een bepaald winkelbestand te vinden.

5. Wat is verdichting? Leg verschillende soorten uit.

Antwoord:
HBase slaat alle ontvangen bewerkingen op in het geheugengebied van de memstore. Wanneer de geheugenbuffer vol is, wordt deze naar schijf gespoeld. Omdat dit veel kleine bestanden in HDFS kan maken, kan HBase van tijd tot tijd bestanden selecteren die samen moeten worden gecomprimeerd tot een grotere. Een verdichting wordt Minor genoemd wanneer HBase ervoor kiest slechts enkele van de HFiles te comprimeren, maar niet alle. Bij een grote verdichting worden alle bestanden gekozen om samen te worden gecomprimeerd. Een grote verdichting werkt als een kleine, behalve dat de verwijdermarkeringen kunnen worden verwijderd nadat ze op alle gerelateerde cellen zijn toegepast en alle extra versies van dezelfde cel ook worden verwijderd.

Deel 2 - Interviewvragen HBase (geavanceerd)

Laten we nu eens kijken naar de geavanceerde HBase-interviewvragen.

6. Hoe HBase-versiegegevens?

Antwoord:
Wanneer een stuk gegevens wordt ingevoegd / bijgewerkt / verwijderd, maakt HBase een nieuwe versie voor die kolom. Het daadwerkelijke verwijderen gebeurt alleen tijdens verdichting. Als een bepaalde cel een aantal toegestane versies overschreed, zullen extra versies worden verwijderd tijdens het verdichten

7. Wat is een verschil tussen ophalen en scannen?

Antwoord:
Get retourneert een enkele rij uit de Hbase-tabel op basis van de gegeven rijsleutel. Scanopdracht retourneert een reeks rijen afhankelijk van de opgegeven zoekvoorwaarde. Meestal is get sneller dan scannen. Dus zou dat liever gebruiken als dat mogelijk is.

Laten we doorgaan naar de volgende HBase-interviewvragen.

8. Wat gebeurt er bij het verwijderen van een rij?

Antwoord:
Op het moment van verwijdering worden opdrachtgegevens niet fysiek uit het bestandssysteem verwijderd, maar onzichtbaar gemaakt door een markering in te stellen. Fysieke verwijdering gebeurt tijdens een verdichting
Kolom-, versie- en familie-verwijdermarkeringen zijn drie verschillende typen markeringen die het verwijderen van respectievelijk een kolom, versie van kolom en kolomfamilie markeren.

9. Leg het verschil uit tussen HBase en Hive.

Antwoord:
Dit is de geavanceerde HBase-interviewvraag die in een interview werd gesteld. HBase en Hive zijn beide volledig verschillende op Hadoop gebaseerde technologieën voor gegevensverwerking. Hive is een relationeel SQL-compatibel gedistribueerd opslagframework, terwijl HBase een NoSQL-sleutelwaardeopslag is. Hive fungeert als een abstractielaag bovenop Hadoop met SQL-ondersteuning. Het gegevenstoegangspatroon van Base is zeer beperkt met twee primaire bewerkingen: ophalen en scannen. HBase is ideaal voor realtime gegevensverwerking waarbij Hive een ideale keuze is voor batchgegevensverwerking.

10. Wat zijn Hlog en HFile?

Antwoord:
HLog is het vooruitleesbare logbestand, ook bekend als WAL en HFile is het echte gegevensopslagbestand. Gegevens worden eerst naar het vooruit geschreven logbestand geschreven en ook in MemStore geschreven. Zodra MemStore vol is, wordt de inhoud van de MemStore naar de schijf gespoeld in HFiles.

Aanbevolen artikel

Dit is een leidraad geweest voor Lijst met Hbase-interviewvragen en antwoorden, zodat de kandidaat deze Hbase-interviewvragen gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Handige sollicitatievragen voor groepen
  2. Belangrijke basistips voor sollicitatiegesprekken
  3. Essentiële stappen voor Interview Prep
  4. Interviewvragen om een ​​financiële kandidaat te stellen