Inleiding tot vragen en antwoorden over sollicitatiegesprekken bij Sqoop

Sqoop is een open-source data-overdrachtstool, Sqoop-tool draagt ​​de gegevens over tussen Hadoop Ecosystem en Relational Database Servers (RDBMS). Het importeert de gegevens naar het Hadoop-bestandssysteem (HDFS), van relationele databases zoals Oracle, MySQL, enz., Exporteert ook gegevens van het Hadoop-bestandssysteem naar RDMS.

Hieronder staan ​​de 15 belangrijke interviewvragen en antwoorden voor 2019 Sqoop:

Dus je hebt eindelijk je droombaan in Sqoop gevonden, maar je vraagt ​​je af hoe je het Sqoop-interview kunt kraken en wat de waarschijnlijke 2019 Sqoop-interviewvragen kunnen zijn. Elk interview is anders en de reikwijdte van een baan is ook anders. Met dit in gedachten hebben we de meest voorkomende Sqoop-interviewvragen en -antwoorden ontworpen om u te helpen succesvol te worden in uw interview.

Deze vragen zijn als volgt verdeeld in twee delen:

Deel 1 - Interviewvragen Sqoop (basis)

Dit eerste deel behandelt de basisvragen en antwoorden van Sqoop.

1. Definieer Sqoop en waarom gebruiken we Sqoop?

Antwoord:
Sqoop is een open-source gegevensoverdrachtstool, die is ontworpen voor het overdragen van gegevens tussen Hadoop Ecosystem en Relational Database Servers (RDBMS). Sqoop wordt gebruikt voor het importeren van gegevens uit relationele databases zoals Oracle, MySQL, enz. Naar het Hadoop-bestandssysteem (HDFS), en ook voor het exporteren van gegevens uit het Hadoop-bestandssysteem naar relationele databases.

2. Wat zijn de verschillende functies van Sqoop?

Antwoord:
Hieronder staan ​​de verschillende functies die door de Sqoop worden ondersteund -

  1. Laadcapaciteit
  2. Volledig laden en incrementeel laden
  3. Datacompressietechnieken
  4. Resultaten van SQL-query's importeren
  5. Gegevensconnectoren voor alle belangrijke databases
  6. Directe ondersteuning voor het laden van gegevens in Hadoop-bestandssystemen
  7. Beveiligingsconfiguraties zoals Kerberos
  8. Gelijktijdige import- of exportfuncties

Laten we doorgaan naar de volgende Sqoop-interviewvragen.

3. Noem de relationele databases en Hadoop ecosysteembronnen die worden ondersteund in Sqoop?

Antwoord:
Sqoop ondersteunt momenteel MySQL, PostgreSQL, Oracle, MSSQL, Teradata en IBM's Netezza als onderdeel van Relation Databases.

Momenteel ondersteunde Hadoop Eco-systeem bestemmingsdiensten zijn HDFC, Hive, HBase, H Catalog en Accumulo.

Sqoop gebruikt MySQL als standaarddatabase.

4. Hoe werkt Sqoop?

Antwoord:
Dit zijn de veelgestelde Sqoop-interviewvragen die in een interview worden gesteld. Om gegevensoverdracht uit te voeren, gebruikt Sqoop export- en importopdrachten. Map Reduce-programma zal intern in Sqoop worden gebruikt voor het opslaan van gegevensset op HDFS. Commando's zullen worden gekoppeld aan kaarttaken om gegevens op te halen uit relationele databases; Verminder taak neemt de verantwoordelijkheid voor het plaatsen van de opgehaalde gegevens in de bestemmingen (HDFS / HBase / Hive)

Sqoop gebruikt ook verschillende API-connectoren om verbinding te maken met verschillende databases. Sqoop biedt ook de mogelijkheid om aangepaste connectoren te maken die voldoen aan specifieke vereisten.

Laten we de onderstaande voorbeeldopdrachten bekijken voor importeren en exporteren

Een opdracht om verbinding te maken met MySQL-database voor het importeren van gegevens uit de 'Log' tabel

sqoop import –connect jdbc: mysql: // localhost / –gebruikersnaam –wachtwoord –tabel –m 1
sqoop import –connect jdbc: mysql: // localhost / mytestdb –gebruikersnaam root –wachtwoord admin123 –tabellogboek –m 1

Een opdracht voor het exporteren van gegevens van HDFS naar relationele database

sqoop export –connect jdbc: mysql: // localhost / sqoop_export –table export-dir / sqoop / emp_last / part-m-00000 –update-key id
sqoop export –connect jdbc: mysql: // localhost / sqoop_export –table log_table – export-dir / sqoop / data / foler1 / part-m-00000

5. Wat is Sqoop Metastore? Leg uit?

Antwoord:
De Sqoop Metastore is een tool beschikbaar in de Sqoop die zal worden gebruikt om de Sqoop-applicatie te configureren voor het hosten van een gedeelde repository in de vorm van metadata. Deze Metastore kan worden gebruikt om de taken uit te voeren en een aantal gebruikers te beheren op basis van gebruikersrollen en activiteiten. Alle meerdere gebruikers kunnen meerdere taken of bewerkingen tegelijkertijd uitvoeren om de taken efficiënt te realiseren. De Sqoop Metastore wordt standaard geïmplementeerd als een representatie in het geheugen. Wanneer een taak wordt aangemaakt binnen Sqoop, wordt de taakdefinitie opgeslagen in de Metastore en wordt deze indien nodig weergegeven met behulp van Sqoop-taken.

6. Welke bestandsindelingen ondersteunt Sqoop tijdens het importeren van de gegevens?

Antwoord:
Sqoop gebruikt twee bestandsindelingen voor gegevensimport. Dit zijn: - Gescheiden testbestandsindeling en volgordebestandsindeling.

Gescheiden tekstbestandsindeling : Gescheiden tekstindeling is de standaardbestandsindeling voor importeren. We kunnen nog steeds expliciet specificeren met behulp van het –als- textielargument. Evenzo zal het doorgeven van het argument de scheidingstekens tussen rijen en kolommen instellen.

Volgorde bestandsindeling : deze bestandsindeling kunnen we zeggen dat het een binaire bestandsindeling is. Dit type bestandsindelingen wordt opgeslagen in aangepaste recordspecifieke gegevenstypen die worden weergegeven als Java Classes.

Laten we doorgaan naar de volgende Sqoop-interviewvragen.

7. Kunnen we een aantal mappers beheren in sqoop? Zo ja, hoe?

Antwoord:
Ja, we kunnen het aantal mappers in Sqoop beheren door de parameter "-num-mappers" op te geven in de opdracht sqoop. Deze parameter kan het aantal kaarttaken regelen, dat is niets anders dan de mate van parallellisme die door sqoop wordt gebruikt. Het aantal wordt bepaald op basis van de vereiste.

Syntaxis: gebruik deze vlaggen om het aantal mappers te bepalen: m, -num- mappers

Deel 2 - Interviewvragen Sqoop (geavanceerd)

Laten we nu eens kijken naar de geavanceerde Sqoop-interviewvragen.

8. Wat is Sqoop-merge en verklaart het gebruik ervan?

Antwoord:
Sqoop merge is een tool die twee verschillende datasets combineert die de enige versie behouden door de vermeldingen in een oudere versie van een dataset te overschrijven met nieuwe bestanden om er de nieuwste dataset van te maken. Er vindt een proces van afvlakking plaats terwijl de twee verschillende datasets worden samengevoegd waardoor de gegevens zonder verlies en met efficiëntie en veiligheid worden bewaard. Om deze bewerking uit te voeren wordt een merge-toetscommando gebruikt zoals “–merge-key”

9. Wat zijn de verschillen tussen Sqoop, flume en distcp?

Antwoord:
Zowel Distcp als Sqoop worden gebruikt voor het overbrengen van de gegevens. Sqoop wordt gebruikt voor het overbrengen van elk type gegevens van de ene Hadoop-cluster naar een andere cluster, terwijl Sqoop gegevens overbrengt tussen relationele databases en Hadoop-ecosysteem zoals Hive, HDFS en HBase, enz. Maar beide methoden gebruiken dezelfde aanpak om de gegevens te kopiëren, wat pull / transfer is.

Flume heeft een tool gedistribueerd, volgt op agent-gebaseerde architectuur, voor het streamen van de logs naar het Hadoop-ecosysteem. Terwijl Sqoop een connector-gebaseerde architectuur is.

Flume verzamelt en verzamelt een enorme hoeveelheid loggegevens. Flume kan de gegevens van een ander type bronnen verzamelen; het houdt geen rekening met het schema of gestructureerde / ongestructureerde gegevens. Flume kan elk type gegevens ophalen. Terwijl Sqoop alleen de relationele databasegegevens kan importeren, is een schema verplicht voor sqoop om te verwerken. Over het algemeen is de goot voor het verplaatsen van bulkwerklasten de beste optie.

Laten we doorgaan naar de volgende Sqoop-interviewvragen.

10. Welke gegevensbronnen worden ondersteund door Apache Sqoop?

Antwoord:
De verschillende gegevensbronnen van verschillende applicaties die door de Apache Sqoop worden ondersteund, zijn hieronder:

  1. Bijenkorf
  2. HBase
  3. Hadoop Distributed File System (HDFS)
  4. HCatalog
  5. Accumulo

11. Wat zijn de meest gebruikte commando's / functies in Sqoop?

Antwoord:

Dit zijn de geavanceerde Sqoop-interviewvragen die in een interview zijn gesteld. De lijst met basisopdrachten die in Sqoop worden gebruikt, is als volgt:

Codegen -Codegen wordt gebruikt om code te genereren voor communicatie met databaserecords.

Eval -Sqoop Eval helpt bij het uitvoeren van voorbeeld-SQL-query's op de databases en biedt de resultaten op de console.

Help -Help de beschikbare opdrachten

Importeren - Importeren van de tabel in het Hadoop Ecosysteem

Export -Export wordt gebruikt om HDFS-gegevens te exporteren naar relationele databases.

Create-hive-table -Deze opdracht is handig voor het importeren van tabeldefinitie in Hive

Importeer alle tabellen - Importeer alle tabellen importeert de tabellen om relationele databases naar HDFS te vormen.

Lijst-databases - Het geeft een lijst weer van alle databases die op een server aanwezig zijn.

Lijst-tabellen - Er worden alle tabellen weergegeven die in een database aanwezig zijn.

Versies - Het zal de versie-informatie tonen.

Functies - Parallel importeren / exporteren, volledige belasting, incrementele belasting, volledige belasting, vergelijking, connectoren voor RDBMS-databases, Kerberos-beveiligingsintegratie, gegevens rechtstreeks in HDFS laden (Hive / HBase)

12. Uitleg van de Best Practices tijdens het importeren van tabellen uit MySQL of andere databases met behulp van Sqoop?

Antwoord:
Bij het importeren van de tabellen uit MySQL moeten we zorgen voor enkele dingen, zoals authenticatie en autorisatie voor de doelserver en databases. We moeten ervoor zorgen dat we de benodigde rechten hebben verleend voor de databases waartoe toegang moet worden verkregen, en we moeten ook zorgen voor de resolutie van de hostnaam wanneer we verbinding maken met de hostnamen van de bron en de bestemming. Als we niet de benodigde toestemming hebben, krijgen we een uitzondering voor verbindingsfout bij het maken van een verbinding met de database.

13. Hoe werkt u de reeds geëxporteerde gegevens of rijen bij?

Antwoord:
Om de rijen bij te werken die al de bestemming zijn geëxporteerd, kunnen we de parameter "–update-key" gebruiken. Hierin wordt een door komma's gescheiden kolommenlijst gebruikt die op unieke wijze een rij identificeert en al deze kolommen worden gebruikt in de WHERE-component van de gegenereerde UPDATE-query. SET-gedeelte van de query zorgt voor alle andere tabelkolommen.

Laten we doorgaan naar de volgende Sqoop-interviewvragen.

14. Hoe het JDBC-stuurprogramma in Apache Sqoop configureren en installeren?

Antwoord:
De JDB-stuurprogramma's in Apache Sqoop kunnen worden geconfigureerd op basis van de Hadoop-provider zoals Cloudera of Hortonworks, waar het enigszins varieert in de configuratie op basis van de Hadoop-provider. De JDBC in Cloudera kan worden geconfigureerd door een bibliotheekmap te maken zoals / var / lib /. Dit kan worden gedaan voor elke bibliotheek van derden die volgens de vereiste moet worden geconfigureerd. Op deze manier kan elk type database worden geconfigureerd met behulp van het JDBC-stuurprogramma. Naast het JDBC-stuurprogramma heeft Apache Sqoop een connector nodig om een ​​verbinding tot stand te brengen tussen verschillende relationele databases. De belangrijkste componenten die nodig zijn om een ​​verbinding met de databases tot stand te brengen, zijn via Driver en Connector van de betreffende databaseprovider.

15. Wat is de splitsing-clausule en wanneer gebruiken we deze?

Antwoord:
Een opgesplitste parameter is voor het segmenteren van de te importeren gegevens in meerdere parallelle taken. Met deze parameter kunnen we de namen van de kolom specificeren, dit is de kolomnaam op basis van welke sqoop de te importeren gegevens in meerdere delen verdeelt en ze zullen op een parallelle manier worden uitgevoerd. Het is een van de technieken om de uitvoering in Sqoop te tunen.

Aanbevolen artikelen

Dit is een handleiding voor de lijst met interviewvragen en antwoorden van Sqoop, zodat de kandidaat deze Sqoop-interviewvragen gemakkelijk kan beantwoorden. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Hadoop vs Teradata - Wat gunstig is
  2. 13 geweldige interviewvragen voor databasetests
  3. Top 10 meest nuttige HBase sollicitatievragen
  4. 10 meest geweldige PHP-interviewvragen voor ervaren
  5. Ken de top 5 nuttige DBA-interviewvragen