Inleiding tot sollicitatievragen en antwoorden voor Data Engineer

Data engineering is een term waar iedereen zich van bewust is en behoorlijk populair is op het gebied van Big Data. Data engineering verwijst naar Data Infrastructure of Data Architecture. Ruwe gegevens die zijn gegenereerd uit verschillende bronnen, zoals sociale media, mobiele telefoons, www (internet), moeten worden getransformeerd, opgeschoond, geprofileerd en geaggregeerd voor zakelijke behoeften. Deze onbewerkte gegevens worden ook wel Dark Data genoemd. De praktijk van het ontwerpen, vormgeven en implementeren van het gegevensprocessysteem helpt bij het omzetten van de gegevens in een stuk geschikte informatie of gegevensset, dergelijke informatie of gegevensset wordt Data Engineering genoemd.

Hieronder is de lijst met top 2019 Data Engineer Interview Vragen en Antwoorden:

Als je op zoek bent naar een baan die gerelateerd is aan Data Engineer, moet je je voorbereiden op de sollicitatievragen voor Data Engineer 2019. Hoewel alle sollicitatievragen voor Data Engineer anders zijn en de reikwijdte van een taak ook anders, kunnen we u helpen met de beste Interview Engineer-vragen met antwoorden, die u zullen helpen de sprong te wagen en uw succes te behalen in uw Interview met Data Engineer.

1. Wat is Data Engineering?

Antwoord:
Data engineering is een term die behoorlijk populair is op het gebied van Big Data en het verwijst voornamelijk naar Data Infrastructure of Data Architecture.
De gegevens die door veel bronnen zoals sociale media, mobiele telefoons en www (internet) worden gegenereerd, zijn onbewerkte gegevens. Het moet worden getransformeerd, gereinigd, geprofileerd en geaggregeerd voor zakelijke behoeften. We kunnen deze onbewerkte gegevens Dark Data noemen, waarop we het licht zullen schijnen om deze Dark Data nuttig te maken. De praktijk van het ontwerpen, architecten en implementeren van het gegevensprocessysteem dat zal helpen om de gegevens om te zetten in nuttige informatie, wordt Data Engineering genoemd.

2. Uitleg over het dagelijkse werk van een data-ingenieur?

Antwoord:
Data engineer dagelijkse taak bestaat uit:
een. omgaan met data rentmeesterschap binnen de organisatie
b. behandeling en onderhoud van bronsystemen van gegevens en verzamelgebieden
c. doet ETL of ELT en datatransformatie
d. vereenvoudiging van het opschonen van gegevens en verbetering van de-duplicatie en het bouwen van gegevens
e. ad-hoc bouwen en extraheren van gegevensquery's
Zie onderstaande visualisatie met informatie over de dingen waar een data-engineer aan werkt: -

3. Heb je ervaring met datamodellering?

Antwoord:
Men kan zeggen dat hij / zij heeft gewerkt aan een project voor een klant in de financiële / ziekteverzekering waar ze ETL-tools zoals Informatica / Talend / Pentaho enz. Hebben gebruikt om de opgehaalde gegevens uit een MySQL / RDS / SQL-database te transformeren en te verwerken deze informatie verstrekken aan leveranciers die kunnen helpen hun inkomsten te verhogen. Men kan hieronder high-level architectuur van datamodel tonen. Het bestaat uit een primaire sleutel, entiteit, attributen, relatie, beperkingen etc.

4. Wat zijn verschillende soorten ontwerpschema's in Gegevensmodellering? Uitleggen met een voorbeeld?

Antwoord:
Er zijn twee soorten schema's in gegevensmodellering:
een. Sterschema
Dit schema is verdeeld in twee, één is feitentabel en andere is dimensietabel waar alle dimensietabellen zijn verbonden met een feitentabel. De externe sleutel verwijst in feite naar primaire sleutels die aanwezig zijn in dimensietabellen. Zie hieronder de architectuur van star schema:

b. Sneeuwvlok schema
In dit schema wordt het normalisatieniveau verhoogd, hier zal de feitentabel hetzelfde blijven als die van star schema, hier worden dimensietabellen genormaliseerd. Vanwege vele lagen met dimensietabellen ziet het eruit als een sneeuwvlok, dus de naam sneeuwvlokschema. Zie onderstaande architectuur: -

5. Welke ETL-tool die u gebruikt en hoe deze het beste te vergelijken is met anderen?

Antwoord:
Men kan zeggen dat hij / zij Informatica als de ETL-tool heeft gebruikt vanwege veel punten, in de eerste plaats is dat volgens Gartner Magic Quadrant voor Data Integration Tools Informatica voor het 10e jaar op rij als leider wordt gepositioneerd. Het is gemakkelijk te gebruiken en te leren en heeft functies om verbinding te maken met verschillende brongegevens en gegevenstypen, herbruikbare componenten en functies die het meest favoriet maken voor ETL-ontwikkelaars. Het heeft ook een eigen planner, wat een ander voordeel is, waarbij andere ETL-tools een externe planner moeten gebruiken om de taken te plannen.

6. Welke technologieën / programmeertaal moet men hebben / leren een Data Engineer te zijn?

Antwoord:
Wiskunde (lineaire algebra en waarschijnlijkheid)
Statistieken (samenvatting statistieken)
Technieken voor machinaal leren
R- en SAS-talen
SQL-databases, Hive QL
Python (meestal gebruikt)
Afgezien van deze, moet men probleemoplossende, analytische en architecturale kennis van database hebben.

7. Wat zijn enkele veel voorkomende problemen waarmee data-ingenieurs worden geconfronteerd?

Antwoord:
1. Real-time integratie / continue integratie
2. Het opslaan van een enorme hoeveelheid gegevens is één kwestie, de informatie uit die gegevens is een andere kwestie.
3. Welke tools kunnen worden gebruikt die de beste prestaties, opslag, efficiëntie en resultaten opleveren.
4. Is de opslag schaal? Stel dat u weet hoe lang het duurt voordat de volledige set gegevens is verwerkt?
5. Rekening houdend met de processors en RAM-configuratie
6. Hoe omgaan met storingen, is fouttolerantie daar of niet?

8. Waarin verschilt Data architect van Data Engineer?

Antwoord:
Data Architect is de persoon voor het beheer van de gegevens, vooral wanneer het gaat om verschillende aantallen verschillende gegevensbronnen. Men moet diepgaande kennis hebben van hoe een database werkt, hoe gegevens verband houden met bedrijfsproblemen en hoe de veranderingen het gegevensgebruik van de organisatie zullen verstoren en vervolgens zal de gegevensarchitect de gegevensarchitectuur volgens hen manipuleren / transformeren.
De hoofdverantwoordelijkheid van Data architect ligt bij Data warehousing, ontwikkeling van data-architectuur of enterprise data hub / warehouse.
Terwijl een Data engineer helpt bij het installeren van datawarehouse-oplossingen, datamodellering, ontwikkeling en testen van database-architectuur.

9. Beschrijf een tijdstip waarop u een nieuwe use case voor een bestaande database hebt gevonden die een positieve impact op het bedrijf heeft gehad?

Antwoord:
Terwijl het in het tijdperk van Big Data SQL ontbreekt om onderstaande functies te missen:
een. RDBMS zijn schemagerichte DB, dus het is beter voor gestructureerde gegevens, niet voor semi-gestructureerde of ongestructureerde gegevens.
b. Niet in staat om onvoorspelbare en ongestructureerde gegevens te verwerken.
c. Het is niet horizontaal schaalbaar, dwz parallelle uitvoering en opslag niet mogelijk in SQL.
d. Het lijdt aan prestatieproblemen zodra een aantal gebruikers toeneemt.
e. Het wordt voornamelijk gebruikt voor online transactieverwerking.

Om deze nadelen te overwinnen, kunnen we NoSQL DB gebruiken, dwz niet alleen SQL.
Dus in het project kan men verschillende soorten NoSQL DB gebruiken zoals Cassandra, Mongo DB, Graph DB, HBase etc.

10. Heb je ervaring met werken in een cloud computing-omgeving? Welke voordelen zie je in één werken?

Antwoord:
Je kunt wel zeggen: Cloud Computing Environment is klaar om de omgeving te verplaatsen voor productie, ontwikkeling en testen zonder te denken aan het integreren van veel instanties / Linux / window-servers samen. Er zijn verschillende cloud computing-services in een markt zoals AWS (Amazon webservices), Azure (Microsoft), GCP (Google Cloud Platform). Cloud computing-service biedt onderstaande functies zoals flexibiliteit, dwz de omgeving wordt naar behoefte opgeschaald, noodherstel door back-ups en snapshots te maken, overal werken met VPN's, veilige omgeving en milieuvriendelijk omdat het werkt op standaardhardware, dat wil zeggen algemene computers die zijn laag in kosten.

Conclusie

In de bovenstaande blog hebben we de meest gestelde interviewvragen over Data Engineer bewaard en hoe men dit kan beantwoorden door functiepunten te geven.

Aanbevolen artikel:

Dit is een uitgebreide gids geweest voor de Data Engineer Interview Vragen en antwoorden, zodat de kandidaat deze Data Engineer Interview Vragen gemakkelijk kan beantwoorden. dit artikel bestaat uit alle topvragen en antwoorden op Data Engineer-vragen. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Belangrijkste Azure Paas vs Iaas
  2. Big Data-interviewvragen
  3. 5 Belangrijkste sollicitatievragen voor Elasticsearch
  4. Vragen en antwoorden over PIG-sollicitatiegesprekken
  5. Top 5 meest waardevolle sollicitatievragen voor Data Science