Overzicht van Data Lake

Een datameer is een repository waarin we een grote hoeveelheid semi-gestructureerde, gestructureerde en ongestructureerde gegevens kunnen opslaan. Een unieke ID met een set uitgebreide metadatatags wordt toegewezen aan alle gegevenselementen van een gegevensmeer. Wanneer een zakelijke vraag zich voordoet, kunt u om de relevante gegevens vragen en vervolgens kleinere gegevens analyseren om de vraag te helpen beantwoorden. Het meer heeft een platte architectuur, in tegenstelling tot een hiërarchisch datawarehouse waar gegevens worden opgeslagen in bestanden en mappen. Zonder eerst gegevens te structureren, kunt u uw informatie opslaan zoals ze is en kunnen we verschillende soorten analyses uitvoeren, zoals dashboards en visualisaties tot een grote gegevensverwerking, realtime analyse en machine learning om betere beslissingen te nemen.

Een meer wordt gebruikt door professionals zoals datawetenschappers, dataontwikkelaars en bedrijfsanalisten om een ​​grote hoeveelheid data op te slaan.

Het gebruikt in een meer is niet-relationeel en relationeel van IoT-apparaten, websites, mobiele applicaties, enz. In het schema wordt het geschreven in de tijd van analyse, dwz schema bij het lezen. Het resultaat na het uitvoeren van de query is sneller.

Waarom hebben we een datameer nodig?

Door een meer te bouwen, kunnen datawetenschappers het onberispelijke beeld van data zien.

Redenen om het te gebruiken zijn als volgt:

Het bedrijf dat bedrijfsvoordelen produceert met succes, overtreft zijn collega's. In een Aberdeen-onderzoek lag het bedrijf dat een Data Lake opzette 9% hoger dan de organische omzetgroei van vergelijkbare bedrijven. Deze leiders konden nieuwe soorten analyses uitvoeren, zoals machine learning via nieuwe bronnen zoals logbestanden, clickstream-gegevens, sociale media en internetconnectiviteit in het meer.

Het ondersteunt het importeren van gegevens die in realtime beschikbaar zijn. Gegevens worden verzameld uit meerdere bronnen en vervolgens in de oorspronkelijke indeling naar het meer verplaatst. Een meer biedt een grotere schaalbaarheid van gegevens. U kunt ook weten welk type gegevens zich in het meer bevindt door de gegevens te indexeren, crawlen en catalogiseren.

Het ondersteunt Data Governance dat de beschikbaarheid, bruikbaarheid, beveiliging en integriteit van gegevens beheert.

Het kan de Research & Development-teams helpen hun hypothese te testen, aannames te verfijnen en resultaten te beoordelen.

Er is geen silostructuur beschikbaar.

Het biedt klanten een 360 graden beeld en een robuuste analyse.

De kwaliteit van de analyse neemt ook toe met de toename van het gegevensvolume, de gegevenskwaliteit en metagegevens.

  • Opslagmotoren zoals Hadoop hebben het gemakkelijk gemaakt om ongelijksoortige informatie op te slaan. Het is niet nodig om gegevens met een Lake te modelleren in een bedrijfsbreed schema.
  • De kwaliteit van analyses neemt ook toe met de toename van datavolume, datakwaliteit en metadata.
  • Het biedt zakelijke flexibiliteit
  • Het is mogelijk om machine learning en kunstmatige intelligentie te gebruiken om winstgevende voorspellingen te doen.

Data lake Architecture op Hadoop, AWS en Azure

Een gegevensmeer bestaat uit twee componenten: opslag en berekening. Opslag en computing kunnen zich op locatie of in de cloud bevinden. Dit resulteert in het ontwerp van een datameerarchitectuur in meerdere mogelijke combinaties.

1. Hadoop

Een gedistribueerde server Hadoop-cluster lost het probleem van big data-opslag op. MapReduce is het Hadoop-programmeermodel dat wordt gebruikt om informatie in kleinere subsets in het servercluster te verdelen en te verwerken.

2. AWS

Het AWS-assortiment voor zijn datameer-oplossing is uitgebreid. Amazon S3 staat centraal in de oplossing voor opslagfuncties. Deze hulpprogramma's voor het opnemen van gegevens waarmee we enorme hoeveelheden gegevens naar S3 kunnen overzetten zijn Kinesis Stream, Kinesis Firehose, Snowball en Direct Connect.

Naast Amazon S3 bieden de NoSQL-database, Dynamo DB en Elastic Search een vereenvoudigd zoekproces. AWS biedt een groot assortiment producten met een steile initiële leercurve. De uitgebreide functies van de oplossing worden echter veel gebruikt in toepassingen voor commerciële intelligentie.

3. Azuur

Micro-soft bood het datameer aan. Het Azure-gegevensmeer heeft een analyse- en opslaglaag die Azure Store (ADLS) wordt genoemd en de twee componenten die de analytische laag heeft Azure Analytics en HDInsight. De ADLS-standaard is gebouwd in HDFS en kan onbeperkt worden opgeslagen. Het kan triljoenen bestanden groter dan een petabyte met een enkel bestand opslaan. Azure Store maakt het mogelijk om gegevens in elk formaat op te slaan en te beveiligen en schaalbaar te maken.

Voordelen

Enkele belangrijke punten worden hieronder weergegeven

  • Biedt een onbeperkte waarde voor het gegevenstype
  • Snel aan te passen aan veranderingen
  • Lange-termijn eigendomskosten worden verlaagd
  • Het belangrijkste voordeel is het centraliseren van verschillende bronnen van inhoud
  • Gebruikers van verschillende afdelingen over de hele wereld kunnen flexibele gegevenstoegang hebben
  • Biedt economische schaalbaarheid en flexibiliteit

Risico

  • Na enige tijd kan het de relevantie en het momentum verliezen.
  • Er is een groter risico bij het ontwerpen
  • Het verhoogt ook de kosten van opslag en producten
  • Beveiliging en toegangscontrole is het grootste risico. Soms kunnen gegevens zonder toezicht in een meer worden geplaatst, omdat sommige gegevens mogelijk moeten worden beschermd en gereguleerd.

Aanbevolen artikelen

Dit is een gids geweest voor What is a Data Lake ?. Hier hebben we het concept besproken, waarom hebben we Data Lake nodig, samen met hun voordelen en risico's. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie-

  1. Moderne data-integratie
  2. Wat is Data Analytics
  3. Wat is datalek?
  4. Data Scientist versus Big Data
  5. Data Lake vs Data Warehouse | verschillen

Categorie: