Wat is een Data Lake? - Behoefte aan gegevens samen met hun voordelen en risico's

Overzicht van Data Lake

Een datameer is een repository waarin we een grote hoeveelheid semi-gestructureerde, gestructureerde en ongestructureerde gegevens kunnen opslaan. Een unieke ID met een set uitgebreide metadatatags wordt toegewezen aan alle gegevenselementen van een gegevensmeer. Wanneer een zakelijke vraag zich voordoet, kunt u om de relevante gegevens vragen en vervolgens kleinere gegevens analyseren om de vraag te helpen beantwoorden. Het meer heeft een platte architectuur, in tegenstelling tot een hiërarchisch datawarehouse waar gegevens worden opgeslagen in bestanden en mappen. Zonder eerst gegevens te structureren, kunt u uw informatie opslaan zoals ze is en kunnen we verschillende soorten analyses uitvoeren, zoals dashboards en visualisaties tot een grote gegevensverwerking, realtime analyse en machine learning om betere beslissingen te nemen.

Een meer wordt gebruikt door professionals zoals datawetenschappers, dataontwikkelaars en bedrijfsanalisten om een grote hoeveelheid data op te slaan.

Het gebruikt in een meer is niet-relationeel en relationeel van IoT-apparaten, websites, mobiele applicaties, enz. In het schema wordt het geschreven in de tijd van analyse, dwz schema bij het lezen. Het resultaat na het uitvoeren van de query is sneller.

Waarom hebben we een datameer nodig?

Door een meer te bouwen, kunnen datawetenschappers het onberispelijke beeld van data zien.

Redenen om het te gebruiken zijn als volgt:

Het bedrijf dat bedrijfsvoordelen produceert met succes, overtreft zijn collega's. In een Aberdeen-onderzoek lag het bedrijf dat een Data Lake opzette 9% hoger dan de organische omzetgroei van vergelijkbare bedrijven. Deze leiders konden nieuwe soorten analyses uitvoeren, zoals machine learning via nieuwe bronnen zoals logbestanden, clickstream-gegevens, sociale media en internetconnectiviteit in het meer.

Het ondersteunt het importeren van gegevens die in realtime beschikbaar zijn. Gegevens worden verzameld uit meerdere bronnen en vervolgens in de oorspronkelijke indeling naar het meer verplaatst. Een meer biedt een grotere schaalbaarheid van gegevens. U kunt ook weten welk type gegevens zich in het meer bevindt door de gegevens te indexeren, crawlen en catalogiseren.

Het ondersteunt Data Governance dat de beschikbaarheid, bruikbaarheid, beveiliging en integriteit van gegevens beheert.

Het kan de Research & Development-teams helpen hun hypothese te testen, aannames te verfijnen en resultaten te beoordelen.

Er is geen silostructuur beschikbaar.

Het biedt klanten een 360 graden beeld en een robuuste analyse.

De kwaliteit van de analyse neemt ook toe met de toename van het gegevensvolume, de gegevenskwaliteit en metagegevens.

Opslagmotoren zoals Hadoop hebben het gemakkelijk gemaakt om ongelijksoortige informatie op te slaan. Het is niet nodig om gegevens met een Lake te modelleren in een bedrijfsbreed schema.
De kwaliteit van analyses neemt ook toe met de toename van datavolume, datakwaliteit en metadata.
Het biedt zakelijke flexibiliteit
Het is mogelijk om machine learning en kunstmatige intelligentie te gebruiken om winstgevende voorspellingen te doen.

Data lake Architecture op Hadoop, AWS en Azure

Een gegevensmeer bestaat uit twee componenten: opslag en berekening. Opslag en computing kunnen zich op locatie of in de cloud bevinden. Dit resulteert in het ontwerp van een datameerarchitectuur in meerdere mogelijke combinaties.

1. Hadoop

Een gedistribueerde server Hadoop-cluster lost het probleem van big data-opslag op. MapReduce is het Hadoop-programmeermodel dat wordt gebruikt om informatie in kleinere subsets in het servercluster te verdelen en te verwerken.

2. AWS

Het AWS-assortiment voor zijn datameer-oplossing is uitgebreid. Amazon S3 staat centraal in de oplossing voor opslagfuncties. Deze hulpprogramma's voor het opnemen van gegevens waarmee we enorme hoeveelheden gegevens naar S3 kunnen overzetten zijn Kinesis Stream, Kinesis Firehose, Snowball en Direct Connect.

Naast Amazon S3 bieden de NoSQL-database, Dynamo DB en Elastic Search een vereenvoudigd zoekproces. AWS biedt een groot assortiment producten met een steile initiële leercurve. De uitgebreide functies van de oplossing worden echter veel gebruikt in toepassingen voor commerciële intelligentie.

3. Azuur

Micro-soft bood het datameer aan. Het Azure-gegevensmeer heeft een analyse- en opslaglaag die Azure Store (ADLS) wordt genoemd en de twee componenten die de analytische laag heeft Azure Analytics en HDInsight. De ADLS-standaard is gebouwd in HDFS en kan onbeperkt worden opgeslagen. Het kan triljoenen bestanden groter dan een petabyte met een enkel bestand opslaan. Azure Store maakt het mogelijk om gegevens in elk formaat op te slaan en te beveiligen en schaalbaar te maken.

Voordelen

Enkele belangrijke punten worden hieronder weergegeven

Biedt een onbeperkte waarde voor het gegevenstype
Snel aan te passen aan veranderingen
Lange-termijn eigendomskosten worden verlaagd
Het belangrijkste voordeel is het centraliseren van verschillende bronnen van inhoud
Gebruikers van verschillende afdelingen over de hele wereld kunnen flexibele gegevenstoegang hebben
Biedt economische schaalbaarheid en flexibiliteit

Risico

Na enige tijd kan het de relevantie en het momentum verliezen.
Er is een groter risico bij het ontwerpen
Het verhoogt ook de kosten van opslag en producten
Beveiliging en toegangscontrole is het grootste risico. Soms kunnen gegevens zonder toezicht in een meer worden geplaatst, omdat sommige gegevens mogelijk moeten worden beschermd en gereguleerd.

Aanbevolen artikelen

Dit is een gids geweest voor What is a Data Lake ?. Hier hebben we het concept besproken, waarom hebben we Data Lake nodig, samen met hun voordelen en risico's. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie-

Moderne data-integratie
Wat is Data Analytics
Wat is datalek?
Data Scientist versus Big Data
Data Lake vs Data Warehouse | verschillen

Wat is een Data Lake? - Behoefte aan gegevens samen met hun voordelen en risico's

Inhoudsopgave:

Overzicht van Data Lake

Waarom hebben we een datameer nodig?

Data lake Architecture op Hadoop, AWS en Azure

1. Hadoop

2. AWS

3. Azuur

Voordelen

Risico

Aanbevolen artikelen

Collage van kromgetrokken foto's - Photoshop-zelfstudie

Fotolanden maken met Photoshop-penselen

Dead Zone Blur Streaks Effect - Photoshop Tutorial

Fotolanden maken met verplaatsingskaarten in Photoshop

Gemakkelijke scherptediepte-effect in Photoshop

CASP versus CISSP - Top 7 grote verschillen die u moet weten

Cassandra-gegevensmodellering - Gegevensmodelleringsprincipes en toewijzingsregels

Carrière succes vaardigheden - 10 loopbaanvaardigheden die je van onschatbare waarde zullen maken

Cassandra-architectuur - Sleutelstructuren in Cassandra-architectuur

Cash ratio - Top voorbeelden van Cash Ratio met voordeel & nadeel

Een uitgebreide gids voor bankopdrachten (nuttig)

Bankafstemmingsformule - Voorbeelden met Excel-sjabloon

Topbanken in Bermuda - Complete gids voor de top 4 banken in Bermuda

Banken in België - Overzicht van de top 10 banken in België

Balansformule - Calculator (Excel-sjabloon)