Data Warehouse vs Hadoop - 6 Belangrijke verschillen om te weten

Inhoudsopgave:

Anonim

Verschillen tussen Data Warehouse versus Hadoop

In elk decennium ervaart de IT-industrie een belangrijke innovatie die de hele IT-industrie op zijn kop zet. In de afgelopen jaren heeft Apache Hadoop hetzelfde gedaan door datacenters een nieuwe infrastructuur te geven

Door de kracht van parallelle verwerking aan de programmeur te geven, heeft Hadoop zo'n exponentiële toename van adoptie en zijn ecosysteem groeit zowel in diepte als breedte, is het logisch om te vragen of Hadoop's het traditionele Data Warehouse gaat vervangen.

Laten we eens kijken wat Alasdair Anderson (Executive Vice President bij Nordea) zei op een Hadoop-top over dit hot topic in de stad.

“Er is momenteel geen relatie tussen de EDW en Hadoop - ze zullen complementair zijn. Het gaat NIET om rip en vervangt: we gaan RDBMS of MPP niet kwijt, maar gebruiken in plaats daarvan de juiste tool voor de juiste klus - en dat zal zeer worden bepaald door de prijs.

Wanneer deze interessante discussie begint, komen er veel vragen bij ons op, zoals:

1) Als u big data heeft, heeft u een datawarehouse nodig?

2) Zal Hadoop het datawarehouse vervangen?

3) Is dit de dood van het traditionele Data Warehouse-tijdperk?

Om de antwoorden op al deze vragen te kennen, moeten we de bredere context van deze afbeelding bekijken.

1. Wat is Hadoop?

Wie heeft de laatste tijd nog nooit van Big Data gehoord? Met honderden terabytes aan gegevens die elke dag uit verschillende bronnen worden gegenereerd, is het duidelijk dat de moderne wereld van vandaag een Big Data-wereld is

Wanneer je begint te praten over Big Data, zul je vroeg of laat het meest populaire onderwerp van de Big data-wereld bespreken: Hadoop - maar wat is het precies?

Hadoop is een open-source, een op Java gebaseerd programmeerraamwerk dat de verwerking en opslag van extreem grote datasets in een gedistribueerde computeromgeving ondersteunt.

De 4 modules van Hadoop -

Hadoop bestaat uit 4 modules -

  1. Gedistribueerd bestandssysteem

Met Distributed File System kunnen gegevens worden opgeslagen in een gemakkelijk toegankelijke indeling, op een groot aantal gekoppelde opslagapparaten.

  1. Kaart verkleinen

Map Reduce is de combinatie van twee bewerkingen: gegevens uit de database lezen en in een formaat zetten dat geschikt is voor analyse (kaart) en wiskundige bewerkingen uitvoeren (verkleinen).

  1. Hadoop Common

Hadoop Common biedt de tools die nodig zijn voor de gegevens die zijn opgeslagen in HDFS (Hadoop Distributed File System)

  1. GAREN

YARN beheert bronnen van de systemen die de gegevens opslaan en de analyse uitvoeren.

2. Wat is een datawarehouse?

Een datawarehouse is een relationele database die is ontworpen voor query- en analysegegevens. Het bevat meestal historische gegevens afkomstig van verschillende bronnen.

De datawarehouse-omgeving omvat ETL-oplossingen, een OLAP-engine (online analytical processing), tools voor klantanalyse en andere applicaties die het proces van het analyseren en leveren van gegevens aan zakelijke gebruikers beheren.

Laten we samenvatten wat datawarehouse is -

  1. Vakgerichte

Een datawarehouse kan worden gebruikt om een ​​bepaald onderwerp, zoals verkoop, financiën en voorraad, te analyseren. Elk onderwerpgebied bevat gedetailleerde gegevens.

  1. geïntegreerde

Een datawarehouse integreert gegevens uit meerdere gegevensbronnen. Datums hebben bijvoorbeeld dezelfde indeling, mannelijke / vrouwelijke codes zijn consistent. In een datawarehouse is er slechts één manier om een ​​product te identificeren en ze gebruiken hetzelfde klantrecord, geen kopieën

  1. Niet-vluchtig

Gegevens worden ongewijzigd opgeslagen in het datawarehouse en veranderen niet. Historische gegevens in een datawarehouse mogen dus nooit worden gewijzigd.

  1. Tijd variant

men kan gegevens uit 3 maanden, 6 maanden, 12 maanden of zelfs oudere gegevens uit een datawarehouse ophalen.

  1. Niet virtueel

Het datawarehouse is een fysieke, persistente repository.

Data Warehouse vs Hadoop (Infographics)

Hieronder vindt u de Top 6-vergelijkingen tussen Data Warehouse en Hadoop

Data Warehouse versus Hadoop - Welke te gebruiken?

  • Als u schone, consistente en hoogwaardige gegevens hebt, moet u kiezen voor Data Warehouse omdat Hadoop in sommige van de oplossingen de gegevenskwaliteit mist.
  • Als u onbewerkte ongestructureerde gegevens hebt, moet u voor Hadoop kiezen omdat Hadoop goed werkt met ongestructureerde / onbewerkte gegevens, maar Data Warehouse werkt alleen met gestructureerde gegevens.
  • Voor Low Latency en Interactive Reports moet u kiezen voor Data Warehouse
  • Voor OLTP / Real-time / Point Queries moet u kiezen voor Data Warehouse omdat Hadoop goed werkt met batchgegevens.
  • Voor gegevensreeksen met een groot volume moet u voor Hadoop gaan, omdat Hadoop is ontworpen om big data-problemen op te lossen.

Vergelijkingstabel van kop tot kop tussen datawarehouse en Hadoop

Hieronder is de lijst met punten die de vergelijkingen tussen Data Warehouse en Hadoop beschrijven

Basis voor vergelijkingData WarehouseHadoop
GegevensIn Data Warehouse analyseren we gestructureerde en verwerkte gegevensIn Hadoop kunnen we alle soorten gegevens verwerken, inclusief gestructureerde / ongestructureerde / semi-gestructureerde en onbewerkte gegevens
VerwerkenDe verwerking ervan is gebaseerd op schema-on-write-conceptenDe verwerking ervan is gebaseerd op schematische concepten
opslagruimteGeschikt voor gegevens met een klein volume en het is te duur voor gegevens met een groot volumeHet werkt goed met grote gegevenssets met een enorm volume, snelheid en variëteit
BehendigheidHet is minder wendbaar en heeft een vaste configuratieHet is zeer wendbaar, configureren en opnieuw configureren als dat nodig is
VeiligheidData Warehouse-technologieën bestaan ​​al tientallen jaren. Dus voor de veiligheid kunnen we vertrouwen op Data WarehouseHoewel Hadoop-technologieën relatief nieuw zijn in vergelijking met Data Warehouse, is beveiliging hier een grote zorg
gebruikersZakelijke professionals gebruiken meestal datawarehouseHadoop is vrij beroemd op het gebied van data science en data engineering

Conclusie - Data Warehouse versus Hadoop

Nu weten we alles over Data Warehouse en Hadoop, laten we teruggaan en de vraag onderzoeken die we aan het begin van dit Data Warehouse en Hadoop-artikel hebben gesteld:

1) Als u big data heeft, heeft u een datawarehouse nodig?

Antwoord - zolang uw organisatie betrouwbare, geloofwaardige en toegankelijke gegevens nodig heeft, heeft u een gegevensmagazijn nodig.

2) Zal Hadoop het datawarehouse vervangen?

Antwoord - Het vergelijken van Data Warehouse versus Hadoop is zoals appels en peren vergelijken. Beide Data Warehouse en Hadoop hebben hun eigen voordelen in verschillende scenario's. In sommige gevallen zijn we nog steeds afhankelijk van traditionele Data Warehouse-technieken, maar naarmate de tijd verandert, richten we ons meer op Hadoop Framework om Big Data-problemen aan te pakken.

3) Is dit een dood van het traditionele Data Warehouse-tijdperk?

Antwoord - Zoals u ziet, is dit niet echt een eenvoudige vraag en leent het zich daarom niet goed voor een eenvoudig antwoord. Het is waar dat big data de traditionele aanpak van datawarehousing in de komende jaren zal veranderen, maar het zal de concepten en de praktijk van datawarehousing niet overbodig maken.

Aanbevolen artikel

Dit is een nuttige gids voor Data Warehouse versus Hadoop geweest. Hier hebben we hun Betekenis, Head-to-Head-vergelijking, Sleutelverschil en Conclusie besproken. U kunt ook het volgende artikel bekijken voor meer informatie -

  1. Hadoop vs Splunk - Ontdek de beste 7 verschillen
  2. Hadoop vs Elasticsearch - Welke is nuttiger
  3. Big Data versus Data Warehouse - ontdek de beste verschillen
  4. Business intelligence versus datawarehouse
  5. Splunk vs Nagios