Inleiding tot de datawarehouse-architectuur

  • Een Data Warehouse is een opslagplaats met verzamelingen van verschillende soorten gegevens die zijn verkregen uit verschillende soorten bronnen.
  • Het hele proces waarbij externe gegevensbronnen worden verkregen, verwerkt, opgeslagen en geanalyseerd tot bruikbare informatie vindt plaats binnen een reeks systemen die worden verenigd door een enkel schema dat bekend staat als Data Warehouse Architecture.

Data Warehouse-architectuur

De Data Warehouse Architecture bestaat over het algemeen uit drie lagen.

  • Hoogste niveau
  • Middle-tier
  • Onderste niveau

Hoogste niveau

  • De Top Tier bestaat uit de client-front front-end van de architectuur.
  • De in het Data Warehouse opgeslagen getransformeerde en logische toegepaste informatie zal in dit niveau voor zakelijke doeleinden worden gebruikt en verkregen.
  • Verschillende hulpmiddelen voor het genereren en analyseren van rapporten zijn aanwezig voor het genereren van gewenste informatie.
  • Datamining die tegenwoordig een grote trend is geworden, wordt hier gedaan.
  • Alle document met vereiste analyse, kosten en alle functies die een op winst gebaseerde zakelijke deal bepalen, worden gedaan op basis van deze tools die gebruikmaken van de Data Warehouse-informatie.

Middle-tier

  • De Middle Tier bestaat uit de OLAP-servers
  • OLAP is een online analytische verwerkingsserver
  • OLAP wordt gebruikt om informatie te verstrekken aan bedrijfsanalisten en managers
  • Omdat het zich in het middelste niveau bevindt, werkt het terecht samen met de informatie in het onderste niveau en geeft het de inzichten door aan de Top Tier-tools die de beschikbare informatie verwerken.
  • Meestal wordt relationele of multi-dimensionale OLAP gebruikt in de datawarehouse-architectuur.

Onderste niveau

Het onderste niveau bestaat voornamelijk uit de gegevensbronnen, ETL-tool en datawarehouse.

1. Gegevensbronnen

De gegevensbronnen bestaan ​​uit de brongegevens die worden verzameld en aan de Staging- en ETL-tools worden verstrekt voor verder proces.

2. ETL-hulpmiddelen

  • ETL-tools zijn erg belangrijk omdat ze helpen bij het combineren van Logic, Raw Data en Schema in één en laadt de informatie in het Data Warehouse of Data Marts.
  • Soms laadt ETL de gegevens in de Data Marts en wordt informatie vervolgens opgeslagen in Data Warehouse. Deze aanpak staat bekend als de Bottom Up-aanpak.
  • De aanpak waarbij ETL informatie rechtstreeks naar het Data Warehouse laadt, staat bekend als Top-down Approach.

Verschil tussen top-down benadering en bottom-up aanpak

Top-down aanpakBottom-up aanpak
Biedt een duidelijk en consistent beeld van informatie wanneer informatie uit het datawarehouse wordt gebruikt om Data Marts te makenRapporten kunnen eenvoudig worden gegenereerd omdat datamarts eerst worden gemaakt en het relatief eenvoudig is om met datamarts te communiceren.
Sterk model en daarom de voorkeur van grote bedrijvenNiet zo sterk, maar datawarehouse kan worden uitgebreid en het aantal datamarts kan worden gecreëerd
Tijd, kosten en onderhoud zijn hoogTijd, kosten en onderhoud zijn laag.

Data Marts

  • Data Mart is ook een opslagcomponent die wordt gebruikt om gegevens op te slaan van een specifieke functie of onderdeel van een bedrijf door een individuele autoriteit.
  • Data mart verzamelt de informatie uit Data Warehouse en daarom kunnen we zeggen dat data mart de subset van informatie opslaat in Data Warehouse.
  • Data Marts zijn flexibel en klein van formaat.

3. Gegevensmagazijn

  • Data Warehouse is het centrale onderdeel van de hele Data Warehouse Architecture.
  • Het fungeert als een opslagplaats om informatie op te slaan.
  • Grote hoeveelheden gegevens worden opgeslagen in het Data Warehouse.
  • Deze informatie wordt gebruikt door verschillende technologieën zoals Big Data waarvoor grote subsets van informatie moeten worden geanalyseerd.
  • Data Mart is ook een model van Data Warehouse.

Verschillende lagen van datawarehouse-architectuur

Er zijn vier verschillende soorten lagen die altijd aanwezig zullen zijn in Data Warehouse Architecture.

1. Gegevensbronlaag

  • De gegevensbronlaag is de laag waar de gegevens van de bron worden aangetroffen en vervolgens naar de andere lagen worden verzonden voor gewenste bewerkingen.
  • De gegevens kunnen van elk type zijn.
  • De brongegevens kunnen een database, een spreadsheet of een ander soort tekstbestand zijn.
  • De brongegevens kunnen elk formaat hebben. We kunnen niet verwachten dat we gegevens met hetzelfde formaat krijgen, aangezien de bronnen enorm verschillen.
  • In het echte leven kunnen enkele voorbeelden van brongegevens zijn
  • Logbestanden van elke specifieke toepassing of taak of vermelding van werkgevers in een bedrijf.
  • Enquêtegegevens, Stock Exchange-gegevens, enz.
  • Webbrowser-gegevens en nog veel meer.

2. Gegevensstagelaag

De volgende stappen vinden plaats in Data Staging Layer.

1. Gegevensextractie

De gegevens die door de bronlaag worden ontvangen, worden ingevoerd in de tijdelijke laag waar het eerste proces dat plaatsvindt met de verkregen gegevens, extractie is.

2. Landingsdatabase

  • De geëxtraheerde gegevens worden tijdelijk opgeslagen in een landingsdatabase.
  • Het haalt de gegevens op zodra de gegevens zijn geëxtraheerd.

3. Staging-gebied

  • De gegevens in de landingsdatabase worden genomen en verschillende kwaliteitscontroles en staging-operaties worden uitgevoerd in het staginggebied.
  • De structuur en het schema worden ook geïdentificeerd en aanpassingen worden aangebracht aan gegevens die niet zijn geordend, waardoor wordt geprobeerd een overeenstemming te bereiken tussen de verkregen gegevens.
  • Het hebben van een plaats of opstelling voor de gegevens net voor transformatie en wijzigingen is een extra voordeel dat het Staging-proces erg belangrijk maakt.
  • Het maakt gegevensverwerking eenvoudiger.

4. ETL

  • Het is een extractie, transformatie en belasting.
  • ETL Tools worden gebruikt voor integratie en verwerking van gegevens waarbij logica wordt toegepast op vrij ruwe maar enigszins geordende gegevens.
  • Deze gegevens worden geëxtraheerd volgens de vereiste analytische aard en omgezet in gegevens die geschikt worden geacht om te worden opgeslagen in het Gegevensmagazijn.
  • Na transformatie worden de gegevens of liever gezegd een informatie eindelijk in het datawarehouse geladen.
  • Enkele voorbeelden van ETL-tools zijn Informatica, SSIS, etc.

3. Gegevensopslaglaag

  • De verwerkte gegevens worden opgeslagen in het Data Warehouse.
  • Deze gegevens worden opgeschoond, getransformeerd en voorbereid met een definitieve structuur en bieden dus mogelijkheden voor werkgevers om gegevens te gebruiken zoals vereist door het bedrijf.
  • Afhankelijk van de aanpak van de architectuur worden de gegevens opgeslagen in Data Warehouse en Data Marts. Data Marts zullen in de latere fasen worden besproken.
  • Sommige bevatten ook een Operational Data Store.

4. Gegevenspresentatielaag

  • In deze laag kunnen de gebruikers communiceren met de gegevens die zijn opgeslagen in het datawarehouse.
  • Query's en verschillende tools zullen worden gebruikt om verschillende soorten informatie te krijgen op basis van de gegevens.
  • De informatie bereikt de gebruiker via de grafische weergave van gegevens.
  • Rapportagetools worden gebruikt om bedrijfsgegevens te verkrijgen en bedrijfslogica wordt ook toegepast om verschillende soorten informatie te verzamelen.
  • Metagegevensinformatie en systeembewerkingen en -prestaties worden ook onderhouden en bekeken in deze laag.

Conclusie

Een belangrijk punt van Data Warehouse is de efficiëntie. Om een ​​efficiënt datawarehouse te creëren, construeren we een raamwerk dat bekend staat als het Business Analysis Framework. Er zijn vier soorten weergaven met betrekking tot het ontwerp van een datawarehouse.

1. Top-downweergave: in deze weergave kan alleen specifieke informatie worden geselecteerd die nodig is voor een datawarehouse.

2. Gegevensbronweergave: deze weergave toont alle informatie uit de gegevensbron over hoe deze wordt getransformeerd en opgeslagen.

3. Data Warehouse-weergave: deze weergave toont de informatie in het datawarehouse via feitentabellen en dimensietabellen.

4. Business Query View: dit is een view die de gegevens toont vanuit het oogpunt van de gebruiker.

Aanbevolen artikelen

Dit is een gids voor Data Warehouse Architecture geweest. Hier hebben we de verschillende soorten weergaven, lagen en lagen van datawarehouse-architectuur besproken. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Carrière in data warehousing
  2. Hoe JavaScript werkt
  3. Vragen tijdens solliciteren bij Datawarehouse
  4. Wat is Panda's

Categorie: