Inleiding tot gegevensanalyse

In dit artikel zien we een overzicht van soorten gegevensanalyse. In het tijdperk van de 21e eeuw is misschien de meest opmerkelijke verandering hoe gegevens onderdeel werden van ons besluitvormingssysteem op elk gebied van ons leven. Er is geen twijfel dat "Data de nieuwe olie is" van elke sector. Nu met de toename van bijna oneindige bandbreedte komen er nieuwe uitdagingen aan hoe we deze enorme schaal van gegevens effectief gebruiken en belangrijke inzichten uit de gegevens halen. Samen met de grote schaal van data neemt ook ruis geleidelijk toe, data-analyse is een verzameling van verschillende methoden en denkwijze om het beste uit de beschikbare data te halen en de ruwe data om te zetten in een zakelijke of sociale waarde.

Soorten gegevensanalyse

Op basis van de gebruikte methoden kan gegevensanalyse worden onderverdeeld in de volgende vier delen:

  • Beschrijvende analyse
  • Verkennende gegevensanalyse
  • Voorspellende analyse
  • Inferentiële analyse

1. Beschrijvende analyse

Beschrijvende analyse is de numerieke manier om inzicht te krijgen in de gegevens. In de beschrijvende analyse krijgen we een samengevatte waarde van de numerieke variabelen. Stel dat u de verkoopgegevens van een autofabrikant analyseert. In de literatuur van de beschrijvende analyse, zult u vragen stellen zoals wat het gemiddelde is, de modus van de verkoopprijs van een autotype, wat de inkomsten waren die werden gegenereerd door de verkoop van een bepaald type auto, enz. We kunnen de centrale tendens en de verspreiding van de numerieke variabelen van de gegevens met behulp van dit type analyse. In de meeste praktische gevallen van data science, zal beschrijvende analyse u helpen om de informatie op hoog niveau van de gegevens te krijgen en aan de gegevensset te wennen. Belangrijke terminologieën van de beschrijvende analyse zijn:

  • Gemiddelde (gemiddelde van alle nummers in een lijst met nummers)
  • Modus (meest voorkomende nummer in een lijst met nummers)
  • Mediaan (middelste waarde van een lijst met getallen)
  • Standaardafwijking (hoeveelheid variatie van een reeks waarden van de gemiddelde waarde)
  • Variantie (kwadraat van standaarddeviatie)
  • Interkwartielbereik (waarden tussen 25 en 75 percentiel van een lijst met getallen)

In python biedt pandasbibliotheek een methode genaamd 'beschrijven', die beschrijvende informatie over het gegevensframe biedt. We gebruiken ook andere bibliotheken zoals het statistiekenmodel of kunnen onze code per use case ontwikkelen.

2. Verkennende gegevensanalyse

In tegenstelling tot beschrijvende gegevensanalyse waarbij we de gegevens numeriek analyseren, is verkennende gegevensanalyse de visuele manier om de gegevens te analyseren. Als we eenmaal een basiskennis hebben van de beschikbare gegevens door middel van beschrijvende analyse, gaan we over op verkennende gegevensanalyse. We kunnen de analyse van verkennende gegevens ook in twee delen verdelen:

  • Uni-variabelenanalyse (kenmerk van één variabele verkennen)
  • Multivariate analyse (vergelijkende analyse van meerdere variabelen, als we de correlatie van twee variabelen vergelijken, wordt dit bivariate analyse genoemd)

Bij de visuele manier van gegevensanalyse gebruiken we verschillende soorten plots en grafieken voor het analyseren van gegevens. Om een ​​enkele variabele (univariate analyse) te analyseren, kunnen we een barplot, histogrammen, boxplot met whisker, vioolplot, etc. gebruiken. Voor multivariate analyse gebruiken we de spreidingsplot, contourplots, multidimensionale plots, etc.

Maar waarom hebben we Exploratory Data Analysis nodig?

  • Exploratieve data-analyse geeft een visuele manier om de gegevens te beschrijven, wat helpt om de kenmerken van de gegevens duidelijker te identificeren.
  • Het helpt ons te identificeren welke functies belangrijker zijn. Dit is met name handig als we te maken hebben met hoog-dimensionale gegevens. (dwz methoden zoals PCA en t-SNE helpen bij het verminderen van de dimensionaliteit).
  • Het is een effectieve manier om het gemaakte resultaat uit te leggen aan leidinggevenden en niet-technische stapelhouders.

In python zijn er veel bibliotheken om verkennende gegevensanalyses uit te voeren. Matplotlib, Seaborn, Plotly, Bokeh, enz. Zijn de meest populaire onder deze.

3. Voorspellende analyse

Wat gebeurt er als we de fouten kennen die we van tevoren in de toekomst zullen maken? We zullen proberen die te vermijden, toch? Voorspellende analyse is niets anders dan de meest wetenschappelijke manier om toekomstige resultaten te voorspellen door historische gebeurtenissen te analyseren. Het hart van data science is gebaseerd op voorspellende analyse. Voorspellende analyse helpt ons de volgende vragen te beantwoorden: 'Kunnen we voorspellen of een koper een specifiek product zal kopen of niet?' Of 'Kunnen we een schatting maken van de totale kosten die een verzekeraar moet betalen voor de claims? 'Of' Kunnen we de hoeveelheid regenval in de komende moesson schatten? '

Voorspellende analyse helpt ons om de geschatte of meest waarschijnlijke uitkomst van de belangrijke vragen te geven die vervolgens resulteren in grootschalige zakelijke en sociaal-economische veranderingen. Machine learning-modellen worden ontwikkeld op basis van historische gegevens om de uitkomst van soortgelijke ongeziene toekomstige gebeurtenissen te voorspellen.

4. Inferentiële analyse

Inferentiële analyse is de literatuur van data science, terwijl we de referentiële uitkomst voorspellen voor meerdere sectoren. Bijvoorbeeld, het afleiden van de consumentenprijsindex of het inkomen per hoofd van de bevolking. Het is niet mogelijk om elke consument een voor een te bereiken en te berekenen. In plaats daarvan nemen we wetenschappelijk steekproeven uit de populatie en met behulp van statistische analyse leiden we de index af.

Conclusie

In dit artikel hebben we de verschillende methoden voor gegevensanalyse besproken. Moeten we al deze methoden gebruiken of kunnen we ze allemaal gebruiken? Nou, nu is het gebaseerd op de use case en het domein van de applicatie. Maar in de meeste gevallen zullen we beginnen met beschrijvende en verkennende gegevensanalyse en voorspellende modellen ontwikkelen om toekomstige resultaten te voorspellen.

Aanbevolen artikelen

Dit is een gids voor soorten gegevensanalyse. Hier bespreken we een kort overzicht van Data-analyse en de verschillende methoden op basis van de use case en het domein van de applicatie. U kunt ook onze voorgestelde artikelen doornemen voor meer informatie -

  1. Top 8 gratis tools voor gegevensanalyse
  2. Inleiding tot soorten gegevensanalysetechnieken
  3. Gegevensanalyse versus gegevensanalyse - Topverschillen
  4. Leer het concept van data-integratie

Categorie: