Wat is Data Analytics - Verschillende soorten data-analyse

Inhoudsopgave:

Anonim

Wat is data-analyse?

Data Analytics is een proces van het ontdekken van belangrijke inzichten en waardevolle conclusies uit een enorme hoeveelheid gegevens verzameld of verzameld uit verschillende bronnen om besluitvorming te ondersteunen. Verhoogde rekenkracht, hoge verwerkingssnelheid. De komst van interactieve eindgebruikersinterfaces en bewezen efficiëntie van gedistribueerd computerparadigma om grote hoeveelheden gegevens te verwerken, maakte data-analyse om vooruit te komen in alle domeinen, prominent in de detailhandel, het bankwezen, de gezondheidszorg, de logistiek, defensie, openbaar bestuur enz.

Soorten gegevensanalyse

Het Data Analytics-proces is subjectief onderverdeeld in drie typen op basis van het doel van het analyseren van gegevens als

  • Beschrijvende analyse
  • Voorspellende analyse
  • Voorschriftanalyse

De functies van de hierboven genoemde typen Analytics worden hieronder beschreven:

1. Beschrijvende analyse

Beschrijvende analyse richt zich op het samenvatten van gegevens uit het verleden om conclusies te trekken. De meest gebruikte maatregelen om de kwantitatieve verdeling van historische gegevens te karakteriseren omvatten

  • Metingen van centrale tendens - gemiddelde, mediaan, kwartielen, modus.
  • Maatregelen van variabiliteit of spreiding - Bereik, Interkwartielbereik, Percentielen.

De laatste tijd worden de moeilijkheden en beperkingen die gepaard gaan met het verzamelen, opslaan en begrijpen van enorme hoeveelheden data overwonnen met het statistische inferentieproces. Gegeneraliseerde conclusies over populatiegegevenssetstatistieken worden afgeleid door steekproefmethoden te gebruiken in combinatie met de centrale beperkingstheorie.

Een vooraanstaande nieuwszender verzamelt stemdetails van willekeurig gekozen kiezers bij de uitgang van een stembureau op de verkiezingsdag om statistische conclusies te trekken over de voorkeuren van de gehele bevolking.

Herhaalde bemonstering van populatiegegevensset resulteert in brokken monsters met een voldoende grote steekproefomvang. Geclusterde steekproeven hebben in het algemeen de voorkeur om goed gestratificeerde, onpartijdige vertegenwoordigers van populatiegegevenssets te genereren. De statistische meetwaarde wordt berekend op basis van de bemonsterde gegevensbrokken om een ​​verdeling van steekproefstatistieken te verkrijgen, bemonsteringverdeling genoemd. De kenmerken van steekproefverdeling zijn gerelateerd aan die van populatiegegevensset met behulp van centrale limiettheorie.

2. Voorspellende analyse

Predictive Analytics maakt gebruik van patronen in historische of eerdere gegevens om toekomstige resultaten te schatten, trends te identificeren, potentiële risico's en kansen bloot te leggen of procesgedrag te voorspellen. Aangezien voorspellingsgebruiksgevallen plausibel van aard zijn, maken deze benaderingen gebruik van probabilistische modellen om de waarschijnlijkheid van alle mogelijke uitkomsten te meten.

De chatBot in het klantenserviceportaal van het financiële bedrijf leert proactief de intentie van de klant of moet gebaseerd zijn op zijn / haar eerdere activiteiten in zijn webdomein. Met de voorspelde context, praat chatBot interactief met de klant om apt-diensten snel te leveren en een betere klanttevredenheid te bereiken.

Naast de extrapolatiescenario's om te voorspellen wat er in de toekomst gebeurt op basis van beschikbare gegevens uit het verleden, zijn er weinig toepassingen die gemiste gegevensinvoer raden met behulp van beschikbare gegevensmonsters. Deze benadering van gemiste waarden binnen het bereik van gegeven gegevensmonsters wordt technisch aangeduid als Interpolatie.

Een krachtige afbeeldingseditor-applicatie ondersteunt het reconstrueren van gemiste delen van textuur vanwege super-opgelegde tekst door functie-functie bij het gemiste blok te interpoleren. Functiefunctie kan worden geïnterpreteerd als een wiskundige notatie van patronen in de textuur van een vervormd beeld.

De belangrijke factoren die de keuze van voorspellende modellen / strategieën beïnvloeden zijn:

  • Voorspellingsnauwkeurigheid: dat brengt de mate van nabijheid tussen een voorspelde waarde en de werkelijke waarde over. Een kleinere variantie van het verschil tussen de voorspelde waarde en de werkelijke waarde impliceert een hogere nauwkeurigheid van het voorspellende model.
  • Snelheid van voorspellingen: het heeft hoge prioriteit in realtime volgapplicaties
  • Modelleersnelheid: het hangt af van de complexiteit van het model en de berekeningen die zijn betrokken bij het berekenen van modelparameters.

3. Voorschriftanalyses

Prescriptive Analytics maakt gebruik van kennis die is ontdekt als onderdeel van zowel beschrijvende als voorspellende analyse om een ​​contextbewuste handelwijze aan te bevelen. Geavanceerde statistische technieken en rekenintensieve optimalisatiemethoden worden geïmplementeerd om de verdeling van geschatte voorspellingen te begrijpen.

Op precieze voorwaarden, wordt de impact en het voordeel van elke uitkomst, die worden geschat tijdens voorspellende analyses, geëvalueerd om heuristische en tijdgevoelige beslissingen te nemen voor een bepaalde reeks voorwaarden.

Een adviesbureau op de aandelenmarkt voert SWOT-analyse (sterkte, zwakte, kansen en bedreiging) uit op voorspelde prijzen voor aandelen in de portefeuille van beleggers en beveelt haar klanten de beste koopkoopopties aan.

Processtroom in data-analyse

Het proces van data-analyse kent verschillende stadia van gegevensverwerking, zoals hieronder wordt uitgelegd:

1. Gegevensextractie

Gegevensinname van meerdere gegevensbronnen van verschillende typen, waaronder webpagina's, databases, oudere toepassingen, resulteert in invoergegevenssets van verschillende formaten. De gegevensindelingen die in de gegevensanalysestroom worden ingevoerd, kunnen grofweg worden geclassificeerd als

  • Gestructureerde gegevens hebben een duidelijke definitie van gegevenstypen, samen met bijbehorende veldlengte of veldscheidingstekens. Dit type gegevens kan eenvoudig worden opgevraagd, zoals de inhoud die is opgeslagen in de Relational Database (RDBMS)
  • Semi-gestructureerde gegevens missen een nauwkeurige lay-outdefinitie, maar gegevenselementen kunnen worden geïdentificeerd, gescheiden en gegroepeerd op basis van een standaardschema of andere metagegevensregels. Een XML-bestand maakt gebruik van tagging om gegevens vast te houden, terwijl Javascript-object Notation file (JSON) gegevens in naam-waardeparen bevat. NoSQL-databases (niet alleen SQL) zoals MongoDB, maar couch-base worden ook gebruikt om semi-gestructureerde gegevens op te slaan.
  • Ongestructureerde gegevens omvatten sociale media-conversaties, afbeeldingen, audioclips enz. Traditionele methoden voor het parseren van gegevens begrijpen deze gegevens niet. Ongestructureerde gegevens worden opgeslagen in gegevensmeren.

De implementatie van dataparsing voor gestructureerde en semi-gestructureerde gegevens is opgenomen in verschillende ETL-tools zoals Ab Initio, Informatica, Datastage en open source-alternatieven zoals Talend.

2. Gegevens opschonen en transformeren

Het opschonen van ontlede gegevens wordt gedaan om de consistentie van de gegevens en de beschikbaarheid van relevante gegevens voor de latere fasen in een processtroom te waarborgen. De belangrijkste reinigingsactiviteiten in Data-analyse zijn:

  • Detectie en eliminatie van uitbijters in de datavolumes
  • Duplicaten uit de gegevensset verwijderen
  • Omgaan met ontbrekende gegevens in gegevensrecords met begrip van functionaliteit of use-cases
  • Validaties voor toegestane veldwaarden in gegevensrecords zoals "31-februari" kunnen in geen enkel datumveld een geldige waarde zijn.

Opgeschoonde gegevens worden omgezet in een geschikt formaat om gegevens te analyseren. Datatransformaties omvatten

  • Een filter van ongewenste gegevensrecords.
  • Deelnemen aan de gegevens opgehaald uit verschillende bronnen.
  • Verzamelen of groeperen van gegevens
  • Gegevens typecasting

3. KPI / Insight-afleiding

Datamining, Deep learning-methoden worden gebruikt om Key Performance Indicators (KPI) te evalueren of waardevolle inzichten te ontlenen aan de opgeschoonde en getransformeerde gegevens. Op basis van de doelstelling van analyse, wordt data-analyse uitgevoerd met behulp van verschillende patroonherkenningstechnieken zoals k-betekent clustering, SVM-classificatie, Bayesiaanse classificaties enz .. en machine learning-modellen zoals Markov-modellen, Gaussian Mixture Models (GMM) enz ..

Probabilistische modellen in de trainingsfase leren optimale modelparameters en in de validatiefase wordt het model getest met behulp van k-voudige kruisvalidatietests om over- en onderaanpassingsfouten te voorkomen.

De meest gebruikte programmeertaal voor gegevensanalyse zijn R en Python. Beide hebben een rijke set bibliotheken (SciPy, NumPy, Panda's) die open source zijn om complexe gegevensanalyses uit te voeren.

4. Gegevensvisualisatie

Datavisualisatie is het proces van duidelijke en effectieve presentatie van ongedekte patronen, afgeleide conclusies uit de gegevens met behulp van grafieken, plots, dashboards en afbeeldingen.

  • Gegevensrapportagetools zoals QlikView, Tableau enz., Tonen KPI en andere afgeleide metrieken op verschillende niveaus van granulariteit.
  • Met rapportagetools kunnen eindgebruikers aangepaste rapporten maken met pivot, drill-down opties met behulp van gebruiksvriendelijke drag & drop-interfaces
  • Interactieve datavisualisatiebibliotheken zoals D3.js (datagestuurde documenten), HTML5-Anycharts enz. Worden gebruikt om de mogelijkheid om geanalyseerde data te verkennen te vergroten

Aanbevolen artikelen

Dit is een handleiding geweest voor Wat is Gegevensanalyse. Hier hebben we het verschillende type data-analyse met de processtroom besproken. U kunt ook door andere voorgestelde artikelen gaan voor meer informatie -

  1. Sollicitatievragen en antwoorden voor Data Analyst
  2. Wat is datavisualisatie?
  3. Wat is big data-analyse?
  4. Wat is Minitab?