Inleiding tot soorten datamining
De term "Datamining" betekent dat we in een grote dataset moeten kijken en daaruit gegevens moeten minen om de essentie weer te geven van wat data wil zeggen. Zeer vergelijkbaar met hoe mijnbouw wordt gedaan, waar steenkool diep onder de grond wordt gedolven met behulp van verschillende tools, heeft de datamining ook bijbehorende tools om het beste uit de gegevens te halen. Een veel voorkomende misinterpretatie met datamining is dat het wordt beschouwd als iets waar we nieuwe gegevens proberen te extraheren, maar dat is niet altijd waar. Het verwijst ook naar iets waar we proberen betekenis te krijgen uit de gegevens die we al hebben. Datamining op zichzelf is dus een enorm gebied waarin we de komende paragrafen dieper ingaan op de tools in Data Mining. In dit artikel zullen we de soorten datamining bespreken.
Wat is datamining?
Zoals eerder gezegd over datamining, is datamining een proces waarbij we proberen het beste uit de data te halen. De tools van data mining fungeren als een brug tussen de data en informatie uit de data. In enkele blogs wordt datamining ook wel Kenniskennis genoemd. Hier willen we een kort idee geven van het implementatieproces van de datamining, zodat de intuïtie achter de datamining duidelijk is en voor lezers gemakkelijk te begrijpen is. Hieronder geeft het stroomdiagram de stroom weer:
In het hierboven besproken proces zijn er hulpmiddelen op elk niveau en we zouden proberen een diep duik te nemen in de belangrijkste.
Soorten datamining
Datamining kan worden uitgevoerd op de volgende soorten gegevens:
1. Smoothing (Bereid de gegevens voor)
Deze specifieke methode van dataminingtechniek valt onder het genre van het voorbereiden van de gegevens. De belangrijkste bedoeling van deze techniek is het verwijderen van ruis uit de gegevens. Hier worden algoritmen zoals eenvoudig exponentieel, het voortschrijdend gemiddelde gebruikt om de ruis te verwijderen. Tijdens verkennende analyse is deze techniek erg handig om trends / sentimenten te visualiseren.
2. Aggregatie (gegevens voorbereiden)
Zoals de term suggereert, wordt een groep gegevens verzameld om meer informatie te verkrijgen. Deze techniek wordt gebruikt om een overzicht van zakelijke doelstellingen te geven en kan handmatig of met behulp van gespecialiseerde software worden uitgevoerd. Deze techniek wordt over het algemeen toegepast op big data, omdat big data niet de vereiste informatie als geheel bieden.
3. Generalisatie (gegevens voorbereiden)
Nogmaals, zoals de naam al doet vermoeden, wordt deze techniek gebruikt om gegevens als geheel te generaliseren. Dit verschilt van aggregatie op een manier waarop de gegevens tijdens generalisatie niet worden gegroepeerd om meer informatie te verkrijgen, maar op zijn beurt wordt de volledige gegevensset gegeneraliseerd. Hiermee kan een data science-model zich aanpassen aan nieuwere datapunten.
4. Normalisatie (de gegevens voorbereiden)
Bij deze techniek wordt speciale zorg besteed aan gegevenspunten om ze op dezelfde schaal voor analyse te brengen. De leeftijd en het salaris van een persoon vallen bijvoorbeeld in verschillende meetschalen, dus het in een grafiek plotten helpt ons niet om nuttige informatie te krijgen over de trends die als een collectieve functie worden gepresenteerd. Met behulp van normalisatie kunnen we ze op een gelijke schaal brengen zodat een appel-tot-appel vergelijking kan worden uitgevoerd.
5. Selectie van kenmerken / functies (gegevens voorbereiden)
In deze techniek gebruiken we methoden om een selectie van functies uit te voeren, zodat het model dat wordt gebruikt om de gegevenssets te trainen waarde kan impliceren om de gegevens te voorspellen die het niet heeft gezien. Dit is zeer analoog aan het kiezen van de juiste outfit uit een kledingkast vol met kleding die geschikt is voor het evenement. Niet-relevante functies kunnen de prestaties van het model negatief beïnvloeden, laat staan de prestaties verbeteren.
6. Classificatie (model de gegevens)
In deze techniek van datamining zullen we omgaan met groepen die we 'klassen' noemen. In deze techniek gebruiken we de geselecteerde functies (zoals besproken in het bovenstaande punt) collectief voor groepen / categorieën. Als we bijvoorbeeld in een winkel moeten evalueren of een persoon een product zal kopen of niet, zijn er "n" aantal functies die we gezamenlijk kunnen gebruiken om een resultaat van Waar / Onwaar te krijgen.
7. Patroon volgen
Dit is een van de basistechnieken die bij datamining worden gebruikt om informatie te krijgen over trends / patronen die door de gegevenspunten kunnen worden weergegeven. We kunnen bijvoorbeeld een trend vaststellen van meer verkopen tijdens een weekend of vakantie in plaats van op weekdagen of werkdagen.
8. Uitbijteranalyse of anomaliedetectie
Hier, evenals de naam doet vermoeden, wordt deze techniek gebruikt voor het vinden of analyseren van uitbijters of afwijkingen. Uitbijters of anomalieën zijn geen negatieve gegevenspunten, ze zijn gewoon iets dat zich onderscheidt van de algemene trend van de hele gegevensset. Bij het identificeren van de uitbijters kunnen we ze ofwel volledig uit de gegevensset verwijderen, wat gebeurt wanneer de gegevens worden voorbereid. Of anders wordt deze techniek uitgebreid gebruikt in modeldatasets om ook uitbijters te voorspellen.
9. Clustering
Deze techniek is vrijwel gelijk aan classificatie, maar het enige verschil is dat we niet weten in welke groep gegevenspunten vallen na het groeperen na het verzamelen van functies. Deze methode wordt meestal gebruikt om mensen te groeperen om vergelijkbare productaanbevelingen te richten.
10. Regressie
Deze techniek wordt gebruikt om de waarschijnlijkheid van een functie met de aanwezigheid van andere functies te voorspellen. We kunnen bijvoorbeeld de waarschijnlijkheid van de prijs van een item formuleren met betrekking tot de vraag, concurrentie en een paar andere functies.
11. Neuraal netwerk
Deze techniek is gebaseerd op het principe van hoe biologische neuronen werken. Net zoals neuronen in het menselijk lichaam, fungeren de neuronen in een neuraal netwerk bij datamining ook als de verwerkingseenheid en verbinden ze een ander neuron om de informatie langs de keten door te geven.
12. Vereniging
In deze methode voor datamining wordt de relatie tussen verschillende functies bepaald en op zijn beurt gebruikt om verborgen patronen of gerelateerde analyses te vinden die per bedrijfsvereiste worden uitgevoerd. Met behulp van de associatie kunnen we bijvoorbeeld functies vinden die met elkaar gecorreleerd zijn en dus de nadruk leggen op het verwijderen van iemand om enkele overbodige functies te verwijderen en de verwerkingskracht / tijd te verbeteren.
Conclusie
Concluderend, er zijn verschillende vereisten waar men rekening mee moet houden tijdens datamining. Men moet heel voorzichtig zijn met wat de output wordt verwacht, zodat overeenkomstige technieken kunnen worden gebruikt om het doel te bereiken. Hoewel datamining een zich ontwikkelende ruimte is, hebben we geprobeerd een volledige lijst te maken voor alle soorten tools in Datamining hierboven voor lezers.
Aanbevolen artikelen
Dit is een handleiding voor het type datamining. Hier bespreken we de introductie en de top 12 soorten datamining. U kunt ook onze andere voorgestelde artikelen doornemen -
- Voordelen van datamining
- Datamining-architectuur
- Methoden voor datamining
- Data Mining Tool
- Typen modellen in datamining