Clustering methoden - Belang en technieken van clustermethoden

Inhoudsopgave:

Anonim

Inleiding tot clustermethoden

Dit artikel geeft een overzicht van verschillende clustermethoden die worden gebruikt in dataminingtechnieken met verschillende principes. Clustering is een set gegevensobjecten georganiseerd in een andere logische groepering. Soortgelijke gegevensitems groeperen en vergelijkbare gegevensitems in afzonderlijke clusters toewijzen. Clustering wordt uitgevoerd in grote gegevenssets voor leren zonder toezicht. Tijdens deze, voeren we partitie op de set van gegevens in groepen. De structuur van clustering wordt als volgt weergegeven met subsets. C = c1, c2 … c n . Aangezien clustergroepen vergelijkbare objecten hebben, moeten sommige maatregelen in clustermethoden worden genomen om afstands- en gelijkheidsmaatregelen te bepalen. Clustermethoden zijn gebaseerd op probabilistische modellen. Datamining vereist clustering voor de schaalbaarheid om met hoge databases om te gaan, multidimensionale ruimte te verwerken, om te gaan met foutieve gegevens en ruis.

Clusteringmethoden uitleggen?

Deze clustermethode helpt bij het groeperen van waardevolle gegevens in clusters en daaruit worden geschikte resultaten gekozen op basis van verschillende technieken. Bij het ophalen van informatie zijn de resultaten van de query bijvoorbeeld gegroepeerd in kleine clusters en heeft elke cluster irrelevante resultaten. Door middel van clusteringstechnieken zijn ze gegroepeerd in vergelijkbare categorieën en is elke categorie onderverdeeld in subcategorieën om te helpen bij het verkennen van de uitvoer van zoekopdrachten. Er zijn verschillende soorten clustermethoden, dat zijn ze

  • Hiërarchische methoden
  • Partitioneermethoden
  • Density-based
  • Modelgebaseerde clustering
  • Op raster gebaseerd model

Hierna volgt een overzicht van technieken die worden gebruikt bij datamining en kunstmatige intelligentie.

1. Hiërarchische methode

Deze methode maakt een cluster door op een top-down en bottom-up manier te partitioneren. Beide benaderingen produceren dendrogram, ze maken connectiviteit tussen hen. Het dendrogram is een boomachtige indeling die de volgorde van samengevoegde clusters bewaart. Hiërarchische methoden worden geproduceerd met meerdere partities met betrekking tot overeenkomstenniveaus. Ze zijn onderverdeeld in Agglomeratieve hiërarchische clustering en verdeelde hiërarchische clustering. Hier wordt een clusterboom gemaakt met behulp van samenvoegtechnieken. Voor het splitsen wordt divisive gebruikt, voor het samenvoegen wordt agglomeratief gebruikt. Agglomeratieve clustering omvat:

  1. Aanvankelijk nemen alle datapunten en beschouwen ze als individuele clusters vanaf de top-down manier. Deze clusters worden samengevoegd totdat we de gewenste resultaten hebben verkregen.
  2. De volgende twee vergelijkbare clusters zijn gegroepeerd om een ​​enorme enkele cluster te vormen.
  3. Opnieuw de nabijheid in het enorme cluster berekenen en de vergelijkbare clusters samenvoegen.
  4. De laatste stap omvat het samenvoegen van alle verkregen clusters bij elke stap om een ​​laatste enkele cluster te vormen.

2. Partitioneermethode:

Het belangrijkste doel van partitie is verplaatsing. Ze verplaatsen partities door van het ene cluster naar het andere te schakelen, waardoor een eerste partitie ontstaat. Het verdeelt 'n' data-objecten in 'k' aantal clusters. Deze partiële methode heeft meer de voorkeur dan een hiërarchisch model voor patroonherkenning. De volgende criteria zijn ingesteld om aan de technieken te voldoen:

  • Elk cluster moet één object hebben.
  • Elk gegevensobject behoort tot één cluster.

De meest gebruikte partitietechnieken zijn het K-gemiddelde algoritme. Ze verdelen zich in 'K'-clusters die worden voorgesteld door centroïden. Elk clustercentrum wordt berekend als een gemiddelde van dat cluster en de R-functie visualiseert het resultaat. Dit algoritme heeft de volgende stappen:

  1. K objecten willekeurig selecteren uit de gegevensset en de initiële centra (zwaartepunten) vormen
  2. Vervolgens wijst u Euclidische afstand toe tussen de objecten en het middelpunt.
  3. Een gemiddelde waarde toewijzen voor elke afzonderlijke cluster.
  4. Centroid-updatestappen voor elke 'k'-clusters.

3. Dichtheidsmodel:

In dit model worden clusters gedefinieerd door regio's met een hogere dichtheid in een cluster te plaatsen. Het belangrijkste principe achter hen is zich te concentreren op twee parameters: maximale straal van de buurt en minimale aantal punten. Het op dichtheid gebaseerde model identificeert clusters van verschillende vormen en ruis. Het werkt door patronen te detecteren door de ruimtelijke locatie te schatten en de afstand tot de methode van de buurman die hier wordt gebruikt, is DBSCAN (op dichtheid gebaseerde ruimtelijke clustering) die handen geeft voor grote ruimtelijke databases. Drie gegevenspunten gebruiken voor clustering, namelijk kernpunten, grenspunten en uitbijters. Het primaire doel is om de clusters en hun distributieparameters te identificeren. Het clusteringproces wordt gestopt met de behoefte aan dichtheidsparameters. Om de clusters te vinden, is het belangrijk om een ​​parameter Minimumfuncties per cluster te hebben bij het berekenen van de kernafstand. De drie verschillende tools die dit model biedt, zijn DBSCAN, HDBSCAN, Multi-scale.

4. Modelgebaseerde clustering

Dit model combineert twee of drie clusters samen uit de gegevensdistributie. Het basisidee achter dit model is dat het noodzakelijk is om gegevens in twee groepen te verdelen op basis van het waarschijnlijkheidsmodel (Multivariate normale distributies). Hier wordt elke groep toegewezen als concepten of klasse. Elke component wordt gedefinieerd door een dichtheidsfunctie. Om de parameter in dit model te vinden, wordt de schatting van de maximale waarschijnlijkheid gebruikt voor de aanpassing van de mengselverdeling. Elke cluster 'K' wordt gemodelleerd door Gaussiaanse distributie met twee-parameter µk gemiddelde vector en £ k covariantievector.

5. Op raster gebaseerd model

In deze benadering worden de objecten als ruimtegestuurd beschouwd door de ruimte in een eindig aantal cellen te verdelen om een ​​raster te vormen. Met behulp van het raster wordt de clusteringstechniek toegepast voor snellere verwerking, die meestal afhankelijk is van cellen en niet van objecten. Betrokken stappen zijn:

  • Creatie van rasterstructuur
  • Celdichtheid wordt voor elke cel berekend
  • Een sorteermechanisme toepassen op hun dichtheden.
  • Clustercentra zoeken en doorkruisen op aangrenzende cellen om het proces te herhalen.

Het belang van clustermethoden

  1. Het hebben van clustermethoden helpt bij het herstarten van de lokale zoekprocedure en het verwijderen van de inefficiëntie. Clustering helpt bij het bepalen van de interne structuur van de gegevens.
  2. Deze clusteranalyse is gebruikt voor modelanalyse, vectorregio.
  3. Clustering helpt bij het begrijpen van de natuurlijke groepering in een gegevensset. Hun doel is logisch om de gegevens in een groep logische groepen te verdelen.
  4. Clusterkwaliteit is afhankelijk van de methoden en om verborgen patronen te identificeren.
  5. Ze spelen een brede rol in toepassingen zoals marketing-economisch onderzoek, weblogs om patronen in gelijkenismaatregelen te identificeren, beeldverwerking, ruimtelijk onderzoek.
  6. Ze worden gebruikt in uitbijterdetecties om creditcardfraude op te sporen.

Conclusie

Clustering wordt beschouwd als een algemene taak om het probleem op te lossen dat het optimalisatieprobleem formuleert. Het speelt een belangrijke rol op het gebied van datamining en data-analyse. We hebben verschillende clustermethoden gezien die de gegevensset verdelen, afhankelijk van de vereisten. Het meeste onderzoek is gebaseerd op traditionele technieken zoals K-middelen en hiërarchische modellen. Clustergebieden worden toegepast in hoog-dimensionale toestanden die een toekomstig bereik van onderzoekers vormen.

Aanbevolen artikel

Dit is een leidraad geweest voor Clustering Methods. Hier hebben we het concept, het belang en de technieken van Clustering Methods besproken. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Wat is ETL?
  2. Wat is Data Science
  3. Wat is Teradata?
  4. Top 6 AWS-alternatieven
  5. Clustering in machine learning
  6. Multivariate regressie
  7. Hiërarchische clustering | Agglomerative & Divisive Clustering