Inleiding tot K- betekent clusteringalgoritme?

K- Betekent clustering behoort tot het algoritme zonder toezicht. Het wordt gebruikt wanneer de gegevens niet zijn gedefinieerd in groepen of categorieën, dwz niet-gelabelde gegevens. Het doel van dit cluster-algoritme is om de groepen in de gegevens te zoeken en te vinden, waarbij variabele K het aantal groepen vertegenwoordigt.

K-middelen begrijpen Clustering Algoritme

Dit algoritme is een iteratief algoritme dat de gegevensset volgens hun kenmerken verdeelt in K aantal vooraf gedefinieerde niet-overlappende afzonderlijke clusters of subgroepen. Het maakt de gegevenspunten van interclusters zo vergelijkbaar mogelijk en probeert de clusters ook zo ver mogelijk te houden. Het wijst de gegevenspunten toe aan een cluster als de som van de kwadraatafstand tussen het zwaartepunt van het cluster en de gegevenspunten minimaal is, waarbij het zwaartepunt van het cluster het rekenkundig gemiddelde is van de gegevenspunten in het cluster. Een minder variatie in het cluster resulteert in vergelijkbare of homogene gegevenspunten binnen het cluster.

Hoe de K- middelen Clustering Algoritme werkt?

K- betekent Clustering-algoritme heeft de volgende invoer nodig:

  • K = aantal subgroepen of clusters
  • Voorbeeld- of trainingsset = (x 1, x 2, x 3, ……… x n )

Laten we nu aannemen dat we een dataset hebben zonder label en dat we deze in clusters moeten verdelen.

Nu moeten we het aantal clusters vinden. Dit kan op twee manieren:

  • Elleboogmethode.
  • Doel methode.

Laten we ze kort bespreken:

Elleboogmethode

In deze methode wordt een curve getrokken tussen "binnen de som van vierkanten" (WSS) en het aantal clusters. De uitgezette curve lijkt op een menselijke arm. Het wordt de elleboogmethode genoemd omdat het punt van de elleboog in de curve ons het optimale aantal clusters geeft. In de grafiek of curve, na het elleboogpunt, verandert de waarde van WSS zeer langzaam, dus moet het elleboogpunt worden beschouwd om de uiteindelijke waarde van het aantal clusters te geven.

Doel-Based

In deze methode worden de gegevens verdeeld op basis van verschillende statistieken en daarna wordt beoordeeld hoe goed ze in dat geval hebben gepresteerd. De indeling van de shirts in de herenkledingafdeling in een winkelcentrum gebeurt bijvoorbeeld op basis van de criteria van de maten. Het kan worden gedaan op basis van prijs en de merken ook. De meest geschikte wordt gekozen om het optimale aantal clusters te geven, dwz de waarde van K.

Laten we nu teruggaan naar onze gegeven gegevensset hierboven. We kunnen het aantal clusters, dat wil zeggen de waarde van K, berekenen met behulp van een van de bovenstaande methoden.

Hoe de bovenstaande methoden te gebruiken?

Laten we nu het uitvoeringsproces bekijken:

Stap 1: initialisatie

Initialiseer eerst willekeurige punten die de zwaartepunten van het cluster worden genoemd. Tijdens het initialiseren moet u ervoor zorgen dat de zwaartepunten van het cluster kleiner moeten zijn dan het aantal trainingsgegevens. Dit algoritme is een iteratief algoritme, daarom worden de volgende twee stappen iteratief uitgevoerd.

Stap 2: Clustertoewijzing

Na initialisatie worden alle gegevenspunten doorlopen en wordt de afstand tussen alle zwaartepunten en de gegevenspunten berekend. Nu zouden de clusters worden gevormd afhankelijk van de minimale afstand tot de zwaartepunten. In dit voorbeeld zijn de gegevens verdeeld in twee clusters.

Stap 3: Centroid verplaatsen

Omdat de in de bovenstaande stap gevormde clusters niet zijn geoptimaliseerd, moeten we geoptimaliseerde clusters vormen. Hiervoor moeten we de zwaartepunten iteratief naar een nieuwe locatie verplaatsen. Neem gegevenspunten van één cluster, bereken hun gemiddelde en verplaats vervolgens het zwaartepunt van dat cluster naar deze nieuwe locatie. Herhaal dezelfde stap voor alle andere clusters.

Stap 4: Optimalisatie

De bovenstaande twee stappen worden iteratief uitgevoerd totdat de zwaartepunten stoppen met bewegen, dat wil zeggen dat ze hun posities niet meer veranderen en statisch zijn geworden. Zodra dit is gebeurd, wordt het k- betekent-algoritme geconvergeerd genoemd.

Stap 5: Convergentie

Nu is dit algoritme geconvergeerd en worden verschillende clusters gevormd en duidelijk zichtbaar. Dit algoritme kan verschillende resultaten geven, afhankelijk van hoe de clusters in de eerste stap zijn geïnitialiseerd.

Toepassingen van K- middelen Clustering Algoritme

  • Marktaandeel
  • Documentclustering
  • Beeldsegmentatie
  • Beeldcompressie
  • Vector kwantisatie
  • Clusteranalyse
  • Leren van functies of leren van woordenboeken
  • Identificatie van gebieden die gevoelig zijn voor criminaliteit
  • Detectie van verzekeringsfraude
  • Openbaar vervoer data-analyse
  • Clustering van IT-middelen
  • Klantsegmentatie
  • Identificeren van gegevens over kanker
  • Gebruikt in zoekmachines
  • Voorspelling van geneesmiddelactiviteit

Voordelen van K- middelen Clustering Algoritme

  • Het is snel
  • robuust
  • Makkelijk te begrijpen
  • Relatief efficiënt
  • Als gegevenssets verschillend zijn, geeft dit de beste resultaten
  • Produceer strakkere clusters
  • Wanneer zwaartepunten opnieuw worden berekend, verandert het cluster.
  • Flexibel
  • Makkelijk te interpreteren
  • Betere rekenkosten
  • Verbetert de nauwkeurigheid
  • Werkt beter met bolvormige clusters

Nadelen van K- betekent clusteringalgoritme

  • Vereist voorafgaande specificatie voor het aantal clustercentra
  • Als er twee sterk overlappende gegevens zijn, kan deze niet worden onderscheiden en kan niet worden vastgesteld dat er twee clusters zijn
  • Met de verschillende weergave van de gegevens zijn de bereikte resultaten ook verschillend
  • Euclidische afstand kan de factoren ongelijk wegen
  • Het geeft de lokale optima van de kwadraatfoutfunctie
  • Soms kan het willekeurig kiezen van de zwaartepunten geen vruchtbare resultaten opleveren
  • Kan alleen worden gebruikt als de betekenis is gedefinieerd
  • Kan geen uitbijters en lawaaierige gegevens verwerken
  • Werk niet voor de niet-lineaire gegevensset
  • Mist consistentie
  • Gevoelig voor schaal
  • Als er zeer grote gegevenssets worden aangetroffen, kan de computer vastlopen.
  • Voorspellingsproblemen

Aanbevolen artikelen

Dit is een leidraad geweest voor het algoritme voor het clusteren van K-middelen. Hier hebben we de werking, toepassingen, voordelen en nadelen van K-Means clustering-algoritme besproken. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Wat is neurale netwerken?
  2. Wat is datamining? | Rol van datamining
  3. Datamining Interview Vraag
  4. Machine learning versus neuraal netwerk
  5. Clustering in machine learning

Categorie: