K- betekent clusteringalgoritme - Hoe het werkt - Analyse & Implementatie

Inleiding tot K- betekent clusteringalgoritme?

K- Betekent clustering behoort tot het algoritme zonder toezicht. Het wordt gebruikt wanneer de gegevens niet zijn gedefinieerd in groepen of categorieën, dwz niet-gelabelde gegevens. Het doel van dit cluster-algoritme is om de groepen in de gegevens te zoeken en te vinden, waarbij variabele K het aantal groepen vertegenwoordigt.

K-middelen begrijpen Clustering Algoritme

Dit algoritme is een iteratief algoritme dat de gegevensset volgens hun kenmerken verdeelt in K aantal vooraf gedefinieerde niet-overlappende afzonderlijke clusters of subgroepen. Het maakt de gegevenspunten van interclusters zo vergelijkbaar mogelijk en probeert de clusters ook zo ver mogelijk te houden. Het wijst de gegevenspunten toe aan een cluster als de som van de kwadraatafstand tussen het zwaartepunt van het cluster en de gegevenspunten minimaal is, waarbij het zwaartepunt van het cluster het rekenkundig gemiddelde is van de gegevenspunten in het cluster. Een minder variatie in het cluster resulteert in vergelijkbare of homogene gegevenspunten binnen het cluster.

Hoe de K- middelen Clustering Algoritme werkt?

K- betekent Clustering-algoritme heeft de volgende invoer nodig:

K = aantal subgroepen of clusters
Voorbeeld- of trainingsset = (x ₁, x ₂, x ₃, ……… x _n )

Laten we nu aannemen dat we een dataset hebben zonder label en dat we deze in clusters moeten verdelen.

Nu moeten we het aantal clusters vinden. Dit kan op twee manieren:

Elleboogmethode.
Doel methode.

Laten we ze kort bespreken:

Elleboogmethode

In deze methode wordt een curve getrokken tussen "binnen de som van vierkanten" (WSS) en het aantal clusters. De uitgezette curve lijkt op een menselijke arm. Het wordt de elleboogmethode genoemd omdat het punt van de elleboog in de curve ons het optimale aantal clusters geeft. In de grafiek of curve, na het elleboogpunt, verandert de waarde van WSS zeer langzaam, dus moet het elleboogpunt worden beschouwd om de uiteindelijke waarde van het aantal clusters te geven.

Doel-Based

In deze methode worden de gegevens verdeeld op basis van verschillende statistieken en daarna wordt beoordeeld hoe goed ze in dat geval hebben gepresteerd. De indeling van de shirts in de herenkledingafdeling in een winkelcentrum gebeurt bijvoorbeeld op basis van de criteria van de maten. Het kan worden gedaan op basis van prijs en de merken ook. De meest geschikte wordt gekozen om het optimale aantal clusters te geven, dwz de waarde van K.

Laten we nu teruggaan naar onze gegeven gegevensset hierboven. We kunnen het aantal clusters, dat wil zeggen de waarde van K, berekenen met behulp van een van de bovenstaande methoden.

Hoe de bovenstaande methoden te gebruiken?

Laten we nu het uitvoeringsproces bekijken:

Stap 1: initialisatie

Initialiseer eerst willekeurige punten die de zwaartepunten van het cluster worden genoemd. Tijdens het initialiseren moet u ervoor zorgen dat de zwaartepunten van het cluster kleiner moeten zijn dan het aantal trainingsgegevens. Dit algoritme is een iteratief algoritme, daarom worden de volgende twee stappen iteratief uitgevoerd.

Stap 2: Clustertoewijzing

Na initialisatie worden alle gegevenspunten doorlopen en wordt de afstand tussen alle zwaartepunten en de gegevenspunten berekend. Nu zouden de clusters worden gevormd afhankelijk van de minimale afstand tot de zwaartepunten. In dit voorbeeld zijn de gegevens verdeeld in twee clusters.

Stap 3: Centroid verplaatsen

Omdat de in de bovenstaande stap gevormde clusters niet zijn geoptimaliseerd, moeten we geoptimaliseerde clusters vormen. Hiervoor moeten we de zwaartepunten iteratief naar een nieuwe locatie verplaatsen. Neem gegevenspunten van één cluster, bereken hun gemiddelde en verplaats vervolgens het zwaartepunt van dat cluster naar deze nieuwe locatie. Herhaal dezelfde stap voor alle andere clusters.

Stap 4: Optimalisatie

De bovenstaande twee stappen worden iteratief uitgevoerd totdat de zwaartepunten stoppen met bewegen, dat wil zeggen dat ze hun posities niet meer veranderen en statisch zijn geworden. Zodra dit is gebeurd, wordt het k- betekent-algoritme geconvergeerd genoemd.

Stap 5: Convergentie

Nu is dit algoritme geconvergeerd en worden verschillende clusters gevormd en duidelijk zichtbaar. Dit algoritme kan verschillende resultaten geven, afhankelijk van hoe de clusters in de eerste stap zijn geïnitialiseerd.

Toepassingen van K- middelen Clustering Algoritme

Marktaandeel
Documentclustering
Beeldsegmentatie
Beeldcompressie
Vector kwantisatie
Clusteranalyse
Leren van functies of leren van woordenboeken
Identificatie van gebieden die gevoelig zijn voor criminaliteit
Detectie van verzekeringsfraude
Openbaar vervoer data-analyse
Clustering van IT-middelen
Klantsegmentatie
Identificeren van gegevens over kanker
Gebruikt in zoekmachines
Voorspelling van geneesmiddelactiviteit

Voordelen van K- middelen Clustering Algoritme

Het is snel
robuust
Makkelijk te begrijpen
Relatief efficiënt
Als gegevenssets verschillend zijn, geeft dit de beste resultaten
Produceer strakkere clusters
Wanneer zwaartepunten opnieuw worden berekend, verandert het cluster.
Flexibel
Makkelijk te interpreteren
Betere rekenkosten
Verbetert de nauwkeurigheid
Werkt beter met bolvormige clusters

Nadelen van K- betekent clusteringalgoritme

Vereist voorafgaande specificatie voor het aantal clustercentra
Als er twee sterk overlappende gegevens zijn, kan deze niet worden onderscheiden en kan niet worden vastgesteld dat er twee clusters zijn
Met de verschillende weergave van de gegevens zijn de bereikte resultaten ook verschillend
Euclidische afstand kan de factoren ongelijk wegen
Het geeft de lokale optima van de kwadraatfoutfunctie
Soms kan het willekeurig kiezen van de zwaartepunten geen vruchtbare resultaten opleveren
Kan alleen worden gebruikt als de betekenis is gedefinieerd
Kan geen uitbijters en lawaaierige gegevens verwerken
Werk niet voor de niet-lineaire gegevensset
Mist consistentie
Gevoelig voor schaal
Als er zeer grote gegevenssets worden aangetroffen, kan de computer vastlopen.
Voorspellingsproblemen

Aanbevolen artikelen

Dit is een leidraad geweest voor het algoritme voor het clusteren van K-middelen. Hier hebben we de werking, toepassingen, voordelen en nadelen van K-Means clustering-algoritme besproken. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

Wat is neurale netwerken?
Wat is datamining? | Rol van datamining
Datamining Interview Vraag
Machine learning versus neuraal netwerk
Clustering in machine learning

K- betekent clusteringalgoritme - Hoe het werkt - Analyse & Implementatie

Inhoudsopgave:

Inleiding tot K- betekent clusteringalgoritme?

K-middelen begrijpen Clustering Algoritme

Hoe de K- middelen Clustering Algoritme werkt?

Elleboogmethode

Doel-Based

Hoe de bovenstaande methoden te gebruiken?

Stap 1: initialisatie

Stap 2: Clustertoewijzing

Stap 3: Centroid verplaatsen

Stap 4: Optimalisatie

Stap 5: Convergentie

Toepassingen van K- middelen Clustering Algoritme

Voordelen van K- middelen Clustering Algoritme

Nadelen van K- betekent clusteringalgoritme

Aanbevolen artikelen

Photoshop Type - Het alineascherm

Essentials van Photoshop Type

Hoe foto's van uw digitale camera te downloaden met Adobe Bridge CS5

Vervormde tekst maken in Photoshop

Laadstijlen opslaan en hergebruiken in Photoshop

Automodellering in 3ds Max - Eenheid ontwerpen en instellen voor automodellering

CentOS vs Ubuntu - Leer de top 5 van het meest waardevolle verschil

CEO versus president - Top 6 beste verschillen (met infographics)

Formule centrale limietstelling - Calculator (Excel-sjabloon)

Gecertificeerde ethische hacker versus gecertificeerde penetratietesters

Selecties maken met het gereedschap Pen in Photoshop

Fotohouders aan een foto toevoegen - Deel 2 - Photoshop-zelfstudie

Een slim filter toepassen in Photoshop CS3

Hoe maak je een aquareleffect in Photoshop - Stap voor stap

Filmstrip Fotocollage in Photoshop - Deel 2