Wat is clusteranalyse
Clusteranalyse groepeert gegevens op basis van de kenmerken die ze bezitten. Clusteranalyse groepeert objecten op basis van de factoren waardoor ze vergelijkbaar zijn. Clusteranalyse wordt anders Segmentatieanalyse of taxonomieanalyse genoemd. Clusteranalyse maakt geen onderscheid tussen afhankelijke en onafhankelijke variabelen. Clusteranalyse wordt op een groot aantal gebieden gebruikt, zoals psychologie, biologie, statistiek, datamining, patroonherkenning en andere sociale wetenschappen.
Doel van clusteranalyse
De belangrijkste doelstelling van clusteranalyse is om de heterogeniteit in elke set gegevens aan te pakken. De andere doelstellingen voor clusteranalyse zijn
- Taxonomiebeschrijving - Identificeren van groepen in de gegevens
- Gegevensvereenvoudiging - De mogelijkheid om groepen vergelijkbare waarnemingen te analyseren in plaats van alle individuele waarnemingen
- Genereren of testen van hypothesen - Ontwikkel een hypothese op basis van de aard van de gegevens of om de eerder genoemde hypothese te testen
- Relatie-identificatie - De vereenvoudigde structuur van clusteranalyse die de relaties beschrijft
Er zijn twee hoofddoelen van clusteranalyse: begrip en hulpprogramma.
In de omstandigheid van begrip, groepeert clusteranalyse objecten die enkele gemeenschappelijke kenmerken delen
In het kader van Utility biedt clusteranalyse de kenmerken van elk gegevensobject aan de clusters waartoe ze behoren.
Clusteranalyse gaat hand in hand met factoranalyse en discriminantanalyse.
Stel jezelf eerst enkele clusteranalyse-vragen voordat je ermee begint
- Welke variabelen zijn relevant?
- Is de steekproefgrootte voldoende?
- Kunnen uitbijters worden gedetecteerd en moeten deze worden verwijderd?
- Hoe moet object-overeenkomst worden gemeten?
- Moeten gegevens worden gestandaardiseerd?
Soorten clusters
Er zijn drie belangrijke soorten clustering
- Hiërarchische clustering - die de Agglomerative en Divisive-methode bevat
- Gedeeltelijke clustering - bevat K-middelen, Fuzzy K-middelen, Isodata eronder
- Op dichtheid gebaseerde clustering - Heeft Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed eronder
Veronderstellingen in clusteranalyse
Er zijn altijd twee veronderstellingen in clusteranalyse
- Er wordt verondersteld dat de steekproef een vertegenwoordiger van de populatie is
- Er wordt aangenomen dat de variabelen niet gecorreleerd zijn. Zelfs als variabelen gecorreleerd zijn, verwijdert u gecorreleerde variabelen of gebruikt u afstandsmetingen die de correlatie compenseren.
Stappen in clusteranalyse
-
- Stap 1: Definieer het probleem
- Stap 2: Bepaal de juiste gelijkheidsmaatregel
- Stap 3: Bepaal hoe u de objecten wilt groeperen
- Stap 4: Bepaal het aantal clusters
- Stap 5: het cluster interpreteren, beschrijven en valideren
Clusteranalyse in SPSS
In SPSS kunt u de optie voor clusteranalyse vinden in de optie Analyseren / Classificeren. In SPSS zijn er drie methoden voor de clusteranalyse: K-Means Cluster, Hierarchical Cluster en Two Step Cluster.
K-Means clustermethode classificeert een gegeven set gegevens via een vast aantal clusters. Deze methode is gemakkelijk te begrijpen en geeft de beste uitvoer wanneer de gegevens goed van elkaar zijn gescheiden.
Tweestaps clusteranalyse is een hulpmiddel dat is ontworpen voor het verwerken van grote gegevenssets. Het maakt clusters op zowel categorische als continue variabelen.
Hiërarchisch cluster is de meest gebruikte methode voor clusteranalyse. Het combineert cases in homogene clusters door ze samen te brengen via een reeks opeenvolgende stappen.
Hiërarchische clusteranalyse bevat drie stappen
- Bereken de afstand
- Koppel de clusters
- Een oplossing kiezen door het juiste aantal clusters te selecteren
Hieronder staan de stappen voor het uitvoeren van een hiërarchische clusteranalyse in SPSS.
- De eerste stap is het selecteren van de variabelen die moeten worden geclusterd. In het onderstaande dialoogvenster wordt het u uitgelegd
- Door op de optie statistieken in het bovenstaande dialoogvenster te klikken, krijgt u het dialoogvenster waarin u de uitvoer wilt opgeven
- Voeg het Dendrogram toe in de dialoogplots. Dendrogram is de grafische weergave van de hiërarchische clusteranalysemethode. Het laat zien hoe de clusters bij elke stap worden gecombineerd totdat het een enkele cluster vormt.
- De dialoogmethode is cruciaal. U kunt hier de afstand en de clustermethode vermelden. In SPSS zijn er drie metingen voor interval, tellingen en binaire gegevens.
- De vierkante Euclidische afstand is de som van de vierkante verschillen zonder de vierkantswortel te nemen.
- In de tellingen kunt u kiezen tussen Chi Square en Phi Square-maat
- In het gedeelte Binair hebt u veel opties om uit te kiezen. Kwadraat Euclidische afstand is de beste optie om te gebruiken.
- De volgende stap is om de clustermethode te kiezen. Het wordt altijd aanbevolen om Single Linkage of Dichtstbijzijnde buur te gebruiken, omdat het gemakkelijk helpt om de uitbijters te identificeren. Nadat de uitbijters zijn geïdentificeerd, kunt u de methode van Ward gebruiken.
- De laatste stap is standaardisatie
Kritieken op clusteranalyse
De meest voorkomende kritieken zijn hieronder opgesomd
- Het is beschrijvend, theoretisch en niet inferentieel.
- Het zal clusters produceren ongeacht het feitelijk bestaan van een structuur
- Het kan niet breed worden gebruikt, omdat het volledig afhankelijk is van de variabelen die worden gebruikt als basis voor de gelijkheidsmaat
Wat is factoranalyse?
Factoranalyse is een verkennende analyse die helpt bij het groeperen van vergelijkbare variabelen in dimensies. Het kan worden gebruikt om de gegevens te vereenvoudigen door de afmetingen van de waarnemingen te verkleinen. Factoranalyse heeft verschillende rotatiemethoden.
Factoranalyse wordt meestal gebruikt voor gegevensreductiedoeleinden.
Er zijn twee soorten factoranalyse: verkennend en bevestigend
- Verkenningsmethode wordt gebruikt wanneer u geen vooraf gedefinieerd idee hebt over de structuren of dimensies in een set variabelen.
- Bevestigende methode wordt gebruikt wanneer u specifieke hypothesen over de structuren of dimensies in een set variabelen wilt testen.
Doelstellingen van factoranalyse
Er zijn twee hoofddoelen van factoranalyse die hieronder worden vermeld
- Identificatie van de onderliggende factoren - dit omvat het clusteren van variabelen in homogene sets, het creëren van nieuwe variabelen en het helpen kennis te vergaren over de categorieën
- Screening van variabelen - Het is handig bij regressie en identificeert groeperingen zodat u één variabele kunt selecteren die veel vertegenwoordigt.
Veronderstellingen van factoranalyse
Er zijn vier hoofdaannames van factoranalyse die hieronder worden vermeld
- Modellen zijn meestal gebaseerd op lineaire relaties
- Er wordt aangenomen dat de verzamelde gegevens intervalgeschaald zijn
- Multicollineariteit in de gegevens is wenselijk omdat het doel is om de samenhangende set variabelen te achterhalen
- De gegevens moeten open en responsief zijn voor factoranalyse. Het mag niet zo zijn dat een variabele alleen met zichzelf gecorreleerd is en er geen correlatie bestaat met een andere variabele. Op dergelijke gegevens kan geen factoranalyse worden uitgevoerd.
Soorten factoren
- Belangrijkste componentfactoring - Meest gebruikte methode waarbij factorgewichten worden berekend om de maximaal mogelijke variantie te extraheren en doorgaat totdat er geen betekenisvolle variantie meer is.
- Canonieke factoranalyse - Vindt factoren die de hoogste canonieke correlatie hebben met de waargenomen variabelen
- Common factor analysis - Zoekt het minste aantal factoren dat de gemeenschappelijke variantie van een set variabelen kan verklaren
- Beeldfactoring - Gebaseerd op de correlatiematrix waarbij elke variabele wordt voorspeld door de anderen met behulp van meervoudige regressie
- Alpha Factoring - Maximaliseert de betrouwbaarheid van factoren
- Factorregressiemodel - combinatie van factormodel en regressiemodel waarvan de factoren gedeeltelijk bekend zijn
Criteria van factoranalyse
-
Eigenwaarde criteria
- Vertegenwoordigt de hoeveelheid variantie in de originele variabelen die met een factor is verbonden
- De som van het kwadraat van de factorladingen van elke variabele op een factor vertegenwoordigt de eigenwaarde
- Factoren met eigenwaarden die groter zijn dan 1, 0 worden behouden
-
Scree Plot Criteria
- Een plot van de eigenwaarden tegen het aantal factoren, in volgorde van extractie.
- De vorm van de plot bepaalt het aantal factoren
-
Percentage variantiecriteria
- Het aantal geëxtraheerde factoren wordt gevonden zodat het toenemende percentage variantie dat wordt geëxtraheerd door de factoren het niveau van tevredenheid bereikt.
-
Significance Test Criteria
- Statistisch belang van de afzonderlijke eigenwaarden wordt ontdekt en alleen die factoren die statistisch significant zijn, blijven behouden
Factoranalyse wordt op verschillende gebieden gebruikt, zoals psychologie, sociologie, politieke wetenschappen, onderwijs en geestelijke gezondheid.
Factoranalyse in SPSS
In SPSS is de optie voor factoranalyse te vinden in Analyse à Dimension reduction à Factor
- Begin met het toevoegen van de variabelen aan de lijst met variabelen
- Klik op het tabblad Beschrijving en voeg enkele statistieken toe waaronder de veronderstellingen van factoranalyse worden geverifieerd.
- Klik op de optie Extractie waarmee u de extractiemethode en de afkapwaarde voor extractie kunt kiezen
- Principal Components (PCA) is de standaard extractiemethode die zelfs niet-gecorreleerde lineaire combinaties van de variabelen extraheert. PCA kan worden gebruikt wanneer een correlatiematrix enkelvoud is. Het lijkt erg op Canonical Correlation Analysis, waarbij de eerste factor maximale variantie heeft en de volgende factoren een kleiner deel van de variantie verklaren.
- De tweede meest algemene analyse is de belangrijkste assenfactoring. Het identificeert de latente constructies achter de waarnemingen.
- De volgende stap is het selecteren van een rotatiemethode. De meest gebruikte methode is Varimax. Deze methode vereenvoudigt de interpretatie van de factoren.
- De tweede methode is Quartimax. Deze methode roteert de factoren om het aantal factoren te minimaliseren. Het vereenvoudigt de interpretatie van de waargenomen variabele.
- De volgende methode is Equamax, een combinatie van de bovenstaande twee methoden.
- In het dialoogvenster door op de "opties" te klikken, kunt u de ontbrekende waarden beheren
- Voordat u de resultaten in de gegevensset opslaat, voert u eerst de factoranalyse uit en controleert u op aannames en bevestigt u dat de resultaten zinvol en nuttig zijn.
Clusteranalyse versus factoranalyse
Zowel clusteranalyse als factoranalyse zijn een niet-begeleide leermethode die wordt gebruikt voor het segmenteren van gegevens. Veel onderzoekers die nieuw zijn in dit veld, vinden dat de clusteranalyse en factoranalyse vergelijkbaar zijn. Het lijkt misschien hetzelfde, maar ze verschillen op veel manieren. De verschillen tussen clusteranalyse en factoranalyse worden hieronder weergegeven
-
Doelstelling
Het doel van cluster- en factoranalyse is verschillend. Het doel van clusteranalyse is om de waarnemingen in homogene en afzonderlijke groepen te verdelen. De factoranalyse daarentegen verklaart de homogeniteit van de variabelen die voortvloeien uit de overeenkomst van waarden.
-
ingewikkeldheid
Complexiteit is een andere factor waarop cluster- en factoranalyse verschillen. De gegevensgrootte beïnvloedt de analyse anders. Als de gegevensgrootte te groot is, wordt deze rekenkundig onhandelbaar in clusteranalyse.
-
Oplossing
De oplossing voor een probleem is min of meer vergelijkbaar in zowel de factor- als clusteranalyse. Maar factoranalyse biedt de onderzoeker in een beter aspect een betere oplossing. Clusteranalyse levert niet het beste resultaat op omdat alle algoritmen in clusteranalyse rekenkundig niet efficiënt zijn.
-
toepassingen
Factoranalyse en clusteranalyse worden anders toegepast dan echte gegevens. Factoranalyse is geschikt voor het vereenvoudigen van complexe modellen. Het vermindert de grote reeks variabelen tot een veel kleinere reeks factoren. De onderzoeker kan een set van hypothesen en run-factoranalyse ontwikkelen om deze hypothese te bevestigen of te ontkennen.
Clusteranalyse is geschikt voor het classificeren van objecten op basis van bepaalde criteria. De onderzoeker kan bepaalde aspecten van een groep meten en met behulp van clusteranalyse in specifieke categorieën verdelen.
Er zijn ook veel andere verschillen die hieronder worden vermeld
- Clusteranalyse probeert cases te groeperen, terwijl factoranalyse probeert functies te groeperen.
- Clusteranalyse wordt gebruikt om kleinere groepen cases te vinden die representatief zijn voor een data als geheel. Factoranalyse wordt gebruikt om een kleinere groep functies te vinden die representatief zijn voor de oorspronkelijke functies van gegevensverzamelingen.
- Het belangrijkste onderdeel van clusteranalyse is het vinden van het aantal clusters. In principe zijn clustermethoden verdeeld in twee - Agglomerative-methode en Partitioning-methode. Agglomeratieve methode begint met elk geval in zijn eigen cluster en stopt wanneer een criterium wordt bereikt. De partitioneringsmethode begint met alle cases in één cluster.
- Factoranalyse wordt gebruikt om een onderliggende structuur in een set gegevens te achterhalen.
Conclusie
Ik hoop dat dit artikel je zou hebben geholpen de basisprincipes van Clusteranalyse en Factoranalyse en de verschillen tussen de twee te begrijpen.
Verwante Cursussen :-
- Clusteranalysecursus