Eenrichtingsanalyse van variantie

Variantieanalyse kort geschreven als ANOVA is de procedure waarmee we middelen over drie of meer populaties kunnen vergelijken. Statistisch gezien kaderen we twee hypothesen, de nulhypothese: "Alle populatiegemiddelden zijn gelijk" en de alternatieve hypothese: "Niet alle populatiegemiddelden zijn gelijk". Het stelt ons in staat om de gelijkheid van meerdere gemiddelden in één test te testen in plaats van twee middelen tegelijkertijd te vergelijken, wat niet haalbaar is wanneer er meerdere groepen zijn. In dit onderwerp gaan we meer te weten over One Way ANOVA in R.

Eenrichtingsanalyse van variantie helpt ons bij het analyseren van slechts één factor of variabele. Er zijn bijvoorbeeld vijf regio's en we willen controleren of de dagelijkse gemiddelde regenval voor alle vijf regio's gelijk is of dat ze verschillend zijn. In dit geval is er slechts één factor, namelijk regio, omdat we moeten controleren of regionale factoren de neerslagontvangst en het patroon beïnvloeden.

Veronderstellingen van variantieanalyse

Hier volgen de veronderstellingen waaraan moet worden voldaan om ANOVA eenrichtingsverkeer toe te passen:

  • De populaties waaruit de monsters worden getrokken, zijn normaal verdeeld.
  • De populaties waaruit de monsters worden getrokken, hebben dezelfde variantie of standaarddeviatie.
  • De monsters uit verschillende populaties zijn willekeurig en onafhankelijk.

Hoe One-Way ANOVA in R werkt?

Voor onze demonstratie gebruiken we de gegevens die twee variabelen bevatten, namelijk. Merk en verkoop. Er zijn vier merken - ATB, JKV, MKL en PRQ. Maandelijkse verkopen voor deze merken worden gegeven. We moeten controleren of de gemiddelde omzet van de vier merken gelijk is of dat ze van elkaar verschillen. Om dit te verifiëren, zullen we de One-way ANOVA gebruiken. De stapsgewijze procedure om ANOVA te implementeren is als volgt:

  1. Importeer eerst de gegevens in R. De gegevens zijn aanwezig in een CSV-indeling. Dus, om het te importeren, zullen we de functie read.csv () gebruiken.

  1. Bekijk de eerste paar gegevensrecords. Dit is belangrijk om te controleren of de gegevens correct in R zijn geïmporteerd. Evenzo zullen we een samenvatting () -functie op de gegevens toepassen om basisinzichten in de gegevens te krijgen.

  1. Telkens wanneer we de variabelen in de gegevensset gebruiken, moeten we de naam van de gegevensset, zoals brand_sales_data $ Brand of brand_sales_data $ Sales, expliciet vermelden. Om dit te verhelpen, zullen we de attach-functie gebruiken. De functie moet worden toegepast zoals hieronder.

  1. Laten we de omzet per merk samenvoegen met behulp van gemiddelde of standaarddeviatie. Aggregatie helpt ons een basisidee van gegevens te krijgen.

Het bovenstaande resultaat toont dat de middelen voor de vier verschillende groepen niet gelijk zijn. JKV heeft de hoogste gemiddelde omzet.

Zoals hierboven te zien is, vertonen de standaarddeviaties in de vier groepen geen significant verschil en het is het hoogst voor het merk MKL.

  1. Nu zullen we ANOVA toepassen om te valideren of de gemiddelden over de drie populaties gelijk zijn of er een verschil bestaat.

Uit de bovenstaande resultaten kunnen we zien dat de ANOVA-test voor het merk significant is vanwege p <0, 0001. We kunnen interpreteren dat niet alle merken dezelfde voorkeursniveaus in de markt hebben die van invloed zijn op de verkoop van deze merken in de markt. Dit kan te wijten zijn aan veel factoren en de voorkeur van mensen voor een bepaald merk.

  1. Het bovenstaande resultaat kan worden gevisualiseerd en maakt interpretatie eenvoudig. Daarvoor zullen we de functie plotmeans () in de bibliotheek gplots () gebruiken. Het werkt zoals hieronder:

Zoals we hierboven kunnen zien, stelt de functie plotmeans () in het gplots-pakket ons in staat om de gemiddelden van verschillende groepen visueel te vergelijken. We zien dat de middelen niet hetzelfde zijn voor de vier merken. De middelen voor de merken MKL en PRQ liggen echter dichtbij.

  1. Bovenstaande analyse helpt ons om te controleren of merken gelijke middelen hebben of niet, maar het is moeilijk om de vergelijking per paar te maken. We kunnen paarsgewijze vergelijkingen maken voor verschillende merken, met behulp van de TukeyHSD () -functie waarmee wordt gecontroleerd of een merk aanzienlijk verschilt van een van de overige merken.

De paarsgewijze vergelijkingen zoals hierboven. Het verschil tussen twee groepen is significant als p <0, 001. Zoals we hierboven kunnen zien, is de p-waarde voor het PRQ-MKL-paar veel hoger, wat aangeeft dat de twee merken niet significant van elkaar verschillen.

Om de paarsgewijze vergelijkingen te visualiseren, zullen we de bovenstaande resultaten plotten zoals hieronder:

De eerste par-functie roteert de aslabels waardoor ze horizontaal worden en de tweede par-instructie past de marges aan zodat de labels goed passen, anders zullen ze uit het scherm verdwijnen.

De bovenstaande grafiek biedt goed inzicht, maar we kunnen de resultaten in de vorm van een boxplot plotten om betere inzichten te krijgen voor een duidelijkere interpretatie, zoals hieronder wordt getoond.

De hierboven gebruikte glht () -functie wordt geleverd met een uitgebreide set methoden voor het vergelijken van meerdere middelen. Let op, de niveauoptie in de functie cld () heeft betrekking op het significantieniveau, bijvoorbeeld 0, 05 of 95 procent betrouwbaarheid)

Met behulp van de bovenstaande plot wordt het gemakkelijk om middelen over de groepen te vergelijken en vergemakkelijkt het ook een systematische interpretatie. Voor elk merk staan ​​letters boven aan het plot. Als twee merken dezelfde letter hebben, hebben ze in dit geval geen significant verschillende middelen als merken MKL en PRQ die dezelfde letter hebben b.

  1. Tot nu toe implementeerden we ANOVA en gebruikten we plots om de resultaten te visualiseren. Het is echter even belangrijk om de aannames te testen. Eerst zullen we de normaliteitsveronderstelling valideren.

Het autopakket in R biedt de functie qqPlot (). De bovenstaande plot laat zien dat gegevens binnen 95% betrouwbaarheid vallen. Dit geeft aan dat bijna aan de normaliteitsveronderstelling is voldaan.

Vervolgens zullen we valideren of de verschillen tussen de merken gelijk zijn. Hiervoor zullen we de test van Bartlett gebruiken

De p-waarde laat zien dat varianties binnen de groep niet significant verschillen

Last but not least zullen we controleren of er uitbijters zijn die ANOVA-resultaten beïnvloeden.

Uit het bovenstaande resultaat kunnen we zien dat er geen indicatie is voor uitbijters in de gegevens (NA treedt op wanneer p> 1)

Rekening houdend met de resultaten van QQ Plot, Bartlett's test en Outlier-test, kunnen we zeggen dat gegevens voldoen aan alle ANOVA-veronderstellingen en dat de verkregen resultaten geldig zijn.

Conclusie - One Way ANOVA in R

ANOVA is een zeer handige statistische techniek die kan worden gebruikt om middelen over meerdere populaties te vergelijken. R biedt een uitgebreid pakket pakketten om ANOVA te implementeren, resultaten af ​​te leiden en de veronderstellingen te valideren. In R kunnen statistische resultaten worden geïnterpreteerd in visuele vormen die diepere inzichten bieden.

Aanbevolen artikelen

Dit is een handleiding voor One Way ANOVA in R. Hier bespreken we hoe ANOVA One-Way werkt en de Assumptions of Analysis of Variance. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. R Programmeertaal
  2. Regressie versus ANOVA
  3. Resultaten interpreteren met ANOVA-test
  4. GLM in R

Categorie: