Inleiding tot Boxplot-labels in R

Boxplot-labels helpen bij de visualisatie van gedistribueerde gegevens in R. De grafiek geeft het gemiddelde, de mediaan en de variantie weer. De waarden worden gegeven als invoer voor de functie boxplot (). Boxplot () functie maakt de boxplot met behulp van gegeven invoergegevens. Boxplot kan worden gemaakt voor individuele variabelen of een groep.

De boxplot-grafiek plotten

  • We hebben vijf waardevolle input nodig, zoals gemiddelde, variantie, mediaan, eerste en derde kwartiel.
  • Vaststellen of er uitbijters in de gegevens zijn.
  • Ontwerp het model om de gegevens te plotten.

Parameters onder boxplot () functie

  1. formule: Met deze parameter kunnen numerieke waarden in verschillende groepen worden verdeeld.
  2. Gegevens :: Voer gegevens in die een gegevensframe of een lijst bevatten.
  3. Subset: optionele vectorparameter om een ​​subset voor plotten op te geven.
  4. xlab: annotatie op de x-as
  5. ylab: annotatie van de y-as.
  6. bereik: bereik geeft de plotuitbreidingen aan.
  7. actie: geef op wat er gebeurt als er een nulwaarde is. Negeer het antwoord of de waarde.

Willekeurige gegevens maken

We kunnen willekeurige steekproefgegevens maken met de functie rnorm ().

Laten we nu rnorm () gebruiken om willekeurige steekproefgegevens van 10 waarden te maken.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2))

De opdracht hierboven genereert 10 willekeurige waarden met gemiddelde 3 en standaarddeviatie = 2 en slaat deze op in het gegevensframe.

Wanneer we de gegevens afdrukken, krijgen we de onderstaande uitvoer.

Stat1

1 2.662022

2 2.184315

3 5.974787

4 4.536203

5 4.808296

6 3.817232

7 1.135339

8 1.583991

9 3.308994

10 4.649170

We kunnen dezelfde invoer (gegevens) converteren naar de boxplot-functie die de plot genereert.

We voegen meer waarden toe aan de gegevens en zien hoe de plot verandert.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data)

Meer willekeurige waarden toevoegen en gebruiken om een ​​grafiek weer te geven.

Hieronder staan ​​waarden die zijn opgeslagen in de gegevensvariabele.

STAT 1STAT 2STAT 3STAT 4
3.7954654, 218645.8275852.157315
0.9117264, 091196.2608112, 26594
3.7078283, 359875, 889453.714557
0.1157724, 51235.9348582, 40645
0.6975562, 159456, 811472.571304
5.1292313, 26986.2500683.025175
5.4041014, 389395.6700612, 9901
1.4550663, 130595.6923232, 69693
0.8686365, 423115.4154352.674768
2, 141133, 907286.2060592.806656

Hieronder staat de boxplot-grafiek met 40 waarden. We hebben 1-7 nummers op de y-as en stat1 tot stat4 op de x-as.

We kunnen de tekstuitlijning op de x-as wijzigen met een andere parameter, las = 2.

Analyse van de grafiek van R Boxplot-labels

We hebben de input in het dataframe gegeven en we zien de bovenstaande plot.

Laten we de stat1-waarden bekijken om de gegevens te begrijpen.

De plot vertegenwoordigt alle 5 waarden. Beginnend met de minimumwaarde vanaf de bodem en vervolgens het derde kwartiel, gemiddelde, eerste kwartiel en minimumwaarde.

De bovenstaande plot heeft tekstuitlijning horizontaal op de x-as.

De kleur wijzigen

In alle bovenstaande voorbeelden hebben we de plot in zwart en wit gezien. Laten we kijken hoe we de kleur in de plot kunnen veranderen.

We kunnen de parameter col = color toevoegen in de boxplot () -functie.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col="red")
data

Hieronder zien we de plotuitvoer in rood.

Met dezelfde bovenstaande code kunnen we meerdere kleuren aan de plot toevoegen.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, col=c("red", "blue", "green", "yellow")
data

Labels toevoegen

We kunnen labels toevoegen met behulp van de parameters xlab, ylab in de functie boxplot ().

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", col=c("red", "blue", "green", "yellow"))
data

Met behulp van de hoofdparameter kunnen we koppen toevoegen aan de plot.

data<-data.frame(Stat1=rnorm(10, mean=3, sd=2),
Stat2=rnorm(10, mean=4, sd=1),
Stat3=rnorm(10, mean=6, sd=0.5),
Stat4=rnorm(10, mean=3, sd=0.5))
boxplot(data, las=2, xlab="statistics", ylab="random numbers", main="Random relation", notch=TRUE, col=c("red", "blue", "green", "yellow"))
data

De parameter Notch wordt gebruikt om de plot begrijpelijker te maken. Aangezien media van stat1 tot stat4 niet overeenkomen in de bovenstaande plot.

Voordelen en nadelen van de boxplot

voordelen

  • Het samenvatten van grote hoeveelheden gegevens is eenvoudig met boxplot-labels.
  • Toont bereik en gegevensdistributie op de as.
  • Het duidt op symmetrie en scheefheid
  • Helpt bij het identificeren van uitbijters in de gegevens.

nadelen

  • Kan alleen worden gebruikt voor numerieke gegevens.
  • Als er verschillen zijn in de gegevens, kan de boxplot niet nauwkeurig zijn.

Opmerkingen:

  1. Grafieken moeten correct worden geëtiketteerd.
  2. Schalen zijn belangrijk; veranderende schalen kunnen gegevens een ander beeld geven.
  3. Gegevens vergelijken met de juiste schalen moet consistent zijn

Conclusie - R Boxplot-labels

De gegevensgroepering wordt eenvoudig gemaakt met behulp van boxplots. Boxplot ondersteunt meerdere variabelen evenals verschillende optimalisaties. We kunnen de schalen ook variëren op basis van gegevens.

Boxplots kunnen worden gebruikt om verschillende gegevensvariabelen of sets te vergelijken.

Bruikbaarheid van boxplot is eenvoudig en handig. We hebben consistente gegevens en juiste labels nodig. Boxplots worden vaak gebruikt in de gegevenswetenschap en zelfs door verkoopteams om gegevens te groeperen en te vergelijken. Boxplot geeft inzicht in het potentieel van de gegevens en optimalisaties die kunnen worden gedaan om de verkoop te verhogen.

Boxplot is een interessante manier om de gegevens te testen en geeft inzicht in de impact en het potentieel van de gegevens.

Aanbevolen artikelen

Dit is een handleiding voor R Boxplot-labels. Hier bespreken we de parameters onder de functie boxplot (), hoe u willekeurige gegevens kunt maken, de kleur- en grafiekanalyse kunt wijzigen, samen met de voor- en nadelen. U kunt ook het volgende artikel bekijken voor meer informatie -

  1. Soorten datavisualisatie
  2. Implementatie van datawarehouse
  3. Data Science-technieken
  4. Wat is Data Cube?

Categorie: