Inleiding tot het histogram in R

In dit artikel zullen we beginnen met het basishistogram in R-implementatie en aanpassingen. Histogram speelt een belangrijke rol in data-analyses voor het visualiseren van de data. R-programmering is een speciale omgeving voor statistische informatica en fundamentals voor data science. In R programmeren worden datasets en functies gegroepeerd in de vorm van pakketten. De meeste visuele analyseprogramma's maken gebruik van histogrammen en maken standaard de bin-breedte. Ze laten toe om snel inzichten in de gegevens te krijgen, wat een primaire rol speelt in de gegevenswetenschap. Hier zullen we een histogram bouwen met behulp van R-opdrachten.

Wat is een histogram?

Het histogram is een grafische weergave van een datasetdistributie waarmee we eenvoudig kunnen analyseren welke factor een grotere hoeveelheid gegevens en de minste gegevens heeft. Met andere woorden, het histogram maakt het mogelijk om cumulatieve frequentieplots in de x-as en y-as uit te voeren. In feite nemen histogrammen zowel gegroepeerde als niet-gegroepeerde gegevens. Voor een gegroepeerd gegevenshistogram wordt geconstrueerd door klassengrenzen te overwegen, terwijl niet-gegroepeerde gegevens noodzakelijk zijn om de gegroepeerde frequentieverdeling te vormen. Ze helpen om het bereik en de locatie van de gegevens effectief te analyseren. Sommige veel voorkomende structuur van histogrammen wordt toegepast zoals normaal, scheef, rots tijdens gegevensdistributie.

In tegenstelling tot een balk heeft het diagramhistogram geen openingen tussen de balken en de balken worden hier bins genoemd waarmee gegevens in gelijke intervallen worden weergegeven. Histogram Neemt een continue variabele en splitst in intervallen. Het is noodzakelijk om de juiste bakbreedte te kiezen. Het grootste verschil tussen het staafdiagram en het histogram is dat eerstgenoemde nominale gegevenssets gebruikt om te plotten, terwijl histogram de continue gegevenssets plot. R gebruikt de functie hist () om histogrammen te maken. Deze functie hist () gebruikt een vector van waarden om het histogram te plotten. Histogram bestaat uit een x-as bereik van continue waarden, y-as plot frequente gegevenswaarden in de x-as met staven van hoogteverschillen.

Syntaxis:

De syntaxis voor het maken van een histogram is

hist (v, main, xlab, xlim, ylim, breaks, col, border)
where v – vector with numeric values
main – denotes title of the chart
col – sets color
border -sets border color to the bar
xlab - description of x-axis
xlim - denotes to specify range of values on x-axis
ylim – specifies range values on y-axis
break – specifies the width of each bar.

Een histogram maken in R

Voor analyse vereist het doelhistogram een ​​ingebouwde gegevensset om te importeren in R.R en de bibliotheken hebben een verscheidenheid aan grafische pakketten en functies. Hier gebruiken we de gegevensset voor Zwitserse en luchtreizigers. Om een ​​histogram te berekenen voor een gegeven gegevenswaarde, wordt de functie hist () samen met een $ -teken gebruikt om de bepaalde kolom met gegevens uit de gegevensset te selecteren om een ​​histogram te maken.

In het volgende voorbeeld wordt een histogram berekend van de gegevenswaarde in de kolom Onderzoek van de gegevensset met de naam Swiss.

Voorbeeld 1: Laten we een eenvoudig histogram maken

Code:

hist (swiss $Examination)

Output:

Hist is gemaakt voor een dataset Zwitsers met een kolomonderzoek. dit plot eenvoudig een bin met frequentie en x-as.

Voorbeeld 2: Histogram met meer argumenten

Voor een beter begrip van histogrammen moeten we meer argumenten toevoegen aan de hist-functie om de visualisatie van de grafiek te optimaliseren. Het x- en y-label wijzigen in een reeks waarden xlim en ylim-argumenten worden toegevoegd aan de functie.

Voorbeeld:

hist (Air Passengers, xlim=c (150, 600), ylim=c (0, 35))
In the above example x limit varies from 150 to 600 and Y – 0 to 35.
// Adding breaks
hist (AirPassengers,
main="Histogram with more Arg",
xlab="Name List",
border="Green",
col="Orange",
xlim=c (100, 600),
ylim=c(0, 40),
breaks=5)

Output:

Bovenstaande code plot een histogram voor de waarden uit de dataset Air Passengers, geeft titel als "Histogram voor meer arg", het x-aslabel als "Naamlijst", met een groene rand en een gele kleur aan de balken, door de waarde als 100 tot 600, de waarden worden op de y-as met 2 afgedrukt en maken de bin-breedte op 5.

Twee verschillende kleuren aan de balk toevoegen

hist (swiss$Examination, col=c ("violet”, "Chocolate2"), xlab="Examination”, las =1, main=" color histogram")

Output:

Meer balken toevoegen aan het histogram

hist (swiss$Education, breaks=40, col="violet", xlab="Education", main=" Extra bar histogram")

Output:

Voorbeeld 3: Histogram in R Its Retourneert een waarde

Air <- AirPassengers
hist (Air)
h <- hist (Air)
h
$breaks

Output:

Voorbeeld 4: Break-argument gebruiken om de bin-breedte te wijzigen

Om meer breekpunten tussen de breedte te hebben, verdient het de voorkeur om de waarde in de functie c () te gebruiken.

hist (AirPassengers, breaks=c (100, seq (200, 700, 150)))

Output:

De bovenstaande grafiek neemt de breedte van de balk door opeenvolgende waarden.

Voorbeeld 5: Implementeren van de normale distributiekromme in histogram

We zullen de gegevensset 'zwitsers' gebruiken voor de gegevenswaarden om een ​​grafiek te tekenen. Hier wordt de functiecurve () gebruikt om de distributieregel weer te geven.

Code:

curve (dnorm(x, mean=mean(swiss$Education), sd=sd(swiss$Education)), add=TRUE, col="red")

Output:

Voorbeeld 6: waarschijnlijkheidsverdeling plotten

hist (AirPassengers,
main="Histogram ",
xlab="Passengers",
border="Yellow",
col="pink",
xlim=c(100, 600),
las=2,
breaks=6,
prob = TRUE)

Densiteitsplots maken in histogram in R

De verdeling van een variabele wordt gemaakt met behulp van functiedichtheid (). Hieronder is het voorbeeld met de dataset mtcars. Densiteitsgrafieken helpen bij de verdeling van de vorm.

density () // this function returns the density of the data
library(ggplot2)
d <- density (mtcars $qsec)
plot (d, main=" Density of Miles Per second")
polygon (d, col="orange",>

Output:

Using Line () function
hist (swiss$Examination, freq = FALSE, col=c ("violet”, "Chocolate2"),
xlab="Examination”, las =1, main=" Line Histogram")
lines(density(swiss$Examination), lwd = 4, col = "red")

Het volgende histogram in R geeft de hoogte weer als een onderzoek op de x-as en de dichtheid wordt uitgezet op de y-as.

Output:

Conclusie

Dat is alles over het histogram en precies histogram is de gemakkelijkste manier om de gegevens te begrijpen. Zoals we met een histogram hebben gezien, konden we enkele, meerdere grafieken tekenen, met behulp van bin-breedte, ascorrectie, veranderende kleuren, enz. Het histogram helpt bij het visualiseren van de verschillende vormen van de gegevens. Ten slotte hebben we gezien hoe het histogram het mogelijk maakt om datasets te analyseren en dat middelpunten worden gebruikt als labels van de klasse. Het histogram helpt bij het wijzigen van intervallen om een ​​verbeterde beschrijving van de gegevens te produceren en werkt met name met numerieke gegevens. histogrammen hebben meer de voorkeur in de analyse vanwege hun voordeel van het weergeven van een grote reeks gegevens. Op basis van de output konden we de gegevens visueel scheef trekken en gemakkelijk enkele veronderstellingen maken.

Aanbevolen artikelen

Dit is een gids over het histogram in R. Hier hebben we het concept, de syntaxis en het maken van een histogram in R met voorbeelden besproken. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Histogram voorbeelden
  2. Carrière in R-programmering
  3. Gantt-kaart in Tableau
  4. Carrière in computer programmeren
  5. Hoe maak je een lijngrafiek in R?

Categorie: