Introductie van Scatterplot in R
- R is een open-source programmeertaal die wordt gebruikt voor gegevensstatistieken en gegevensanalyse. Met de toenemende populariteit van data science is R ook populair geworden. Het wordt voornamelijk gebruikt door gegevensstatistici en gegevensmijnwerkers om waardevolle informatie uit gegevens te extraheren. R is een geïnterpreteerde taal en heeft een opdrachtregelinterface, maar er zijn veel grafische gebruikersinterfaces beschikbaar om taken van ontwikkelaars eenvoudiger te maken. R biedt een grote verscheidenheid aan bibliotheken voor het implementeren van statistieken en grafische technieken. R biedt statische afbeeldingen; het laat de gebruiker een gelaagde grafiek bouwen. Het levert dus grafieken van publicatiekwaliteit op en biedt een betere weergave van informatie.
- R biedt een enorme set bibliotheken voor grafische implementatie, maar het populairst is "ggplot2". GGPlot2 een implementatie van "Grafische grammatica" die het maken van complexe grafieken eenvoudig maakt. Het biedt een programmatische interface voor het specificeren van variabelen, hun positie, de kleur van de grafiek, grafiektypen en andere visualisatie-eigenschappen. Hiermee kunt u stap voor stap grafieken maken, zodat u lagen kunt maken voor uitgebreide flexibiliteit en publicatiekwaliteit.
- Een dergelijk type grafiek is Scatterplot in R. Scatterplot in R, ook een spreidingsdiagram genoemd, een type grafiek dat de correlatie tussen twee variabelen toont. Het toont de gegevenspunten in de vorm van punten. Het kan worden getrokken tussen een continue onafhankelijke variabele en een andere variabele die afhankelijk is van de vorige variabele of twee continue onafhankelijke variabelen. Correlatie kan positief, negatief of nul zijn. Als de helling van de grafiek van linksonder naar rechtsboven is, is de correlatie positief. Als de helling van linksboven naar rechtsonder loopt, is de correlatie negatief of, met andere woorden, toename van de waarde van een variabele zal afnemen van de waarde van een andere variabele.
Syntaxis: Er zijn veel pakketten in R voor grafieken, daarom zijn er veel functies voor het maken van een Scatterplot in R. De meest eenvoudige en eenvoudige functie is
plot (x, y)
waar
x geeft de horizontale as of de onafhankelijke continue variabele aan.
y geeft de verticale as of de afhankelijke variabele aan.
Er zijn veel andere parameters om de functie te plotten om de grafiek gemakkelijk te begrijpen te maken.
Hieronder staan enkele met een definitie:
- main: voegt een titel toe aan de grafiek
- xlab: voeg een label toe aan de x-as
- ylab: voegt een label toe aan de y-as
- xlim: specificeert het bereik van de x-as
- ylim: specificeert het bereik van de y-as
- pch: geeft de vorm van punten aan in de spreidingsplot
- cex: geeft de grootte van punten aan
- col: definieert de kleur van punten
Een Scatterplot in R kan ook worden gemaakt met behulp van het pakket ggplot2. Hiervoor moeten we eerst het ggplot2-pakket installeren en laden. Na het toevoegen van het pakket aan de huidige sessie hieronder kan de opdracht worden gebruikt om een Scatterplot in R. te maken
ggplot (gegevensset, aes (x, y, kleur, vorm)) + geom_poin () + labs (x, y, titel)
waar
- de gegevensset is de gegevensset waarvoor een spreidingsdiagram moet worden gemaakt.
- aes () is een esthetische afbeelding in een grafiek. Het beschrijft hoe variabelen in de grafiek worden toegewezen.
- x is de horizontale as of de onafhankelijke continue variabele.
- y is de verticale as of de afhankelijke variabele.
- kleur is om kleur aan punten toe te voegen op basis van groepsvariabele.
- de vorm wordt gebruikt om de vorm in te stellen op basis van groepsvariabele.
- + teken geeft aan dat het commando doorgaat.
- geom_point () is een functie voor spreidingsplot.
- labs (x, y, titel): voeg x label, y label en titel toe aan grafiek.
Maak een spreidingsplot in R
Om een Scatterplot in R te maken, moeten we eerst de dataset laden. Hier gebruiken we de dataset (mtcars) geleverd door R. Laad eerst de dataset in de huidige sessie met behulp van onderstaande opdracht
data (diafragma)
Nadat de gegevensset is geladen, bekijkt u de gegevens om een basiskennis van het type gegevens en kolommen te krijgen met behulp van de onderstaande opdracht.
iris
Nadat we een basiskennis van gegevens hebben verkregen, laten we een eenvoudige spreidingsplot maken met behulp van de plotfunctie
plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 5.0))
Labels toevoegen om de grafiek leesbaar te maken
plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = "Sepal Length", ylab = "Sepal Width", main = "Width versus lengte ')
Nog een parameter toevoegen om de grafiek aantrekkelijker te maken
plot (iris $ Sepal.Length, iris $ Sepal.Width, xlim = c (4.0, 9.0), ylim = c (2.0, 4.0), xlab = "Sepal Length", ylab = "Sepal Width", main = "Width vs Lengte ”, pch = 8, cex = 1, 5, col = 6)
Naast deze 2D-plots kunnen ook matrixplots en 3D-plots worden gemaakt in R.
Scatterplot-matrices
Wanneer we meer dan twee variabelen in een gegevensset hebben en we een correlatie van elke variabele met alle andere variabelen willen vinden, wordt de spreidingsmatrix gebruikt. De meest eenvoudige en eenvoudige opdracht voor de spreidingsmatrix is:
paren (~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width, data = iris, main = ”Scatterplot Matrix”)
De bovenstaande grafiek toont de correlatie tussen gewicht, mpg, dsp en cyl.
Scatterplot 3D
Soms geeft een driedimensionale grafiek een beter begrip van gegevens. Hiervoor biedt R meerdere pakketten, een daarvan is "scatterplot3d". Hieronder staan de opdrachten om “scatterplot3d” in de R-werkruimte te installeren en in de huidige sessie te laden
install.packages ( “scatterplot3d”)
library (scatterplot3d)
Na het laden van de bibliotheek, maakt de uitvoering van de onderstaande opdrachten een 3D-spreidingsdiagram.
attach (iris)
scatterplot3d (Sepal.Length, Sepal.Width, Petal.Length, main = "3D Scatterplot")
Afgezien hiervan zijn er veel andere manieren om een driedimensionaal te creëren. Gebruikers kunnen ook details zoals kleur en titels toevoegen om de grafiek te verbeteren. De gebruiker kan ook een interactieve 3D-spreidingsplot maken met de functie "plot3D (x, y, z)" van het pakket "rgl". Deze functie maakt een ronddraaiend 3D-spreidingsdiagram dat met een muis kan worden gedraaid. Dit geeft een volledig beeld van de correlatie tussen de variabelen.
Conclusie
R is een van de beroemdste talen voor de implementatie van grafische technieken die worden gebruikt door datawetenschappers. Het biedt een breed scala aan pakketten en bibliotheken voor grafische afbeeldingen en een beter begrip van gegevens. "Gglpot2", "ggvis", "rgl", "plot3d", "rooster", "animatie", "gganimate", "cairo" zijn enkele van de pakketten die worden aangeboden door R.
Een spreidingsplot is de eenvoudigste manier om een beter begrip van gegevens te krijgen. Met behulp van deze visualisatie kan de gebruiker leren hoe variabelen aan elkaar gerelateerd zijn, hoe de waarde van een variabele de waarde van andere variabelen verandert, enz. De helling van de grafiek vertelt over de positieve en negatieve relatie tussen de variabelen.
Aanbevolen artikelen
Dit is een gids voor Scatterplot in R. Hier bespreken we een inleiding, scatterplotmatrices, scatterplot 3D, hoe maak je een scatterplot? samen met passende voorbeelden. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -
- Wat is GraphQL
- Scrum Framework
- R Interviewvragen
- Inleiding tot binomiale distributie in R