Inleiding tot regressieanalyse
Regressieanalyse is een voorspellend modelleringsalgoritme om de uitkomst van een variabele te voorspellen en de variabelen (onafhankelijke variabelen) te identificeren die bijdragen aan of afhankelijk zijn van de uitkomstvariabele (doel- of afhankelijke variabele). Eenvoudig gezegd is het een techniek om de relatie tussen de onafhankelijke en afhankelijke variabelen te vinden om de uitkomst te produceren. Het is eenvoudig om het resultaat te gebruiken en te interpreteren. Er zijn veel soorten regressietechnieken die op grote schaal worden gebruikt in verschillende sectoren. Enkele voorbeelden van regressie zijn het voorspellen van het salaris van een werknemer of de omzet van een bedrijf in een jaar.
Hoe werkte de regressieanalyse?
Er zijn veel soorten regressietechnieken die worden gebruikt, rekening houdend met verschillende factoren en resultaten.
- Lineaire regressie
- Logistieke regressie
- Lasso / Ridge-regressie
- Polynomiale regressie
Enkele belangrijke statistische regressietests die in verschillende sectoren worden gebruikt, worden hieronder gegeven:
1. Lineaire regressie
Dit wordt gebruikt wanneer de uitkomstvariabele lineair afhankelijk is van de onafhankelijke variabelen. Het wordt normaal gebruikt wanneer we geen grote gegevensset hebben. Het is ook gevoelig voor uitbijters, dus als de gegevensset uitbijters bevat, is het beter om ze te behandelen voordat lineaire regressie wordt toegepast. Er zijn enkele en multi-variabele regressietechnieken. Simple Linear Regression is de analyse wanneer de uitkomstvariabele lineair afhankelijk is van een enkele onafhankelijke variabele. Simple Linear Regression volgt de vergelijking van een rechte lijn die hieronder wordt gegeven:
Y=mx+c
Waar,
Y = Variabele doel, afhankelijk of criterium
x = Onafhankelijke of voorspellende variabele
m = Helling of regressiecoëfficiënt
c = constant
Multi-variabele Lineaire regressie definieert de relatie tussen de uitkomstvariabele en meer dan één onafhankelijke variabele. Het volgt de onderstaande vergelijking van een rechte lijn waarbij afhankelijke variabelen de lineaire combinatie zijn van alle onafhankelijke variabelen:
Y= m1x1+m2x2+m3x3+…mnan+c
Waar,
Y = Variabele doel, afhankelijk of criterium
x1, x2, x3 … xn = Onafhankelijke of voorspellende variabelen
m1, m2, m3 … mn = Helling- of regressiecoëfficiënten van respectieve variabelen
c = constant
Lineaire regressie volgt het principe van de minste vierkante methode. Deze methode stelt dat een best passende lijn wordt gekozen door de som van de kwadratische fout te minimaliseren. De best passende lijn wordt gekozen waar de som van de kwadratische fout tussen de waargenomen gegevens en de lijn minimaal is.
Er zijn enkele veronderstellingen waarmee rekening moet worden gehouden voordat lineaire regressie op de gegevensset wordt toegepast.
- Er moet een lineair verband zijn tussen onafhankelijke en afhankelijke variabelen.
- Er moet geen of een kleine multicollineariteit zijn tussen de onafhankelijke variabelen. Multicollineariteit wordt gedefinieerd als een fenomeen waarbij er een hoge correlatie is tussen de onafhankelijke variabelen. We kunnen multicollineariteit behandelen door één variabele te laten vallen die gecorreleerd is of twee variabelen als één variabele behandelt.
- Homoscedasticiteit: het wordt gedefinieerd als een toestand waarin fouttermen willekeurig over de lijn moeten worden verdeeld in de regressieanalyse. Er zou geen patroon over de lijn moeten zijn als er een bepaald patroon is, dan wordt gezegd dat de gegevens heteroscedastisch zijn.
- Alle variabelen moeten normaal worden verdeeld, wat we zien door een QQ-plot te plotten. Als de gegevens niet normaal worden verspreid, kunnen we alle niet-lineaire transformatiemethoden gebruiken om deze te behandelen.
Het is dus altijd raadzaam om de aannames te testen terwijl u lineaire regressie toepast om een goede nauwkeurigheid en een correct resultaat te krijgen.
2. Logistische regressie
Deze regressietechniek wordt gebruikt wanneer de doel- of uitkomstvariabele categorisch of binair van aard is. Het belangrijkste verschil tussen lineaire en logistieke regressie ligt in de doelvariabele, in lineaire regressie moet deze continu zijn, terwijl deze in logistiek categorisch moet zijn. De uitkomstvariabele mag maar twee klassen hebben, niet meer dan dat. Enkele voorbeelden zijn spamfilters in e-mails (spam of niet), fraudedetectie (fraude / geen fraude), enz. Het werkt op basis van waarschijnlijkheid. Het kan in twee categorieën worden ingedeeld door de drempelwaarde in te stellen.
Bijvoorbeeld: als er twee categorieën A, B zijn en we de drempelwaarde instellen op 0, 5, wordt de waarschijnlijkheid boven 0, 5 beschouwd als een categorie en onder 0, 5 wordt een andere categorie. Logistische regressie volgt een S-vormige curve. Voordat we het logistische regressiemodel bouwen, moeten we de gegevensset opsplitsen in training en testen. Omdat de doelvariabele categorisch of binair is, moeten we ervoor zorgen dat er een goede klassenbalans is in de trainingsset. Als er klasse-onbalans is, kan dit worden behandeld met behulp van verschillende methoden zoals hieronder vermeld:
- Monsterneming: bij deze techniek wordt de klasse met minder rijen gesampled om overeen te komen met het aantal rijen van de meerderheidsklasse.
- Downsampling: bij deze techniek wordt de klasse met meer rijen gesampled om overeen te komen met het aantal rijen van de minderheidsklasse.
Er zijn enkele belangrijke punten die belangrijk zijn om te begrijpen voordat u het logistieke regressiemodel op de gegevenssets toepast:
- De doelvariabele moet binair van aard zijn. Als er meer dan 2 klassen in de doelvariabele staan, staat deze bekend als Multinomial Logistic Regression .
- Er moet geen of weinig multicollineariteit zijn tussen de onafhankelijke variabelen.
- Het vereist een enorme steekproefomvang om te werken.
- Er moet een lineair verband zijn tussen de onafhankelijke variabelen en het log met kansen.
Voordelen van regressie
Er zijn veel voordelen van regressieanalyse. In plaats van ons onderbuikgevoel te overwegen en de uitkomst te voorspellen, kunnen we regressieanalyse gebruiken en geldige punten tonen voor mogelijke uitkomsten.
Sommige daarvan worden hieronder vermeld:
- Om de omzet en omzet in elke sector voor kortere of langere periodes te voorspellen.
- Om het klantverlooppercentage van elke branche te voorspellen en de geschikte maatregelen te vinden om deze te verminderen.
- De voorraadniveaus van het magazijn begrijpen en voorspellen.
- Om erachter te komen of een nieuw product op de markt brengen succesvol zal zijn of niet.
- Om te voorspellen of een klant al dan niet in gebreke blijft.
- Om te voorspellen of een klant een product zal kopen of niet.
- Detectie van fraude of spam
Conclusie
Er zijn verschillende evaluatiemetrieken die worden overwogen na toepassing van het model. Hoewel er veronderstellingen zijn die moeten worden getest voordat het model wordt toegepast, kunnen we de variabelen altijd wijzigen met behulp van verschillende wiskundige methoden en de prestaties van het model verbeteren.
Aanbevolen artikelen
Dit is een handleiding voor regressieanalyse. Hier bespreken we de inleiding tot regressieanalyse, hoe werkte de regressieanalyse en de voordelen van regressie. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie–
- Lineaire regressieanalyse
- Hulpmiddelen voor gegevensanalyse
- Hulpmiddelen voor het testen van regressie
- Big Data Analytics
- Regressie versus classificatie | Belangrijkste verschillen