Regressie versus classificatie - Belangrijkste verschillen en vergelijking

Verschil tussen regressie versus classificatie

Laten we in dit artikel Regressie versus classificatie de belangrijkste verschillen tussen regressie en classificatie bespreken. Machine Learning is grofweg verdeeld in twee soorten: Supervised machine learning en Unsupervised machine learning. In begeleide machine learning hebben we een bekende outputwaarde in gegevensverzameling en we trainen het model op basis hiervan en gebruiken het voor voorspelling, terwijl we bij niet-gecontroleerde machine learning geen bekende set outputwaarden hebben. Laten we bij voorbaat om onderscheid te maken tussen classificatie en regressie begrijpen wat deze terminologie betekent in Machine Learning. Regressie is een algoritme voor machinaal leren onder toezicht dat kan worden getraind om reële nummeruitgangen te voorspellen. Classificatie is een algoritme in machinaal leren onder toezicht dat is getraind om categorieën te identificeren en te voorspellen in welke categorie ze vallen voor nieuwe waarden.

Head to Head-vergelijking tussen regressie versus classificatie (infographics)

Hieronder vindt u de Top 5-vergelijking tussen regressie versus classificatie :

Belangrijkste verschillen tussen regressie versus classificatie

Laten we enkele belangrijke verschillen tussen Regressie versus Classificatie op de volgende punten bespreken:

Bij classificatie gaat het om het voorspellen van een label of categorie. Classificatie-algoritme classificeert de vereiste gegevensset in een van twee of meer labels, een algoritme dat twee klassen of categorieën behandelt, staat bekend als een binaire classifier en als er meer dan twee klassen zijn, kan het als multi-class classificatie-algoritme worden genoemd.
Regressie gaat over het vinden van een optimale functie voor het identificeren van de gegevens van continue reële waarden en het voorspellen van die hoeveelheid. Regressie met meerdere variabelen als invoer of functies om het algoritme te trainen, staat bekend als een multivariate regressieprobleem. Als in het regressieprobleem invoerwaarden afhankelijk zijn of geordend op tijd, staat dit bekend als tijdreeksprognoses.
Het classificatiemodel zal echter ook een continue waarde voorspellen die de waarschijnlijkheid is dat de gebeurtenis zal plaatsvinden die tot die respectieve uitvoerklasse behoort. Hier vertegenwoordigt de waarschijnlijkheid van een gebeurtenis de waarschijnlijkheid van een gegeven voorbeeld dat tot een specifieke klasse behoort. De voorspelde waarschijnlijkheidswaarde kan worden omgezet in een klassenwaarde door het klassenlabel met de hoogste waarschijnlijkheid te selecteren.
Laten we dit beter begrijpen door een voorbeeld te zien, aannemen dat we het model trainen om te voorspellen of een persoon kanker heeft of niet op basis van sommige functies. Als we de kans krijgen dat iemand kanker heeft als 0, 8 en geen kanker als 0, 2, kunnen we de 0, 8-kans omzetten in een klassenlabel met kanker, omdat deze de hoogste kans heeft.
Zoals hierboven vermeld in de classificatie, berekenen we de nauwkeurigheid om te zien hoe goed het classificatiemodel presteert. Laten we eens kijken hoe de berekening wordt uitgevoerd, de nauwkeurigheid in de classificatie kan worden uitgevoerd door de verhouding tussen de juiste voorspellingen en de totale voorspellingen te vermenigvuldigen met 100. Als er 50 voorspellingen zijn gedaan en 10 ervan correct zijn en 40 onjuist zijn, is de nauwkeurigheid 20 %.

Nauwkeurigheid = (Aantal juiste voorspellingen / Totaal aantal voorspellingen) * (100)

Nauwkeurigheid = (10/50) * (100)
Nauwkeurigheid = 20%

Zoals hierboven vermeld in regressie, om te zien hoe goed het regressiemodel de meest populaire manier presteert, is het berekenen van de root mean square error (RMSE). Laten we eens kijken hoe de berekening zal worden uitgevoerd.

De voorspelde regressiemodelwaarde is 4, 9, terwijl de werkelijke waarde 5, 3 is.

De voorspelde regressiemodel is 2, 3, terwijl de werkelijke waarde 2, 1 is.

De voorspelde regressiemodelwaarde is 3, 4, terwijl de werkelijke waarde 2, 9 is.

Nu betekent Root dat een kwadratische fout kan worden berekend met behulp van de formule.

Kwadraat fout is (5.3-4.9) 2 = 0.16, (2.1-2.3) 2 = 0.04, (2.9-3.4) 2 = 0.25

Gemiddelde van de fout in het kwadraat = 0, 45 / 3 = 0, 15

Wortelgemiddelde kwadratische fout = vierkantswortel van 0, 15 = 0, 38

Dat is RMSE = 0, 38. Er zijn veel andere methoden om de efficiëntie van het model te berekenen, maar RMSE wordt het meest gebruikt omdat RMSE de foutscore in dezelfde eenheden biedt als de voorspelde waarde.

Voorbeelden:

De meeste ingenieurs van datawetenschappers vinden het moeilijk om er een te kiezen tussen regressie en classificatie in de beginfase van hun carrière. Laten we, om het gemakkelijk te maken, zien hoe de classificatieproblemen eruit zien en hoe de regressieproblemen eruit zien,

Classificatie

Voorspellen of het morgen zal regenen of niet.
Voorspellen van een persoon moet dat goed kopen of niet om winst te maken.
Voorspellen of een persoon een ziekte heeft of niet.

Als u voor elke situatie hier opmerkt, kan er een Ja of Nee zijn als een uitvoer voorspelde waarde.

regressie

De grondprijs voorspellen.
De prijs van aandelen voorspellen.

Als u hier voor elke situatie opmerkt, hebben de meeste van hen een numerieke waarde als voorspelde uitvoer.

Vergelijkingstabel van regressie versus classificatie

De onderstaande tabel vat de vergelijkingen tussen Regressie versus Classificatie samen :

Parameter	regressie	Classificatie
Type kaartfunctie	In deze algoritmen wordt de toewijzingsfunctie gekozen van het type dat de waarden kan afstemmen op de continue uitvoer.	In deze algoritmen wordt de toewijzingsfunctie gekozen van het type dat de waarden kan afstemmen op de vooraf gedefinieerde klassen.
Betreft voorspelling	Voor dit type algoritmen behoren voorspelde gegevens tot de categorie continue waarden. (Zoals 23, 34, 45, 67, 28)	Voor dit type algoritme's voorspelde gegevens, behoort het tot de categorie van discrete waarden. (Zoals Ja of Nee, behoort tot A of B of C).
Wijze van berekening	Root Mean Square-fout wordt berekend om de beste fit van de dataset te identificeren.	Nauwkeurigheid wordt berekend om de beste pasvorm van de gegevensset te identificeren.
Aard van de voorspelde gegevens	De aard van de voorspelde gegevens is geordend. (Dat zijn de voorspelde waarden in een bepaalde volgorde).	De aard van de voorspelde gegevens is niet geordend. (Dat wil zeggen dat de voorspelde waarden zich niet in een reeks bevinden).
algoritmes	Ondersteunt vectorregressie en regressiebomen worden ook wel Random Forest genoemd. Dit zijn enkele van de populaire voorbeelden van regressie-algoritmen.	Naïeve Bayes, beslissingsbomen en K dichtstbijzijnde buren zijn enkele van de populaire voorbeelden van classificatie-algoritmen.

Conclusie

Dit zijn enkele van de belangrijkste verschillen tussen classificatie en regressie. In sommige gevallen kunnen de bij uitvoeringen voorspelde continue uitvoerwaarden worden gegroepeerd in labels en worden gewijzigd in classificatiemodellen. We moeten dus duidelijk begrijpen welke we moeten kiezen op basis van de situatie en wat we willen dat de voorspelde output is.

Aanbevolen artikelen

Dit is een gids voor het grootste verschil tussen regressie versus classificatie. Hier bespreken we ook de belangrijkste verschillen in regressie versus classificatie met infographics en vergelijkingstabel. U kunt ook de volgende artikelen bekijken voor meer informatie -