Inleiding tot ensemble-methoden in machinaal leren

In dit artikel zullen we een overzicht zien van Ensemble-methoden in Machine Learning. Ensemble leren is een combinatie van diverse technieken voor machinaal leren in een voorspellend model om de voorspelling te verbeteren. Ensemble-leren wordt verworven om variantie in de voorspellende gegevens te verminderen. Dit type leren is bedoeld om de vertekening van het model te minimaliseren. Ensemble learning is een multimodelsysteem waarin verschillende classificaties of technieken strategisch worden gecombineerd om statistieken van het complexe probleem met een grotere nauwkeurigheid te classificeren of te voorspellen. Het doel van dergelijk leren is om de kans op een slechte selectie uit het model te minimaliseren. Het benoemt het vertrouwen in de beslissing van het model. Het idee om optimale functies te selecteren is gerealiseerd in het leren van ensembles.

Soorten ensemble-methoden in machinaal leren

Ensemble-methoden helpen om meerdere modellen te maken en deze vervolgens te combineren om verbeterde resultaten te produceren. Sommige ensemble-methoden zijn onderverdeeld in de volgende groepen:

1. Sequentiële methoden

In dit soort Ensemble-methode zijn er opeenvolgend gegenereerde basisleerlingen waarin gegevensafhankelijkheid zich bevindt. Alle andere gegevens in de basisleerling zijn afhankelijk van eerdere gegevens. Dus de eerder verkeerd gelabelde gegevens zijn afgestemd op hun gewicht om de prestaties van het algehele systeem te verbeteren.

Voorbeeld : Boosting

2. Parallelle methode

In dit soort Ensemble-methode wordt de basislezer gegenereerd in parallelle volgorde waarin er geen gegevensafhankelijkheid is. Alle gegevens in de basisleerling worden onafhankelijk gegenereerd.

Voorbeeld : stapelen

3. Homogeen ensemble

Een dergelijke ensemble-methode is een combinatie van dezelfde typen classificaties. Maar de gegevensset is verschillend voor elke classificator. Hierdoor zal het gecombineerde model nauwkeuriger werken na de aggregatie van de resultaten van elk model. Dit type ensemble-methode werkt met een groot aantal gegevenssets. In de homogene methode is de methode voor het selecteren van functies hetzelfde voor verschillende trainingsgegevens. Het is rekenkundig duur.

Voorbeeld: populaire methoden zoals zakken en oppeppen komen in het homogene ensemble.

4. Heterogene ensemble

Een dergelijke ensemble-methode is de combinatie van verschillende soorten classificaties of machine learning-modellen waarbij elke classificatie op dezelfde gegevens is gebaseerd. Een dergelijke methode werkt voor kleine datasets. In heterogeen is de methode voor het selecteren van functies verschillend voor dezelfde trainingsgegevens. Het totale resultaat van deze ensemble-methode wordt uitgevoerd door het gemiddelde te nemen van alle resultaten van elk gecombineerd model.

Voorbeeld : stapelen

Technische classificatie van ensemble-methoden

Hieronder vindt u de technische classificatie van Ensemble-methoden:

1. Zakken

Deze ensemble-methode combineert twee machine learning-modellen, namelijk Bootstrapping en Aggregation in één ensemble-model. Het doel van de verpakkingsmethode is om de grote variantie van het model te verminderen. De beslissingsbomen hebben variantie en een lage bias. De grote gegevensset is (zeg 1000 monsters) gesubmonsterd (zeg 10 submonsters bevatten elk 100 steekproeven van gegevens). De meervoudige beslissingsbomen zijn gebaseerd op elke subvoorbeeld trainingsgegevens. Terwijl de gesubmonsterde gegevens op de verschillende beslissingsbomen worden gebombardeerd, is de zorg voor het overpassen van trainingsgegevens op elke beslissingsboom verminderd. Voor de efficiëntie van het model is elk van de individuele beslissingsbomen diep gegroeid met gesamplede trainingsgegevens. De resultaten van elke beslissingsboom worden verzameld om de uiteindelijke voorspelling te begrijpen. De variantie van de geaggregeerde gegevens neemt af. De nauwkeurigheid van de voorspelling van het model in de verpakkingsmethode hangt af van het aantal gebruikte beslissingsboom. De verschillende submonsters van voorbeeldgegevens worden willekeurig gekozen bij vervanging. De output van elke boom heeft een hoge correlatie.

2. Boosting

Het stimulerende ensemble combineert ook verschillende hetzelfde type classificator. Boosting is een van de opeenvolgende ensemble-methoden waarbij elk model of classifier wordt uitgevoerd op basis van functies die door het volgende model worden gebruikt. Op deze manier maakt de boost-methode een sterker leerlingmodel uit zwakke leerlingmodellen door hun gewichten te middelen. Met andere woorden, een sterker getraind model hangt af van de meerdere zwak getrainde modellen. Een zwakke leerling of een door slijtage getraind model is er een dat veel minder gecorreleerd is met echte classificatie. Maar de volgende zwakke leerling is iets meer gecorreleerd met echte classificatie. De combinatie van zulke verschillende zwakke leerlingen geeft een sterke leerling die goed is gecorreleerd met de echte classificatie.

3. Stapelen

Deze methode combineert ook meerdere classificaties of regressietechnieken met behulp van een meta-classifier of meta-model. De modellen op lagere niveaus worden getraind met de complete trainingsdataset en vervolgens wordt het gecombineerde model getraind met de resultaten van modellen op lagere niveaus. In tegenstelling tot boosting, wordt elk model op een lager niveau parallel getraind. De voorspelling van de modellen op een lager niveau wordt gebruikt als invoer voor het volgende model als de trainingsdataset en vormt een stapel waarin de bovenste laag van het model meer getraind is dan de onderste laag van het model. Het toplaagmodel heeft een goede voorspellingsnauwkeurigheid en ze zijn gebaseerd op modellen op een lager niveau. De stapel blijft toenemen totdat de beste voorspelling wordt uitgevoerd met een minimale fout. De voorspelling van het gecombineerde model of metamodel is gebaseerd op de voorspelling van de verschillende zwakke modellen of modellen met een lagere laag. Het richt zich op het produceren van minder bias-model.

4. Willekeurig bos

Het willekeurige bos verschilt enigszins van het zakken omdat het diepe bomen gebruikt die op bootstrap-monsters zijn aangebracht. De output van elke lok is gecombineerd om variantie te verminderen. Terwijl elke boom groeit, in plaats van een bootstrap-voorbeeld te genereren op basis van observatie in de gegevensset, nemen we ook een steekproef van de gegevensset op basis van functies en gebruiken we slechts een willekeurige subset van een dergelijk monster om de boom te bouwen. Met andere woorden, het bemonsteren van de gegevensset gebeurt op basis van functies die de correlatie tussen verschillende outputs verminderen. Het willekeurige forest is goed om te bepalen of er gegevens ontbreken. Willekeurig bos betekent willekeurige selectie van een subset van een steekproef die de kans verkleint om gerelateerde voorspellingswaarden te krijgen. Elke boom heeft een andere structuur. Willekeurig bos resulteert enigszins in een toename van de vertekening van het bos, maar door het gemiddelde van de minder gerelateerde voorspelling van verschillende bomen neemt de resulterende variantie af en worden de prestaties over het algemeen beter.

Conclusie

De multi-modelbenadering van ensemble wordt gerealiseerd door diepgaande leermodellen waarin complexe gegevens zijn bestudeerd en verwerkt via dergelijke verschillende combinaties van de classificator om een ​​betere voorspelling of classificatie te krijgen. De voorspelling van elk model bij het leren van ensembles moet meer ongecorreleerd zijn. Hierdoor blijven de bias en variantie van het model zo laag mogelijk. Het model zal efficiënter zijn en de output voorspellen bij minimale fout. Het ensemble is een begeleid leeralgoritme omdat het model eerder is getraind met de set gegevens om de voorspelling te doen. Bij het leren van ensembles moet het aantal componentclassificaties hetzelfde zijn als klassenlabels om een ​​hoge nauwkeurigheid te bereiken.

Aanbevolen artikelen

Dit is een gids voor ensemble-methoden in machine learning. Hier bespreken we de belangrijke soorten ensemble-methoden in machinaal leren, samen met de technische classificatie. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Inleiding tot ensemble-technieken
  2. Machine Learning levenscyclus met voordelen
  3. Machine Learning-algoritmen
  4. Top 24 sollicitatievragen voor machine learning

Categorie: