Introductie van Gradient Boosting Algorithm

De techniek van het doorverbinden van weekstudenten naar een sterke leerling wordt Boosting genoemd. Het gradiëntversterkende algoritmeproces werkt op deze uitvoeringstheorie. Ada boosting-algoritme kan worden afgebeeld om het proces te verklaren en te begrijpen waarmee boosting in de datasets wordt geïnjecteerd.

Beslissingsboom

Een beslissingsboom is een ondersteuningstool voor vonnissen die beslissingen bepaalt door een boomachtige implicatie en de waarschijnlijke gevolgen ervan, samen met mogelijke gebeurtenisresultaten, kosten van hulpbronnen, enz. Te impliceren. Met deze techniek kunnen ze controleverklaringen weergeven die werken op voorwaardelijke resultaten.

Onderzoeksactiviteiten maken veel gebruik van deze beslissingsbomen, specifiek bij de analyse van beslissingen. Het stelt hen ook in staat een doel te bereiken en is ook een bewonderd hulpmiddel bij machine learning.

AdaBoost-algoritme

Het AdaBoost-algoritme begint met het opstellen van een beslissingsboom waarin elke observatie een equivalent gewicht krijgt. Na het beoordelen van de primaire boom, stimuleren we de gewichten van die interpretatie die gecompliceerd zijn om de gewichten te categoriseren en ondergeschikt te maken voor diegenen die moeiteloos te categoriseren zijn. De tweede boom is daarom ontwikkeld op basis van deze bevooroordeelde gegevens. Hier is het ontwerp om beter te worden op de profetie van de primaire boom.

Bereken vervolgens de categorisatiefout van dit innovatieve verzamelingsmodel met 2 bomen en cultiveer de derde boom om de gemodificeerde residuen te voorzien. De bovenstaande procedure wordt in een aantal gevallen herhaald. De waarnemingen die niet goed zijn gedefinieerd in voorgaande bomen worden bepaald met behulp van volgende bomen. Voorspellingen van het afsluitende assemblagemodel zijn bijgevolg het bevooroordeelde cijfer van de voorspellingen beëindigd door de eerdere boommodellen.

Training GBM-model

Om een ​​GBM-model in R-taal te instrueren, moet de GBM-bibliotheek zijn geïnstalleerd en wordt een oproep naar deze geïnstalleerde GBM-bibliotheek vanuit het aanroepende programma gestart. Ook moeten de benodigde argumenten worden opgegeven, de belangrijkste argumenten worden hieronder vermeld,

1. De formule

2. Verdeling van de responsvariabelen

3. Voorspellende variabele

4. Responsvariabele

De gebruikelijke distributies die worden gebruikt in GBM-modellen zijn Bernoulli, Poisson, enz.

Eindelijk zullen de gegevens en de argumenten n.trees naar verwachting worden gespecificeerd. Standaard zal het gbm-model 100 bomen als vanzelfsprekend beschouwen, wat een goede kwaliteitsbenadering van het concert van onze gbm kan zijn.

Voorbeeldcode # 1

install.packages ("gbm")
library(gbm)
GBM <- gbm( formula = response,
distribution = " bernoulli ",
data = train
n.trees = 3000)

Hier is een volgende stap waarbij de feitelijke gegevensset wordt verdeeld in trein- en testgegevensset splitsen en dit wordt bereikt door de functie createDataPartition () te gebruiken. Dit soort splitsen zal in het laatste deel enorm nuttig zijn voor het trainen van de testset met behulp van de getrainde treinset en bovendien worden de werkelijke voorspellingen voor de oorspronkelijke gegevens bepaald.

Voorbeeldcode # 2

TRAIN <- read.csv("Train_dd.csv")
set.seed(77820)
intrain <- createDataPartition( y = Train$survived,
list = false )
Train <- Train(inTrain) Train <- Train(-inTrain)

De volgende stap is om een ​​gbm-model te coachen met behulp van onze trainingsaanbieder. Hoewel alle aanvullende argumenten nauwkeurig zijn wat in de bovenstaande secties is gemeld. er worden nog twee aanvullende argumenten genoemd - interactie, diepte en krimp.

1. Interactiediepte spellen de uiterste diepte van elke boom

2. De meting van de intellectuele snelheid wordt bereikt met behulp van de krimp. hier worden alle aanvullende waarden in de basisleerbomen verlaagd met behulp van deze krimp.

Bovendien maakt deze techniek het mogelijk om bedieningsinstructies weer te geven die werken op voorwaardelijke uitkomsten. Onderzoeksactiviteiten maken veel gebruik van deze beslissingsbomen, specifiek bij de analyse van beslissingen. Het stelt ons ook in staat om een ​​doel te bereiken en is ook een bewonderd hulpmiddel bij machine learning.

GBM-modeluitgang

De uitvoer van het GBM-model bevat details over het totale aantal bomen dat is geïmpliceerd voor de uitvoering. Dit zal helpen om de invloed van de voorspellende variabele in het model te voorspellen, ook de variabele belangrijkheidstabel en modelplot kunnen worden afgeleid uit de samenvattende functie van de GBM-uitvoer.

Voorspellen () methode met GBM-model

Dus om de voorspellingen op de top van de ingetoetste gegevens hierin GBM-model te maken, net als andere modellen, wordt de voorspellingsmethode geïmpliceerd. Ook moet de telling van het totale aantal gebruikte beslissingsbomen handmatig worden vermeld in het argumentgedeelte van de methode.

Voorbeeldcode

predictions <- predict( object = simpleGBMmodel,
newdata = test,
n.trees = 1)

GBM-modelverbeteringen

Boombeperkingen

  • Het is belangrijk dat de zwakke leerlingen vaardigheden omvatten maar zwak blijven.

Gewogen updates

  • Opeenvolgende toevoeging wordt toegepast uit de voorspellingen van elke boom
  • De donatie van elke boom voor dit bedrag moet massaal zijn om het leren van algoritmen te vertragen. dit proces is oproepkrimp.

Stochastisch verloop Boosting-algoritme

Deze equivalente winst kan worden gebruikt om de vereniging geflankeerd door de bomen te verminderen.

Penalized Gradient Boosting-algoritme

Geparametriseerde bomen kunnen worden gevuld met extra beperkingen, de klassieke beslissingsboom kan niet worden gebruikt als zwakke leerlingen. In plaats daarvan wordt een aangepaste regressieboom gebruikt met numerieke waarden in de bladknooppunten.

Aanbevolen artikelen

Dit is een leidraad geweest voor Gradient Boosting Algorithm. Hier bespreken we een inleiding, Decision Tree, AdaBoost-algoritme, Training GBM-model, GBM-modelverbeteringen samen met enkele voorbeeldcode. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -
  1. Beslisboom algoritme
  2. Machine Learning-algoritmen
  3. XGBoost-algoritme
  4. Data Science-algoritmen
  5. C ++ Algoritme | Voorbeelden van C ++ algoritme
  6. Implementatie van Poisson-regressie in R

Categorie: