Inleiding tot het maken van een beslisboom

Met de recente snelle groei van de hoeveelheid gegevens die door informatiesystemen wordt gegenereerd om grote gegevenssets te verwerken, is er een dominante behoefte aan de beslissingsboom om de complexiteit van de berekening te verminderen. Een beslissingsboom kan worden beschouwd als de belangrijkste benadering voor het vertegenwoordigen van classificaties. Met andere woorden, we kunnen zeggen dat de gegevens zijn gestructureerd met behulp van een verdeel en heers strategie. tot weten dat we alleen maar hebben onderzocht. Een beslissingsboom is gestructureerd als een kader om de waarden en de waarschijnlijkheid van uitkomstenbeslissingen weer te geven

m elk niveau van het knooppunt, waardoor besluitvormers de juiste voorspellingen kunnen kiezen uit de verschillende ongepaste gegevens. In dit artikel leert u hoe u op eenvoudige wijze een beslissingsboom kunt maken op basis van voorbeeldgegevens.

Wat is de beslissingsboom?

Een beslissingsboom is een binaire hiërarchische structuur die de manier identificeert waarop elk knooppunt een gegevensset splitst op basis van verschillende voorwaarden. Een optimale structuur construeren met een modelbenadering om een ​​responsvariabele te classificeren die de waarde van een doelvariabele voorspelt met eenvoudige beslissingsregels (if-then-else-verklaringen). De aanpak is begeleid leren, meestal gebruikt bij classificatieproblemen en wordt beschouwd als een zeer effectief voorspellend model. Ze worden gebruikt in verschillende toepassingsdomeinen zoals speltheorie, kunstmatige intelligentie, machinaal leren, datamining en gebieden als beveiliging en geneeskunde.

Hoe maak je een beslissingsboom?

Een beslissingsboom wordt op eenvoudige manieren gemaakt met de top-down manier; ze bestaan ​​uit knooppunten die een gericht knooppunt vormen met hoofdknooppunten zonder binnenkomende randen. Alle andere knooppunten worden beslissingsknooppunten genoemd (interne knooppunt en bladknooppunt dat overeenkomt met kenmerk- en klassenlabels) met ten minste één binnenkomende randen. Het hoofddoel van de datasets is om generalisatiefouten te minimaliseren door de optimale oplossing in de beslissingsboom te vinden.

Een voorbeeld van een beslissingsboom wordt hieronder uitgelegd met een voorbeeldgegevensset. Het doel is om te voorspellen of een winst daalt of stijgt met behulp van de kenmerken van het leven en concurrentie. Hier zijn de beslissingsboomvariabelen categorisch (Ja, Nee).

De gegevensset

Leven Wedstrijd Type Winst
Oud Ja Software naar beneden
Oud Nee Software naar beneden
Oud Nee Hardware naar beneden
midden Ja Software naar beneden
midden Ja Hardware naar beneden
midden Nee Hardware omhoog
midden Nee Software omhoog
Nieuw Ja Software omhoog
Nieuw Nee Hardware omhoog
Nieuw Nee Software omhoog

Uit de bovenstaande gegevensset: leven, competitie, Type zijn de voorspellers en het kenmerk winst is het doelwit. Er zijn verschillende algoritmen om een ​​beslissingsboom te implementeren, maar het beste algoritme dat wordt gebruikt om een ​​beslissingsboom te bouwen is ID3, die de nadruk legt op hebzuchtige zoekbenadering. De beslissingsboom volgt de beslissingsregel of disjunctieve normale vorm (^).

Beslissingsboom

Aanvankelijk wordt alle trainingsattribuut als de root beschouwd. De volgorde prioriteit voor het plaatsen van de attributen als root wordt gedaan door de volgende aanpak. Het is bekend dat dit proces attribuutselectie gebruikt om te identificeren welk attribuut op elk niveau een rootnode wordt gemaakt. De boom volgt twee stappen: boombouw, boomsnoei. En de gegevens zijn opgesplitst in alle beslissingsknooppunten.

Informatiewinst

Het is de maat voor de verandering in entropie op basis van de onafhankelijke variabele. De beslissingsboom moet de hoogste informatiewinst vinden.

Entropie

Entropie wordt gedefinieerd als voor de eindige verzameling, de mate van willekeur in gegevens of voorspelbaarheid van gebeurtenissen, als de steekproef vergelijkbare waarden heeft dan is entropie nul en als deze gelijk is verdeeld met de steekproef, is deze één.

Entropie voor de klas

Waar p de kans is om winst te krijgen om 'ja' te zeggen en N is verlies, zeg dan 'Nee'.

daarom is entropie = 1

Nadat de entropiewaarde is berekend, is het noodzakelijk om een ​​root-knooppunt uit het attribuut te kiezen.

Entropie van leeftijd

Volgens de dataset voor Life attribuut hebben we oud = 3 lager, midden = 2 lager en één hoger met betrekking tot het winstlabel.

Leven Pi ni I (pi, ni)
Oud 0 3 0
midden 2 2 1
Nieuw 3 0 0

Gain = Class Entropy - Entropy of Life = 1 - 0.4 = 0.6

Entropie (competitie) = 0, 87

Wedstrijd Pi ni I (pi, ni)
Ja 1 3 0.8
Nee 4 2 0.9

Gain = Class Entropy - Entropy of Life = 1 - 0.87 = 0.12

Nu doet het probleem zich voor in het attribuut Leven, waarbij het midden een gelijke waarschijnlijkheid heeft, zowel op als neer. daarom is entropie 1. op dezelfde manier wordt het opnieuw voor het typekenmerk berekend, is de entropie 1 en is de winst 0. Nu is een volledige beslissing genomen om een ​​nauwkeurig resultaat voor de middenwaarde te krijgen.

Voordelen van beslissingsboom

  • Ze zijn gemakkelijk te begrijpen en de gegenereerde regels zijn flexibel. Heeft weinig moeite voor het voorbereiden van gegevens.
  • Een visuele benadering om beslissingen en resultaten weer te geven, is erg nuttig.
  • De beslissingsboom behandelt de trainingsgegevensset met fouten en ontbrekende waarden.
  • Ze kunnen omgaan met discrete waarde en een numeriek attribuut. Het werkt categorische en continue variabelen voor invoer en uitvoer.
  • Ze zijn een handig hulpmiddel voor het zakelijke domein dat na analyse onder bepaalde voorwaarden beslissingen moet nemen.

Nadelen van beslissingsboom

  • Leerlingen kunnen een complexe beslissingsboom maken, afhankelijk van getrainde gegevens. dit proces wordt overfitting genoemd, een moeilijk proces in beslissingsboommodellen.
  • De waarden die de voorkeur hebben zijn categorisch, als deze continu is, verliest de beslissingsboom informatie die tot foutgevoelig leidt. Exponentiële berekening groei is hoger tijdens het analyseren.
  • Veel klassenlabels leiden tot onjuiste complexe berekeningen en geven een lage voorspellingsnauwkeurigheid van de gegevensset.
  • Informatie verkregen in het DT-algoritme geeft een bevooroordeelde reactie op categorische hogere waarden.

Conclusie

Daarom, om te besluiten, bieden beslisbomen een praktische en gemakkelijke leermethode en staan ​​ze ook bekend als efficiënte hulpmiddelen voor machine learning, omdat ze in korte tijd goed presteren met grote datasets. Het is een leertaak die een statistische benadering gebruikt om een ​​algemene conclusie te trekken. Nu wordt beter begrepen waarom de beslissingsboom wordt gebruikt in voorspellende modellen en voor de datawetenschappers zijn ze het krachtige hulpmiddel.

Aanbevolen artikelen

Dit is een handleiding voor het maken van een beslisboom. Hier bespreken we hoe u een beslissingsboom kunt maken, samen met verschillende voor- en nadelen. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

  1. Overzicht van beslissingsboom in R
  2. Wat is het beslissingsboomalgoritme?
  3. Inleiding tot hulpmiddelen voor kunstmatige intelligentie
  4. Top 10 vragen over kunstmatige intelligentie

Categorie: