Maak een beslisboom - Eenvoudige manieren om beslisboomdiagram te visualiseren

Inleiding tot het maken van een beslisboom

Met de recente snelle groei van de hoeveelheid gegevens die door informatiesystemen wordt gegenereerd om grote gegevenssets te verwerken, is er een dominante behoefte aan de beslissingsboom om de complexiteit van de berekening te verminderen. Een beslissingsboom kan worden beschouwd als de belangrijkste benadering voor het vertegenwoordigen van classificaties. Met andere woorden, we kunnen zeggen dat de gegevens zijn gestructureerd met behulp van een verdeel en heers strategie. tot weten dat we alleen maar hebben onderzocht. Een beslissingsboom is gestructureerd als een kader om de waarden en de waarschijnlijkheid van uitkomstenbeslissingen weer te geven

m elk niveau van het knooppunt, waardoor besluitvormers de juiste voorspellingen kunnen kiezen uit de verschillende ongepaste gegevens. In dit artikel leert u hoe u op eenvoudige wijze een beslissingsboom kunt maken op basis van voorbeeldgegevens.

Wat is de beslissingsboom?

Een beslissingsboom is een binaire hiërarchische structuur die de manier identificeert waarop elk knooppunt een gegevensset splitst op basis van verschillende voorwaarden. Een optimale structuur construeren met een modelbenadering om een responsvariabele te classificeren die de waarde van een doelvariabele voorspelt met eenvoudige beslissingsregels (if-then-else-verklaringen). De aanpak is begeleid leren, meestal gebruikt bij classificatieproblemen en wordt beschouwd als een zeer effectief voorspellend model. Ze worden gebruikt in verschillende toepassingsdomeinen zoals speltheorie, kunstmatige intelligentie, machinaal leren, datamining en gebieden als beveiliging en geneeskunde.

Hoe maak je een beslissingsboom?

Een beslissingsboom wordt op eenvoudige manieren gemaakt met de top-down manier; ze bestaan uit knooppunten die een gericht knooppunt vormen met hoofdknooppunten zonder binnenkomende randen. Alle andere knooppunten worden beslissingsknooppunten genoemd (interne knooppunt en bladknooppunt dat overeenkomt met kenmerk- en klassenlabels) met ten minste één binnenkomende randen. Het hoofddoel van de datasets is om generalisatiefouten te minimaliseren door de optimale oplossing in de beslissingsboom te vinden.

Een voorbeeld van een beslissingsboom wordt hieronder uitgelegd met een voorbeeldgegevensset. Het doel is om te voorspellen of een winst daalt of stijgt met behulp van de kenmerken van het leven en concurrentie. Hier zijn de beslissingsboomvariabelen categorisch (Ja, Nee).

De gegevensset

Leven	Wedstrijd	Type	Winst
Oud	Ja	Software	naar beneden
Oud	Nee	Software	naar beneden
Oud	Nee	Hardware	naar beneden
midden	Ja	Software	naar beneden
midden	Ja	Hardware	naar beneden
midden	Nee	Hardware	omhoog
midden	Nee	Software	omhoog
Nieuw	Ja	Software	omhoog
Nieuw	Nee	Hardware	omhoog
Nieuw	Nee	Software	omhoog

Uit de bovenstaande gegevensset: leven, competitie, Type zijn de voorspellers en het kenmerk winst is het doelwit. Er zijn verschillende algoritmen om een beslissingsboom te implementeren, maar het beste algoritme dat wordt gebruikt om een beslissingsboom te bouwen is ID3, die de nadruk legt op hebzuchtige zoekbenadering. De beslissingsboom volgt de beslissingsregel of disjunctieve normale vorm (^).

Beslissingsboom

Aanvankelijk wordt alle trainingsattribuut als de root beschouwd. De volgorde prioriteit voor het plaatsen van de attributen als root wordt gedaan door de volgende aanpak. Het is bekend dat dit proces attribuutselectie gebruikt om te identificeren welk attribuut op elk niveau een rootnode wordt gemaakt. De boom volgt twee stappen: boombouw, boomsnoei. En de gegevens zijn opgesplitst in alle beslissingsknooppunten.

Informatiewinst

Het is de maat voor de verandering in entropie op basis van de onafhankelijke variabele. De beslissingsboom moet de hoogste informatiewinst vinden.

Entropie

Entropie wordt gedefinieerd als voor de eindige verzameling, de mate van willekeur in gegevens of voorspelbaarheid van gebeurtenissen, als de steekproef vergelijkbare waarden heeft dan is entropie nul en als deze gelijk is verdeeld met de steekproef, is deze één.

Entropie voor de klas

Waar p de kans is om winst te krijgen om 'ja' te zeggen en N is verlies, zeg dan 'Nee'.

daarom is entropie = 1

Nadat de entropiewaarde is berekend, is het noodzakelijk om een root-knooppunt uit het attribuut te kiezen.

Entropie van leeftijd

Volgens de dataset voor Life attribuut hebben we oud = 3 lager, midden = 2 lager en één hoger met betrekking tot het winstlabel.

Leven		Pi	ni	I (pi, ni)
	Oud	0	3	0
	midden	2	2	1
	Nieuw	3	0	0

Gain = Class Entropy - Entropy of Life = 1 - 0.4 = 0.6

Entropie (competitie) = 0, 87

Wedstrijd		Pi	ni	I (pi, ni)
	Ja	1	3	0.8
	Nee	4	2	0.9

Gain = Class Entropy - Entropy of Life = 1 - 0.87 = 0.12

Nu doet het probleem zich voor in het attribuut Leven, waarbij het midden een gelijke waarschijnlijkheid heeft, zowel op als neer. daarom is entropie 1. op dezelfde manier wordt het opnieuw voor het typekenmerk berekend, is de entropie 1 en is de winst 0. Nu is een volledige beslissing genomen om een nauwkeurig resultaat voor de middenwaarde te krijgen.

Voordelen van beslissingsboom

Ze zijn gemakkelijk te begrijpen en de gegenereerde regels zijn flexibel. Heeft weinig moeite voor het voorbereiden van gegevens.
Een visuele benadering om beslissingen en resultaten weer te geven, is erg nuttig.
De beslissingsboom behandelt de trainingsgegevensset met fouten en ontbrekende waarden.
Ze kunnen omgaan met discrete waarde en een numeriek attribuut. Het werkt categorische en continue variabelen voor invoer en uitvoer.
Ze zijn een handig hulpmiddel voor het zakelijke domein dat na analyse onder bepaalde voorwaarden beslissingen moet nemen.

Nadelen van beslissingsboom

Leerlingen kunnen een complexe beslissingsboom maken, afhankelijk van getrainde gegevens. dit proces wordt overfitting genoemd, een moeilijk proces in beslissingsboommodellen.
De waarden die de voorkeur hebben zijn categorisch, als deze continu is, verliest de beslissingsboom informatie die tot foutgevoelig leidt. Exponentiële berekening groei is hoger tijdens het analyseren.
Veel klassenlabels leiden tot onjuiste complexe berekeningen en geven een lage voorspellingsnauwkeurigheid van de gegevensset.
Informatie verkregen in het DT-algoritme geeft een bevooroordeelde reactie op categorische hogere waarden.

Conclusie

Daarom, om te besluiten, bieden beslisbomen een praktische en gemakkelijke leermethode en staan ze ook bekend als efficiënte hulpmiddelen voor machine learning, omdat ze in korte tijd goed presteren met grote datasets. Het is een leertaak die een statistische benadering gebruikt om een algemene conclusie te trekken. Nu wordt beter begrepen waarom de beslissingsboom wordt gebruikt in voorspellende modellen en voor de datawetenschappers zijn ze het krachtige hulpmiddel.

Aanbevolen artikelen

Dit is een handleiding voor het maken van een beslisboom. Hier bespreken we hoe u een beslissingsboom kunt maken, samen met verschillende voor- en nadelen. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -

Overzicht van beslissingsboom in R
Wat is het beslissingsboomalgoritme?
Inleiding tot hulpmiddelen voor kunstmatige intelligentie
Top 10 vragen over kunstmatige intelligentie

Maak een beslisboom - Eenvoudige manieren om beslisboomdiagram te visualiseren

Inhoudsopgave:

Inleiding tot het maken van een beslisboom

Wat is de beslissingsboom?

Hoe maak je een beslissingsboom?

De gegevensset

Beslissingsboom

Informatiewinst

Entropie

Entropie voor de klas

Entropie van leeftijd

Voordelen van beslissingsboom

Nadelen van beslissingsboom

Conclusie

Aanbevolen artikelen

Schuld versus aandelenfinanciering - Top 8 verschillen die u moet weten

Schuld versus eigen vermogen - Top 5 nuttige verschillen (met infographics)

Beslisboom in machinaal leren - Split creatie en een boom bouwen

Beslisboom in datamining - Toepassing en onmacht van beslissingsboom

Formule dekkingsgraad schuldendienst - Calculator (Excel-sjabloon)

8 meest populaire stappen nichemarktstrategie - Ideeën - Voordelen

Top 7 stappen om door te breken in een nieuw carrièrepad zonder ervaring

Nmap-opdrachten - Typen Nmap-opdrachten met voorbeelden

Knooppuntopdrachten - Concepten - Basis tot geavanceerde commando's

Vermogenswaarde formule - Calculator (voorbeelden met Excel-sjabloon)

Een vorm vullen met een foto in Photoshop

Vormen en vormen van Photoshop Essentials

Nieuwe functies in Photoshop CS4 - Documentvensters met tabbladen

Typ op een pad in Photoshop

Hoe afbeeldingen in een cirkelvorm bij te snijden met Photoshop