Inleiding tot KNN-algoritme in R

In het KNN-algoritme in R staat KNN voor K dichtstbijzijnde buuralgoritme en is R een programmeertaal. Er wordt gezegd dat dit de eenvoudigste van het machine learning-algoritme is. KNN is een bewaakt algoritme dat gegevenspunten classificeert in een doelklasse door functies te vergelijken met de dichtstbijzijnde buur.

Voorbeeld: Laten we aannemen dat u een aanraakscherm en een toetsenbordtelefoon wilt classificeren. Er zijn verschillende factoren die een rol spelen bij het differentiëren van beide telefoons. De factor die beide telefoons onderscheidt, is het toetsenbord. Dus wanneer we een datapunt (telefoon) ontvangen. We vergelijken het met de vergelijkbare functies van de gegevenspunten van de buren om het te classificeren als een toetsenbord of een aanraaktelefoon.

Kenmerken van KNN-algoritme

Hier zullen we de kenmerken van KNN-algoritme bestuderen:

  • KNN-algoritme gebruikt invoergegevens om de ingestelde gegevenspunten van de uitvoer te voorspellen.
  • Het algoritme kan op verschillende soorten problemen worden toegepast.
  • Richt zich op de gelijkenis van functies om de gegevens te classificeren.
  • KNN-algoritme verwerkt realistische gegevens en maakt geen veronderstellingen over de gegevenspunten.
  • KNN onthoudt de trainingsdataset in plaats van intuïtief te zijn. Ook kan worden gezegd dat het een luie aanpak heeft.
  • Het kan classificatie- en regressieproblemen oplossen.

Problemen in KNN-algoritme aanpakken in R

Volgend adresprobleem:

1. Classificatieprobleem

In het classificatieprobleem zijn de waarden discreet, net als of je graag pizza eet met toppings of zonder. Er is een gemeenschappelijke basis. KNN Algorithm helpt bij het oplossen van een dergelijk probleem.

2. Regressieprobleem

Het regressieprobleem komt in beeld wanneer we een afhankelijke variabele en een onafhankelijke variabele hebben. Bijv: BMI-index. Gewoonlijk bevat elke rij een observatie- of gegevenspunt en een voorbeeld.

Het KNN-algoritme in R

Laten we eens kijken naar de stappen in het algoritme dat moet worden gevolgd:

Stap 1: Laad de invoergegevens.

Stap 2: Initialiseer K met het aantal dichtstbijzijnde buren.

Stap 3: Berekening van de gegevens (dwz afstand tussen de huidige en de dichtstbijzijnde buur)

Stap 4: De afstand toevoegen aan de huidige bestelde gegevensset.

Stap 5: K-items ophalen en labelen.

Stap 6: Retourneer de gemiddelde waarde voor het regressieprobleem.

Stap 7: Retourneer de moduswaarde voor classificatieproblemen.

Punten om te onthouden bij het implementeren van het KNN-algoritme

  • We moeten ervoor zorgen dat de K-waarde groter is dan één, deze belemmert in de voorspelling om nauwkeurig te zijn.
  • Hoe meer de K-waarde, des te nauwkeuriger de voorspelling kan worden veroorzaakt door de meerderheid.
  • Het heeft de voorkeur om K als een oneven nummer te hebben. Anders kan dit leiden tot een tie-breaker.

KNN Pseudocode

In de onderstaande formule vertegenwoordigt variabelen en vertegenwoordigt gegevenspunten waar (i = 1, 2, 3….)

Set(, )

Gebruik Cases

Hier volgen de use cases in KNN-algoritme in R:

1. Producten vergelijken en helpen bij winkelaanbevelingen

Wanneer we een laptop of computer kopen via een online e-commerce website, zien we ook winkelaanbevelingen zoals het kopen van antivirussoftware of luidsprekers. Dit alles is omdat wanneer een vorige klant een laptop koopt, deze meestal samen met antivirus of luidsprekers wordt gekocht. Machine learning helpt bij e-commerce aanbevelingen.

2. Aanbevelingen voor voedsel

Machine learning helpt ook bij aanbevelingen op basis van eerder besteld eten en suggereert ook restaurants dienovereenkomstig.

Voorbeeld van het KNN-algoritme

Hier volgen de voorbeelden van het KNN-algoritme:

1. Gegevens importeren

Laten we de dummy-gegevens over ons nemen om de grootte van een T-shirt van een man te voorspellen met behulp van lengte en gewicht.

Hoogte (cms) Gewicht (kg) Grootte
140 58 S
140 59 S
140 63 S
150 59 M
152 60 M
153 60 M
154 61 M
155 64 M
156 64 M
157 61 M
160 62 L
161 65 L
162 62 L
163 63 L
163 66 L
165 63 L
165 64 L
165 68 L

2. De overeenkomsten zoeken door afstand te berekenen

We kunnen zowel Manhattan als Euclidische afstand gebruiken omdat de gegevens continu zijn. We berekenen de afstand tussen het nieuwe monster en de trainingsdataset en vinden vervolgens K-dichtstbijzijnde.

Voorbeeld: Laten we zeggen dat 'Raj' 165 cm hoog is en 63 kg weegt. We berekenen de Euclidische afstand met behulp van de eerste waarneming met de nieuwe steekproef: SQRT ((165-140) 2 + (63-58) 2)

3. Het vinden van K-dichtstbijzijnde buren

Laten we aannemen dat K = 4. Er zijn 4 klanten waarvan 3 middelgrote en 1 grote. De beste voorspelling is middelgrote Raj.

Verschil tussen KNN en K-gemiddelde

Het volgende is het verschil:

  • KNN is een bewaakt algoritme (afhankelijke variabele) terwijl K-gemiddelde een niet-gecontroleerd algoritme is (geen afhankelijke variabele).
  • K-mean maakt gebruik van een clusteringstechniek om datapunten te splitsen waardoor K-clusters worden gevormd. KNN gebruikt K-dichtstbijzijnde buren om datapunten te classificeren en te combineren.

Voor- en nadelen van KNN

Hieronder volgen de voordelen:

  • KNN-algoritme is veelzijdig en kan worden gebruikt voor classificatie- en regressieproblemen.
  • Er is geen voorafgaand model nodig om het KNN-algoritme te bouwen.
  • Eenvoudig en gemakkelijk te implementeren.

Hieronder volgen de nadelen:

  • Het algoritme naarmate het aantal monsters toeneemt (dwz het aantal variabelen)

Aanbevolen artikelen

Dit is een gids voor KNN-algoritme in R. Hier bespreken we functies, voorbeelden, pseudocode, te volgen stappen in KNN-algoritme. U kunt ook onze andere gerelateerde artikelen doornemen voor meer informatie-

  1. Data Science-algoritmen
  2. Wat is genetisch algoritme?
  3. Routeringsalgoritmen
  4. Neurale netwerkalgoritmen
  5. C ++ Algoritme | Voorbeelden van C ++ algoritme

Categorie: