Inleiding tot voorbewerking van gegevens in machinaal leren

Gegevensbewerking in Machine Learning is een manier om gegevens van de onbewerkte vorm te converteren naar een veel meer opgemaakte, onbruikbare of gewenste vorm. Het is een integrale taak van machine learning die wordt uitgevoerd door de datawetenschapper. Omdat de verzamelde gegevens in een onbewerkte indeling zijn, is het misschien niet haalbaar om het model met behulp van deze te trainen. Het is belangrijk om deze onbewerkte gegevens zorgvuldig te verwerken om er een juiste interpretatie van te maken en om uiteindelijk elk negatief resultaat in de voorspelling te voorkomen. Kortom, de kwaliteit van ons leeralgoritme hangt sterk af van het type gegevensset dat we hebben gebruikt om het model te voeden, dus wordt de voorbewerking van gegevens gebruikt om die kwaliteit te behouden.

Gegevens verzameld voor het trainen van het model zijn afkomstig uit verschillende bronnen. Deze verzamelde gegevens hebben meestal een onbewerkte indeling, dwz ze kunnen geluiden bevatten zoals ontbrekende waarden en relevante informatie, getallen in de tekenreeksindeling, enz. Of ze kunnen ongestructureerd zijn. Voorbewerking van gegevens verhoogt de efficiëntie en nauwkeurigheid van de machine learning-modellen. Omdat het helpt bij het verwijderen van deze geluiden uit en dataset en betekenis geeft aan de dataset

Zes verschillende stappen betrokken bij machine learning

Hierna volgen zes verschillende stappen in machine learning om gegevens voor te verwerken:

Stap 1: Bibliotheken importeren

Stap 2: Gegevens importeren

Stap 3: Controleren op ontbrekende waarden

Stap 4: Controleren op categorische gegevens

Stap 5: Feature Scaling

Stap 6: Gegevens splitsen in trainings-, validatie- en evaluatiesets

Laten we elk van deze stappen in detail begrijpen:

1. Importeer bibliotheken

De allereerste stap is het importeren van enkele van de belangrijke bibliotheken die nodig zijn voor de voorbewerking van gegevens. Een bibliotheek is een verzameling modules die kunnen worden aangeroepen en gebruikt. In python hebben we veel bibliotheken die nuttig zijn bij de voorbewerking van gegevens.

Enkele van de volgende belangrijke bibliotheken in python zijn:

  • Numpy: meestal gebruikt de bibliotheek voor het implementeren of gebruiken van gecompliceerde wiskundige berekeningen van machine learning. Het is handig bij het uitvoeren van een bewerking op multidimensionale arrays.
  • Panda's : het is een opensourcebibliotheek die hoge prestaties biedt en eenvoudig te gebruiken gegevensstructuur- en gegevensanalysetools in python. Het is ontworpen om het werken met relaties en gelabelde gegevens eenvoudig en intuïtief te maken.
  • Matplotlib: het is een visualisatiebibliotheek geleverd door python voor 2D plots of array. Het is gebouwd op een numpy array en ontworpen om te werken met een bredere Scipy-stapel. Visualisatie van gegevenssets is nuttig in het scenario waarin grote gegevens beschikbaar zijn. Plots beschikbaar in Matplot Lib zijn lijn, balk, spreiding, histogram, etc.
  • Seaborn: Het is ook een visualisatiebibliotheek die wordt gegeven door python. Het biedt een interface op hoog niveau voor het tekenen van aantrekkelijke en informatieve statistische grafieken.

2. Gegevensset importeren

Nadat de bibliotheken zijn geïmporteerd, is onze volgende stap het laden van de verzamelde gegevens. Panda's bibliotheek wordt gebruikt om deze datasets te importeren. Meestal zijn de datasets beschikbaar in CSV-formaten omdat ze klein van formaat zijn, waardoor ze snel kunnen worden verwerkt. Dus, om een ​​csv-bestand te laden met behulp van de read_csv-functie van de pandabibliotheek. Verschillende andere formaten van de dataset die kunnen worden gezien zijn

Nadat de gegevensset is geladen, moeten we deze inspecteren en zoeken naar eventuele ruis. Om dit te doen moeten we een kenmerkmatrix X en een observatievector Y met betrekking tot X maken.

3. Controleren op ontbrekende waarden

Nadat u de functiematrix hebt gemaakt, kunnen er enkele waarden ontbreken. Als we er niet mee omgaan, kan dit tijdens de training een probleem veroorzaken.

Er zijn twee methoden om met de ontbrekende waarden om te gaan:

  1. Het verwijderen van de hele rij die de ontbrekende waarde bevat, maar er kan een mogelijkheid zijn dat u vitale informatie verliest. Dit kan een goede aanpak zijn als de gegevensset groot is.
  2. Als een numerieke kolom een ​​ontbrekende waarde heeft, kunt u de waarde schatten door het gemiddelde, de mediaan, de modus, enz. Te nemen.

4. Controleren op categorische gegevens

Gegevens in de gegevensset moeten in een numerieke vorm zijn om erop te kunnen rekenen. Aangezien modellen voor machinaal leren complexe wiskundige berekeningen bevatten, kunnen we ze geen niet-numerieke waarde geven. Het is dus belangrijk om alle tekstwaarden om te zetten in numerieke waarden. De klasse Geleerde LabelEncoder () wordt gebruikt om deze categorische waarden om te zetten in numerieke waarden.

5. Functie schalen

De waarden van de onbewerkte gegevens variëren enorm en dit kan resulteren in een vooringenomen training van het model of kan de rekenkosten verhogen. Het is dus belangrijk om ze te normaliseren. Functieschaling is een techniek die wordt gebruikt om de gegevenswaarde binnen een korter bereik te brengen.

Methoden die worden gebruikt voor het schalen van functies zijn:

  • Herschaling (min-max normalisatie)
  • Gemiddelde normalisatie
  • Standaardisatie (Z-score Normalisatie)
  • Schalen naar lengte van eenheid

6. Gegevens splitsen in trainings-, validatie- en evaluatiesets

Ten slotte moeten we onze gegevens opsplitsen in drie verschillende sets, een trainingsset om het model te trainen, een validatieset om de nauwkeurigheid van ons model te valideren en ten slotte een testset om de prestaties van ons model op generieke gegevens te testen. Voordat u de gegevensset splitst, is het belangrijk om de gegevensset in willekeurige volgorde te plaatsen om vooroordelen te voorkomen. Een ideaal aandeel om de gegevensset te verdelen is 60:20:20, dwz 60% als trainingsset, 20% als test- en validatieset. Gebruik tweemaal train_test_split van sklearn.model_selection om de gegevensset te splitsen. Eén keer om de gegevensset in trein en validatieset te splitsen en vervolgens de resterende treinset in trein en testset te splitsen.

Conclusie - Voorbewerking van gegevens bij machinaal leren

Data Preprocessing is iets dat oefening vereist. Het is niet zoals een eenvoudige datastructuur waarin je leert en direct solliciteert om een ​​probleem op te lossen. Om goede kennis te krijgen over het opschonen van een gegevensset of het visualiseren van uw gegevensset, moet u met verschillende gegevenssets werken.

Hoe meer u deze technieken gebruikt, hoe beter u erover zult begrijpen. Dit was een algemeen idee van hoe gegevensverwerking een belangrijke rol speelt bij machine learning. Daarnaast hebben we ook de stappen gezien die nodig zijn voor de voorbewerking van gegevens. Zorg er dus voor de volgende keer voordat u het model gaat trainen met de verzamelde gegevens voorverwerking van de gegevens.

Aanbevolen artikelen

Dit is een handleiding voor gegevensvoorbewerking in Machine Learning. Hier bespreken we de introductie, zes verschillende stappen die betrokken zijn bij machine learning. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie–

  1. Het belang van kunstmatige intelligentie
  2. IoT-technologie
  3. PL / SQL-gegevenstypen
  4. Hive-gegevenstypen
  5. R Gegevenstypen

Categorie: