Verschil tussen data science en machine learning

Data science is een evolutionaire uitbreiding van statistieken die in staat is om de enorme hoeveelheden van met behulp van computer science technologieën te verwerken. Machine learning is een vakgebied dat computers de mogelijkheid biedt om te leren zonder expliciet te worden geprogrammeerd. Data science omvat een breed scala aan datatechnologieën, waaronder SQL, Python, R en Hadoop, Spark, enz. Machine learning wordt gezien als een proces, het kan worden gedefinieerd als het proces waarmee een computer nauwkeuriger kan werken tijdens het verzamelen en leert van de gegeven gegevens.

Head to Head-vergelijking van Data Science versus Machine Learning (Infographics)

Hieronder vindt u de top 5-vergelijking tussen Data Science en Machine Learning

Belangrijk verschil tussen Data Science versus Machine Learning

Hieronder is het verschil tussen Data Science en Machine Learning als volgt

  • Componenten - Zoals eerder vermeld, bestrijkt Data Science-systemen de volledige gegevenslevenscyclus en hebben doorgaans componenten voor het volgende:
    • Verzameling en profilering van gegevens - ETL (Extract Transform Load) pijplijnen en profileringstaken
    • Gedistribueerd computergebruik - Horizontaal schaalbare gegevensdistributie en -verwerking
    • Automatisering van intelligentie - Geautomatiseerde ML-modellen voor online reacties (voorspelling, aanbevelingen) en fraudedetectie.
    • Gegevensvisualisatie - Onderzoek gegevens visueel om een ​​betere intuïtie van gegevens te krijgen. Het integrale onderdeel van ML-modellering.
    • Dashboards en BI - Vooraf gedefinieerde dashboards met slice en dice-functionaliteit voor belanghebbenden op een hoger niveau.
    • Data engineering - Zorg ervoor dat warme en koude gegevens altijd toegankelijk zijn. Omvat gegevensback-up, beveiliging, noodherstel
    • Implementatie in productiemodus - Migreer systeem naar productie met industriële standaardpraktijken.
    • Geautomatiseerde beslissingen - Dit omvat het uitvoeren van bedrijfslogica bovenop gegevens of een complex wiskundig model dat is getraind met behulp van een ML-algoritme.

Modellering van machine learning begint met de bestaande gegevens en typische componenten zijn als volgt:

  • Probleem begrijpen - Zorg dat ML een efficiënte manier is om het probleem op te lossen. Merk op dat niet alle problemen oplosbaar zijn met behulp van ML.
  • Gegevens verkennen - Om een ​​intuïtie te krijgen van functies die in het ML-model kunnen worden gebruikt. Dit kan meer dan één iteratie vereisen. Gegevensvisualisatie speelt hier een cruciale rol.
  • Gegevens voorbereiden - Dit is een belangrijke fase met een grote impact op de nauwkeurigheid van het ML-model. Het gaat om gegevensproblemen, zoals wat te doen met ontbrekende gegevens voor een functie? Vervangen door dummy-waarde zoals nul, of gemiddelde van andere waarden of de functie uit het model verwijderen ?. Schaalfuncties, die ervoor zorgen dat de waarden van alle functies in hetzelfde bereik liggen, is van cruciaal belang voor veel ML-modellen. Veel andere technieken, zoals het genereren van polynoomfuncties, worden hier ook gebruikt om nieuwe functies af te leiden.
  • Selecteer een model en trein - Model wordt geselecteerd op basis van een type probleem (voorspelling of classificatie enz.) En type functieset (sommige algoritmen werken met een klein aantal instanties met een groot aantal functies en andere in andere gevallen) .
  • Prestatiemaatstaf - In Data Science zijn prestatiemaatstaven niet gestandaardiseerd, het zal van geval tot geval veranderen. Meestal zal het een indicatie zijn van gegevenstijdigheid, datakwaliteit, querycapaciteit, concurrency-limieten in gegevenstoegang, interactieve visualisatiemogelijkheden enz.

In ML-modellen zijn prestatiemetingen kristalhelder. Elk algoritme heeft een maat om aan te geven hoe goed of slecht het model de gegeven trainingsgegevens beschrijft. Bijvoorbeeld RME (Root Mean Square Error) wordt gebruikt in lineaire regressie als een indicatie van een fout in model.

  • Ontwikkelingsmethodologie - Data Science-projecten zijn meer op elkaar afgestemd als een engineeringproject met duidelijk gedefinieerde mijlpalen, maar ML-projecten zijn meer van onderzoek zoals, dat begint met een hypothese en probeert te krijgen bewezen met beschikbare gegevens.
  • Visualisatie - Visualisatie in het algemeen Data Science vertegenwoordigt gegevens direct met behulp van populaire grafieken zoals bar, taart, enz. Maar in ML vertegenwoordigen visualisaties ook een wiskundig model van trainingsgegevens. Het visualiseren van de verwarringmatrix van een multiclass-classificatie helpt bijvoorbeeld snel vals te identificeren positieve en negatieve punten.
  • Talen - SQL en SQL zoals syntaxis-talen (HiveQL, Spark SQL enz.) Zijn de meest gebruikte taal in de wereld van Data Science. Populaire dataverwerking scripttalen zoals Perl, awk, sed worden ook gebruikt. Framespecifieke goed ondersteunde talen zijn een andere veel gebruikte categorie (Java voor Hadoop, Scala voor Spark enz.).

Python en R zijn de meest gebruikte taal in de wereld van Machine Learning. Tegenwoordig wint Python meer momentum omdat nieuwe deep learning-onderzoekers meestal worden omgezet naar python.SQL speelt ook een belangrijke rol in de data-verkenningsfase van ML

Data Science vs Machine Learning Vergelijkingstabel

VergelijkingsbasisData ScienceMachine leren
strekkingCreëer inzichten uit gegevens die te maken hebben met alle real-world complexiteiten. Dit omvat taken zoals het begrijpen van de vereiste, het extraheren van gegevens enz.Classificeer of voorspel nauwkeurig de uitkomst voor een nieuw gegevenspunt door patronen te leren van historische gegevens met behulp van wiskundige modellen.
InvoergegevensDe meeste invoergegevens worden gegenereerd als gegevens voor menselijke consumptie die door mensen moeten worden gelezen of geanalyseerd, zoals tabelgegevens of afbeeldingen.Invoergegevens voor ML worden specifiek getransformeerd voor gebruikte algoritmen. Functieschalen, insluiten van woorden of polynoomfuncties toevoegen zijn enkele voorbeelden
Systeemcomplexiteit● Componenten voor het verwerken van ongestructureerde onbewerkte gegevens.

● Veel bewegende componenten, meestal gepland door een orkestratielaag om onafhankelijke taken te synchroniseren

● Grote complexiteit zit in algoritmen en wiskundige concepten

● Ensemble-modellen hebben meer dan één ML-model en elk heeft een gewogen bijdrage aan de uiteindelijke output

Gewenste vaardigheden● Domein-expertise

● ETL en gegevensprofilering

● Sterke SQL

● NoSQL-systemen

● Standaardrapportage / visualisatie

● Sterk wiskunde begrip

● Programmering van Python / R

● Gegevens ruzie met SQL

● Modelspecifieke visualisatie

Hardware specificatie● Horizontaal schaalbare systemen die de voorkeur geven aan enorme gegevens

● Hoge RAm en SSD's om I / O-knelpunten te overwinnen

● GPU's hebben de voorkeur voor intensieve vectorbewerkingen

● Krachtiger versies zoals TPU's (link) zijn onderweg

Conclusie - Data Science versus Machine Learning

In zowel Data Science als Machine Learning proberen we informatie en inzichten uit gegevens te extraheren. Machine learning probeert algoritmen zelfstandig te laten leren. Momenteel worden geavanceerde ML-modellen toegepast op Data Science om gegevens automatisch te detecteren en te profileren. De Cloud Dataprep van Google is hier het beste voorbeeld van.

Aanbevolen artikel:

Dit is een gids geweest voor Data Science versus Machine Learning, hun betekenis, Head to Head Comparison, Key Differences, Comparision Table en Conclusie. U kunt ook de volgende artikelen bekijken voor meer informatie -

  1. Interview met ontwikkelaars van Hadoop Vragen
  2. Big Data versus Data Science - Hoe zijn ze anders?
  3. Data Science en het groeiende belang ervan
  4. Statistieken versus machinaal leren - verschillen tussen
  5. Hoe het Hadoop-ontwikkelaarsinterview te kraken?

Categorie: