Spark - installeren Volledige gids voor installatie van Spark

Inhoudsopgave:

Anonim

Hoe Spark te installeren?

Spark is een open source framework voor het uitvoeren van analysetoepassingen. Het is een gegevensverwerkingsengine die wordt gehost bij de onafhankelijke Apache Software Foundation om te werken aan grote gegevenssets of grote gegevens. Het is een universeel clustercomputersysteem dat API's op hoog niveau biedt in Scala, Python, Java en R. Het is ontwikkeld om de beperkingen in het MapReduce-paradigma van Hadoop te overwinnen. Datawetenschappers geloven dat Spark 100 keer sneller uitvoert dan MapReduce omdat het gegevens in het geheugen kan opslaan, terwijl MapReduce meer werkt door te lezen en te schrijven op schijven. Het voert in-memory-verwerking uit waardoor het krachtiger en sneller wordt.

Spark heeft geen eigen bestandssysteem. Het verwerkt gegevens uit verschillende gegevensbronnen zoals Hadoop Distributed File System (HDFS), Amazon's S3-systeem, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Het kan draaien op Hadoop YARN (Yet Another Resource Negotiator), op Mesos, EC2, Kubernetes of met behulp van de zelfstandige clustermodus. Het maakt gebruik van RDD's (Resilient Distributed Dataset) om workloads te delegeren naar individuele knooppunten die in iteratieve applicaties ondersteunen. Dankzij RDD is programmeren eenvoudig in vergelijking met Hadoop.

Spark bestaat uit verschillende componenten die Spark Ecosystem Components worden genoemd.

  • Spark Core: Het is de basis van de Spark-applicatie waarvan andere componenten direct afhankelijk zijn. Het biedt een platform voor een breed scala aan toepassingen, zoals planning, gedistribueerde taakverzending, geheugenverwerking en gegevensreferentie.
  • Spark Streaming: het is het onderdeel dat werkt op livestreaminggegevens om realtime analyses te bieden. De live gegevens worden opgenomen in discrete eenheden die batches worden genoemd en die worden uitgevoerd op Spark Core.
  • Spark SQL: het is het onderdeel dat bovenop Spark Core werkt om SQL-query's op gestructureerde of semi-gestructureerde gegevens uit te voeren. Dataframe is de manier om te communiceren met Spark SQL.
  • GraphX: Het is de grafische rekenmachine of het framework waarmee grafische gegevens kunnen worden verwerkt. Het biedt verschillende grafische algoritmen die op Spark kunnen worden uitgevoerd.
  • MLlib: het bevat machine learning-algoritmen die machine learning-framework bieden in een op geheugen gebaseerde gedistribueerde omgeving. Het voert iteratieve algoritmen efficiënt uit vanwege de verwerkingscapaciteit in het geheugen.
  • SparkR: Spark biedt een R-pakket om gegevenssets uit te voeren of te analyseren met behulp van de R-shell.

Er zijn drie manieren om Spark op uw systemen te installeren of in te zetten:

  1. Stand-alone modus in Apache Spark
  2. Hadoop YARN / Mesos
  3. SIMR (Spark in MapReduce)

Laten we de implementatie in de zelfstandige modus bekijken.

Spark Standalone wijze van implementatie:

Stap 1: werk de pakketindex bij

Dit is nodig om alle aanwezige pakketten op uw machine bij te werken.

Gebruik opdracht : $ sudo apt-get update

Stap 2: Java Development Kit (JDK) installeren

Hiermee wordt JDK op uw machine geïnstalleerd en kunt u Java-toepassingen uitvoeren.

Stap 3: Controleer of Java correct is geïnstalleerd

Java is een vereiste voor het gebruiken of uitvoeren van Apache Spark-toepassingen.

Gebruik opdracht : $ java –version

Deze screenshot toont de Java-versie en verzekert de aanwezigheid van Java op de machine.

Stap 4: Installeer Scala op uw machine

Omdat Spark in scala is geschreven, moet schaal worden geïnstalleerd om Spark op uw machine te laten draaien.

Gebruik Command: $ sudo apt-get install scala

Stap 5: Controleer of Scala correct is geïnstalleerd

Dit zorgt voor de succesvolle installatie van schaal op uw systeem.

Gebruik Command : $ scala –version

Stap 6: Download Apache Spark

Download Apache Spark volgens uw Hadoop-versie van https://spark.apache.org/downloads.html

Wanneer u op de bovenstaande link gaat, verschijnt een venster.

Stap 7: Selecteer de juiste versie volgens uw Hadoop-versie en klik op de gemarkeerde link.

Een ander venster zou verschijnen.

Stap 8: Klik op de gemarkeerde link en Apache Spark wordt op uw systeem gedownload.

Controleer of het .tar.gz- bestand beschikbaar is in de map downloads.

Stap 9: Installeer Apache Spark

Voor de installatie van Spark moet het tar-bestand worden uitgepakt.

Gebruik opdracht: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

U moet de versie die in de opdracht wordt vermeld, aanpassen aan uw gedownloade versie. Hierin hebben we de versie spark-2.4.0-bin-hadoop2.7 gedownload.

Stap 10: Setup omgevingsvariabele voor Apache Spark

Gebruik Command: $ source ~ / .bashrc

Regel toevoegen : export PATH = $ PATH: / usr / local / spark / bin

Stap 11: Controleer de installatie van Apache Spark

Gebruik Command : $ spark-shell

Als de installatie is geslaagd, wordt de volgende uitvoer geproduceerd.

Dit betekent de succesvolle installatie van Apache Spark op uw machine en Apache Spark start in Scala.

Implementatie van Spark op Hadoop YARN:

Er zijn twee modi om Apache Spark op Hadoop YARN te implementeren.

  1. Clustermodus: in deze modus beheert YARN op het cluster het Spark-stuurprogramma dat binnen een applicatiemasterproces wordt uitgevoerd. Na het initiëren van de applicatie kan de client gaan.
  2. Client-modus: in deze modus worden de resources door YARN aangevraagd door de applicatiemaster en wordt Spark-stuurprogramma uitgevoerd in het clientproces.

Gebruik de opdracht om een ​​Spark-toepassing in clustermodus te implementeren:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

De bovenstaande opdracht start een YARN-clientprogramma dat de standaard Application Master start.

Gebruik de opdracht om een ​​Spark-toepassing in de clientmodus te implementeren:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

U kunt spark shell uitvoeren in client-modus met behulp van de opdracht:

$ spark-shell –master yarn –deploy-mode client

Tips en trucs om Spark Install te gebruiken:

  1. Zorg ervoor dat Java op uw machine is geïnstalleerd voordat u Spark installeert.
  2. Als u scala taal gebruikt, zorg er dan voor dat de schaal al is geïnstalleerd voordat u Apache Spark gebruikt.
  3. U kunt Python ook gebruiken in plaats van Scala voor het programmeren in Spark, maar het moet ook vooraf zijn geïnstalleerd zoals Scala.
  4. U kunt Apache Spark ook op Windows uitvoeren, maar er wordt voorgesteld om een ​​virtuele machine te maken en Ubuntu te installeren met Oracle Virtual Box of VMWare Player .
  5. Spark kan draaien zonder Hadoop (dwz stand-alone modus), maar als een installatie met meerdere knooppunten is vereist, zijn resource managers zoals YARN of Mesos nodig.
  6. Tijdens het gebruik van YARN is het niet nodig om Spark op alle drie de knooppunten te installeren. U hoeft Apache Spark slechts op één knooppunt te installeren.
  7. Als u YARN gebruikt als u zich in hetzelfde lokale netwerk met het cluster bevindt, kunt u de clientmodus gebruiken, terwijl als u ver weg bent, u de clustermodus kunt gebruiken.

Aanbevolen artikelen - Spark Install

Dit is een handleiding geweest voor het installeren van Spark. Hier hebben we gezien hoe Apache Spark in stand-alone modus en bovenop resource manager YARN te implementeren en ook enkele tips en trucs worden ook genoemd voor een vlotte installatie van Spark. U kunt ook het volgende artikel bekijken voor meer informatie -

  1. Hoe Spark Commands te gebruiken
  2. Een carrière in Spark - je moet het proberen
  3. Verschillen tussen Splunk en Spark
  4. Spark Interview Vragen en Antwoorden
  5. Voordelen van Spark Streaming
  6. Soorten joins in Spark SQL (voorbeelden)