Wat is varken?
Pig is een open source-engine, die deel uitmaakt van de Hadoop-ecosysteemtechnologieën. Pig is goed in het werken met gegevens die verder gaan dan traditionele databases of datawarehouses. Dit kan goed omgaan met ontbrekende, onvolledige of inconsistente gegevens, die geen schema hebben. The Pig heeft zijn eigen taal voor het uitdrukken van gegevensmanipulaties, dat is Pig Latin.
Varken begrijpen
Pig is een technologie waarmee u op hoog niveau, maar uiterst korrelige scripts kunt schrijven, waarmee u kunt werken met gegevens waarvan het schema onbekend of inconsistent is. Pig is een open source-technologie die bovenop Hadoop wordt uitgevoerd en is onderdeel van het extreem levendige en populaire Hadoop-ecosysteem.
Pig werkt goed met ongestructureerde en onvolledige gegevens, zodat u niet voor alles de traditionele lay-out van regels en kolommen hoeft te hebben.
Het is goed gedefinieerd en kan direct werken op bestanden in HDFS (Hadoop Distributed File System).
The Pig is jouw favoriete technologie wanneer je gegevens van de bron naar een datawarehouse wilt brengen.
Een visuele pijplijn van hoe gegevens doorgaans stromen voordat u deze kunt gebruiken om de mooie grafieken te genereren die u gebruikt om zakelijke beslissingen te nemen.
De onbewerkte gegevens zijn afkomstig van verschillende bronnen, zoals sensoren, mobiele telefoons, enz. U gebruikt Pig vervolgens om een ETL-bewerking uit te voeren. ETL staat voor extraheren, transformeren en laden. Zodra deze bewerkingen zijn uitgevoerd, worden de opgeschoonde gegevens opgeslagen in een andere database. Een voorbeeld van zo'n database zou HDFS zijn, dat onderdeel is van Hadoop. Hive is een datawarehouse dat bovenop een bestandssysteem als dit draait. Hive is wat u zou gebruiken voor analyse, om rapporten te genereren en om inzichten te verkrijgen.
ETL is een zeer belangrijke stap in de gegevensverwerking om de onbewerkte gegevens op te schonen en in de juiste vorm te bewaren in een database. Extraheren verwijst naar de handeling waarbij ongestructureerde, inconsistente gegevens met ontbrekend veld en waarden uit de oorspronkelijke bron worden opgehaald. Transform staat voor de reeks bewerkingen die u op de gegevens zou toepassen om deze op te schonen of op te halen.
Voorberekening van nuttige verzamelde informatie, verwerking van velden om aan een bepaald formaat te voldoen, dit alles maakt deel uit van het opschonen van gegevens van de transformatievelden.
Ten slotte voert Pig de laadbewerking uit waarbij deze schone gegevens worden opgeslagen in een database waar deze verder kunnen worden geanalyseerd. Een voorbeeld van een standaardbewerking die Pig uitvoert, is het opschonen van logbestanden.
Leg varkensarchitectuur uit
Er zijn talloze Pig-onderdelen in de architectuur, bij voorkeur:
- Parser : Parser houdt zich bezig met Pig Scripts, en controleert de syntaxis van het script, typ controle en verschillende geassorteerde controles. Bovendien kan hun resultaat een DAG (Directed Acyclic Graph) zijn die meestal de claims van Pig Latin samen met logische operatoren aangeeft.
Ook worden de logische operatoren met het script weergegeven zoals de knooppunten en worden gegevensstromen weergegeven sinds randen door DAG.
- Optimizer: Later wordt het logische plan (DAG) meestal overschreden in de richting van de logische optimizer. Het voert de logische optimalisaties extra uit inclusief projectie en bevordert laag
- Compiler: de compiler compileert ook dat verbeterde logische plan in een groep MapReduce-werken.
- Execution Engine: Uiteindelijk zullen alle MapReduce-werken in een gesorteerde volgorde naar Hadoop worden gepost. Uiteindelijk genereert dit de vereiste resultaten, hoewel deze MapReduce-werken worden uitgevoerd met Hadoop.
- MapReduce: MapReduce is oorspronkelijk in Google ontworpen als een manier om webpagina's te verwerken om Google Zoeken mogelijk te maken. MapReduce verdeelt computers over meerdere machines in het cluster. MapReduce profiteert van de inherente parallelliteit bij de gegevensverwerking. Moderne systemen, zoals sensoren, of zelfs Facebook-statusupdates genereren miljoenen records met onbewerkte gegevens.
Een activiteit met dit niveau kan in twee fasen worden voorbereid:
- Kaart
- Verminderen
U beslist welke logica u in deze fasen wilt implementeren om uw gegevens te verwerken.
- HDFS (Hadoop Distributed File System): Hadoop zorgt voor een explosie van gegevensopslag en -analyse op een schaal met een onbeperkte capaciteit. Ontwikkelaars gebruiken een applicatie zoals Pig, Hive, HBase en Spark om gegevens van HDFS op te halen.
Kenmerken
Apache Pig wordt geleverd met de volgende functies:
- De eenvoud van programmeren: Pig Latin is vergelijkbaar met SQL en daarom is het voor ontwikkelaars vrij eenvoudig om een Pig-script te maken. Als u SQL-taal begrijpt, is het ongelooflijk eenvoudig om de Pig Latin-taal te leren, omdat het net als de SQL-taal is.
- Rich Set van operators: Pig bevat een verscheidenheid aan Rich set van operators om procedures uit te voeren zoals join, filer, sort en nog veel meer.
- Optimalisatiemogelijkheden: de prestaties met de taak in Apache Pig kunnen onmiddellijk worden verbeterd door de taak zelf; daarom moeten de ontwikkelaars zich gewoon concentreren op de semantiek van deze taal.
- Uitbreidbaarheid: met behulp van toegankelijke operators kunnen gebruikers eenvoudig hun functies ontwikkelen om gegevens te lezen, verwerken en schrijven.
- User Define Functions (UDF's): Door gebruik te maken van de service van Pig bij het maken van UDF's, kunnen we User Defined Functions produceren op basis van het aantal ontwikkeltalen, waaronder Java, en ze allemaal oproepen of insluiten in Pig Scripts.
Wat is Pig nuttig voor?
Het wordt gebruikt voor het onderzoeken en uitvoeren van verantwoordelijkheden, waaronder ad-hocafhandeling. Apache Pig kan worden gebruikt voor:
Analyse met enorme onbewerkte gegevensverzamelingen geeft de voorkeur aan gegevensverwerking om zoekwebsites te krijgen. Zoals Yahoo, profiteert Google van Apache Pig voor het evalueren van gegevens die zijn verzameld via Google en Yahoo-zoekmachines. Omgaan met grote gegevensverzamelingen, net als webrecords, online streaming-informatie, enzovoort. Zelfs de statusupdates van Facebook genereren miljoenen records met onbewerkte gegevens.
Hoe helpt deze technologie u te groeien in uw carrière?
Veel organisaties implementeren Apache Pig ongelooflijk snel. Dit betekent dat beroepen in varkens en varkenscarrières dagelijks worden verhoogd. Er is de afgelopen jaren enorme vooruitgang geboekt in de ontwikkeling van Apache Hadoop. Hadoop-elementen zoals Hive, Pig, HDFS, HBase, MapReduce, enzovoort.
Hoewel Hadoop-aanbiedingen in hun tweede decennium op dit moment kwamen, is het in de afgelopen drie tot vier jaar als erkenning geëxplodeerd. Een groot aantal softwarebedrijven past Hadoop-clusters ongelooflijk vaak toe. Dit kan absoluut het beste deel van big data zijn. De richtende experts kunnen ervaren worden in deze uitstekende technologie.
Conclusie
Er is veel vraag naar Apache Pig Expertise en dit kan nog lang duren. Door eenvoudigweg de concepten te begrijpen en ervaring op te doen met de beste Apache Pig in Hadoop-vaardigheden, kunnen de experts hun Apache Pig-beroep perfect uitoefenen.
Aanbevolen artikel
Dit is een gids geweest voor What is Pig? Hier hebben we de concepten, definitie en architectuur besproken met de functies van Pig. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie -
- Hoe Apache te installeren
- Vragen tijdens solliciteren bij Apache PIG
- Wat is ASP.Net Web Services?
- Wat is Blockchain-technologie?