Inleiding tot Talend Open Studio
Talend biedt Open Studio aan, een open-source voor data-integratie. Het heeft meer dan 800 componenten voor verschillende integratiedoeleinden. Download Talend Open Studio van https://www.talend.com/download/
Gegevensintegratie betekent het combineren van gegevens uit verschillende bronnen en deze combineren tot één weergave om betekenisvolle gegevens te verkrijgen die het bedrijf of de organisatie kunnen helpen hun bedrijf te verbeteren door die gegevens te analyseren. Integratie helpt bij het verkrijgen van gegevens, het opschonen van de gegevens, het maken van een aantal vereiste transformatie, enz. En het vervolgens laden in een gegevensmagazijn.
Wat is talent?
Talend is een ETL-tool die wordt gebruikt voor data-integratie. Talend biedt een oplossing voor gegevensvoorbereiding, gegevenskwaliteit, gegevensintegratie en big data. Hier zullen we enkele van de componenten bespreken. Om het onderstaande voorbeeld gemakkelijk te kunnen zien Een sim-operator heeft enorme gegevens over plannen, klanten, simdetails, enz. Deze gegevens zijn enorm, dus big data wordt ook gebruikt bij de integratie.
Klant Een simkaart kopen met een overheids-ID
Zijn naam geven als AB C
adres als Chennai, Chennai
telefoonnummer als 1234567890
Na data-integratie
Voornaam: AB
Achternaam: C
Adres: Chennai, India
Telefoonnummer: +911234567890
Hier worden de gegevens opgeschoond en omgezet in iets zinvollers.
Voordelen
- Bedrijfstrends analyseren met behulp van data-integratie
- Gegevens combineren in één systeem
- Tijdbesparend en efficiënter en minder nabewerking
- Eenvoudig genereren van rapporten - gebruikt door BI-tools
- Gegevens onderhouden en invoegen in het datawarehouse en datamarts
Toepassing
Hier zijn de volgende toepassingen die hieronder worden vermeld
1. Werken met Talend
- Zorg ervoor dat Java is geïnstalleerd en omgevingsvariabelen zijn ingesteld.
- Download de open-source van de Talend-website en installeer de software.
- Maak een nieuw project en voltooi de installatie
- Talend wordt geopend met het tabblad Designer.
- Talend is een op eclipse gebaseerd hulpmiddel en de componenten kunnen uit het palet worden gesleept of u kunt klikken en de naam van de component typen.
2. De eerste taak Een bestand lezen
- Zoek naar de component tFileinputdelimited. Dit onderdeel wordt gebruikt voor het lezen van gescheiden bestanden.
- Plaats de component tfileinputdelimited. Zoek naar tlogrow en plaats deze in de taakontwerper.
- Klik met de rechtermuisknop op tfileinputdelimited en selecteer rij-> main en trek een lijn om te loggen.
- In de component selecteert het tabblad het pad van het bestand dat u wilt lezen en geeft het rijscheidingsteken als \ n. Als het bestand scheidingsteken heeft, kunt u het scheidingsteken vermelden.
- Klik op het schema en geef het kolomtype details of u kunt de hele rij lezen als een string met één kolom en de scheidingstekenwaarde moet leeg zijn.
- U kunt ook de kop- en voettekst overslaan.
- Selecteer in de component tlogrow de manier waarop u de gegevens wilt zien. Tabelindeling of indeling met één regel.
- tlogrow toont uitvoer in de runconsole.
- Nadat u zowel tfileinputdelimited als tlogrow hebt verbonden, voert u de taak uit vanaf het tabblad Uitvoeren.
- U kunt de inhoud van het bestand in de console zien afdrukken.
3. Een tweede taak met behulp van Tmap
- Lees een bestand en filter het in verschillende uitvoerbestanden.
- Lees een bestand in de component tfileinputdelimited met één kolomschema als record.
- Tmap-component - Deze component helpt bij het transformeren van gegevens met een aantal ingebouwde functies zoals opzoeken, joins, enz.
- Maak in tmap twee uitgangen out1 en out2.
- Voeg in out1 filter row3.record.contains toe ("talend") en teken het record naar out1.
- Trek de recordlijn naar andere out2.
- Neem uit de tmap de hoofdrijen en maak verbinding met twee tfileoutputdelimited.
- out1 link naar één tfileoutputdelimited1 als file1.txt en out2 naar andere tfileoutputdelimited2 als file2.txt.
- txt heeft records die talend bevatten.
- txt heeft records met andere namen.
4. Ingebouwde en repository
- Ingebouwd betekent dat u elke keer een schema of details moet instellen om verbinding te maken met een database.
- De repository is handig om de details in de metagegevens op te slaan, zodat u dezelfde details elke keer opnieuw kunt gebruiken zonder telkens handmatig gegevens in te voeren. In metadata kunt u het bestandsschema, databaseverbindingen, Hadoop-verbinding, bijenkorfverbinding, s3-verbinding en nog veel meer opslaan.
Componenten van Talend Open Studio
Hier zijn de volgende componenten van Talend Open Studio die hieronder worden vermeld
1. tFileList
- Dit onderdeel geeft de bestanden weer in een map of map met een bepaald bestandsmaskerpatroon.
2. tMysqlConnection
- Deze component wordt gebruikt om verbinding te maken met de MySQL-database.
- MySQL-componenten kunnen deze verbinding gebruiken voor eenvoudige configuratie van verbinding met de database.
3. tMysqlinput
- Deze component helpt bij het uitvoeren van een mysql-databasequery en krijgt de tabel of kolommen. Dit onderdeel wordt gebruikt om query's te selecteren en de details te krijgen.
4. tMysqlOutput
- Dit onderdeel wordt gebruikt voor het invoegen of bijwerken van gegevens in de Mysql-database.
5. tprejob
- Dit component is de eerste die in de taak wordt uitgevoerd en kan worden verbonden met andere componenten met op subjob ok.
6. tpostjob
- Dit onderdeel wordt als laatste in de taak uitgevoerd. U kunt dit verbinden met componenten voor het sluiten van verbindingen.
7. tlogcatcher
- Dit onderdeel vangt de waarschuwing en fouten in de taak op.
- Belangrijkste component gebruikt in foutafhandelingstechniek.
- Foutlogboeken kunnen worden geschreven met behulp van deze component samen met tfileoutputdelimited.
- Er zijn meer dan 800 componenten.
Contextvariabele
- Contextvariabelen zijn variabelen die overal in de taak kunnen worden gebruikt.
- Het bevat waarden en kan worden doorgegeven aan een andere taak, ook met behulp van trun-component.
- Het gebruik van contextvariabelen is dat we de waarde voor verschillende doeleinden kunnen wijzigen.
- We kunnen bijvoorbeeld een set waarden hebben voor de context contextontwikkeling en een andere set contextwaarden voor productie.
- Op deze manier hoeven we de taak niet te veranderen, alleen het wijzigen van de contextparameters is voldoende.
Een baan opbouwen
- Klik met de rechtermuisknop op de job en selecteer build-job.
- U kunt de build-taak in TAC importeren.
- In Talend Administration Console plant u een taak om de afhankelijkheid van de taakset ook te activeren.
- U kunt de taak ook vanuit de Nexus-repository importeren met behulp van een artefacttaak.
Maak een taak in TAC
- Open opdrachtleider in TAC
- Klik op nieuwe taken en selecteer normale of artefacttaken.
- Importeer de opgebouwde taak of kies uit Nexus.
- Selecteer de opdrachtserver waarin het talent wordt uitgevoerd.
- Sla de taak op.
- Nu kunt u de taak implementeren en uitvoeren.
Conclusie - Talend Open Studio
“Vereenvoudig ETL en ELT met de toonaangevende gratis open source ETL-tool voor big data.” Is de slogan voor open studio. Talend Bigdata heeft veel componenten voor het verwerken van enorme gegevens. Standaardopdracht, Bigdata-opdracht, Bigdata-streamingopdrachten zijn de verschillende soorten opdrachten die beschikbaar zijn in Talend. Bigdata-taken kunnen in een spark of mapreduce-kader worden gemaakt.
Aanbevolen artikelen
Dit is een gids voor Talend Open Studio. Hier bespreken we de voordelen, toepassingen en componenten van Talend Open Studio. U kunt ook de volgende artikelen bekijken voor meer informatie -
- Gids voor Talend Data-integratie
- Interviewvragen belangrijk talent
- Talend vs Mulesoft: Verschillen
- Talend vs Pentaho: 8 nuttige vergelijkingen om te leren