Introductie tot Talend Data-integratie

Talend Data-integratie houdt in dat gegevens uit verschillende bronnen worden gecombineerd en gecombineerd tot één weergave om betekenisvolle gegevens te verkrijgen die het bedrijf of de organisatie kunnen helpen hun bedrijf te verbeteren door die gegevens te analyseren. Integratie helpt bij het verkrijgen van gegevens, het opschonen van de gegevens, het maken van een aantal vereiste transformatie, enz. En het vervolgens laden in een gegevensmagazijn.

Wat is Talend Data Integration?

  • Talend is een ETL-tool die wordt gebruikt voor data-integratie. Talend biedt een oplossing voor gegevensvoorbereiding, gegevenskwaliteit, gegevensintegratie en big data.
  • Talend biedt Open Studio, een open-source voor data-integratie en big data.
  • Talend open studio helpt bij het verwerken van enorme gegevens met big data-componenten. Het heeft meer dan 800 componenten voor verschillende integratiedoeleinden. Hier zullen we enkele van de componenten bespreken. Zie het onderstaande voorbeeld om het u gemakkelijk te maken
  • Een sim-operator heeft enorme gegevens over plannen, klanten, simdetails, enz. Deze gegevens zijn enorm, dus big data wordt ook gebruikt bij de integratie.

Klant Een simkaart kopen met een overheids-ID.
Geven zijn naam: AB C
Adres als: Chennai, Chennai
Telefoonnummer: 1234567890

Na data-integratie

Voornaam: AB
Achternaam: C
Adres: Chennai, India
Telefoonnummer: +911234567890

Hier worden de gegevens opgeschoond en omgezet in iets zinvollers.

Voordelen van data-integratie

Hier zullen we de voordelen van gegevensintegratie bespreken.

  1. Bedrijfstrends analyseren met behulp van data-integratie
  2. Gegevens combineren in één systeem
  3. Tijdbesparend en efficiënter en minder nabewerking
  4. Eenvoudig genereren van rapporten - gebruikt door BI-tools
  5. Gegevens onderhouden en invoegen in datawarehouse en datamarts

Toepassing van Talend Data Integration

Hier zullen we de toepassing van Talend Data-integratie bespreken.

1. Werken met Talend

  • Zorg ervoor dat Java is geïnstalleerd en omgevingsvariabelen zijn ingesteld.
  • Download de open-source van de Talend-website en installeer de software.
  • Maak een nieuw project en voltooi de installatie
  • Talend wordt geopend met het tabblad Designer.
  • Talend is een op eclipse gebaseerd hulpmiddel en de componenten kunnen uit het palet worden gesleept of u kunt klikken en de naam van de component typen.

2. Eerste taak die een bestand leest

  • Zoek naar de component tFileinputdelimited. Dit onderdeel wordt gebruikt voor het lezen van gescheiden bestanden.
  • Plaats de component tFileinputdelimited. Zoek naar tLogRow en plaats deze in de taakontwerper.
  • Klik met de rechtermuisknop op tFileinputdelimited en selecteer rij-> main en trek een lijn naar tLogRow.
  • In de component selecteert het tabblad het pad van het bestand dat u wilt lezen en geeft het rijscheidingsteken als \ n. Als het bestand scheidingsteken heeft, kunt u het scheidingsteken vermelden.
  • Klik op het schema en geef het kolomtype details of u kunt de hele rij lezen als een string met één kolom en de scheidingstekenwaarde moet leeg zijn.
  • U kunt ook de kop- en voettekst overslaan.
  • Selecteer in de component tLogRow de manier waarop u de gegevens wilt zien. Tabelindeling of indeling met één regel.
  • tLogRow geeft uitvoer weer in de runconsole.
  • Nadat u zowel tFileinputdelimited als tLogRow hebt verbonden, voert u de taak uit vanaf het tabblad Uitvoeren.
  • U kunt de inhoud van het bestand in de console zien afdrukken.

3. Tweede opdracht met behulp van Tmap

  • Lees een bestand en filter het in verschillende uitvoerbestanden.
  • Lees een bestand in de component tFileinputdelimited met één kolomschema als record.
  • Tmap-component - Deze component helpt bij het transformeren van gegevens met een aantal ingebouwde functies zoals opzoeken, joins, enz.
  • Maak in tmap twee uitgangen out1 en out2.
  • Voeg in out1 filter record.contains toe ("talend") en teken het record naar out1.
  • Trek de recordlijn naar andere out2.
  • Neem uit de tmap de hoofdrijen en maak verbinding met twee tFileoutputdelimited.
  • out1 link naar één tfileoutputdelimited1 als file1.txt en out2 naar andere tfileoutputdelimited2 als file2.txt.
  • txt heeft records die talend bevatten.
  • txt heeft records met andere namen.

4. Ingebouwde en repository

  • Ingebouwd betekent dat u elke keer een schema of details moet instellen om verbinding te maken met een database.
  • De repository is handig om de details in de metagegevens op te slaan, zodat u dezelfde details elke keer opnieuw kunt gebruiken zonder telkens handmatig gegevens in te voeren. In metadata kunt u het bestandsschema, databaseverbindingen, Hadoop-verbinding, bijenkorfverbinding, s3-verbinding en nog veel meer opslaan.

Componenten van Talend Data-integratie

Hier zullen we de componenten van Talend Data Integration bespreken.

1. tFileList: dit onderdeel geeft de bestanden weer in een map of map met een bepaald bestandsmaskerpatroon.

2. tMysqlConnection: dit onderdeel wordt gebruikt om verbinding te maken met de MySQL-database. MySQL-componenten kunnen deze verbinding gebruiken voor eenvoudige configuratie van verbinding met de database.

3. tMysqlInput: dit onderdeel helpt bij het uitvoeren van een mysql-databasequery en krijgt de tabel of kolommen. Dit onderdeel wordt gebruikt om query's te selecteren en de details te krijgen.

4. tMysqlOutput: dit onderdeel wordt gebruikt voor het invoegen of bijwerken van gegevens in de Mysql-database.

5. tPrejob: dit component is het eerste dat wordt uitgevoerd in de taak en kan worden verbonden met andere componenten met op Subjob ok.

6. tPostjob: dit onderdeel wordt als laatste in de taak uitgevoerd. U kunt dit verbinden met componenten voor het sluiten van verbindingen.

7. tLogcatcher: dit onderdeel vangt de waarschuwing en fouten in de taak op. Dit is het belangrijkste onderdeel dat wordt gebruikt in de foutafhandelingstechniek. Foutlogboeken kunnen worden geschreven met behulp van deze component samen met tfileoutputdelimited. Er zijn meer dan 800 componenten.

8. Contextvariabele: Contextvariabelen zijn variabelen die overal in de taak kunnen worden gebruikt. Het bevat waarden en kan worden doorgegeven aan een andere taak, ook met behulp van tRun-componenten. Het gebruik van contextvariabelen is dat we de waarde voor verschillende doeleinden kunnen wijzigen. We kunnen bijvoorbeeld een set waarden hebben voor de context contextontwikkeling en een andere set contextwaarden voor productie. Op deze manier hoeven we de taak niet te veranderen, alleen het wijzigen van de contextparameters is voldoende.

9. Een opdracht maken: klik met de rechtermuisknop op de opdracht en selecteer een opdracht. U kunt de build-taak in TAC importeren. In Talend Administration Console plant u een taak om de afhankelijkheid van de taakset ook te activeren. U kunt de taak ook vanuit de Nexus-repository importeren met behulp van een artefacttaak.

10. Maak een taak in TAC: open taakleider in TAC. Klik op nieuwe taken en selecteer normale of artefacttaken. Importeer de bouwtaak of kies uit Nexus. Selecteer de opdrachtserver waarin het talent wordt uitgevoerd. Sla de taak op. Nu kunt u de taak implementeren en uitvoeren.

Conclusie

  • “Vereenvoudig ETL en ELT met de toonaangevende gratis open source ETL-tool voor big data.” Is de slogan voor open studio.
  • Talend Bigdata heeft veel componenten voor het verwerken van enorme gegevens.
  • Standaardopdracht, Bigdata-opdracht, Bigdata-streamingopdrachten zijn de verschillende soorten opdrachten die beschikbaar zijn in Talend.
  • Bigdata-taken kunnen worden gemaakt in een spark- of MapReduce-framework.

Aanbevolen artikel

Dit is een gids voor Talend Data Integration. Hier bespreken we de introductie tot Talend Data Integration en de voordelen samen met applicaties en componenten. U kunt ook onze andere voorgestelde artikelen doornemen voor meer informatie

  1. Data-integratie tool | Beste 12 gereedschappen
  2. Talend interview vragen en antwoorden
  3. Beste datavisualisatiehulpmiddelen met zijn typen
  4. Talend vs Mulesoft - Verschillen
  5. Wat is Data Mart?

Categorie: