Pentaho Data Integration fundamentals

Mit kontinuierlich wachsenden Datenmengen brauchen Unternehmen schnelle und einfache Möglichkeiten, um ihre Daten nutzen und Einblicke gewinnen zu können. Die größte Herausforderung ist es, eine konsistente, einheitliche Version von Informationen über alle Quellen in einem analysetauglichen Format zur Verfügung zu haben. Mit Pentaho Data Integration lassen sich leistungsstarke (ETL-) Ressourcen extrahieren, transformieren und laden sowie eine intuitive und professionelle, grafische Entwicklungsumgebung und eine offene und auf Standards basierende Architektur erstellen.

Pentaho Data Integration bietet eine umfassende ETL-Lösung:

  • Leistungsfähiger grafischer Prozessdesigner für ETL-Entwickler
  • Fast unbegrenzte Schnittstellen für die Integration jeder Art von Daten, einschließlich vielfältiger und großer Datenmengen
  • Hohe Skalierbarkeit und Leistung, einschließlich In-Memory-Caching
  • Big Data-Integration, Analyse und Berichterstattung (via Hadoop, NoSQL, traditionellen OLTP oder analytischer Datenbanken)
  • Moderne, offene und auf Standards basierende Architektur

Der Kurs umfasst sowohl Präsentationen als auch praktische Übungen, die Theorie, Best Practices und Design-Patterns umfassen.

 

Lernziele

Nach Abschluss dieses Kurses sind Sie in der Lage:

  • Pentaho Data Integration zu installieren
  • Grundlegende Transformationen mit Steps und Hops zu erstellen und auszuführen
  • Abbildungsergebnisse auf Metrics- und Log-Ansicht darzustellen
  • Datenbankverbindungen zu erstellen und Mithilfe des Database Explorers die Datenquelle zu nutzen
  • Durch die Konfiguration nachfolgender Schritte können komplexe Transformationen erzeugt werden: Table input, Table output, CSV file input, Insert/Update, Kontstanten hinzufügen, Filter, Value Mapper, Stream lookup, Zellen hinzufügen, Zellen verbinden, Zellen sortieren, Row normalizer, JavaScript, Dimension lookup/update, Database lookup, Daten aus XML herausnehmen, Umgebungsvariablen und analytischer Abfragen setzen
  • Transformationen zu erstellen, die parametriesierte Werte verwenden
  • die Struktur einer Online-Transaktion-Prozess-Datenbank auf die Struktur einer Online-Analyse-Prozess-Datenbank zu mappen
  • Daten zu laden und diese in verschiedene Datenbanken zu schreiben
  • ETL-Mustervorlagen zu benutzen, um ein Data Warehouse zu füllen
  • Abbildungen zu erstellen, die langsam verändernde Dimensionen bearbeiten
  • Pentaho Data Integration Jobs zu erstellen die: mehrere Abbildungen aufzeigen, Variablen benutzen, Sub-Jobs enthalten, integrierte Fehlermeldungen bieten, mehrere Textdateien laden und bearbeiten, Dateien ins Microsoft Excel-Format konvertieren
  • Protokollierungen für Transformationsschritte und für Jobeinträge zu konfigurieren und protokollierte Daten zu überprüfen
  • Die Fehlerbehebung der Transformationsschritte zu konfigurieren
  • Das Pentaho Enterprise Repository zu konfigurieren, einschließlich der grundlegenden Sicherheit
  • Das Repository zu verwenden um: Ordner zu erstellen, Transformationen und Jobs zu speichern, sperren, löschen überarbeiten sowie Artefakte wiederherzustellen
  • Ausführungen einer Transformation in Pentaho Data Integration und diese in der Pentaho Enterprise Console zu planen und zu überwachen
  • Index mit einer Transformation zu erstellen und zu löschen
  • Transformationen zu erstellen, die Schritte konfigurieren, um in einem Cluster ausgeführt zu werden, Transformation im Cluster ausführen, die Ergebnisse prüfen und die Transformation zu überwachen

 

Zielgruppe

Dieser Kurs ist der 3. Kurs im Bereich der Daten Analyse. Er richtet sich an Teilnehmer, die sich bereits mit der Entwicklung oder Administration von Datenbanken beschäftigt haben oder die sich neu mit Pentaho Data Integration beschäftigen möchten. 

Dieser Artikel erschien am und wurde am aktualisiert.
Nach oben scrollen