Introducción a ‘Pentaho Data Integration’

Big Data e inteligencia del negocio

Cursos para profesionales

Límite de inscripción: 10/12/2019 12:00
Fechas: 11/12/2019 09:00 hasta 13/12/2019 13:00

Dirigido a: Profesionales de las tecnologías de información, gestores de TI, Analistas de Negocio, Analistas de sistemas, administradores de bases de datos, desarrolladores y profesionales con relación al área de tecnología, marketing, negocio y financiera. O gente que se esté iniciando en el mundo del BI.

Objetivos: La extracción, la transformación y carga (ETL) de los datos es la clave del éxito en un sistema BI, que permite gestionar la calidad de los datos de forma adecuada.

En este curso te contaremos algunas de las mejores prácticas que recomendamos durante el diseño de los procesos ETL como:

  • Centralización de los procedimientos, de forma que se asegure la coherencia y homogeneidad de los datos intercambiados desde las distintas fuentes.
  • Evitar la redundancia de cálculos: si existe el dato previamente calculado en las bases de datos operacionales, no debe volver a realizarse el cálculo en la extracción. Esta premisa pretende conseguir un doble objetivo.
  • Establecimiento de puntos de «control de calidad» y validación.
  • Implementar procesos de recarga de la información, ante posibles errores en la información inicial.
  • Contemplar la posibilidad de utilizar tablas intermedias con el nivel más atómico de la información a tratar.

Además, repasaremos los elementos más importantes y usados de la herramienta de ETLs de Pentaho: Kettle o Pentaho Data Integration.

Lugar: Sala de Formación. Centro Demostrador TIC -SPEGC. Avda. de la Feria 1, (Infecar) . Las Palmas de Gran Canaria. (ver ubicación)

Fecha y horario: Del 11 al 13 de diciembre de 2019 – 3 sesiones de 9:00 a 13:00 h. – 12 horas lectivas en total.

Programa: 

  • Module 1: Transformation Basics
    • Lesson 1: Learning the PDI User Interface
    • Lesson 2: Creating Transformations
    • Exercise 1: Generate Rows, Sequence, Select Values
    • Lesson 3: Error Handling & Logging Introduction
    • Lesson 4: Introduction to Repositories
  • Module 2: Reading & Writing Files
    • Lesson 1: Input & Output Steps
    • Lesson 2: Parameters & kettle.properties
    • Exercise 2: CSV Input to Multiple Text Output Using Switch/Case
    • Exercise 3: Serializing Multiple Text Files
    • Exercise 4: De-serialize a File
  • Module 3: Working with Databases
    • Lesson 1: Connecting to & Exploring a Database<
    • Lesson 2: Table Input & Output
    • Exercise 5: Reading & Writing to Database Tables
    • Lesson 3: Insert, Update & Delete Steps
    • Lesson 4: Data Cleansing
    • Lesson 5: Using Parameters & Arguments in SQL
    • Exercise 6: Input with Parameters & Table Copy Wizard
  • Module 4: Data Flows & Lookups
    • Lesson 1: Copying and Distributing Data
    • Exercise 7: Parallel Processing
    • Lesson 2: Lookups
    • Exercise 8: Lookups & Data Formatting
    • Lesson 3: Merging Data
  • Module 5: Calculations
    • Lesson 1: Using the Group By Step
    • Lesson 2: Calculator
    • Exercise 9: Calculating & Aggregating Order Quantity
    • Lesson 3: Regular Expression
    • Lesson 4: User Defined Java Expression
    • Lesson 5: JavaScript
  • Module 6: Job Orchestration
    • Lesson 1: Introduction to Jobs
    • Exercise 10: Loading JVM Data into a Table
    • Lesson 2: Sending Alerts
    • Lesson 3: Looping & Conditions
    • Exercise 11: Creating a Job with a Loop
    • Lesson 4: Executing Jobs from a Terminal Window (Kitchen)
  • Module 7: Test (advance)
    • Lesson 1: Unit
  • Module 8: Tips and Code review (advance)
    • Lesson 1: git and svn integration
    • Lesson 2: Docker
    • Lesson 3: Manej0 de entornos
    • Lesson 4: webspoon
  • Module 9: Scalability (advance)
    • Lesson 1: Clustering Carte Servers
      • Guided Demo: Configure Master and Slave Server Nodes
      • Guided Demo: Monitoring Master and Slave Server Nodes
      • Guided Demo: Round-Robin vs. Copy
      • Guided Demo: Clustering and Group by
    • Lesson 2: Partitioning
      • Guided Demo: Stream Partitioning
    • Lesson 3: Checkpoints
      • Exercise: Using Checkpoints to Restart Jobs
      • Exercise: Using Checkpoints

 

Docente: Rafael Valenzuela. Ingeniero de datos con más de 10 años de experiencia. Máster de Investigación en Sistemas Avanzados de Hardware y Software en la Universidad Rey Juan Carlos, Maestría en Ciencias de la Computación (Universidad UEM), Organizador de encuentros de Pentaho en Madrid y Barcelona.

Precio: 100€

Bonificaciones:

  • 50% de descuento, en caso de ocupar un espacio dentro de las instalaciones destinadas a emprendedores gestionadas por la SPEGC o de la Fundación Parque Científico y Tecnológico de la ULPGC.
  • 50% de descuento, desempleados que acrediten su situación con el DARDE actualizado (se adjunta en la inscripción). , tienen un descuento del 50% en la cuota de ingreso para el curso.
  • Los descuentos no son acumulables.