Taller ‘Pentaho Data Integration’

Big Data e inteligencia del negocio

Cursos para profesionales

Límite de inscripción: 25/06/2019 00:00:00
Fechas: 03/07/2019 09:00:00 hasta 05/07/2019 14:00:00

Dirigido a: Profesionales de las tecnologías de información, gestores de TI, Analistas de Negocio, Analistas de sistemas, arquitectos Java, desarrolladores de sistemas, administradores de bases de datos, desarrolladores y profesionales con relación a el área de tecnología, marketing, negocio y financiera.

Los alumnos deberán llevar portátil con máquina virtual (Linux o Mac) o Docker. También deberán tener conocimientos básicos de SQL y Programación.

Objetivos: La extracción, la transformación y carga (ETL) de los datos es la clave del éxito en un sistema BI, que permite gestionar la calidad de los datos de forma adecuada.

En este taller te contaremos algunas de las mejores prácticas que recomendamos durante el diseño de los procesos ETL como:

  • Centralización de los procedimientos, de forma que se asegure la coherencia y homogeneidad de los datos intercambiados desde las distintas fuentes.
  • Evitar la redundancia de cálculos: si existe el dato previamente calculado en las bases de datos operacionales, no debe volver a realizarse el cálculo en la extracción. Esta premisa pretende conseguir un doble objetivo.
  • Establecimiento de puntos de «control de calidad» y validación.
  • Implementar procesos de recarga de la información, ante posibles errores en la información inicial.
  • Contemplar la posibilidad de utilizar tablas intermedias con el nivel más atómico de la información a tratar.

Además, repasaremos los elementos más importantes y usados de la herramienta de ETLSs de Pentaho: Kettle o Pentaho Data Integration.

Lugar: Sala de Formación. Centro Demostrador TIC -SPEGC. Avda. de la Feria 1, (Infecar) . Las Palmas de Gran Canaria. (ver ubicación)

Fecha y Horario: 3, 4 y 5 de julio de 2019 – 3 sesiones de 9:00 a 14:00 h. – 15 horas lectivas en total.

Programa: 

  • Module 1: Transformation Basics
    Lesson 1: Learning the PDI User Interface
    Lesson 2: Creating Transformations
    Exercise 1: Generate Rows, Sequence, Select Values
    Lesson 3: Error Handling & Logging Introduction
    Lesson 4: Introduction to Repositories

 

  • Module 2: Reading & Writing Files
    Lesson 1: Input & Output Steps
    Lesson 2: Parameters & kettle.properties
    Exercise 2: CSV Input to Multiple Text Output Using Switch/Case
    Exercise 3: Serializing Multiple Text Files
    Exercise 4: De-serialize a File

 

  • Module 3: Working with Databases
    Lesson 1: Connecting to & Exploring a Database
    Lesson 2: Table Input & Output
    Exercise 5: Reading & Writing to Database Tables
    Lesson 3: Insert, Update, & Delete Steps
    Lesson 4: Data Cleansing
    Lesson 5: Using Parameters & Arguments in SQL
    Exercise 6: Input with Parameters & Table Copy Wizard

 

  • Module 4: Data Flows & Lookups
    Lesson 1: Copying and Distributing Data
    Exercise 7: Parallel Processing
    Lesson 2: Lookups
    Exercise 8: Lookups & Data Formatting
    Lesson 3: Merging Data

 

  • Module 5: Calculations
    Lesson 1: Using the Group By Step
    Lesson 2: Calculator
    Exercise 9: Calculating & Aggregating Order Quantity
    Lesson 3: Regular Expression
    Lesson 4: User Defined Java Expression
    Lesson 5: JavaScript

 

  • Module 6: Job Orchestration
    Lesson 1: Introduction to Jobs
    Exercise 10: Loading JVM Data into a Table
    Lesson 2: Sending Alerts
    Lesson 3: Looping & Conditions
    Exercise 11: Creating a Job with a Loop
    Lesson 4: Executing Jobs from a Terminal Window (Kitchen).

 

  • Module 7: Test (advance)
    Lesson 1: Unit
    Lesson 2: Integration Test

 

  • Module 8: Tips and Code review (advance)
    Lesson 1: git and svn integration
    Lesson 2: hellkichen and carte
    Lesson 3 : Docker
    Lesson 4: Manejo de entornos.
    Lesson 5: webspoon

 

  • Module 9: Data Streaming (advance)
    Lesson 1: MQTT
    Guided Demo: MQTT with GPS data
    Lesson 2: Kafka
    Demonstration: Using Kafka to Obtain a Streaming Twitter Feed in PDI
    Lesson 3 : Remote
    Carte

 

  • Module 10 : Scalability (advance)
    Lesson 1: Clustering Carte Servers
    Guided Demo: Configure Master and Slave Server Nodes
    Guided Demo: Monitoring Master and Slave Server Nodes
    Guided Demo: Round-Robin vs. Copy
    Guided Demo: Clustering and Group by
    Lesson 2: Partitioning
    Guided Demo: Stream Partitioning
    Lesson 3: Checkpoints
    Exercise: Using Checkpoints to Restart Jobs
    Exercise: Using Checkpoints

 

DESARROLLO DE UN PLUGIN DE TRANSFORMACIÒN EN PENTAHO DATA
INTEGRATION :

  • Module 1: Basics
    Lesson 1: Set Up Development Environment
    Lesson 2: Develop a tranformation plugin

 

Docente: Rafael Valenzuela. Ingeniero de datos con más de 10 años de experiencia. Máster de Investigación en Sistemas Avanzados de Hardware y Software en la Universidad Rey Juan Carlos, Maestría en Ciencias de la Computación (Universidad UEM), Organizador de encuentros de Pentaho en Madrid y Barcelona. https://www.linkedin.com/in/rafael-valenzuela-61a69419/

Precio: 100€

Bonificaciones:

  • 50% de descuento, en caso de ocupar un espacio dentro de las instalaciones destinadas a emprendedores gestionadas por la SPEGC o de la Fundación Parque Científico y Tecnológico de la ULPGC.
  • 50% de descuento, desempleados que acrediten su situación con el DARDE actualizado (se adjunta en la inscripción). , tienen un descuento del 50% en la cuota de ingreso para el curso.
  • Los descuentos no son acumulables.
Rate this post