Taller ‘Pentaho Data Integration’

Big Data e inteligencia del negocio

Cursos para profesionales

Límite de inscripción: 25/06/2019 00:00
Fechas: 03/07/2019 09:00 hasta 05/07/2019 14:00

Dirigido a: Profesionales de las tecnologías de información, gestores de TI, Analistas de Negocio, Analistas de sistemas, arquitectos Java, desarrolladores de sistemas, administradores de bases de datos, desarrolladores y profesionales con relación a el área de tecnología, marketing, negocio y financiera.

Los alumnos deberán llevar portátil con máquina virtual (Linux o Mac) o Docker. También deberán tener conocimientos básicos de SQL y Programación.

Objetivos: La extracción, la transformación y carga (ETL) de los datos es la clave del éxito en un sistema BI, que permite gestionar la calidad de los datos de forma adecuada.

En este taller te contaremos algunas de las mejores prácticas que recomendamos durante el diseño de los procesos ETL como:

  • Centralización de los procedimientos, de forma que se asegure la coherencia y homogeneidad de los datos intercambiados desde las distintas fuentes.
  • Evitar la redundancia de cálculos: si existe el dato previamente calculado en las bases de datos operacionales, no debe volver a realizarse el cálculo en la extracción. Esta premisa pretende conseguir un doble objetivo.
  • Establecimiento de puntos de «control de calidad» y validación.
  • Implementar procesos de recarga de la información, ante posibles errores en la información inicial.
  • Contemplar la posibilidad de utilizar tablas intermedias con el nivel más atómico de la información a tratar.

Además, repasaremos los elementos más importantes y usados de la herramienta de ETLSs de Pentaho: Kettle o Pentaho Data Integration.

Lugar: Sala de Formación. Centro Demostrador TIC -SPEGC. Avda. de la Feria 1, (Infecar) . Las Palmas de Gran Canaria. (ver ubicación)

Fecha y Horario: 3, 4 y 5 de julio de 2019 – 3 sesiones de 9:00 a 14:00 h. – 15 horas lectivas en total.

Programa: 

  • Module 1: Transformation Basics

    Lesson 1: Learning the PDI User Interface

    Lesson 2: Creating Transformations

    Exercise 1: Generate Rows, Sequence, Select Values

    Lesson 3: Error Handling & Logging Introduction

    Lesson 4: Introduction to Repositories

 

  • Module 2: Reading & Writing Files

    Lesson 1: Input & Output Steps

    Lesson 2: Parameters & kettle.properties

    Exercise 2: CSV Input to Multiple Text Output Using Switch/Case

    Exercise 3: Serializing Multiple Text Files

    Exercise 4: De-serialize a File

 

  • Module 3: Working with Databases

    Lesson 1: Connecting to & Exploring a Database

    Lesson 2: Table Input & Output

    Exercise 5: Reading & Writing to Database Tables

    Lesson 3: Insert, Update, & Delete Steps

    Lesson 4: Data Cleansing

    Lesson 5: Using Parameters & Arguments in SQL

    Exercise 6: Input with Parameters & Table Copy Wizard

 

  • Module 4: Data Flows & Lookups

    Lesson 1: Copying and Distributing Data

    Exercise 7: Parallel Processing

    Lesson 2: Lookups

    Exercise 8: Lookups & Data Formatting

    Lesson 3: Merging Data

 

  • Module 5: Calculations

    Lesson 1: Using the Group By Step

    Lesson 2: Calculator

    Exercise 9: Calculating & Aggregating Order Quantity

    Lesson 3: Regular Expression

    Lesson 4: User Defined Java Expression

    Lesson 5: JavaScript

 

  • Module 6: Job Orchestration

    Lesson 1: Introduction to Jobs

    Exercise 10: Loading JVM Data into a Table

    Lesson 2: Sending Alerts

    Lesson 3: Looping & Conditions

    Exercise 11: Creating a Job with a Loop

    Lesson 4: Executing Jobs from a Terminal Window (Kitchen).

 

  • Module 7: Test (advance)

    Lesson 1: Unit

    Lesson 2: Integration Test

 

  • Module 8: Tips and Code review (advance)

    Lesson 1: git and svn integration

    Lesson 2: hellkichen and carte

    Lesson 3 : Docker

    Lesson 4: Manejo de entornos.

    Lesson 5: webspoon

 

  • Module 9: Data Streaming (advance)

    Lesson 1: MQTT

    Guided Demo: MQTT with GPS data

    Lesson 2: Kafka

    Demonstration: Using Kafka to Obtain a Streaming Twitter Feed in PDI

    Lesson 3 : Remote

    Carte

 

  • Module 10 : Scalability (advance)

    Lesson 1: Clustering Carte Servers

    Guided Demo: Configure Master and Slave Server Nodes

    Guided Demo: Monitoring Master and Slave Server Nodes

    Guided Demo: Round-Robin vs. Copy

    Guided Demo: Clustering and Group by

    Lesson 2: Partitioning

    Guided Demo: Stream Partitioning

    Lesson 3: Checkpoints

    Exercise: Using Checkpoints to Restart Jobs

    Exercise: Using Checkpoints

 

DESARROLLO DE UN PLUGIN DE TRANSFORMACIÒN EN PENTAHO DATA

INTEGRATION :

  • Module 1: Basics

    Lesson 1: Set Up Development Environment

    Lesson 2: Develop a tranformation plugin

 

Docente: Rafael Valenzuela. Ingeniero de datos con más de 10 años de experiencia. Máster de Investigación en Sistemas Avanzados de Hardware y Software en la Universidad Rey Juan Carlos, Maestría en Ciencias de la Computación (Universidad UEM), Organizador de encuentros de Pentaho en Madrid y Barcelona. https://www.linkedin.com/in/rafael-valenzuela-61a69419/

Precio: 100€

Bonificaciones:

  • 50% de descuento, en caso de ocupar un espacio dentro de las instalaciones destinadas a emprendedores gestionadas por la SPEGC o de la Fundación Parque Científico y Tecnológico de la ULPGC.
  • 50% de descuento, desempleados que acrediten su situación con el DARDE actualizado (se adjunta en la inscripción). , tienen un descuento del 50% en la cuota de ingreso para el curso.
  • Los descuentos no son acumulables.