Taller ‘Pentaho Data Integration’
Datos y analítica
Cursos y talleres
- Límite de inscripción: 25/06/2019 00:00
- Fechas: 03/07/2019 09:00 - 05/07/2019 14:00
- Duración: horas
- Modalidad:
Datos de interés
- Precio: Gratuito
Dirigido a: Profesionales de las tecnologías de información, gestores de TI, Analistas de Negocio, Analistas de sistemas, arquitectos Java, desarrolladores de sistemas, administradores de bases de datos, desarrolladores y profesionales con relación a el área de tecnología, marketing, negocio y financiera.
Los alumnos deberán llevar portátil con máquina virtual (Linux o Mac) o Docker. También deberán tener conocimientos básicos de SQL y Programación.
Objetivos: La extracción, la transformación y carga (ETL) de los datos es la clave del éxito en un sistema BI, que permite gestionar la calidad de los datos de forma adecuada.
En este taller te contaremos algunas de las mejores prácticas que recomendamos durante el diseño de los procesos ETL como:
- Centralización de los procedimientos, de forma que se asegure la coherencia y homogeneidad de los datos intercambiados desde las distintas fuentes.
- Evitar la redundancia de cálculos: si existe el dato previamente calculado en las bases de datos operacionales, no debe volver a realizarse el cálculo en la extracción. Esta premisa pretende conseguir un doble objetivo.
- Establecimiento de puntos de “control de calidad” y validación.
- Implementar procesos de recarga de la información, ante posibles errores en la información inicial.
- Contemplar la posibilidad de utilizar tablas intermedias con el nivel más atómico de la información a tratar.
Además, repasaremos los elementos más importantes y usados de la herramienta de ETLSs de Pentaho: Kettle o Pentaho Data Integration.
Lugar: Sala de Formación. Centro Demostrador TIC -SPEGC. Avda. de la Feria 1, (Infecar) . Las Palmas de Gran Canaria. (ver ubicación)
Fecha y Horario: 3, 4 y 5 de julio de 2019 – 3 sesiones de 9:00 a 14:00 h. – 15 horas lectivas en total.
Programa:
- Module 1: Transformation Basics
Lesson 1: Learning the PDI User Interface
Lesson 2: Creating Transformations
Exercise 1: Generate Rows, Sequence, Select Values
Lesson 3: Error Handling & Logging Introduction
Lesson 4: Introduction to Repositories
- Module 2: Reading & Writing Files
Lesson 1: Input & Output Steps
Lesson 2: Parameters & kettle.properties
Exercise 2: CSV Input to Multiple Text Output Using Switch/Case
Exercise 3: Serializing Multiple Text Files
Exercise 4: De-serialize a File
- Module 3: Working with Databases
Lesson 1: Connecting to & Exploring a Database
Lesson 2: Table Input & Output
Exercise 5: Reading & Writing to Database Tables
Lesson 3: Insert, Update, & Delete Steps
Lesson 4: Data Cleansing
Lesson 5: Using Parameters & Arguments in SQL
Exercise 6: Input with Parameters & Table Copy Wizard
- Module 4: Data Flows & Lookups
Lesson 1: Copying and Distributing Data
Exercise 7: Parallel Processing
Lesson 2: Lookups
Exercise 8: Lookups & Data Formatting
Lesson 3: Merging Data
- Module 5: Calculations
Lesson 1: Using the Group By Step
Lesson 2: Calculator
Exercise 9: Calculating & Aggregating Order Quantity
Lesson 3: Regular Expression
Lesson 4: User Defined Java Expression
Lesson 5: JavaScript
- Module 6: Job Orchestration
Lesson 1: Introduction to Jobs
Exercise 10: Loading JVM Data into a Table
Lesson 2: Sending Alerts
Lesson 3: Looping & Conditions
Exercise 11: Creating a Job with a Loop
Lesson 4: Executing Jobs from a Terminal Window (Kitchen).
- Module 7: Test (advance)
Lesson 1: Unit
Lesson 2: Integration Test
- Module 8: Tips and Code review (advance)
Lesson 1: git and svn integration
Lesson 2: hellkichen and carte
Lesson 3 : Docker
Lesson 4: Manejo de entornos.
Lesson 5: webspoon
- Module 9: Data Streaming (advance)
Lesson 1: MQTT
Guided Demo: MQTT with GPS data
Lesson 2: Kafka
Demonstration: Using Kafka to Obtain a Streaming Twitter Feed in PDI
Lesson 3 : Remote
Carte
- Module 10 : Scalability (advance)
Lesson 1: Clustering Carte Servers
Guided Demo: Configure Master and Slave Server Nodes
Guided Demo: Monitoring Master and Slave Server Nodes
Guided Demo: Round-Robin vs. Copy
Guided Demo: Clustering and Group by
Lesson 2: Partitioning
Guided Demo: Stream Partitioning
Lesson 3: Checkpoints
Exercise: Using Checkpoints to Restart Jobs
Exercise: Using Checkpoints
DESARROLLO DE UN PLUGIN DE TRANSFORMACIÒN EN PENTAHO DATA
INTEGRATION :
- Module 1: Basics
Lesson 1: Set Up Development Environment
Lesson 2: Develop a tranformation plugin
Docente: Rafael Valenzuela. Ingeniero de datos con más de 10 años de experiencia. Máster de Investigación en Sistemas Avanzados de Hardware y Software en la Universidad Rey Juan Carlos, Maestría en Ciencias de la Computación (Universidad UEM), Organizador de encuentros de Pentaho en Madrid y Barcelona. https://www.linkedin.com/in/rafael-valenzuela-61a69419/
Precio: 100€
Bonificaciones:
- 50% de descuento, en caso de ocupar un espacio dentro de las instalaciones destinadas a emprendedores gestionadas por la SPEGC o de la Fundación Parque Científico y Tecnológico de la ULPGC.
- 50% de descuento, desempleados que acrediten su situación con el DARDE actualizado (se adjunta en la inscripción). , tienen un descuento del 50% en la cuota de ingreso para el curso.
- Los descuentos no son acumulables.