[R-416] ETL con Talend Open Studio (24 h)
Nivel:
Presentación
Los procesos de extracción, proceso y carga de datos son absolutamente fundamentales en el panorama informático actual.
La variedad de fuentes de datos, la libertad que existe a la hora de elegir los sistemas de almacenmamiento, así como la falta de homogeneidad de los propios datos hace necesario que antes de que las aplicaciones y almacenes de datos de una empresa puedan incorporar estos datos, los mismos sean extraídos, transformados, verificados, normalizados y finalmente cargados de forma eficiente. Antiguamente, todo esto se realizaba mediante un proceso tediosísimo de codificación manual de cada etapa, reinventando en numerosas ocasiones la rueda. En la actualidad, al disponer de herramientas especializadas precisamente en estos procesos ETL y que disponen de potentes componentes que son combinables gráficamente, el proeso es mucho más sencillo y apenas requiere codificación.
Temario
PARTE 1. Introducción a los ETL y Talend Open Studio
1. Introducción a los flujos ETL
2. Tipos de fuentes de datos
3. Transformaciones y estándares
4. Escalabilidad y Rendimiento
5. Tipos de componentes en un ETL
6. Productos Open Source
7. Productos Comerciales
PARTE 2. Modelando los trabajos
1. Uso del Business Modeler
2. Manejo de documentos para el proyecto
PARTE 3. Uso de Job Designer para generar el código
1. Pruebas con data sets
PARTE 4. Componentes input/output
1. Manejo al acceso a ficheros XML, delimitados por caracteres, etc?
2. Acceso a Bases de Datos relacionales
PARTE 5. Repositorio de Metadatos
1. Centralizar las conexiones
2. Centralizar los flujos de datos y esquemas
PARTE 6. Transformaciones de Datos
1. Uso de los diferentes componentes en transformaciones
2. Parametrización y mapeo de datos usando tmap (join)
3. Perfilar los datos usando filtros
4. Generación de outputs diverso y manejo de excepciones
PARTE 7. Funcionalidades de desarrollo
1. Definición de los entornos del proyecto (desarrollo, producción)
2. Inclusión de código java en los Jobs
3. Establecer el manejo de errores
4. Obtener estadísticas y logs de los trabajos
PARTE 8. Debug y Deploy de trabajos
1. Generación de documentación técnica de los trabajos
2. Usando el Debug view
3. Generar jobs y proporcionarlos como servicios web
PARTE 9. Talend Open Studio y los Data Warehouses
1. Modelo Kimball (de "estrella") de un data warehouse
2. Tablas de hechos y dimensiones
3. Carga inicial del warehouse
4. Cargas incrementales
Todos los temarios de nuestros cursos se pueden personalizar a la medida de las necesidades de la empresa
Requisitos Previos
- Experiencia en desarrollos con Java
- Conocimientos de SQL
- Conocimientos de XML
Salidas Profesionales
- Programadores de Sistemas ETL
- Programadores de Servicios Web
- Administradores de Bases de Datos
- Control de Calidad
Materiales
A todos los alumnos se les entrega:
? Un DVD con documentación, materiales adicionales, ejemplos y con el software utilizado durante el curso, así como herramientas adicionales
Modalidades y Horarios
Modalidad Presencial
Horarios:
Mañanas (9:00-14:00)
Tardes (15:00-19:00)
Duración: 24 horas
Número mínimo de alumnos: 3
Número máximo de alumnos: 25
Modalidad de Aula Virtual
(En esta modalidad, el alumno puede participar a distancia en un curso presencial, pudiendo ver y escurchar al docente, interactuar con él y los demás asistentes, formular preguntas, etc.
En definitiva, dispone de todas las ventajas de un curso presencial sin necesidad de desplazarse )
Duración: 24 horas
Número mínimo de alumnos: 5
Número máximo de alumnos: 15
Información Adicional
Para empresas y empleados, podemos gestinar las bonificaciones de la Fundación Tripartita para este curso. Dependiendo de sus circunstnacias, es posible
que su empresa se pueda beneficiar de una
bonificación de hasta el 100% del importe del curso, resultando en un curso de coste 0.
Solicitar información adicional