[A-62] Análisis de datos con Mahout y Hadoop (30 h)

Nivel:

Presentación

Apache Hadoop se ha venido a denominar "el Sistema Operativo de la Nube". Constituye un proyecto de código abierto respaldado por el grupo Apache que proporciona una plataforma altamente escalable para el desarrollo de aplicaciones con un grado de paralelismo extremo.El propósito fundamental es el proceso de grandes conjuntos de datos (del órden de Terabytes o Petabytes) en un tiempo de respuesta casi instantáneo - tareas para las cuales incluso los clusters más potentes de las bases de datos relacionales se quedan cortos.

Apache Mahout es una librería construida pensando en Hadoop cuyo propósito fundamental es el análisis estadístico y minería de grandes volúmenes de datos. Incorpora gran cantidad de conocidos algoritmos en estas áreas

Temario

  
	1. Técnicas y Herramientas para Aprendizaje Automatizado
		1.1	Introducción
		1.2 Conceptos, Instancias, Atributos
		1.3 Representación del Conocimiento
		1.4 Algoritmos: Métodos Básicos
		1.5 Credibilidad: Evaluación de lo Aprendido
	
	2. Introducción a Apache Mahout y Hadoop
		2.1 ¿Qué es Apache Mahout?
		2.2 Aspectos del Aprendizaje Automatizado
		2.3 Configuración de Mahout
		2.4 Tipos de datos básicos
		2.5 Acceso a HDFS
		
	3. Representación de la información
		3.1 El problema de la representación
		3.2	Vectorización de datos
		3.3 Vectorización de datos textuales. Vectores IDF
		3.4 Análisis semántico latente
		3.5 Vectorización de datos de tipo gráfico
		3.6 Vectorización de datos de tipo audio
		3.7 Normalización
		3.8 Medidas de similitud. Distancias : Euclidea, Mahnattan, Tanimoto, Coseno, Chebyshev 
		3.9 Selección de la medida de similitud apropiada

	4.Clustering
		4.1 Fundamentos de Clustering
		4.2 Algoritmos de clustering en Mahout
		4.3 Clustering K-means
		4.4 Clustering difuso (Fuzzy clustering)
		4.5 Clustering basado en modelos
		4.6 Clusters de Dirichlet
		4.7 Clustering Espectral
		4.8 Clustering Top-Down
		4.9 Clustering Minhash
		4.10 Comparación de los algoritmos de clustering
		4.11 Evaluación y mejora de la calidad del clustering
		4.12 Optimización del rendimiento
		4.13 Uso de los algoritmos desde la líneaa de comandos
		4.14 Uso de instancias EC2 de Amazon para tareas de Clustering
		
	5. Clasificación
		5.1 Clasificadores en Mahout
		5.2 Flujo de trabajo típico
		5.3 Representación de la información
		5.4 Clasificadores Bayesianos
		5.5 Árboles de decisión y bosques
		5.6 Regresión SGD
		5.7 Clasificadores Pasivo-Agresivos
		5.8 Algoritmos en desarrollo : Clasificación Winnow y Perceptron. Máquinas SVM
		
	6. Filtrado colaborativo (sistemas de recomendación)
		6.1 Introducción a los recomendadores
		6.2 Representación de los datos
		6.3 Expresión de preferencias (Taste)
		6.4 Recomendadores no distribuidos
		6.5 Recomendaciones basadas en usuarios
		6.6 Recomendaciones basadas en elementos
		6.7 Filtrado colaborativo mediante factorización paralela de matrices
		6.8 Comparación entre los algoritmos de recomendación
	
	7. Minería de patrones
		7.1 Algoritmos de co-ocurrencia
		7.2 Algoritmo de detección de patrones
		
	8. Reducción de dimensiones
		8.1 Motivación de los algoritmos de reducción de dimensiones
		8.2 Algoritmo SVD
		8.3 SVD Estocástico
		8.4 Algoritmos en desarrollo: Análisis de Componentes Fundamentales (PCA), Análisis Discriminante Gausiano (GDA), Análisis de Componentes Independientes 

	9. Análisis de series temporales
	
	10. Programación de algoritmos propios
		10.1 Introducción al algoritmo Map/Reduce
		10.2 Paralelización de algoritmos con Map/Reduce
		10.3 Despliegue y ejecución sobre Hadoop
		10.4 Ejemplo de desarrollo : paralelización del algoritmo FFT.
	
	11. El futuro de Mahout

Todos los temarios de nuestros cursos se pueden personalizar a la medida de las necesidades de la empresa

Requisitos Previos

Como requisitos para este curso, es necesario disponer conocimientos básicos de administración de Hadoop y pleno dominio de Java básico, en particular:

Manejo del entorno de desarrollo Eclipse
Programación Orientada a Objetos en Java -clases, objetos,interfaces, constructores y destructores, métodos, herencia, polimorfismo, sobrescritura y sobrecarga de métodos
Tipos de datos genéricos en Java: ( construcciones de tipo Clase<T> )
API básica de Java : Manejo de cadenas y conversiones entre tipos de datos. Tipos envolventes (Integer, Long, etc.)
API de Colecciones de Java. Matrices, interfaces Set, List y Map y clases ArrayList, HashMap y HashSet, así como el concepto de Iteradores.
API de Entrada/Salida de Java y la jerarquía de flujos
Control de errores en Java : excepciones

Adicionalmente, es necesario disponer de unos conocimientos matemáticos básicos, en particular:

Álgebra lineal : matrices y vectores. Distancia Euclídea. Centroides de distribuciones
Estadística básica : media simple y ponderada, cuantiles, distribuciones básicas
Cálculo básico: derivación y búsqueda de máximos y mínimos locales

Salidas Profesionales

Expertos en Business Intelligence y/o Minería de datos
Desarrolladores de Hadoop
Matemáticos y expertos en estadística
Consutores en Cloud Computing

Modalidades y Horarios

Modalidad Presencial

Horarios:
Mañanas (9:00-14:00)
Tardes (15:00-19:00)

Duración: 30 horas
Número mínimo de alumnos: 3
Número máximo de alumnos: 12

Modalidad de Aula Virtual

(En esta modalidad, el alumno puede participar a distancia en un curso presencial, pudiendo ver y escurchar al docente, interactuar con él y los demás asistentes, formular preguntas, etc. En definitiva, dispone de todas las ventajas de un curso presencial sin necesidad de desplazarse )

Duración: 30 horas
Número mínimo de alumnos: 5
Número máximo de alumnos: 15

Información Adicional

Para empresas y empleados, podemos gestinar las bonificaciones de la Fundación Tripartita para este curso. Dependiendo de sus circunstnacias, es posible que su empresa se pueda beneficiar de una bonificación de hasta el 100% del importe del curso, resultando en un curso de coste 0.

Solicitar información adicional

Últimas novedades

Mejor Valorados

Más visitados

[A-62] Análisis de datos con Mahout y Hadoop (30 h)

Nivel:

Modalidad Presencial

Modalidad de Aula Virtual