Máster Certificado en Big Data y Minería de Datos
Recomendaciones similares

Últimas novedades

curso Apache Hadoop - Administración
curso Apache Hadoop - Desarrollo
curso Apache Drill
curso Análisis de datos con Mahout y Hadoop

Mejor Valorados

curso Análisis de datos con Mahout y Hadoop
curso Apache Hadoop - Desarrollo
curso Apache Hadoop - Administración
curso Apache Drill

Más visitados

curso Apache Hadoop - Desarrollo
curso Análisis de datos con Mahout y Hadoop
curso Apache Hadoop - Administración
curso Apache Drill

Descargar catálogo de cursos

[A-62] Análisis de datos con Mahout y Hadoop (30 h)

Nivel: AvanzadoAvanzadoAvanzadoAvanzado

Presentación

Apache Hadoop se ha venido a denominar "el Sistema Operativo de la Nube". Constituye un proyecto de código abierto respaldado por el grupo Apache que proporciona una plataforma altamente escalable para el desarrollo de aplicaciones con un grado de paralelismo extremo.El propósito fundamental es el proceso de grandes conjuntos de datos (del órden de Terabytes o Petabytes) en un tiempo de respuesta casi instantáneo - tareas para las cuales incluso los clusters más potentes de las bases de datos relacionales se quedan cortos.

Apache Mahout es una librería construida pensando en Hadoop cuyo propósito fundamental es el análisis estadístico y minería de grandes volúmenes de datos. Incorpora gran cantidad de conocidos algoritmos en estas áreas

Temario
  
	1. Técnicas y Herramientas para Aprendizaje Automatizado
		1.1	Introducción
		1.2 Conceptos, Instancias, Atributos
		1.3 Representación del Conocimiento
		1.4 Algoritmos: Métodos Básicos
		1.5 Credibilidad: Evaluación de lo Aprendido
	
	2. Introducción a Apache Mahout y Hadoop
		2.1 ¿Qué es Apache Mahout?
		2.2 Aspectos del Aprendizaje Automatizado
		2.3 Configuración de Mahout
		2.4 Tipos de datos básicos
		2.5 Acceso a HDFS
		
	3. Representación de la información
		3.1 El problema de la representación
		3.2	Vectorización de datos
		3.3 Vectorización de datos textuales. Vectores IDF
		3.4 Análisis semántico latente
		3.5 Vectorización de datos de tipo gráfico
		3.6 Vectorización de datos de tipo audio
		3.7 Normalización
		3.8 Medidas de similitud. Distancias : Euclidea, Mahnattan, Tanimoto, Coseno, Chebyshev 
		3.9 Selección de la medida de similitud apropiada

	4.Clustering
		4.1 Fundamentos de Clustering
		4.2 Algoritmos de clustering en Mahout
		4.3 Clustering K-means
		4.4 Clustering difuso (Fuzzy clustering)
		4.5 Clustering basado en modelos
		4.6 Clusters de Dirichlet
		4.7 Clustering Espectral
		4.8 Clustering Top-Down
		4.9 Clustering Minhash
		4.10 Comparación de los algoritmos de clustering
		4.11 Evaluación y mejora de la calidad del clustering
		4.12 Optimización del rendimiento
		4.13 Uso de los algoritmos desde la líneaa de comandos
		4.14 Uso de instancias EC2 de Amazon para tareas de Clustering
		
	5. Clasificación
		5.1 Clasificadores en Mahout
		5.2 Flujo de trabajo típico
		5.3 Representación de la información
		5.4 Clasificadores Bayesianos
		5.5 Árboles de decisión y bosques
		5.6 Regresión SGD
		5.7 Clasificadores Pasivo-Agresivos
		5.8 Algoritmos en desarrollo : Clasificación Winnow y Perceptron. Máquinas SVM
		
	6. Filtrado colaborativo (sistemas de recomendación)
		6.1 Introducción a los recomendadores
		6.2 Representación de los datos
		6.3 Expresión de preferencias (Taste)
		6.4 Recomendadores no distribuidos
		6.5 Recomendaciones basadas en usuarios
		6.6 Recomendaciones basadas en elementos
		6.7 Filtrado colaborativo mediante factorización paralela de matrices
		6.8 Comparación entre los algoritmos de recomendación
	
	7. Minería de patrones
		7.1 Algoritmos de co-ocurrencia
		7.2 Algoritmo de detección de patrones
		
	8. Reducción de dimensiones
		8.1 Motivación de los algoritmos de reducción de dimensiones
		8.2 Algoritmo SVD
		8.3 SVD Estocástico
		8.4 Algoritmos en desarrollo: Análisis de Componentes Fundamentales (PCA), Análisis Discriminante Gausiano (GDA), Análisis de Componentes Independientes 

	9. Análisis de series temporales
	
	10. Programación de algoritmos propios
		10.1 Introducción al algoritmo Map/Reduce
		10.2 Paralelización de algoritmos con Map/Reduce
		10.3 Despliegue y ejecución sobre Hadoop
		10.4 Ejemplo de desarrollo : paralelización del algoritmo FFT.
	
	11. El futuro de Mahout  	 
 
  


Todos los temarios de nuestros cursos se pueden personalizar a la medida de las necesidades de la empresa

Requisitos Previos
Como requisitos para este curso, es necesario disponer conocimientos básicos de administración de Hadoop y pleno dominio de Java básico, en particular: Adicionalmente, es necesario disponer de unos conocimientos matemáticos básicos, en particular:
Salidas Profesionales
Modalidades y Horarios

Modalidad Presencial

Horarios:
Mañanas (9:00-14:00)
Tardes (15:00-19:00)

Duración: 30 horas
Número mínimo de alumnos: 3
Número máximo de alumnos: 12

Modalidad de Aula Virtual

(En esta modalidad, el alumno puede participar a distancia en un curso presencial, pudiendo ver y escurchar al docente, interactuar con él y los demás asistentes, formular preguntas, etc. En definitiva, dispone de todas las ventajas de un curso presencial sin necesidad de desplazarse )

Duración: 30 horas
Número mínimo de alumnos: 5
Número máximo de alumnos: 15
Información Adicional


Logo Fundación Tripartita Para empresas y empleados, podemos gestinar las bonificaciones de la Fundación Tripartita para este curso. Dependiendo de sus circunstnacias, es posible que su empresa se pueda beneficiar de una bonificación de hasta el 100% del importe del curso, resultando en un curso de coste 0.


Solicitar información adicional


(c) 2024 Planetalia S.L. Todos los derechos reservados.
Este sitio web utiiza cookies tanto propios como de terceros. El uso del sitio implica la aceptación de dicho uso, así como de los Términos y Condiciones del sitio.