Apache Hadoop se ha venido a denominar "el Sistema Operativo de la Nube". Constituye un proyecto de código abierto respaldado por el grupo Apache que proporciona una plataforma altamente escalable para el desarrollo de aplicaciones con un grado de paralelismo extremo.El propósito fundamental es el proceso de grandes conjuntos de datos (del órden de Terabytes o Petabytes) en un tiempo de respuesta casi instantáneo - tareas para las cuales incluso los clusters más potentes de las bases de datos relacionales se quedan cortos.
Apache Mahout es una librería construida pensando en Hadoop cuyo propósito fundamental es el análisis estadístico y minería de grandes volúmenes de datos. Incorpora gran cantidad de conocidos algoritmos en estas áreas
1. Técnicas y Herramientas para Aprendizaje Automatizado 1.1 Introducción 1.2 Conceptos, Instancias, Atributos 1.3 Representación del Conocimiento 1.4 Algoritmos: Métodos Básicos 1.5 Credibilidad: Evaluación de lo Aprendido 2. Introducción a Apache Mahout y Hadoop 2.1 ¿Qué es Apache Mahout? 2.2 Aspectos del Aprendizaje Automatizado 2.3 Configuración de Mahout 2.4 Tipos de datos básicos 2.5 Acceso a HDFS 3. Representación de la información 3.1 El problema de la representación 3.2 Vectorización de datos 3.3 Vectorización de datos textuales. Vectores IDF 3.4 Análisis semántico latente 3.5 Vectorización de datos de tipo gráfico 3.6 Vectorización de datos de tipo audio 3.7 Normalización 3.8 Medidas de similitud. Distancias : Euclidea, Mahnattan, Tanimoto, Coseno, Chebyshev 3.9 Selección de la medida de similitud apropiada 4.Clustering 4.1 Fundamentos de Clustering 4.2 Algoritmos de clustering en Mahout 4.3 Clustering K-means 4.4 Clustering difuso (Fuzzy clustering) 4.5 Clustering basado en modelos 4.6 Clusters de Dirichlet 4.7 Clustering Espectral 4.8 Clustering Top-Down 4.9 Clustering Minhash 4.10 Comparación de los algoritmos de clustering 4.11 Evaluación y mejora de la calidad del clustering 4.12 Optimización del rendimiento 4.13 Uso de los algoritmos desde la líneaa de comandos 4.14 Uso de instancias EC2 de Amazon para tareas de Clustering 5. Clasificación 5.1 Clasificadores en Mahout 5.2 Flujo de trabajo típico 5.3 Representación de la información 5.4 Clasificadores Bayesianos 5.5 Árboles de decisión y bosques 5.6 Regresión SGD 5.7 Clasificadores Pasivo-Agresivos 5.8 Algoritmos en desarrollo : Clasificación Winnow y Perceptron. Máquinas SVM 6. Filtrado colaborativo (sistemas de recomendación) 6.1 Introducción a los recomendadores 6.2 Representación de los datos 6.3 Expresión de preferencias (Taste) 6.4 Recomendadores no distribuidos 6.5 Recomendaciones basadas en usuarios 6.6 Recomendaciones basadas en elementos 6.7 Filtrado colaborativo mediante factorización paralela de matrices 6.8 Comparación entre los algoritmos de recomendación 7. Minería de patrones 7.1 Algoritmos de co-ocurrencia 7.2 Algoritmo de detección de patrones 8. Reducción de dimensiones 8.1 Motivación de los algoritmos de reducción de dimensiones 8.2 Algoritmo SVD 8.3 SVD Estocástico 8.4 Algoritmos en desarrollo: Análisis de Componentes Fundamentales (PCA), Análisis Discriminante Gausiano (GDA), Análisis de Componentes Independientes 9. Análisis de series temporales 10. Programación de algoritmos propios 10.1 Introducción al algoritmo Map/Reduce 10.2 Paralelización de algoritmos con Map/Reduce 10.3 Despliegue y ejecución sobre Hadoop 10.4 Ejemplo de desarrollo : paralelización del algoritmo FFT. 11. El futuro de Mahout
Todos los temarios de nuestros cursos se pueden personalizar a la medida de las necesidades de la empresa