Las tecnologías BigData se originan en las empresas que necesitan manejar volúmenes de datos gigantescos - del orden de petabytes o exabytes - tales como Facebook, Amazon, NetFlix y muchas otras. En estos entornos, el planteamiento tradicional de las bases de datos relacionales deja de ser válido y pasan a necesitarse otros sistemas radicalmente distintos, como las bases de datos basadas en tablas hash distribuidas (como Apache Cassandra), o las basadas en grafos (como Neo4J). El proceso de estos ingentes volúmenes de datos también requiere novedosas soluciones a nivel de desarrollo, basadas en plataformas masivamente escalables donde los clústers no se miden en decenas, sino en miles de equipos concurrentes. Afortunadamente, con plataformas como Apache Hadoop o patrones de desarrollo como MapReduce, la tarea de manejar estos volúmenes se simplifica enormemente. Finalmente, herramientas como R, Apache Mahout o HBase/Pig permiten realizar de forma cómoda y en muchos casos automatizada minería de datos y business intelligence, pudiendo encontrar patrones de comportamiento ocultos de los usuarios, o incluso efectuar recomendaciones en base a ellos.
El objetivo del curso es proporcionar a los alumnos una visión general del campo de BigData - conceptos, tecnologías, plataformas, casos de éxito y ejemplos prácticos de aplicación en relación a la minería de datos. Este curso es un curso básico que puede constutir un punto de partida para posteriormente adentrarse en temas específicos
PARTE 1. Introducción y Precursores BigData 4V: Volumen, Velocidad, Variedad, Veracidad Visión general del campo Orígenes históricos Google File System Google BigTable Amazon Dynamo BigData y las herramientas ETL BigData y la computación en la nube BigData y las Arquitecturas Orientadas a Servicios PARTE II . BigData en el Análisis y Minería de Datos Filtrado Colaborativo Clasificación Clustering Detección de Anomalías Vectorización y Medidas de Similtidu Inferencia de Reglas Sumarización Co-Ocurrencia y FPM (Frequent Pattern Mining) Análisis Semántico Latente Análisis de Series Temporales PARTE III. Paradigmas Escalabilidad Horizontal Bases de datos no relacionales : Grafos y DHTs Distribución de datos y procesos. Limitación CAP Arquitecturas SEDA PARTE IV. Algoritmos. Una visión general Distribución de procesos : Map-Reduce Gossip Protocols Hinted Handoff Consistent Hashing Flitros de Bloom Relojes Vectoriales Árboles de Merkle PARTE V. Plataformas y Productos El SO de la red : Hadoop Bases de datos NoSQL: Cassandra, MongoDB y Neo4J Procesamiento masivo : Apache HBase, Pig y Hive Minería de datos : Apache Mahout. Rapidminer. Radoop Carga de datos : Sqoop Modelado de flujos: OOzie Servicios comerciales : BigData sobre la nube de Amazon PARTE VI. Casos de éxito y Evolución futura
Todos los temarios de nuestros cursos se pueden personalizar a la medida de las necesidades de la empresa