Máster Certificado en Big Data y Minería de Datos
Recomendaciones similares

Últimas novedades

curso Apache Hadoop - Administración
curso Apache Hadoop - Desarrollo
curso Apache Drill
curso Análisis de datos con Mahout y Hadoop

Mejor Valorados

curso Apache Hadoop - Administración
curso Apache Drill
curso Análisis de datos con Mahout y Hadoop
curso Apache Hadoop - Desarrollo

Más visitados

curso Apache Hadoop - Desarrollo
curso Análisis de datos con Mahout y Hadoop
curso Apache Hadoop - Administración
curso Apache Drill

Descargar catálogo de cursos

[A-60] Apache Hadoop - Administración (25 h)

Nivel: IntermedioIntermedioIntermedioIntermedio

Presentación

Apache Hadoop se ha venido a denominar "el Sistema Operativo de la Nube". Constituye un proyecto de código abierto respaldado por el grupo Apache que proporciona una plataforma altamente escalable para el desarrollo de aplicaciones con un grado de paralelismo extremo.El propósito fundamental es el proceso de grandes conjuntos de datos (del órden de Terabytes o Petabytes) en un tiempo de respuesta casi instantáneo - tareas para las cuales incluso los clusters más potentes de las bases de datos relacionales se quedan cortos.

Como beneficio añadido, Hadoop proporciona un sistena de almacenamiento altamente distribuido que permite el almacenamiento redundante y de rápido acceso de grandes volúmenes de datos.

El objetivo del curso de Administración de Hadoop es proporcionar a los alumnos una visión en profundidad de la arquitectura Hadoop, el despliegue de clusters, la optimización del rendimiento, la monitorización del sistema y la solución de problemas frecuentes.

Temario

	1. Introducción a Hadoop
		1.1 ¿Por qué Hadoop?
		1.2 El sistema de archivos altamente distribuido - HDFS
		1.3 Hadoop YARN - planificación de tareas y gestión de recursos en el cluster
		1.4 Map/Reduce - Procesamiento paralelo de grandes conjuntos de datos
		1.5 Proyectos sobre Hadoop: Hive, pig, HBase, Zookeeper, Chukwa, Mahout
		1.6 Características hadoop : Alta disponibilidad, Rendimiento, Balanceo de carga, Latencia, Escalabilidad
		1.7 Teorema CAP
		
	2. Planificación de clústers Hadoop 
		2.1 Consideraciones generales en la planificación
		2.2 Requisitos del sistema : hardware y software
		2.3 Configuración de la red. 
		2.4 Topologías de nodos
		2.5 Despliegue de un nodo autónomo
		2.6 Configuración
		
	3. Clústers Hadoop
		3.1 Tipos de implementaciones
		3.2 Instalación de un cluster
		3.3 Uso de Cloudera Manager
		3.4 Parámetros típicos
		3.5 Distribución de datos dependiente de la topología (Rack Awareness)
		3.6 Herramientas de gestión de la configuración
		
	4. Gestión y planificación de traajos
		4.1 Ejecución y detención de tareas Map/Reduce
		4.2 Planificador FIFO
		4.3 Planificador equilibrado
		
	5. Mantenimiento del cluster
		5.1 Monitorización
		5.2 Comprobación de la integridad de datos HDFS con fsck
		5.3 Movimiento de datos entre clusters con distcp
		5.4 Adición y eliminación dinámica de nodos
		5.5 Reequilibrado del cluster
		5.6 Copia de seguridad
		5.7 Actualización y migración
		5.8 Metadatos del NameNode
 	  
	6. Monitorización, Optimización y Solución de problemas
		6.1 Archivos de histórico
		6.2 Interfaz Web del JobTracker y NameNode
		6.3 Análisis de los históricos
		6.4 Monitorización del cluster con Ganglia
		6.5 Otras herramientas de monitorización
		6.6 Medición del rendimiento
		6.7 Resolución de problemas frecuentes
 	  
	7. Importación y Exportación de datos
		7.1 Uso de Sqoop
		7.2 Uso de Flume
		7.3 Catálogo de buenas prácticas en la importación de datos
		7.4 Hadoop como sistema ETL
 	
	8. Otros proyectos Hadoop
		8.1 Apache Hive
		8.2 Apache Pig y el lenguaje Pig Latin
		8.3 Apache HBase
 
	  


Todos los temarios de nuestros cursos se pueden personalizar a la medida de las necesidades de la empresa

Requisitos Previos
Como requisitos para este curso, es necesario disponer conocimientos básicos de administración de Linux:
Salidas Profesionales
Modalidades y Horarios

Modalidad Presencial

Horarios:
Mañanas (9:00-14:00)
Tardes (15:00-19:00)

Duración: 25 horas
Número mínimo de alumnos: 3
Número máximo de alumnos: 25

Modalidad de Aula Virtual

(En esta modalidad, el alumno puede participar a distancia en un curso presencial, pudiendo ver y escurchar al docente, interactuar con él y los demás asistentes, formular preguntas, etc. En definitiva, dispone de todas las ventajas de un curso presencial sin necesidad de desplazarse )

Duración: 25 horas
Número mínimo de alumnos: 5
Número máximo de alumnos: 15
Certificaciones
Este curso prepara para la certificación Cloudera Certified Administrator for Apache Hadoop CCAH
(Es necesario superar el examen CCA-410, no incluido en el precio del curso)
Información Adicional


Logo Fundación Tripartita Para empresas y empleados, podemos gestinar las bonificaciones de la Fundación Tripartita para este curso. Dependiendo de sus circunstnacias, es posible que su empresa se pueda beneficiar de una bonificación de hasta el 100% del importe del curso, resultando en un curso de coste 0.


Solicitar información adicional


(c) 2024 Planetalia S.L. Todos los derechos reservados.
Este sitio web utiiza cookies tanto propios como de terceros. El uso del sitio implica la aceptación de dicho uso, así como de los Términos y Condiciones del sitio.