AWS EMR: Soluciones de análisis de datos escalables y eficientes

AWS EMR: Soluciones de análisis de datos escalables y eficientes

¿En que consiste Elastic Map Reduce?

Provee un Hadoop framework completamente manejado, reduciendo la complejidad y el costo de arranque de montar uno. Ademas se combina con la escala de AWS, y brinda la posibilidad de montar largos clusters de Hadoop en minutos.

¿Qué opciones se pueden especificar cuando se crea un cluster?

  • El tipo de instancia del nodo en el cluster.
  • El número de nodos en el cluster.
  • La versión de hadoop que se desea ejecutar.
  • Herramientas adicionales o aplicaciones como Hive, Pig, Spark o Presto.

¿Qué tipos de almacenamiento se pueden utilizar con EMR?

Hadoop Distributed File System (HDFS)

El sistema de archivo estándar que viene con Hadoop. Los datos son replicados a traves de múltiples instancias para durabilidad. EMR puede usar almacenamiento de una instancia de EC2 o EBS for HDFS.

EMR File System (EMRFS)

Es una implementación de HDFS que permite clusters almacenar datos en S3.