Podcast: Abrir en otra ventana | Descargar
¡Yep! ¡Muy buenas!
¿Qué tal estáis gente maja?
Esta semana os quiero dar una pequeña introducción a HDFS (Hadoop Distributed File System) o lo que viene siendo, el Sistema de Ficheros Distribuidos de Hadoop.
¿Qué es y qué características tiene HDFS?
Como os digo, HDFS es el sistema de ficheros distribuidos de Hadoop. Tan sencillo como eso, un sistema de ficheros, como el que puedes tener en tu ordenador. Con sus carpetas, subcarpetas,etc.
Las características más importantes de HDFS son:
- Esta diseñado para ejecutarse en varias máquinas a la vez. Nos lo pone fácil.
- Esta diseñado para almacenar archivos grandes. El tamaño por defecto de cada archivo es 64MB, pero se puede cambiar a tu gusto.
- Replicación: cada fichero automáticamente se replica 3 veces y estas 3 copias se distribuyen en diferentes máquinas. Esto lo hace tolerante a fallos. Si una maquina muere, no pasa nada, aun tenemos 2 copias más.
- Los ficheros son de acceso «write-once-read-many«, es decir, solo se puede escribir los ficheros una vez, pero leerlos todas las veces que quieras.
- Mueve el proceso a los datos y no al revés. Mover cantidades tan grandes de datos supondría mucho coste y el ancho de banda que necesitaríamos sería brutal. Por eso lo que se hace es llevar el proceso a los datos.
- Rebalanceo
Formatos de ficheros aceptados:
- ¡Todos los que quieras! Gifs, imágenes, vídeos…
- Parquet
- Avro
- RCfile
- TXT
Es complicado hablar de HDFS en 13 minutos, pero quería dejaros una pequeña intro para ir abriendo boca.
Ya sabéis que si tenéis alguna duda, sugerencia o pregunta me podéis encontrar en:
Os agradezco los comentarios en iVoox y valoraciones de 5 estrellas en iTunes.
¡Nos oímos la semana que viene!