Podcast: Abrir en otra ventana | Descargar
¡Yep! ¡Muy buenas!
En el episodio de hoy te cuento qué significan las siglas ETL, que probablemente hayas visto en blogs o artículos sobre Big Data.
¿Qué significa ETL?
ETL son las siglas para Extract, Transform y Load (Extraer, Transformar y Cargar).
Como puedes imaginar, los ETLs son los procesos creados para extraer datos desde una (o varias) fuentes e insertarlos en nuestro Data Warehouse, o Data Lake.
- Extract: El proceso de extracción se puede hacer desde una o varias fuentes, ya sean internas a nuestra empresa o externas. En esta fase se realiza una primera comprobación de los datos para asegurarnos que estamos cogiendo los datos correctos. Hay que tener en cuenta que si intentamos extraer un volúmen muy alto de datos de golpe, podríamos realentizar la fuente o incluso colapsar, por eso, lo típico es hacer extracción por partes, cada hora, cada día, o incluso de noche, que es cuando los sistemas tienen menor carga.
- Transform: Momento de transformar los datos que hemos extraído para darles la forma que queremos. Diferentes fuentes significa diferentes formatos. Ejemplos de transformaciones que podemos hacer en esta fase:
- Eliminar columnas nulas o vacias.
- Traducir códigos.
- Calcular nuevos valores.
- Dividir una columna en varias o unir varias columnas en una sola.
- Unir datos de diferentes fuentes.
- Load: Cargamos los datos ya transformados en nuestro Data Warehouse, Data Lake o Base de datos. Estos datos son los que podemos utilizar mas tarde para el tema de BI, Data Science,etc. Hay varias formas de cargar los datos pero las 2 mas comunes son:
- Cargar los datos al final de la tabla, manteniendo todos los datos anteriores
- Sobre-escribir los datos antiguos con los datos nuevos.
Hay varias herramientas que nos permiten implementar ETLs como Infomatica Power Centre, Oracle Data Integrator y otras open-source como Hadoop o Pentaho Data Integration.
¿Has utilizado alguna de estas herramientas?¿Utilizas alguna otra que no haya mencionado? ¡Cuéntamelo!
Ya sabéis que si tenéis alguna duda, sugerencia o pregunta me podéis encontrar en:
Os agradezco los comentarios en iVoox y valoraciones de 5 estrellas en iTunes.
¡Nos oímos en el siguiente episodio!