Podcast: Abrir en otra ventana | Descargar
¡Yeepa! ¡Muy buenas!
Bienvenid@s otra semana más a este podcast sobre el universo Big Data.
Esta semana, siguiendo un poco en la linea de la semana pasada, os quiero contar cómo es el proceso de limpieza de los datos, los pasos que yo sigo para tener un datasets limpio y que nos facilite el trabajo.
Vale, los pasos que yo sigo (repito, esto no es un proceso standard, si no que es el proceso que yo sigo generalmente) desde que me llega un datasets son:
- Busqueda y borrado de NULLs
- Busqueda y borrado de duplicados
- Ver el tipo de las columnas y ver si hay valores anómalos (números donde tiene que haber texto, texto donde tiene que haber úmeros,etc)
- Estandarizar las colunas: Por ejemplo, que las fechas tengan todas el formato DD/MM/YYYY
- Si hay identificadores, cambiarlos por su valor real (ejemplo de los coches)
Con estos simples pasos, pasamos de un dataset un poco alborotado a uno limpito limpito que nos hace el trabajo más sencillo. También nos facilita la fase de análisis posterior y su validación.
Ya sabéis que si tenéis alguna duda, sugerencia o pregunta me podéis encontrar en:
¡Venga esos comentarios en iVoox y valoraciones en iTunes! ¡Animaros!
Nos oímos la semana que viene 🙂