Podcast: Abrir en otra ventana | Descargar
¡Yep! ¡Muy buenas!
En el episodio de esta semana te quiero contar por qué es importante tener datos de calidad. ¿Cómo nos aseguramos que un dataset es de calidad? ¿Cómo sabemos si un dataset nos sirve? ¿Por qué es tam importante?
No son preguntas fáciles de contestar. ¿Qué significa para ti que un dataset sea de calidad? Puede que tengas el mejor dataset de la historia pero te sea totalmente inutil…
Lo mas importante es que el dataset se adapte a nuestras necesidades. Si queremos un dataset sobre meteoroligía, no nos servirá de nada conseguir un dataset sobre tráfico, por muy bien formado y estructurado que esté ese dataset, no se adapta a lo que queremos.
Por lo general, un dataset necesita cumplir:
- que sea completo: que contenga todos los datos, que no tenga vacios temporales,etc
- que tenga validez: si el dataset es muy grande, ¿necesitamos todo el conjunto?
- que sea preciso: que contenga los valores corrector, valores en rangos esperados (si estamos esperando un número, que sea un número)
- que sea consistente: que no haya sido modificado, falseado… que sea el dataset original.
Para esto, se lleva a cabo las siguientes fases:
- Data Cleaning: limpieza de los datos. Quitar todos los datos anómalos, nulos o que no sirvan.
- Data Profiling: un análisis un poco más a fondo de los datos.
- Data Validation: la fase final, ver si el dataset nos sirve o no.
Y tú, ¿llevas a cabo estas fases de verificación en la calidad de tus datasets? ¿Qué herramientas utilizas o como lo haces? ¡No dudes en contármelo! 🙂
Ya sabéis que si tenéis alguna duda, sugerencia o pregunta me podéis encontrar en:
Os agradezco los comentarios en iVoox y valoraciones de 5 estrellas en iTunes.
¡Nos oímos la semana que viene!