Mostrando entradas con la etiqueta Scikit-Learn. Mostrar todas las entradas
Mostrando entradas con la etiqueta Scikit-Learn. Mostrar todas las entradas

sábado, 5 de diciembre de 2020

Preparación de datos para los algoritmos de Machine Learning

Vamos a aprender a preparar nuestro set de datos para que pueda ser manejado fácilmente por los algoritmos de Machine Learning, en vez de hacerlo manualmente siempre es interesante tener escritos nuestros scripts que nos ayuden en esta tarea. De este modo, podremos reproducir estas transformaciones  en otros sets de datos  o en el mismo set de datos cada vez que dispongamos de nuevos datos y nos permitirá acumular una librería de transformaciones que podremos utilizar en ocasiones futuras.

Limpieza de datos

La mayoría de algoritmos de Machine Learning ML, no trabajan bien con datos faltantes, de modo que crearemos algunas funciones que lo tengan en cuenta para hacer la correspondiente limpieza de valores faltantes. Podemos tomar varios caminos:
Eliminar las filas con datos faltantes
Eliminar los conjuntos de filas con datos faltantes (Por ej. si estamos trabajando con números de teléfono de una ciudad, en vez de eliminar sólo la fila sin información, podemos optar por eliminar el distrito entero de la ciudad en el que pertenezcan los datos faltantes)
Asignar un valor a los datos faltantes (Por ej. Ponerlos a cero o asignarles el valor medio que le corresponda, la mediana, etc.)
En nuestro ejemplo, tenemos un archivo .csv con datos planos del registro de temperaturas del observatorio de Madrid-Retiro, con datos para 1853 sólo para los meses de enero y octubre, el resto están vacíos.

Preparación de datos para los Algoritmos de Machine Learning