sábado, 28 de agosto de 2021

Regresión logística y clasificación para Machine Learning IV. Preparación de datos

Estos post están pensados para que el lector realice las pruebas con sus propios Datasets, pues ya estoy harto de seguir ejemplos siguiendo las instrucciones para tratar un dataset previamente descargado de internet con datos que ni entendemos ni nos sirven de mucho. Creo que se aprende mucho más creando tu propio dataset y adaptando las instrucciones a tus necesidades en vez de ejecutar como un robot las instrucciones del script. 

Vamos a crear un modelo de clasificación utilizando los conocimientos que hemos visto sobre regresión logística,

RL1RL2RL3, y scikit-learn.

import matplotlib.pyplot as plt

import numpy as np

import pandas as pd

from sklearn import linear_model,  preprocessing

from sklearn.linear_model import LogisticRegression

Estas líneas llaman a las librería que necesitaremos. También vamos a suprimir las advertencias en el notebook, ya que algunas de las bibliotecas dependientes de scikit-learn pueden emitir advertencias.

import warnings

warnings.filterwarnings('ignore')

 import pandas as pd

quinielas = pd.read_csv('Completo_Etiquetado_Puntuado.csv') #tiene goles quiniela y quinigol

quinielas.head()

Regresión logística. Preparación de datos
Una vez que hayamos cargado el conjunto de datos en el DataFrame, podemos mezclarlo haciendo uso de la función de muestra Pandas DataFrame. Y le especificamos una fracción de 1, de modo que se mezcle todo el conjunto de datos.

quinielas = quinielas.sample(frac = 1).reset_index(drop = True)

En nuestro caso no sería necesario hacer esto, pues ya son datos suficientemente aleatorios, pero con otro tipo de dataset puede venir bien hacerlo. Después, verificamos la longitud de este DataFrame en particular y obtenemos la información de que contiene 37147 filas de datos.

len(quinielas)

Si nuestra columna de etiquetas viene como cadena texto, es necesario realizar una codificación nuestro DataFrame.

No podemos usar valores de cadena cuando se introducen en nuestro modelo y debemos convertirlo en etiquetas específicas. Después de importar LabelEncoder, que es una de las herramientas de preprocesamiento de scikit-learn, lo aplicaremos a nuestra columna de etiquetas del DataFrame, usando la función fit_transform de LabelEncoder.

from sklearn.preprocessing import LabelEncoder

lb_make = LabelEncoder()

quinielas["etiqueta"] = lb_make.fit_transform(quinielas["etiqueta"])

En nuestro dataset tampoco es necesario pues todos estos pasos ya se siguieron en este curso pero dejo el código por si alguien lo necesita.

Esto reemplaza los valores actuales usados en la columna de la etiqueta con los valores codificados. 

Este conjunto de datos (dataset) incluye actualmente un total de 16 columnas, incluyendo la etiqueta. Lo que significa que hay 15 características potenciales que se pueden incorporar a nuestro modelo. Si tuviéramos que usar esas 15 columnas como características, esa técnica se denominaría regresión del sumidero de la cocina (kitchen sink regression). Ya que literalmente estamos utilizando todo en nuestro modelo. Sin embargo, estos modelos tienden a sobreajustarse (overfitting) con los datos de entrenamiento. Y terminan haciendo predicciones deficientes cuando se usan con datos reales. Una cosa que podemos hacer para evitar tal escenario es ser selectivos en las características que se utilizan para nuestro modelo. Es decir, realizamos una selección de funciones. Y para eso, usaremos un mapa de calor de Seaborn.

import seaborn as sns

import matplotlib.pyplot as plt

corrmat = quinielas.corr()

f,ax = plt.subplots(figsize = (15,15))

sns.heatmap(corrmat, vmax=.8, square=True, annot=True, fmt='.2f')

plt.show()

Importamos la biblioteca Seaborn y pyplot de matplotlib. Un mapa de calor tiene varios usos. Pero uno de ellos es visualizar la correlación entre varias columnas en nuestro  DataFrame. Si dos columnas están muy fuertemente correlacionadas entre sí, no tiene mucho sentido incluir ambas como características para nuestro modelo. Y probablemente podamos conformarnos con solo una. Para obtener toda la correlación entre las distintas columnas, usamos la función corr de Pandas.

Esto devolverá una matriz de correlación, que incluye los valores de correlación entre todos los posibles pares de columnas en nuestro DataFrame. Después, introducimos esta matriz de correlación en un mapa de calor de Seaborn, lo que nos facilitará la visualización de las correlaciones. Lo que nos permitirá identificar rápidamente qué columnas están fuertemente correlacionadas y potencialmente pueden eliminarse de nuestro conjunto de funciones. Inmediatamente algunas cosas saltan a la vista.

mapa de calor seaborn

Los valores cercanos a 1 nos indicarán que no necesitamos una de esas dos columnas correlacionadas. En el mapa aparecen con tonos más claros en este mapa de calor en particular representan una correlación positiva muy alta, y los más oscuros representan correlaciones negativas muy altas. Después de analizar este mapa de calor, podemos llegar a las características que usaremos para nuestro modelo. Hay que tener en cuenta que la gráfica es simétrica por la diagonal, así que sólo tenemos que fijarnos en la parte inferior o en la superior pero no en ambas. En este caso elegimos la parte inferior. Otra cosa a destacar la he marcado en amarillo. Vemos una fuerte correlación entre los goles metidos por el equipo local cuando son más de 2 y por el visitante cuando se queda a 0, con el número de goles respectivo. Es lógico, las cuatro columnas son etiquetas y no aparecerán cuando pretendamos hacer predicciones. ¡ya quisiéramos saber los goles que va a meter cada equipo antes de hacer una quiniela!.

En este caso concreto lo que nos interesa son los equipos, junto con los puntos de cada equipo, su diferencia y sobre todo la diferencia de puntos normalizada, de cara a predecir el resultado de cada partido.

#quito todas las etiquetas excepto la Q1

#quito todos los puntos y dejo sólo la diferencia normalizada

x_data = quinielas.drop(columns = ['idPartido','temporada','golesLocal','golesVisitante','fecha','QX','Q2','QGC0','QGC1','QGC2','QGCM','QGF0','QGF1','QGF2','QGFM'])

x_data.head()

Así que hemos reducido de 15 columnas potenciales a 10 para rellenar nuestro x_data. Ahora configuramos nuestro y_data para que sea la columna de etiqueta de nuestro DataFrame.

y_data = quinielas ['Q1']

Y lo siguiente que hacemos es convertir los datos x e y en matrices NumPy.

import numpy as np

x_data = np.array(x_data)

y_data = np.array(y_data)

Una vez que se han convertido en matrices NumPy, podemos dividir nuestros datos x e y en conjuntos de prueba y de entrenamiento.

Debemos asegurarnos de que no estemos sobreajustado a los datos de entrenamiento, para lo cual creamos el conjunto de prueba por separado. Y aunque la división se puede realizar de varias maneras, usamos el 80% de los datos para entrenamiento y reservamos el 20% restante para propósitos de prueba. Una vez que nuestro x_data se ha dividido, también debemos aplicar una división correspondiente para y_data.

train_data = x_data[:29718]

test_data = x_data[29718:]

train_labels = y_data [:29718]

test_labels = y_data [29718:]

Dado que nuestro conjunto de datos contiene un total de 37147 filas, nuestros datos de entrenamiento incluyen todas menos las últimas 7429 filas que se convierten en nuestros datos de prueba. Y con eso, todos los datos que necesitamos para construir nuestro modelo de regresión lineal ya están listos.

Clasificación mediante un modelo de regresión logística

Ahora que hemos preparado todos los datos que necesitamos entrenar y evaluar nuestro modelo.

Hemos inicializado nuestro modelo de regresión logística con todos los parámetros predeterminados. Y después comenzamos el entrenamiento de este modelo llamándolo con la función de ajuste.

logisticRegr = LogisticRegression()

Para eso, analizamos todos nuestros datos x, es decir, los datos de entrenamiento, así como las etiquetas de entrenamiento. Esta formación debería ser razonablemente rápida, ya que no tenemos demasiadas filas de datos. Y una vez hecho esto, veremos que  hemos creado nuestro modelo de regresión logística y podemos echar un vistazo a todos los parámetros predeterminados para este modelo.

logisticRegr.fit(train_data, train_labels)

Entonces, ¿es correcto este modelo de regresión logística? solo hay una

forma de averiguarlo, y es usar test_data para obtener las predicciones.

predictions = logisticRegr.predict(test_data)

Para esto, hacemos uso de la función de predicción del modelo de regresión logística, a la que pasamos el test_data y obtenemos las predicciones. Podemos comparar los valores en estas predicciones con los valores reales y calcular una puntuación de precisión  nosotros mismos. O alternativamente, podemos hacer uso de la característica de puntuación de este modelo de regresión logística.

score = logisticRegr.score(test_data, test_labels)

print(score)

Clasificación mediante un modelo de regresión logística
Para esto, alimentamos test_data y test_labels. Esto calculará las predicciones usando test_data y nuestro modelo de regresión logística y luego las comparará con test_labels para dar una puntuación de precisión. Y aquí vemos que nuestro modelo de regresión logística ha funcionado razonablemente bien, incluso con los parámetros predeterminados al obtener una puntuación de precisión del 50%. Lo que pone de manifiesto que se trata de datos estrictamente aleatorios.


sábado, 21 de agosto de 2021

Bosques aleatorios con Python (Random Forest)

El bosque aleatorio (Random Forest)  crea un bosque o un conjunto de árboles de decisión. Entrenados mediante el método de embolsado (Bagging). La ventaja conceptual de este método es que una combinación de modelos de aprendizaje debería mejorar el resultado general. Un bosque aleatorio crea varios árboles de decisión y luego los combina para obtener una predicción más precisa y un mejor resultado general.

Estos post están pensados para que el lector realice las pruebas con sus propios Datasets, pues no veo de mucha utilizad seguir ejemplos siguiendo las instrucciones para tratar un dataset previamente descargado de internet con datos que ni entendemos ni nos sirven de mucho. Creo que se aprende mucho más creando nuestro propio dataset y adaptando las instrucciones a nuestras necesidades en vez de ejecutar como un robot las instrucciones del script. 

Aquí tenemos como crear nuestro propio dataset 

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

import pandas as pd

quinielas = pd.read_csv('Completo_Etiquetado_Puntuado_3.csv') #tiene goles quiniela y quinigol

from sklearn.model_selection import train_test_split

from sklearn import tree

from sklearn.ensemble import RandomForestClassifier

En las líneas de arriba hemos importado algunas librerías, nuestro Dataset y  un clasificador de bosque aleatorio de la librería de scikit-learn.

A continuación cargamos una variable ‘X’ con los datos de nuestro Dataset y una ‘y’ con las etiquetas. Y generamos un subconjunto de entrenamiento y otro de pruebas.

#las X contienen los datos relevantes para hacer predicciones quitamos todas las etiquetas

X = quinielas.drop(columns=['idPartido','temporada','Q1','QX','Q2','QGC0','QGC1','QGC2','QGCM','QGF0','QGF1','QGF2','QGFM','timestamp','golesLocal','golesVisitante','fecha'])

#las Y son las etiquetas a predecir, en este caso quitamos todo excepto 'Q1','QX','Q2'

y = quinielas.drop(columns=['division','jornada','idPartido','temporada','PuntosLocal','PuntosVisitante','EquipoLocal','Puntos_Normalizados','EquipoVisitante','QGC0','QGC1','QGC2','QGCM','QGF0','QGF1','QGF2','QGFM','timestamp','golesLocal','golesVisitante','fecha','timestamp'])

 

#dividimos nuestros datos en un conjunto de entrenamiento y otro de pruebas

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.33,random_state=42)    

Ahora, creamos una instancia del clasificador del árbol de decisiones, y la entrenamos con la intención de obtener algunas predicciones.

arbol_decision = tree.DecisionTreeClassifier()

arbol_decision = arbol_decision.fit(X_train, y_train)

prediccion_arbol_decision= arbol_decision.predict(X_test)

Creamos una instancia del clasificador de bosque aleatorio, estoy especificando el número de estimadores como 5, podemos variar eso como queramos. También entrenamos el bosque aleatorio.

Bosque_aleatorio = RandomForestClassifier(n_estimators=5)

Bosque_aleatorio.fit(X_train, y_train)

Bosques aleatorios

Hacemos algunas predicciones

prediciones_bosque_aleatorio = bosque_aleatorio.predict(X_test)

E imprimimos los resultados de la predicción del arbol de decisión primero.

from sklearn.metrics import classification_report

print(classification_report(y_test, prediccion_arbol_decision))

 

Classification Report de un bosque aleatorio

A continuación imprimimos los resultados del bosque aleatorio

from sklearn.metrics import classification_report

print(classification_report(y_test,prediciones_bosque_aleatorio))

 

bosque aleatorio

Y los números son claramente inferiores en el bosque aleatorio. Lo cual resulta extraño, pues debería ser lo contrario, aunque tengo la impresión de que los aciertos del árbol de decisión no son realistas. En ambos casos, la tabla tiene los encabezados de columna: precisión, recuperación, puntuación f1 y soporte. Incluido un resumen al final.

Así que ahora y variamos el número de estimadores a 10. Cambiamos el valor de 5 a 10 en el código

Bosque_aleatorio = RandomForestClassifier(n_estimators=10)

También variaremos el tamaño de la prueba. Hagamos que el tamaño de la prueba sea del 60%. Eso significa que solo tendremos el 40% para entrenamiento, así que veremos si eso tiene un impacto.

#dividimos nuestros datos en un conjunto de entrenamiento y otro de pruebas

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.60,random_state=42)    

 

Random Forest (bosque aleatorio)

Aquí vemos que los resultados varían. En realidad no hay garantía de que el  bosque aleatorio supere al árbol de decisiones en todo momento. Entonces, ¿qué dice esto? los bosques aleatorios que constan de varios árboles individuales, cada uno basado en una muestra aleatoria de datos de entrenamiento, suelen ser más precisos que los árboles de decisión únicos. Los árboles de decisión únicos tienen árboles que se podan, mientras que los bosques aleatorios no se podan. Son diversos, simplemente tienen una resolución más alta en el espacio de funciones. Por lo que también tienden a manejar mejor el sobreajuste. De hecho, en la mayoría de los casos, encontraremos que los bosques aleatorios suelen ser más precisos que los árboles de decisión únicos.


sábado, 14 de agosto de 2021

Regresión logística y clasificación para Machine Learning III. Keras

En este post trataré de ofrecer una comprensión conceptual de cómo funcionará un modelo de regresión logística con Keras, pues Keras es muy utilizado para construir redes neuronales. 

Antes de nada, veremos cómo se puede utilizar sólo una neurona para realizar una regresión lineal. Una vez que introducimos los datos de entrenamiento, la neurona realizará una transformación en la forma Y = Wx + b, que es la ecuación de una línea recta. El propósito de este entrenamiento es encontrar los valores óptimos de W (los pesos de la entrada) y b (el desplazamiento respecto al eje o sesgo [bias]), para minimizar la pérdida de datos de entrenamiento. Hecho esto, tenemos un modelo de regresión lineal con los valores óptimos de W y b. Esta es la red neuronal más simple posible, donde solo tenemos una neurona y esta realiza una transformación lineal simple. Si hacemos zoom en la neurona, vemos que hay una serie de entradas diferentes W. Dentro de la neurona hay dos funciones. Una de ellas es una transformación lineal y las entradas de esta, que serán las entradas de la propia neurona. La otra es la función de salida de dicha transformación lineal que alimenta una función de activación. El propósito de la función de activación es introducir un elemento de no linealidad en la salida de la neurona.

Esta no linealidad es necesaria para capturar relaciones más complejas entre la entrada y la salida, lo que se aplica a la mayoría de los casos de uso de redes neuronales. Sin embargo, si estamos utilizando una red neuronal de este tipo para hacer una regresión lineal, no necesitamos este componente no lineal en la neurona. Y podemos transmitir la transformación lineal con una función de identidad. Esto garantiza que la salida de la neurona sea, de hecho, la salida de la propia transformación lineal. 

Regresión Logística con Keras


Función SoftMax

Para realizar una regresión logística, podemos reemplazar esta función de identidad por una función softmax. La función softmax asegura que la salida de nuestra neurona sea categórica. Es decir, si queremos que esta neurona realice una clasificación binaria, podemos configurar la función softmax para producir dos o n salidas. De esta forma, una vez que introducimos todas las entradas en esta neurona, la combinación de la transformación lineal y la función softmax producirá dos posibilidades de salida (activada y no activada o 1 y 0), que corresponde a las dos categorías distintas. También hay que tener en cuenta  que nuestra transformación lineal incluirá un valor de sesgo además de los pesos de la entrada. La combinación de esta transformación lineal y la función softmax terminará produciendo una regresión logística. El resultado de esta regresión logística podría ser una probabilidad de que un evento en particular sea falso. Y la probabilidad de que el mismo evento sea cierto es simplemente 1 menos la probabilidad de que sea falso. 

Función softmax para clasificación


Si echamos un vistazo más cercano al componente softmax. Podemos decir que cualquier entrada x que entre en una función softmax, que esté configurada para generar valores verdaderos o falsos (true o false), producirá dos salidas distintas. Una que contiene la probabilidad de que el evento sea falso y la otra de que el evento sea verdadero. 

La función softmax (también llamada exponencial normalizada) se puede ampliar para realizar la clasificación de N categorías. Cuando definimos una función softmax para nuestro modelo, podemos configurarla para generar N categorías diferentes en lugar de dos. La función softmax generará puntuaciones de probabilidad para cada categoría de salida. Y la categoría que tenga la mayor probabilidad se elegirá como predicción del modelo. Una vez hayamos configurado nuestra red neuronal poniendo en la última capa una salida softmax. La salida de nuestro modelo corresponderá al número de categorías diferentes que pueda tomar la salida. Y cada una de estas categorías estará asociada con una puntuación de probabilidad.

Esto se llama Regresión Logística Multinomial o Regresión Softmax. El clasificador por Regresión Softmax predice sólo una clase cada vez. Es decir, es multi-clase, no multi-salida. Por lo que debe ser utilizado solamente para clases mutuamente excluyentes, como el caso que hemos visto de las diferentes flores, pero no deberá ser utilizado por ejemplo, para reconocer a múltiples personas en un cuadro.

Una vez Softmax ha calculado la probabilidad de una instancia de pertenecer a cada clase, comparamos los resultados de salida con los datos reales, para ver lo acertados o fallidos que han sido. Y realimentar nuestro modelo para que mejore sus predicciones. Esta comparación se realiza con una función llamada Entropía Cruzada y trata de minimizar la llamada función de costo de la salida, que es el error cometido en cada predicción.

Entropía Cruzada 

La Entropía Cruzada se originó a partir de la teoría de la información. Supongamos que queremos transmitir eficientemente todos los días la información del tiempo desde una estación hasta una emisora. Si tenemos ocho posibles tipos de tiempo. Soleado, nublado, nubes y claros, lluvioso, ventoso, etc necesitamos utilizar tres bites de información 2 elevado a 3= 8. Si embargo si la mayor parte del tiempo es soleado podemos ser más eficientes codificando soleado sólo con un bit  (0) y las otras siete opciones con cuatro bits comenzando por 1 seguido de los tres bits restantes. La entropía cruzada mide el número medio de bits que enviamos realmente en cada opción. Si la estación meteorológica se encuentra en un desierto y asumimos que el tiempo es casi siempre soleado, la entropía cruzada será igual que la entropía del propio tiempo (intrínsecamente impredecible). Pero si hacemos una mala asunción (es decir en realidad, llueve con frecuencia) la entropía cruzada será grande. 

Esta es una de las funciones de pérdida más populares, que se utilizan para clasificadores. Y funciona midiendo la distancia entre las distribuciones de probabilidad de los valores reales en los datos de entrenamiento y los valores predichos por el modelo. Si ambas son muy parecidas decimos que la entropía cruzada es muy baja. 

Entropía cruzada como función de pérdida

Por otro lado, si las distribuciones de probabilidad reales están muy desincronizadas con las predicciones, lo que tenemos es un valor muy alto de entropía cruzada. En el caso de una regresión lineal, el objetivo sería minimizar el error cuadrático medio, que es una función de pérdida comúnmente utilizada. Pero en el caso de un modelo de clasificación, el objetivo es minimizar la entropía cruzada. Las funciones de entropía cruzada en la mayoría de las bibliotecas de aprendizaje automático realizarán algún tipo de estimación de las distribuciones de probabilidad de los valores reales.

Hasta ahora, los problemas de clasificación que hemos discutido simplemente han involucrado clasificación binaria, que es la forma más simple. Sin embargo, si nuestra salida debe tener N categorías diferentes, necesitamos alguna forma de manejar esto en un clasificador. Esto será especialmente útil para identificar letras o números manuscritos, o si nuestro modelo está destinado a clasificar imágenes.