Análisis y Programación: Descripción general de árboles de decisión (Decision trees) y bosques aleatorios (Random Forest)

sábado, 10 de julio de 2021

Descripción general de árboles de decisión (Decision trees) y bosques aleatorios (Random Forest)

Los árboles de decisión (Decision trees) representan una clase de modelos de aprendizaje automático muy potentes. A menudo pueden lograr una precisión muy alta sin dejar de ser interpretables. Eso es lo que hace que los árboles de decisión sean tan valiosos. En lo que respecta a los modelos de aprendizaje automático, la claridad de la representación de la información es ejemplar. El conocimiento que un árbol de decisiones aprende a través del entrenamiento se expresa directamente como una estructura jerárquica. Y esta estructura, retiene y muestra el conocimiento para que se entienda fácilmente. El objetivo es construir un árbol con un conjunto de decisiones jerárquicas que eventualmente conduzcan a un resultado final.

Las decisiones se seleccionan de tal manera que el árbol se mantenga lo más pequeño posible, mientras que al mismo tiempo se busca un nivel de precisión muy alto.

Los modelos de árboles de decisión se crean mediante inducción y poda. Inducción, este es el proceso en el que construimos el árbol. Y esto representa todos los límites jerárquicos de decisión basados en los datos. Comenzamos determinando la mejor característica en el conjunto de datos para dividir los datos. Luego, los datos se dividen en subconjuntos que contienen valores posibles para la mejor característica. Esencialmente, esta división define un nodo en el árbol, o para decirlo de otra manera, cada nodo es un punto donde podemos dividir en función de una determinada característica de nuestros datos. Los nuevos nodos de árbol se generan de forma recursiva utilizando el subconjunto de datos creado en el paso anterior. Y seguimos dividiendo hasta que optimizamos la precisión y, al mismo tiempo, minimizamos el número de divisiones o nodos.

Para seleccionar la mejor función para usar y el tipo de división particular, generalmente usamos un algoritmo que minimice la función de costo. Intenta iterativamente diferentes puntos de división y, al final, selecciona el que tiene el costo más bajo.

Para un árbol de regresión, utiliza el error al cuadrado simple como función de costo. Para una clasificación, utiliza la función de índice genio. (genie index function) donde, pk representa la proporción de instancias de entrenamiento de clase k en un nodo de predicción específico. Idealmente, un nodo debería tener un valor de error de cero. El resultado es que cada división genera una sola clase el 100% del tiempo.

Tener una sola clase por división en nuestro conjunto de datos se denomina ganancia de información. Si elegimos una división en la que cada salida tiene una combinación relativamente alta de clases, la ganancia de información es baja. Realmente no sabemos nada mejor después de la división si un nodo o característica específica, por así decirlo, tiene alguna influencia en la clasificación de nuestros datos. Por el contrario, si la división tiene un alto porcentaje de cada clase para cada salida, tiene una gran ganancia de información.

Para evitar que el árbol de decisiones se vuelva enorme y, en consecuencia, se sobreajuste al conjunto de datos de entrenamiento, establecemos algunos criterios de detención predefinidos. Este suele ser un recuento mínimo de la cantidad de ejemplos de entrenamiento asignados a cada nodo hoja.

Una de las principales desventajas de los árboles de decisión es que son propensos al sobreajustarse. La poda es el proceso de eliminar estructuras innecesarias de un árbol de decisiones. Esto reduce la complejidad, ya que la complejidad después de todo es el número de divisiones en el árbol y también proporciona una mejor generalización. Un método de poda muy eficaz implica evaluar el efecto que tiene la eliminación de cada nodo en la función de costos. Si no hay muchos cambios, es probable que el nodo deba podarse.

Bosque Aleatorio (Random Forest)

Un bosque aleatorio es un algoritmo de aprendizaje supervisado. Construye un bosque o un conjunto de árboles de decisión, generalmente entrenados usando el método de ensacado. La ventaja conceptual detrás del método de ensacado es que una combinación debería aumentar el resultado general o mejorar el resultado general. En general, un bosque aleatorio crea varios árboles de decisión y luego los combina para obtener una predicción más precisa y un mejor resultado general.

Las características clave de los bosques aleatorios es que aportan una mayor aleatoriedad al modelo mientras se hacen crecer los árboles de decisión. En lugar de buscar la característica más importante al dividir un nodo, busca la mejor característica en un subconjunto aleatorio de características. Esto da como resultado una diversidad más amplia que normalmente significa un mejor modelo. En consecuencia, el algoritmo solo tiene en cuenta un subconjunto aleatorio de las características al dividir un nodo. Los árboles pueden hacerse aún más aleatorios aplicando umbrales aleatorios para cada característica en lugar de buscar los mejores umbrales posibles como lo hace un árbol de decisiones normal.