La ganancia de información, al igual que la impureza de Gini, es una métrica utilizada para entrenar árboles de decisión. En concreto, estas métricas miden la calidad de una división. Por ejemplo, digamos que tenemos los siguientes datos:
¿Qué pasa si hacemos una división en x=1,5x = 1,5x=1,5?
Esta división imperfecta divide nuestro conjunto de datos en estas ramas:
- Rama izquierda, con 4 azules.
- Rama derecha, con 1 azul y 5 verdes.
Está claro que esta división no es óptima, pero ¿cómo de buena es? ¿Cómo podemos cuantificar la calidad de una división?
Ahí es donde entra la ganancia de información.
¿Confundido? No está seguro de lo que son los árboles de decisión o de cómo se entrenan? Lea el principio de mi introducción a los Bosques Aleatorios y Árboles de Decisión.
Entropía de la Información
Antes de llegar a la Ganancia de Información, tenemos que hablar primero de la Entropía de la Información. En el contexto del entrenamiento de Árboles de Decisión, la Entropía puede ser considerada aproximadamente como la cantidad de varianza que tienen los datos. Por ejemplo:
- Un conjunto de datos con sólo azules tendría una entropía muy baja (de hecho, cero).
- Un conjunto de datos con mezcla de azules, verdes y rojos tendría una entropía relativamente alta.
Así es como calculamos la Entropía de la Información para un conjunto de datos con clases CCC:
E=-∑iCpilog2piE = -\sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
donde pip_ipi es la probabilidad de escoger aleatoriamente un elemento de la clase iii (es decir.es decir, la proporción del conjunto de datos formada por la clase iii).
La forma más fácil de entender esto es con un ejemplo. Consideremos un conjunto de datos con 1 azul, 2 verdes y 3 rojos: . Entonces
E=-(pblog2pb+pglog2pg+prlog2pr)E = -(p_b \log_2 p_b + p_g \log_2 p_g + p_r \log_2 p_r)E=-(pblog2pb+pglog2pg+prlog2pr) E=-(16log2(16)+26log2(26)+36log2(36))=1.46\nbsp;E &= -(\frac{1}{6} \log_2(\frac{1}{6}) + \frac{2}{6} \log_2(\frac{2}{6}) + \frac{3}{6} \log_2(\frac{3}{6}) \N – &= \N – 1,46 \\\E=-(61log2(61)+62log2(62)+63log2(63))=1,46
¿Qué pasa con un conjunto de datos de un solo color? Consideremos 3 azules como ejemplo: . La entropía sería
E=-(1log21)=0E = -(1 \log_2 1) = \boxed{0}E=-(1log21)=0
Ganancia de información
Por fin ha llegado el momento de responder a la pregunta que planteábamos antes: ¿cómo podemos cuantificar la calidad de una división?
Volvamos a considerar esta división:
Antes de la división, teníamos 5 azules y 5 verdes, por lo que la entropía era
Ebefore=-(0,5log20,5+0,5log20,5)=1\begin{aligned}E_{before} &= -(0.5 \log_2 0.5 + 0.5 \log_2 0.5) \\N-&= \N-boxed{1} \\\N-fin{alineado}Ebefore=-(0,5log20,5+0,5log20,5)=1
Después de la división, tenemos dos ramas.
La rama izquierda tiene 4 azules, por lo que Eleft=0E_{left} = \boxed{0}Eleft=0 porque es un conjunto de datos de un solo color.
La rama derecha tiene 1 azul y 5 verdes, por lo que
Eright=-(16log2(16)+56log2(56))=0.65\NE_{right} &= -(\frac{1}{6} \log_2 (\frac{1}{6}) + \frac{5}{6} \log_2 (\frac{5}{6})) \N – &= \N – 0,65 \\\Ahora que tenemos las entropías de ambas ramas, podemos determinar la calidad de la división ponderando la entropía de cada rama por el número de elementos que tiene. Como la rama izquierda tiene 4 elementos y la rama derecha tiene 6, las ponderamos por 0,40.40.4 y 0,60.60.6, respectivamente: Esplit=0,4∗0+0,6∗0,65=0,39\begin{aligned}E_{split} &= 0.4 * 0 + 0.6 * 0.65 \\N-&= \N-boxed{0.39} \\\¡Empezamos con Ebefore=1E_{before} = 1Ebefore=1 entropía antes de la división y ahora estamos en 0.390.390.39! Ganancia de información = la cantidad de entropía que hemos eliminado, por lo que Ganancia = 1-0,39 = 0,61 {Gain} = 1 – 0,39 = \boxed{0,61}Gain=1-0,39=0,61
Esto tiene sentido: mayor ganancia de información = más entropía eliminada, que es lo que queremos. En el caso perfecto, cada rama contendría sólo un color después de la división, que sería cero entropía!
Recapitulación
La Entropía de la Información se puede pensar como lo impredecible que es un conjunto de datos.
- Un conjunto de una sola clase (digamos, azul ) es extremadamente predecible: cualquier cosa en él es azul. Esto tendría una entropía baja.
- Un conjunto de muchas clases mixtas es impredecible: ¡un elemento dado podría ser de cualquier color! Esto tendría una alta entropía.
La fórmula real para calcular la Entropía de la Información es:
E=-∑iCpilog2piE = -\sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
La Ganancia de Información se calcula para una división restando las entropías ponderadas de cada rama de la entropía original. Cuando se entrena un Árbol de Decisión utilizando estas métricas, la mejor división se elige maximizando la Ganancia de Información.
¿Quieres aprender más? Echa un vistazo a mi explicación de la Impureza de Gini, una métrica similar, o a mi guía en profundidad Bosques aleatorios para completos principiantes.