Zysk informacyjny, podobnie jak nieczystość Giniego, jest metryką używaną do trenowania drzew decyzyjnych. Konkretnie, te metryki mierzą jakość podziału. Na przykład, powiedzmy, że mamy następujące dane:
Co by się stało, gdybyśmy dokonali podziału przy x=1,5x = 1,5x=1,5?
Ten niedoskonały podział dzieli nasz zbiór danych na następujące gałęzie:
- Lewa gałąź, z 4 niebieskimi.
- Prawa gałąź, z 1 niebieskim i 5 zielonymi.
Jasne jest, że ten podział nie jest optymalny, ale jak dobry jest? Jak możemy określić jakość podziału?
W tym miejscu pojawia się Zysk Informacyjny.
Zakłopotany? Nie wiesz, czym są drzewa decyzyjne i jak się je trenuje? Przeczytaj początek mojego wprowadzenia do Lasów Losowych i Drzew Decyzyjnych.
Entropia Informacyjna
Zanim przejdziemy do Zysku Informacyjnego, musimy najpierw porozmawiać o Entropii Informacyjnej. W kontekście szkolenia drzew decyzyjnych, Entropia może być z grubsza rozumiana jako wariancja danych. Na przykład:
- Zbiór danych zawierający tylko błękity miałby bardzo niską (w rzeczywistości zerową) entropię.
- Zbiór danych zawierający mieszankę błękitów, zieleni i czerwieni miałby stosunkowo wysoką entropię.
Oto, jak obliczamy entropię informacyjną dla zbioru danych z klasami CCC:
E=-∑iCpilog2piE = – suma_i^C p_i ∑log_2 p_iE=-i∑Cpilog2pi
gdzie pip_ipi jest prawdopodobieństwem losowego wybrania elementu klasy iii (tj.tzn. część zbioru danych składa się z klasy iii).
Najprostszym sposobem na zrozumienie tego jest przykład. Rozważmy zbiór danych z 1 niebieskim, 2 zielonymi i 3 czerwonymi: . Wtedy
E=-(pblog2pb+pglog2pg+prlog2pr)E = -(p_b \log_2 p_b + p_g \log_2 p_g + p_r \log_2 p_r)E=-(pblog2pb+pglog2pg+prlog2pr) E=-(16log2(16)+26log2(26)+36log2(36))=1.46begin{aligned}E &= -(\frac{1}{6} \log_2(\frac{1}{6}) + \frac{2}{6} \log_2(\frac{2}{6}) + \frac{3}{6} \log_2(\frac{3}{6})) \\Co z zestawem danych składającym się z samych kolorów? Jako przykład rozważmy 3 błękity: . Entropia wyniosłaby E=-(1log21)=0E = -(1 ˆlog_2 1) = ˆboxed{0}E=-(1log21)=0
Information Gain
Nareszcie nadszedł czas, aby odpowiedzieć na pytanie, które postawiliśmy wcześniej: jak możemy ilościowo określić jakość podziału?
Rozważmy ten podział ponownie:
Przed podziałem mieliśmy 5 niebieskich i 5 zielonych, więc entropia wynosiła
Ebefore=-(0.5log20.5+0.5log20.5)=1begin{aligned}E_{before} &= -(0,5log_2 0,5 + 0,5log_2 0,5) \u2001>= \u2001>. \\\Ebefore=-(0.5log20.5+0.5log20.5)=1
Po podziale mamy dwie gałęzie.
Lewa gałąź ma 4 błękity, więc Eleft=0E_{left} = \boksed{0}Eleft=0, ponieważ jest to zbiór danych wszystkich jednego koloru.
Prawa gałąź ma 1 niebieski i 5 zielonych, więc
Eright=-(16log2(16)+56log2(56))=0.65}E_{right} &= -(\frac{1}{6} \log_2 (\frac{1}{6}) + \frac{5}{6} \log_2 (\frac{5}{6})) \\Teraz, gdy mamy entropie dla obu gałęzi, możemy określić jakość podziału, ważąc entropię każdej gałęzi przez liczbę jej elementów. Ponieważ Lewa gałąź ma 4 elementy, a Prawa 6, to ważymy je odpowiednio przez 0,40,40,4 i 0,60,60,6: Esplit=0,4∗0+0,6∗0,65=0,39{aligned}E_{split} &= 0,4 * 0 + 0,6 * 0,65 &= 0,39. \}Esplit=0.4∗0+0.6∗0.65=0.39
Zaczęliśmy z Ebefore=1E_{before} = 1Ebefore=1 entropii przed podziałem, a teraz spadliśmy do 0.390.390.39! Zysk Informacyjny = ile Entropii usunęliśmy, więc
Gain=1-0,39=0,61 = 1 – 0,39 = ∗Gain=1-0,39=0,61
To ma sens: wyższy Zysk Informacyjny = więcej usuniętej Entropii, czyli to, czego chcemy. W idealnym przypadku każda gałąź zawierałaby tylko jeden kolor po podziale, co oznaczałoby zero entropii!
Recap
Ontropia informacyjna może być rozumiana jako stopień nieprzewidywalności zbioru danych.
- Zbiór tylko jednej klasy (powiedzmy, niebieskiej) jest niezwykle przewidywalny: wszystko w nim jest niebieskie. To miałoby niską entropię.
- Zbiór wielu mieszanych klas jest nieprzewidywalny: dany element może być dowolnego koloru! Miałby wysoką entropię.
Faktyczny wzór na obliczanie entropii informacyjnej jest następujący:
E=-∑iCpilog2piE = – suma_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
Zysk informacji jest obliczany dla podziału przez odjęcie ważonych entropii każdej gałęzi od oryginalnej entropii. Podczas szkolenia drzewa decyzyjnego przy użyciu tych metryk, najlepszy podział jest wybierany poprzez maksymalizację Zysku Informacyjnego.
Chcesz dowiedzieć się więcej? Sprawdź moje wyjaśnienie Nieczystości Giniego, podobnej metryki, lub mój dogłębny przewodnik Lasy losowe dla zupełnie początkujących.