Informační zisk, stejně jako Giniho nečistota, je metrika používaná k trénování rozhodovacích stromů. Konkrétně tyto metriky měří kvalitu rozdělení. Řekněme například, že máme následující data:
Co kdybychom provedli rozdělení v bodě x=1,5x = 1,5x=1,5?“
Toto nedokonalé rozdělení rozdělí náš datový soubor na tyto větve:
- Levá větev, se 4 modrými.
- Pravá větev, s 1 modrou a 5 zelenými.
Je jasné, že toto rozdělení není optimální, ale jak dobré je? Jak můžeme kvantifikovat kvalitu rozdělení?
Tady přichází na řadu informační zisk.
Jste zmateni? Nejste si jisti, co jsou to rozhodovací stromy nebo jak se trénují? Přečtěte si začátek mého úvodu do náhodných lesů a rozhodovacích stromů.
Informační entropie
Než se dostaneme k informačnímu zisku, musíme si nejprve povědět něco o informační entropii. V kontextu trénování rozhodovacích stromů si lze entropii zhruba představit jako míru rozptylu dat. Například:
- Soubor dat složený pouze z modrých barev by měl velmi nízkou (ve skutečnosti nulovou) entropii.
- Soubor dat složený ze směsi modrých, zelených a červených barev by měl relativně vysokou entropii.
Takto vypočítáme informační entropii pro soubor dat s třídami CCC:
E=-∑iCpilog2piE = -\sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
kde pip_ipi je pravděpodobnost náhodného výběru prvku třídy iii (i.tj. podíl souboru dat tvořený třídou iii).
Nejsnáze to pochopíme na příkladu. Uvažujme soubor dat s 1 modrou, 2 zelenými a 3 červenými barvami: . Potom
E=-(pblog2pb+pglog2pg+prlog2pr)E = -(p_b \log_2 p_b + p_g \log_2 p_g + p_r \log_2 p_r)E=-(pblog2pb+pglog2pg+prlog2pr) E=-(16log2(16)+26log2(26)+36log2(36))=1.46\begin{zarovnáno}E &= -(\frac{1}{6}) \log_2(\frac{1}{6}) + \frac{2}{6} \log_2(\frac{2}{6}) + \frac{3}{6} \log_2(\frac{3}{6})) \\&= \boxed{1.46} \\\\end{aligned}E=-(61log2(61)+62log2(62)+63log2(63))=1,46
A co soubor dat všech jedné barvy? Jako příklad uvažujme 3 modré barvy: . Entropie by byla
E=-(1log21)=0E = -(1 \log_2 1) = \boxed{0}E=-(1log21)=0
Informační zisk
Nakonec je čas odpovědět na otázku, kterou jsme si položili dříve: Jak můžeme kvantifikovat kvalitu rozdělení?
Uvažujme znovu toto rozdělení:
Před rozdělením jsme měli 5 modrých a 5 zelených, takže entropie byla
Ebefore=-(0,5log20,5+0,5log20,5)=1\begin{aligned}E_{before}. &= -(0,5 \log_2 0,5 + 0,5 \log_2 0,5) \\&= \boxed{1} \\\{zarovnáno}Ebefore=-(0,5log20,5+0,5log20,5)=1
Po rozdělení máme dvě větve.
Levá větev má 4 modré, takže Eleft=0E_{left} = \boxed{0}Eleft=0, protože je to datová sada všech jedné barvy.
Pravá větev má 1 modrou a 5 zelených, takže
Eright=-(16log2(16)+56log2(56))=0,65\begin{aligned}E_{right} &= -(\frac{1}{6} \log_2 (\frac{1}{6}) + \frac{5}{6} \log_2 (\frac{5}{6})) \\&= \boxed{0.65} \\\\end{aligned}Eright=-(61log2(61)+65log2(65))=0,65
Když máme entropie pro obě větve, můžeme určit kvalitu rozdělení vážením entropie každé větve podle toho, kolik má prvků. Protože Levá větev má 4 prvky a Pravá větev jich má 6, zvážíme je váhami 0,40,40,4 a 0,60,60,6:
Esplit=0,4∗0+0,6∗0,65=0,39\begin{aligned}E_{split} &= 0,4 * 0 + 0,6 * 0,65 \\&= \boxed{0,39} \\\\konec{zarovnáno}Esplit=0,4∗0+0,6∗0,65=0,39
Začali jsme s Ebefore=1E_{before} = 1Ebefore=1 entropie před rozdělením a nyní jsme na 0,390.390,39! Informační zisk = kolik entropie jsme odstranili, takže
Zisk=1-0,39=0,61\text{Zisk} = 1 – 0,39 = \boxed{0,61}Zisk=1-0,39=0,61
To dává smysl: vyšší informační zisk = více odstraněné entropie, což chceme. V ideálním případě by každá větev po rozdělení obsahovala pouze jednu barvu, což by znamenalo nulovou entropii!
Rekapitulace
Informační entropii si lze představit jako míru nepředvídatelnosti souboru dat.
- Soubor pouze jedné třídy (řekněme modré ) je extrémně předvídatelný: cokoli v něm je modré. Takový soubor by měl nízkou entropii.
- Soubor mnoha smíšených tříd je nepředvídatelný: daný prvek může mít jakoukoli barvu! To by mělo vysokou entropii.
Skutečný vzorec pro výpočet informační entropie je:
E=-∑iCpilog2piE = -\sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
Informační zisk se pro rozdělení vypočítá odečtením vážené entropie každé větve od původní entropie. Při trénování rozhodovacího stromu pomocí těchto metrik se nejlepší rozdělení vybere tak, že se maximalizuje informační zisk.
Chcete se dozvědět více? Podívejte se na můj výklad podobné metriky Gini Impurity nebo na mého podrobného průvodce Náhodné lesy pro úplné začátečníky.