Jednoduché vysvětlení informačního zisku a entropie

Informační zisk, stejně jako Giniho nečistota, je metrika používaná k trénování rozhodovacích stromů. Konkrétně tyto metriky měří kvalitu rozdělení. Řekněme například, že máme následující data:

Datový soubor

Co kdybychom provedli rozdělení v bodě x=1,5x = 1,5x=1,5?“

Dokonalé rozdělení

Toto nedokonalé rozdělení rozdělí náš datový soubor na tyto větve:

  • Levá větev, se 4 modrými.
  • Pravá větev, s 1 modrou a 5 zelenými.

Je jasné, že toto rozdělení není optimální, ale jak dobré je? Jak můžeme kvantifikovat kvalitu rozdělení?

Tady přichází na řadu informační zisk.

Jste zmateni? Nejste si jisti, co jsou to rozhodovací stromy nebo jak se trénují? Přečtěte si začátek mého úvodu do náhodných lesů a rozhodovacích stromů.

Informační entropie

Než se dostaneme k informačnímu zisku, musíme si nejprve povědět něco o informační entropii. V kontextu trénování rozhodovacích stromů si lze entropii zhruba představit jako míru rozptylu dat. Například:

  • Soubor dat složený pouze z modrých barev by měl velmi nízkou (ve skutečnosti nulovou) entropii.
  • Soubor dat složený ze směsi modrých, zelených a červených barev by měl relativně vysokou entropii.

Takto vypočítáme informační entropii pro soubor dat s třídami CCC:

E=-∑iCpilog2piE = -\sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi

kde pip_ipi je pravděpodobnost náhodného výběru prvku třídy iii (i.tj. podíl souboru dat tvořený třídou iii).

Nejsnáze to pochopíme na příkladu. Uvažujme soubor dat s 1 modrou, 2 zelenými a 3 červenými barvami: . Potom

E=-(pblog2pb+pglog2pg+prlog2pr)E = -(p_b \log_2 p_b + p_g \log_2 p_g + p_r \log_2 p_r)E=-(pblog2pb+pglog2pg+prlog2pr) E=-(16log2(16)+26log2(26)+36log2(36))=1.46\begin{zarovnáno}E &= -(\frac{1}{6}) \log_2(\frac{1}{6}) + \frac{2}{6} \log_2(\frac{2}{6}) + \frac{3}{6} \log_2(\frac{3}{6})) \\&= \boxed{1.46} \\\\end{aligned}E=-(61log2(61)+62log2(62)+63log2(63))=1,46

A co soubor dat všech jedné barvy? Jako příklad uvažujme 3 modré barvy: . Entropie by byla

E=-(1log21)=0E = -(1 \log_2 1) = \boxed{0}E=-(1log21)=0

Informační zisk

Nakonec je čas odpovědět na otázku, kterou jsme si položili dříve: Jak můžeme kvantifikovat kvalitu rozdělení?

Uvažujme znovu toto rozdělení:

Dokonalé rozdělení

Před rozdělením jsme měli 5 modrých a 5 zelených, takže entropie byla

Ebefore=-(0,5log20,5+0,5log20,5)=1\begin{aligned}E_{before}. &= -(0,5 \log_2 0,5 + 0,5 \log_2 0,5) \\&= \boxed{1} \\\{zarovnáno}Ebefore=-(0,5log20,5+0,5log20,5)=1

Po rozdělení máme dvě větve.

Levá větev má 4 modré, takže Eleft=0E_{left} = \boxed{0}Eleft=0, protože je to datová sada všech jedné barvy.

Pravá větev má 1 modrou a 5 zelených, takže

Eright=-(16log2(16)+56log2(56))=0,65\begin{aligned}E_{right} &= -(\frac{1}{6} \log_2 (\frac{1}{6}) + \frac{5}{6} \log_2 (\frac{5}{6})) \\&= \boxed{0.65} \\\\end{aligned}Eright=-(61log2(61)+65log2(65))=0,65

Když máme entropie pro obě větve, můžeme určit kvalitu rozdělení vážením entropie každé větve podle toho, kolik má prvků. Protože Levá větev má 4 prvky a Pravá větev jich má 6, zvážíme je váhami 0,40,40,4 a 0,60,60,6:

Esplit=0,4∗0+0,6∗0,65=0,39\begin{aligned}E_{split} &= 0,4 * 0 + 0,6 * 0,65 \\&= \boxed{0,39} \\\\konec{zarovnáno}Esplit=0,4∗0+0,6∗0,65=0,39

Začali jsme s Ebefore=1E_{before} = 1Ebefore=1 entropie před rozdělením a nyní jsme na 0,390.390,39! Informační zisk = kolik entropie jsme odstranili, takže

Zisk=1-0,39=0,61\text{Zisk} = 1 – 0,39 = \boxed{0,61}Zisk=1-0,39=0,61

To dává smysl: vyšší informační zisk = více odstraněné entropie, což chceme. V ideálním případě by každá větev po rozdělení obsahovala pouze jednu barvu, což by znamenalo nulovou entropii!

Rekapitulace

Informační entropii si lze představit jako míru nepředvídatelnosti souboru dat.

  • Soubor pouze jedné třídy (řekněme modré ) je extrémně předvídatelný: cokoli v něm je modré. Takový soubor by měl nízkou entropii.
  • Soubor mnoha smíšených tříd je nepředvídatelný: daný prvek může mít jakoukoli barvu! To by mělo vysokou entropii.

Skutečný vzorec pro výpočet informační entropie je:

E=-∑iCpilog2piE = -\sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi

Informační zisk se pro rozdělení vypočítá odečtením vážené entropie každé větve od původní entropie. Při trénování rozhodovacího stromu pomocí těchto metrik se nejlepší rozdělení vybere tak, že se maximalizuje informační zisk.

Chcete se dozvědět více? Podívejte se na můj výklad podobné metriky Gini Impurity nebo na mého podrobného průvodce Náhodné lesy pro úplné začátečníky.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.