情報利得は、Gini Impurityと同様に、決定木の学習に使われる指標である。 具体的には、これらの指標は、分割の品質を測定します。 たとえば、次のようなデータがあるとします。
もし x=1.5x = 1.5x=1.5 で分割したらどうなるか。
この完璧ではない分割によって、データ集合は次の分岐になります:
- Lepte brt, 4 blues.x=1.5x=1.5x, 4 blues.x=1.5x=1.5x, 4 blues.x=1.5x=1.5x, 1 blues.x=1.5x=1.5x, 1 blues.x=1.5x=1.5x
- 右側のブランチ、青が1つ、緑が5つあります。
この分割が最適でないことは明らかですが、どの程度良いのでしょうか。
そこで、情報利得が登場します。
分かりにくいですか? 決定木が何なのか、どのように学習させるのか、よくわからないですか。
情報エントロピー
情報利得に入る前に、まず情報エントロピーについて説明します。 決定木の学習の文脈では、エントロピーは大まかに言って、データにどれだけの分散があるかということである。 例えば、
- 青だけのデータセットはエントロピーが非常に低く(実際にはゼロ)、
- 青、緑、赤の混合データセットは比較的高いエントロピーを持つでしょう。
ここで、CCC クラスを持つデータセットに対する情報エントロピーの計算方法を示す:
E=-∑iCpilog2piE = -sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
where pip_ipi is the probability of randomly picking an element of class iii (i.
これを理解する最も簡単な方法は、例で説明することです。 青が1個、緑が2個、赤が3個あるデータセットを考える: 。 すると
E=-(pblog2pb+pglog2pg+prlog2pr)E = -(p_b \log_2 p_b + p_g \log_2 p_g + p_r \log_2 p_r)E=-(pblog2pb+pglog2pg+prlog2pr) E=-(16log2(16)+26log2(26)+36log2(36) )=1.です。46begin{aligned}E &= -(\frac{1}{6})) \♪♪♪~ \. \\ 1色だけのデータセットはどうだろうか。 例として3つの青を考えてみよう: . エントロピーは E=-(1log21)=0E = -(1 \log_2 1) = \boxed{0}E=-(1log21)=0
Information Gain
いよいよ先ほどの質問に答える時が来ました:分割の質をどのようにして定量化するのか?
この分割をもう一度考えてみましょう。
分割前、青が 5 個、緑が 5 個だったので、エントロピーは
Ebefore=-(0.5log20.5+0.5log20.5)=1
After split, we have two branches.
Left Branchは青が4色なので、全て1色のデータセットなのでEleft=0E_{left} = \boxed{0}Eleft=0 ですね。
右Branchは青1、緑5なので、
Eright=-(16log2(16)+56log2(56))=0.65begin{aligned}E_{right} となります。 &= -(\frac{1}{6} \ⅷ) ⅷ))。 \\ さて、両枝のエントロピーがわかったので、各枝のエントロピーを要素の数で重み付けして分割の品質を決定します。 Left Branchは4要素、Right Branchは6要素なので、それぞれ0.40.40.4、0.60.60.6で重み付けします: Esplit=0.4∗0+0.6∗0.65=0.39begin{aligned}E_{split} &= 0.4 * 0 + 0.6 * 0.65 ┣┣┣┣┣┣となります。 \\\Esplit=0.4∗0+0.6∗0.65=0.39
Ebefore=1E_{before} = 1Ebefore=1 エントロピーでスタートし、分割前は 0.390.390.39 まで低下しました!このように、分割後のエントロピーは 0.390.39 まで低下しているのです。 Information Gain=どれだけEntropyを取り除いたか、ですから
Gain=1-0.39=0.61text{Gain} = 1 – 0.39 = \boxed{0.61}Gain=1-0.39=0.61
これは意味があります。Information Gain=Entropyをより取り除く、これが我々の望むものなのです。 完璧なケースでは、分割後の各枝には 1 つの色しか含まれず、エントロピーはゼロになります。
Recap
情報エントロピーは、データセットがどれだけ予測不可能であるかとして考えることができます。 これはエントロピーが低い。
情報エントロピーの実際の計算式は次のとおりである:
E=-∑iCpilog2piE = -sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi
Information Gainは元のエントロピーから各枝の重み付きエントロピーを差し引くことによって分割について計算される。 これらの測定基準を使用して決定木を学習する場合、情報利得を最大化することによって、最適な分岐が選択される。 同様の指標である Gini Impurity の説明や、完全な初心者のための詳細なガイドである Random Forests をご覧ください
。