情報利得とエントロピーの簡単な説明

情報利得は、Gini Impurityと同様に、決定木の学習に使われる指標である。 具体的には、これらの指標は、分割の品質を測定します。 たとえば、次のようなデータがあるとします。

The Dataset

もし x=1.5x = 1.5x=1.5 で分割したらどうなるか。

An Imperfect Split

この完璧ではない分割によって、データ集合は次の分岐になります:

  • Lepte brt, 4 blues.x=1.5x=1.5x, 4 blues.x=1.5x=1.5x, 4 blues.x=1.5x=1.5x, 1 blues.x=1.5x=1.5x, 1 blues.x=1.5x=1.5x
  • 右側のブランチ、青が1つ、緑が5つあります。

この分割が最適でないことは明らかですが、どの程度良いのでしょうか。

そこで、情報利得が登場します。

分かりにくいですか? 決定木が何なのか、どのように学習させるのか、よくわからないですか。

情報エントロピー

情報利得に入る前に、まず情報エントロピーについて説明します。 決定木の学習の文脈では、エントロピーは大まかに言って、データにどれだけの分散があるかということである。 例えば、

  • 青だけのデータセットはエントロピーが非常に低く(実際にはゼロ)、
  • 青、緑、赤の混合データセットは比較的高いエントロピーを持つでしょう。

ここで、CCC クラスを持つデータセットに対する情報エントロピーの計算方法を示す:

E=-∑iCpilog2piE = -sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi

where pip_ipi is the probability of randomly picking an element of class iii (i.

これを理解する最も簡単な方法は、例で説明することです。 青が1個、緑が2個、赤が3個あるデータセットを考える: 。 すると

E=-(pblog2pb+pglog2pg+prlog2pr)E = -(p_b \log_2 p_b + p_g \log_2 p_g + p_r \log_2 p_r)E=-(pblog2pb+pglog2pg+prlog2pr) E=-(16log2(16)+26log2(26)+36log2(36) )=1.です。46begin{aligned}E &= -(\frac{1}{6})) \♪♪♪~ \. \\ 1色だけのデータセットはどうだろうか。 例として3つの青を考えてみよう: . エントロピーは E=-(1log21)=0E = -(1 \log_2 1) = \boxed{0}E=-(1log21)=0

Information Gain

いよいよ先ほどの質問に答える時が来ました:分割の質をどのようにして定量化するのか?

この分割をもう一度考えてみましょう。

An Imperfect Split

分割前、青が 5 個、緑が 5 個だったので、エントロピーは

Ebefore=-(0.5log20.5+0.5log20.5)=1E_{before}begin{in} でした。 &= -(0.5 \log_2 0.5 + 0.5 \log_2 0.5) \&= \boxed{1} \\\Ebefore=-(0.5log20.5+0.5log20.5)=1

After split, we have two branches.

Left Branchは青が4色なので、全て1色のデータセットなのでEleft=0E_{left} = \boxed{0}Eleft=0 ですね。

右Branchは青1、緑5なので、

Eright=-(16log2(16)+56log2(56))=0.65begin{aligned}E_{right} となります。 &= -(\frac{1}{6} \ⅷ) ⅷ))。 \\ さて、両枝のエントロピーがわかったので、各枝のエントロピーを要素の数で重み付けして分割の品質を決定します。 Left Branchは4要素、Right Branchは6要素なので、それぞれ0.40.40.4、0.60.60.6で重み付けします: Esplit=0.4∗0+0.6∗0.65=0.39begin{aligned}E_{split} &= 0.4 * 0 + 0.6 * 0.65 ┣┣┣┣┣┣となります。 \\\Esplit=0.4∗0+0.6∗0.65=0.39

Ebefore=1E_{before} = 1Ebefore=1 エントロピーでスタートし、分割前は 0.390.390.39 まで低下しました!このように、分割後のエントロピーは 0.390.39 まで低下しているのです。 Information Gain=どれだけEntropyを取り除いたか、ですから

Gain=1-0.39=0.61text{Gain} = 1 – 0.39 = \boxed{0.61}Gain=1-0.39=0.61

これは意味があります。Information Gain=Entropyをより取り除く、これが我々の望むものなのです。 完璧なケースでは、分割後の各枝には 1 つの色しか含まれず、エントロピーはゼロになります。

Recap

情報エントロピーは、データセットがどれだけ予測不可能であるかとして考えることができます。 これはエントロピーが低い。

  • 多くのクラスが混在するセットは予測不可能で、与えられた要素はどんな色にもなりうる。
  • 情報エントロピーの実際の計算式は次のとおりである:

    E=-∑iCpilog2piE = -sum_i^C p_i \log_2 p_iE=-i∑Cpilog2pi

    Information Gainは元のエントロピーから各枝の重み付きエントロピーを差し引くことによって分割について計算される。 これらの測定基準を使用して決定木を学習する場合、情報利得を最大化することによって、最適な分岐が選択される。 同様の指標である Gini Impurity の説明や、完全な初心者のための詳細なガイドである Random Forests をご覧ください

    コメントを残す

    メールアドレスが公開されることはありません。