画像処理において、カーネル、コンボリューション マトリックス、またはマスクは小さな行列です。 これは、ぼかし、シャープネス、エンボス、エッジ検出などに使用されます。
この記事では、私たちが従っているいくつかの慣習を紹介します。
- 私たちは特に、通常画像のような 2 つの行列オブジェクトに適用される 2D 畳み込みを参照しています。 3589>
- 画像に 3X3 畳み込みのような 2D 畳み込みを適用している間、3X3 畳み込みフィルターは、一般的に常に 3 次元のサイズを持っています。 このフィルタは、入力画像のチャンネル数に依存します(同じです)。 つまり、グレースケール画像(チャンネル数=1)には 3X3X1 畳み込みフィルタを適用し、カラー画像(チャンネル数=3)には 3X3X3 畳み込みフィルタを適用します。
- ここではチャンネルに関係なく、すべての畳み込みをその最初の 2 次元で参照することにします。 (ゼロパディングの仮定を守っています)。
畳み込みフィルタは画像のすべてのピクセルに、ある時点で畳み込みフィルタと画像ピクセルとの「ドット積」をとって最終的に一つの値を出力できるよう通過させます。 これは、畳み込みフィルタの重み(値)が、対応する画像ピクセルと掛け合わされたとき、それらの画像ピクセルを最もよく表す値を与えることを期待して行っている。 したがって、畳み込みは通常、次の 2 つのことを念頭に置いて行われます。
ここで、選択できるハイパーパラメータの1つとして、畳み込みフィルタのサイズを用意しました。
畳み込みフィルター サイズを選択する際に考慮すべき特定の事柄を以下に示します。