コサインの類似性

二つの非ゼロベクトルのコサインはユークリッドの内積の公式を用いて導き出すことができる:

A⋅ B = ‖ A‖ ‖ B‖ cos θ {displaystyle \mathbf {A}. =left|mathbf {A} translated by YAYOI \right|left|mathbf {B}. \평평평평평}

2つの属性ベクトルA、Bが与えられたとき、コサイン類似度cos(θ)を計算する。 は、ドット積と大きさを用いて、

similarity = cos ( θ ) = A ‖ A ‖ B ‖ ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 .と表現されます。 {ㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤㅤ \cdot \mathbf {B} \୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘) \|\|\♪♪~ \={frac {sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{sqrt {sum \limits _{i=1}^{n}{A_{i}^{2}}}{sqrt {sum \limits _{i=1}^{n}{B_{i}^{2}}}、}

where A i {displaystyle A_{i}} {}

and B i {displaystyle B_{i}} {displaystyle B_{i}} {displaystyle B_{i}} {displaystyle B_{i}}

はベクトル A {displaystyle A} の成分です。

とB {displaystyle B} の2つです。

それぞれ。

テキストマッチングの場合、属性ベクトルAとBは通常ドキュメントの用語頻度ベクトルである。 コサイン類似度は比較の際に文書の長さを正規化する方法と見ることができる。

情報検索の場合、用語頻度(tf-idf重みを使用)は負にできないので、2文書のコサイン類似度は0から1までの範囲となる。

属性ベクトルをベクトルの平均値を引いて正規化した場合(例えば、A – A¯ {displaystyle A-{{bar {A}}}

)、中心余弦類似度と呼ばれ、ピアソン相関係数と同等の尺度になる。 中心化の例として、A = T ならば、A ¯ = T なので、A – A ¯ = T となる。 {A=^{T},{text{ then }}{bar {A}}=left^{T},{text{ so }}A-{bar {A}}=left^{T}.}のようになります。

角度距離と類似性編集

「余弦類似性」という用語は、以下で提供する類似性の異なる定義を参照するために使用されることがある。 しかし、”cosine similarity “の最も一般的な使用法は、上で定義された通りであり、以下で定義される類似性と距離メトリックは、それぞれ “angular similarity “と “angular distance “と呼ばれる。 ベクトル間の正規化された角度は、正式な距離メトリックであり、上記で定義された類似度スコアから計算することができる。 この角度距離メトリックを使用して、0と1の間に境界がある類似性関数を計算することができる。

ベクトル要素が正または負である場合:

angular distance = cos – 1 ( cosine similarity ) π {displaystyle {text{angular distance}={prac {}cos ^{-1}({text{cosine similarity}) }{pikes }} {{pikes }} {{pikes} = {prac {}cos}}({pikes})} {pikes} = {pikes }} π {displaystyle {text{angular distance}= {pikes

角度的類似性 = 1 – 角度的距離 {displaystyle {}=1-{text{angular similarity}}} {}=1-{text{angular distance}}}.

あるいはベクトル要素が常に正であれば:

angular distance = 2⋅ cos – 1 ( cosine similarity ) π {displaystyle {text{angular distance}}={frac {2}cdot \cos ^{-1}({text{cosine similarity}) }{pi }} とする。}

角度的類似性 = 1 – 角度的距離 {displaystyle {}=1-{text{angular similarity}}} }.

この角度距離には「余弦類似度」という言葉が使われているが、この言葉は角度の余弦として、角度自体を計算するのに便利な仕組みとして使われているだけで、意味の一部ではない。 角度の類似度係数の利点は、差分係数として使用した場合(1から引くことで)、結果として得られる関数が、最初の意味の場合とは異なり、適切な距離メトリックとなることである。 しかし、ほとんどの用途では、これは重要な特性ではない。 ベクトル集合内の類似性や距離の相対的な順序のみが重要な用途では、結果の順序が選択の影響を受けないため、どの関数を使用するかは重要ではありません。 -正規化ユークリッド距離 編集

コサイン距離のもう一つの効果的な代理は、L 2 {displaystyle L_{2}}によって得ることができる。

ベクトルを正規化し、その後に通常のユークリッド距離を適用します。 この手法では、まず各ベクトルの各項をベクトルの大きさで割って、単位長さのベクトルを得ます。 そして、2つのベクトルの端点を結ぶユークリッド距離は、ベクトルの比較においてコサイン距離と同じ順序を与え、さらに適切なメトリックを得るために必要な高価な三角関数演算を避けることができる適切なメトリックであることが明らかになりました。 正規化が行われると、ベクトル空間はユークリッド空間と同様に使用することができ、特に、標準的な次元削減技術を使用することができます。 この正規化された距離の形式は、特に多くのDeep Learningアルゴリズムで使用されている。

Otsuka-Ochiai coefficientEdit

生物学では、大塚弥之助(大塚、大塚、大塚とも表記される)にちなんで名付けられた大塚-落合係数として知られる同様の概念がある。 大塚弥之助と落合明にちなんで名付けられたこの係数は、落合バークマン係数、落合係数とも呼ばれ、以下のように表される。

K = | A∩B|| A| ×| B| {displaystyle K={Threshold {|A}cap B|}{sqrt {|A|times |B|}}}}} 。

Here, A {displaystyle A}.

とB{displaystyle B}の2つ。

は集合であり、|A|{displaystyle|A|}である。

は A {displaystyle A} の要素の数である。

. 集合をビット・ベクトルで表現すると、大塚・落合係数は余弦類似度と同じであることがわかる。

最近の本では、この係数は大塚姓の別の日本人研究者のものと誤記されている。 これは、1957年に落合明が、大塚彌之助の1936年の論文を引用して、浜井生三の論文を引用して、この係数を大塚にのみ帰属させたためである。

コメントを残す

メールアドレスが公開されることはありません。