Similitude du cosinus

Le cosinus de deux vecteurs non nuls peut être dérivé en utilisant la formule du produit scalaire euclidien:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \cdot \mathbf {B} =\left\\\\N{\i1}mathbf {A} \right\\N\N\N\N\N\N\N\N\N\N\N\N\N\N – de gauche à droite. \N-right\N-cos \N-theta }

Donné deux vecteurs d’attributs, A et B, la similarité cosinus, cos(θ), est représentée à l’aide d’un produit scalaire et de la magnitude suivante

similarité = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle {\text{similarity}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \N- Over \N- Mathbf {A} \||||mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

où A i {\displaystyle A_{i}}

et B i {\displaystyle B_{i}}

sont les composantes du vecteur A {\displaystyle A}

et B {\displaystyle B}

respectivement.

La similarité résultante va de -1 signifiant exactement opposé, à 1 signifiant exactement le même, avec 0 indiquant l’orthogonalité ou la décorrélation, tandis que les valeurs intermédiaires indiquent une similarité ou une dissimilarité intermédiaire.

Pour la correspondance de textes, les vecteurs d’attributs A et B sont généralement les vecteurs de fréquence de termes des documents. La similarité en cosinus peut être considérée comme une méthode de normalisation de la longueur des documents pendant la comparaison.

Dans le cas de la recherche d’information, la similarité en cosinus de deux documents sera comprise entre 0 et 1, puisque les fréquences des termes (en utilisant les pondérations tf-idf) ne peuvent pas être négatives. L’angle entre deux vecteurs de fréquence de termes ne peut pas être supérieur à 90°.

Si les vecteurs d’attributs sont normalisés en soustrayant les moyennes des vecteurs (par exemple, A – A ¯ {\displaystyle A-{\bar {A}}}

), la mesure est appelée la similarité cosinus centrée et est équivalente au coefficient de corrélation de Pearson. Pour un exemple de centrage, si A = T , alors A ¯ = T , donc A – A ¯ = T . {\displaystyle {\text{if}}\,A=^{T},{\text{ then }}{\bar {A}}=\left^{T},{\text{ so }}A-{\bar {A}}=\left^{T}.}

Distance angulaire et similaritéModifié

Le terme « similarité en cosinus » est parfois utilisé pour faire référence à une définition différente de la similarité fournie ci-dessous. Cependant, l’utilisation la plus courante de la « similarité cosinus » est celle définie ci-dessus et les mesures de similarité et de distance définies ci-dessous sont appelées respectivement « similarité angulaire » et « distance angulaire ». L’angle normalisé entre les vecteurs est une mesure de distance formelle et peut être calculé à partir du score de similarité défini ci-dessus. Cette métrique de distance angulaire peut alors être utilisée pour calculer une fonction de similarité bornée entre 0 et 1, inclusivement.

Lorsque les éléments du vecteur peuvent être positifs ou négatifs :

distance angulaire = cos – 1 ( similarité en cosinus ) π {\displaystyle {\text{distance angulaire}}={\frac {\cos ^{-1}({\text{ similarité en cosinus}})}{\pi }}.

similarité angulaire = 1 – distance angulaire {\displaystyle {\text{similitude angulaire}}=1-{\text{distance angulaire}}

Ou, si les éléments du vecteur sont toujours positifs:

distance angulaire = 2 ⋅ cos – 1 ( similarité en cosinus ) π {\displaystyle {\text{Distance angulaire}}={\frac {2\cdot \cos ^{-1}({\text{ similarité en cosinus}})}}.

similarité angulaire = 1 – distance angulaire {\displaystyle {\text{similitude angulaire}}=1-{\text{similitude angulaire}}}

Bien que le terme « similarité cosinus » ait été utilisé pour cette distance angulaire, le terme est utilisé comme le cosinus de l’angle uniquement comme un mécanisme pratique pour calculer l’angle lui-même et ne fait pas partie de la signification. L’avantage du coefficient de similarité angulaire est que, lorsqu’il est utilisé comme coefficient de différence (en le soustrayant de 1), la fonction résultante est une métrique de distance correcte, ce qui n’est pas le cas pour la première signification. Cependant, pour la plupart des utilisations, cette propriété n’est pas importante. Pour toute utilisation où seul l’ordre relatif de similarité ou de distance au sein d’un ensemble de vecteurs est important, alors la fonction utilisée est sans importance puisque l’ordre résultant ne sera pas affecté par le choix.

L 2 {\displaystyle L_{2}} -Distance euclidienne normaliséeEdit

Un autre proxy efficace pour la distance Cosinus peut être obtenu par L 2 {\displaystyle L_{2}}.

normalisation des vecteurs, suivie de l’application de la distance euclidienne normale. En utilisant cette technique, chaque terme de chaque vecteur est d’abord divisé par la magnitude du vecteur, ce qui donne un vecteur de longueur unitaire. Ensuite, il est clair que la distance euclidienne sur les points d’extrémité de deux vecteurs est une métrique appropriée qui donne le même ordre que la distance cosinus pour toute comparaison de vecteurs, et évite en outre les opérations trigonométriques potentiellement coûteuses nécessaires pour obtenir une métrique appropriée. Une fois la normalisation effectuée, l’espace vectoriel peut être utilisé avec toute la gamme de techniques disponibles pour tout espace euclidien, notamment les techniques standard de réduction de la dimensionnalité. Cette distance de forme normalisée est notamment utilisée au sein de nombreux algorithmes de Deep Learning.

Coefficient d’Otsuka-OchiaiEdit

En biologie, il existe un concept similaire connu sous le nom de coefficient d’Otsuka-Ochiai du nom de Yanosuke Otsuka (également orthographié Ōtsuka, Ootsuka ou Otuka, japonais : 大塚 弥之助) et Akira Ochiai (japonais : 落合 明), également connu sous le nom de coefficient Ochiai-Barkman ou Ochiai, qui peut être représenté par :

K = | A ∩ B | A | × | B | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Ici, A {\displaystyle A}

et B {\displaystyle B}

sont des ensembles, et | A | {\displaystyle |A|}

est le nombre d’éléments dans A {\displaystyle A}

. Si les ensembles sont représentés comme des vecteurs de bits, on peut considérer que le coefficient d’Otsuka-Ochiai est identique à la similitude en cosinus.

Dans un livre récent, ce coefficient est attribué à tort à un autre chercheur japonais portant le nom de famille Otsuka. La confusion provient du fait qu’en 1957 Akira Ochiai attribue le coefficient uniquement à Otsuka (aucun prénom n’est mentionné) en citant un article d’Ikuso Hamai (japonais : 浜井 生三), qui cite à son tour l’article original de 1936 de Yanosuke Otsuka.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.