Somiglianza del coseno

Il coseno di due vettori non nulli può essere ricavato usando la formula del prodotto di punti euclideo:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \B = a sinistra = a destra = a sinistra \Destra, sinistra, sinistra, B. \destra \cos \theta }

Dati due vettori di attributi, A e B, la somiglianza coseno, cos(θ), è rappresentata usando un prodotto di punti e la grandezza come

similarità = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {displaystyle {testo{similarità}=\cos(\theta )={mathbf {A} \cdot \mathbf {B} \su \sopra \mathbf {A} \mathbf {\mathbf {B} \frac {somma dei limiti _{i=1}^{n}{A_{i}B_{i}}}{{sqrt {somma dei limiti _{i=1}^{n}{A_{i}^{2}}}}{sqrt {somma dei limiti _{i=1}^{n}{B_{i}^{2}}}}}},}

dove A i {displaystyle A_{i}}

e B i {displaystyle B_{i}

sono componenti del vettore A {displaystyle A}

e B {\displaystyle B}

rispettivamente.

La somiglianza risultante va da -1 che significa esattamente opposto, a 1 che significa esattamente lo stesso, con 0 che indica ortogonalità o decorrelazione, mentre i valori intermedi indicano somiglianza o dissimiglianza intermedia.

Per la corrispondenza del testo, i vettori di attributi A e B sono solitamente i vettori di frequenza dei termini dei documenti. La somiglianza coseno può essere vista come un metodo per normalizzare la lunghezza dei documenti durante il confronto.

Nel caso dell’information retrieval, la somiglianza coseno di due documenti andrà da 0 a 1, poiché le frequenze dei termini (usando i pesi tf-idf) non possono essere negative. L’angolo tra due vettori di frequenza dei termini non può essere maggiore di 90°.

Se i vettori degli attributi sono normalizzati sottraendo le medie dei vettori (ad esempio, A – A ¯ {\displaystyle A-{\bar {A}}}

), la misura è chiamata similarità coseno centrata ed è equivalente al coefficiente di correlazione di Pearson. Per un esempio di centratura, se A = T , allora A ¯ = T , quindi A – A ¯ = T . {Se A = T, allora A ¯ = T, quindi A – A ¯ = T. Per esempio, se A = T, allora A ¯ = T, quindi A – A ¯ = T.

Distanza angolare e somiglianzaModifica

Il termine “somiglianza coseno” è talvolta usato per riferirsi a una diversa definizione di somiglianza fornita di seguito. Tuttavia l’uso più comune di “somiglianza del coseno” è quello definito sopra e le metriche di somiglianza e distanza definite di seguito sono indicate rispettivamente come “somiglianza angolare” e “distanza angolare”. L’angolo normalizzato tra i vettori è una metrica di distanza formale e può essere calcolato dal punteggio di somiglianza definito sopra. Questa metrica di distanza angolare può quindi essere utilizzata per calcolare una funzione di somiglianza delimitata tra 0 e 1, incluso.

Quando gli elementi del vettore possono essere positivi o negativi:

distanza angolare = cos – 1 ( somiglianza coseno ) π {\displaystyle {\testo{ distanza angolare}}={\frac {\cos ^{-1}({\testo{ somiglianza coseno}})}{\pi}

similitudine angolare = 1 – distanza angolare {{displaystyle {distanza angolare}}=1-{distanza angolare}}

Oppure, se gli elementi del vettore sono sempre positivi:

distanza angolare = 2 ⋅ cos – 1 ( somiglianza del coseno ) π {displaystyle {{distanza angolare}}={frac {2\cdot \cos ^{-1}({\testo{ somiglianza del coseno})}{\pi }}

somiglianza angolare = 1 – distanza angolare {\displaystyle {{similitudine angolare}}=1-{distanza angolare}}

Anche se il termine “similitudine coseno” è stato usato per questa distanza angolare, il termine è usato come coseno dell’angolo solo come un comodo meccanismo per calcolare l’angolo stesso e non è parte del significato. Il vantaggio del coefficiente di somiglianza angolare è che, quando viene usato come coefficiente di differenza (sottraendolo da 1) la funzione risultante è una vera e propria metrica di distanza, il che non è il caso del primo significato. Tuttavia, per la maggior parte degli usi questa non è una proprietà importante. Per qualsiasi uso in cui è importante solo l’ordine relativo di somiglianza o distanza all’interno di un insieme di vettori, allora quale funzione viene utilizzata è irrilevante, poiché l’ordine risultante non sarà influenzato dalla scelta.

L 2 {displaystyle L_{2}} -distanza euclidea normalizzataModifica

Un altro proxy efficace per la distanza coseno può essere ottenuto da L 2 {displaystyle L_{2}}

normalizzazione dei vettori, seguita dall’applicazione della normale distanza euclidea. Con questa tecnica ogni termine di ogni vettore viene prima diviso per la grandezza del vettore, ottenendo un vettore di lunghezza unitaria. Quindi, è chiaro che la distanza euclidea sui punti finali di due vettori qualsiasi è una metrica corretta che dà lo stesso ordinamento della distanza coseno per qualsiasi confronto di vettori, e inoltre evita le operazioni trigonometriche potenzialmente costose necessarie per ottenere una metrica corretta. Una volta che la normalizzazione è avvenuta, lo spazio vettoriale può essere utilizzato con l’intera gamma di tecniche disponibili per qualsiasi spazio euclideo, in particolare le tecniche standard di riduzione della dimensionalità. Questa distanza di forma normalizzata è utilizzata in particolare in molti algoritmi di Deep Learning.

Coefficiente Otsuka-OchiaiModifica

In biologia, esiste un concetto simile noto come coefficiente Otsuka-Ochiai che prende il nome da Yanosuke Otsuka (scritto anche come Ōtsuka, Ootsuka o Otuka, giapponese: 大塚 弥之助) e Akira Ochiai (giapponese: 落合 明), noto anche come il coefficiente Ochiai-Barkman o Ochiai, che può essere rappresentato come:

K = | A ∩ B | A | × | B | {displaystyle K={{frac {|A\cap B|}{{sqrt {|A|tempi |B|}}}}

Qui, A {\displaystyle A}

e B {displaystyle B}

sono insiemi, e | A | {\displaystyle |A|}

è il numero di elementi in A {\displaystyle A}

. Se gli insiemi sono rappresentati come vettori di bit, il coefficiente di Otsuka-Ochiai può essere visto come la somiglianza del coseno.

In un libro recente, il coefficiente è erroneamente attribuito a un altro ricercatore giapponese con il cognome Otsuka. La confusione nasce perché nel 1957 Akira Ochiai attribuisce il coefficiente solo a Otsuka (nessun nome menzionato) citando un articolo di Ikuso Hamai (giapponese: 浜井 生三), che a sua volta cita l’articolo originale del 1936 di Yanosuke Otsuka.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.