Asemănarea cosinusului

Similitudinea cosinusului a doi vectori care nu sunt zero poate fi derivată folosind formula produsului de puncte euclidian:

A ⋅ B = ‖ A ‖ ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \cdot \mathbf {B} =\left\|\mathbf {A} \right\||\left\||\mathbf {B} \right\\\\cos \theta }

După doi vectori de atribute, A și B, se calculează similitudinea cosinusului, cos(θ), se reprezintă folosind un produs de puncte și o mărime ca

similaritate = cos ( θ ) = A ⋅ B ‖ A ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle {\text{similaritate}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \\ peste \|\mathbf {A} \||\||\mathbf {B} \|}={\frac {\sum \sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

unde A i {\displaystyle A_{i}}

și B i {\displaystyle B_{i}}

sunt componente ale vectorului A {\displaystyle A}

și B {\displaystyle B}

respectiv

.

Similitudinea rezultată variază de la -1, care înseamnă exact opus, la 1, care înseamnă exact la fel, 0 indicând ortogonalitate sau decorrelație, în timp ce valorile intermediare indică o similitudine sau o disimilaritate intermediară.

Pentru potrivirea textelor, vectorii de atribute A și B sunt, de obicei, vectorii de frecvență a termenilor din documente. Similaritatea cosinusului poate fi văzută ca o metodă de normalizare a lungimii documentelor în timpul comparației.

În cazul recuperării informațiilor, similaritatea cosinusului a două documente va fi cuprinsă între 0 și 1, deoarece frecvențele termenilor (folosind ponderile tf-idf) nu pot fi negative. Unghiul dintre doi vectori de frecvență a termenilor nu poate fi mai mare de 90°.

Dacă vectorii de atribute sunt normalizați prin scăderea mediilor vectorilor (de exemplu, A – A ¯ {\displaystyle A-{\bar {A}}}

), măsura se numește similaritate cosinus centrată și este echivalentă cu coeficientul de corelație Pearson. Pentru un exemplu de centrare, dacă A = T , atunci A ¯ = T , deci A – A ¯ = T . {\displaystyle {\text{if}}\,A=^{T},{\text{ then }}{\barra {A}}=\left^{T},{\text{ so }}}A-{\barra {A}}=\left^{T}.}

Distanța unghiulară și similaritateaEdit

Termenul „similaritate cosinusoidală” este uneori folosit pentru a se referi la o definiție diferită a similarității oferită mai jos. Cu toate acestea, cea mai frecventă utilizare a termenului „similitudine cosinusoidală” este cea definită mai sus, iar metricile de similitudine și distanță definite mai jos sunt denumite „similitudine unghiulară” și, respectiv, „distanță unghiulară”. Unghiul normalizat dintre vectori este o măsură de distanță formală și poate fi calculat din scorul de similaritate definit mai sus. Această metrică de distanță unghiulară poate fi apoi utilizată pentru a calcula o funcție de similaritate delimitată între 0 și 1, inclusiv.

Când elementele vectorului pot fi pozitive sau negative:

distanța unghiulară = cos – 1 ( similitudine cosinusală ) π {\displaystyle {\text{distanța unghiulară}}={\frac {\cos ^{-1}({\text{similitudine cosinusală}})}{\pi }}}}

similaritatea unghiulară = 1 – distanța unghiulară {\displaystyle {\text{similaritate unghiulară}}=1-{\text{distanța unghiulară}}}.

sau, dacă elementele vectorului sunt întotdeauna pozitive:

distanța unghiulară = 2 ⋅ cos – 1 ( similitudine cosinusoidală ) π {\displaystyle {\text{distanța unghiulară}}={\frac {2\cdot \cos ^{-1}({\text{similitudine cosinusoidală}})}{\pi }}}}}

similaritatea unghiulară = 1 – distanța unghiulară {\displaystyle {\text{similaritate unghiulară}}=1-{\text{distanța unghiulară}}}}.

Deși termenul „similitudine cosinus” a fost folosit pentru această distanță unghiulară, termenul este folosit ca și cosinus al unghiului doar ca un mecanism convenabil pentru a calcula unghiul în sine și nu face parte din semnificație. Avantajul coeficientului de similaritate unghiulară este că, atunci când este utilizat ca și coeficient de diferență (prin scăderea lui din 1), funcția rezultată este o metrică de distanță adecvată, ceea ce nu este cazul pentru prima semnificație. Cu toate acestea, pentru majoritatea utilizărilor, aceasta nu este o proprietate importantă. Pentru orice utilizare în care este importantă doar ordonarea relativă a similitudinii sau a distanței în cadrul unui set de vectori, atunci funcția utilizată este irelevantă, deoarece ordinea rezultată nu va fi afectată de această alegere.

L 2 {\displaystyle L_{2}} -distanța euclidiană normalizatăEdit

O altă aproximare eficientă pentru distanța cosinus poate fi obținută prin L 2 {\displaystyle L_{2}}.

normalizarea vectorilor, urmată de aplicarea distanței euclidiene normale. Folosind această tehnică, fiecare termen din fiecare vector este mai întâi împărțit la magnitudinea vectorului, obținându-se un vector de lungime unitară. Apoi, este clar că distanța euclidiană peste punctele finale ale oricăror doi vectori este o metrică adecvată care oferă aceeași ordine ca și distanța cosinus pentru orice comparație de vectori și, în plus, evită operațiile trigonometrice potențial costisitoare necesare pentru a obține o metrică adecvată. Odată ce a avut loc normalizarea, spațiul vectorial poate fi utilizat cu întreaga gamă de tehnici disponibile pentru orice spațiu euclidian, în special tehnicile standard de reducere a dimensionalității. Această formă normalizată a distanței este utilizată în special în cadrul multor algoritmi de învățare profundă.

Coeficientul Otsuka-OchiaiEdit

În biologie, există un concept similar cunoscut sub numele de coeficientul Otsuka-Ochiai, numit după Yanosuke Otsuka (ortografiat și ca Ōtsuka, Ootsuka sau Otuka, japonez: 大塚 弥之助) și Akira Ochiai (în japoneză: 落合 明), cunoscut, de asemenea, sub numele de coeficientul Ochiai-Barkman sau Ochiai, care poate fi reprezentat ca:

K = | A ∩ B | | A | × | B | | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Iată, A {\displaystyle A}

și B {\displaystyle B}

sunt seturi, iar | A | | {\displaystyle |A|}

este numărul de elemente din A {\displaystyle A}

. În cazul în care seturile sunt reprezentate ca vectori de biți, coeficientul Otsuka-Ochiai poate fi considerat ca fiind același cu cel al similitudinii cosinusului.

Într-o carte recentă, coeficientul este atribuit în mod eronat unui alt cercetător japonez cu numele de familie Otsuka. Confuzia apare deoarece, în 1957, Akira Ochiai atribuie coeficientul doar lui Otsuka (nu este menționat prenumele), citând un articol al lui Ikuso Hamai (în japoneză: 浜井 生三), care, la rândul său, citează articolul original din 1936 al lui Yanosuke Otsuka.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.