Podobieństwo cosinusów

Cosinus dwóch niezerowych wektorów można wyprowadzić za pomocą wzoru na iloczyn kropkowy Euklidesa:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {displaystyle \mathbf {A} ∗dot ∗mathbf {B} = \left \mathbf {A} \right\|left|mathbf {B} \right|cos \theta }

Dając dwa wektory atrybutów, A i B, podobieństwo cosinusowe, cos(θ), jest reprezentowane przy użyciu iloczynu kropek i wielkości jako

podobieństwo = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , displaystyle {{text{similarity}}= ∑cos(∑theta )={mathbf {A} \cdot \mathbf {B} \Ponad \\Mathbf {A} \\\\Mathbf {B} \|}={{frac {{suma \limitów _{i=1}^{n}{A_{i}B_{i}}}}{{sqrt {{suma \limitów _{i=1}^{n}{A_{i}^{2}}}} {{sqrt {{suma \limitów _{i=1}^{n}{B_{i}^{2}}}}}},}

gdzie A i {displaystyle A_{i}}}

oraz B i {{displaystyle B_{i}}

są składowymi wektora A {displaystyle A}

oraz B {displaystyle B}

odpowiednio.

Wynikowe podobieństwo waha się od -1 oznaczającego dokładnie przeciwieństwo, do 1 oznaczającego dokładnie to samo, przy czym 0 wskazuje na ortogonalność lub dekorelację, podczas gdy wartości pomiędzy wskazują na pośrednie podobieństwo lub niepodobieństwo.

W przypadku dopasowywania tekstu, wektory atrybutów A i B są zazwyczaj wektorami częstotliwości terminów w dokumentach. Podobieństwo cosinusowe może być postrzegane jako metoda normalizacji długości dokumentu podczas porównywania.

W przypadku wyszukiwania informacji, podobieństwo cosinusowe dwóch dokumentów będzie się wahać od 0 do 1, ponieważ częstotliwości terminów (przy użyciu wag tf-idf) nie mogą być ujemne. Kąt pomiędzy dwoma wektorami częstości terminów nie może być większy niż 90°.

Jeśli wektory atrybutów zostaną znormalizowane poprzez odjęcie środków wektorów (np. A – A – A – { {\i0}}

), miara nazywa się wyśrodkowanym podobieństwem cosinusowym i jest równoważna współczynnikowi korelacji Pearsona. Dla przykładu centrowania, jeśli A = T , to A ¯ = T , więc A – A ¯ = T . {Jeśli A = T , to A = T , więc A – A = T .

Odległość kątowa i podobieństwoEdit

Termin „podobieństwo cosinusowe” jest czasami używany w odniesieniu do innej definicji podobieństwa podanej poniżej. Jednak najczęstsze zastosowanie „podobieństwa cosinusowego” jest takie, jak zdefiniowano powyżej, a metryki podobieństwa i odległości zdefiniowane poniżej są określane odpowiednio jako „podobieństwo kątowe” i „odległość kątowa”. Znormalizowany kąt pomiędzy wektorami jest formalną metryką odległości i może być obliczany na podstawie wyniku podobieństwa zdefiniowanego powyżej. Ta metryka odległości kątowej może być następnie użyta do obliczenia funkcji podobieństwa ograniczonej od 0 do 1, włącznie.

Gdy elementy wektora mogą być dodatnie lub ujemne:

odległość kątowa = cos – 1 ( podobieństwo cosinusowe ) π { {tekst{odległość kątowa}}={frac {cos ^{-1}({tekst{podobieństwo cosinusowe}})}}

podobieństwo kątowe = 1 – odległość kątowa {{displaystyle {{text{angular similarity}}=1-{{text{angular distance}}}

Albo, jeśli elementy wektora są zawsze dodatnie:

odległość kątowa = 2 ⋅ cos – 1 ( podobieństwo kosinusowe ) π {displaystyle {{podobieństwo kątowe}}}={frac {2cdot cos ^{-1}({{podobieństwo kosinusowe}})}}

podobieństwo kątowe = 1 – odległość kątowa {{displaystyle {{podobieństwo kątowe}}=1-{podobieństwo kątowe}}

Ale chociaż termin „podobieństwo cosinusowe” został użyty dla tej odległości kątowej, termin ten jest używany jako cosinus kąta tylko jako wygodny mechanizm do obliczania samego kąta i nie jest częścią znaczenia. Zaletą współczynnika podobieństwa kątowego jest to, że gdy jest on używany jako współczynnik różnicy (poprzez odjęcie go od 1), otrzymana funkcja jest właściwą metryką odległości, co nie ma miejsca w przypadku pierwszego znaczenia. Jednakże, dla większości zastosowań nie jest to ważna właściwość. Dla każdego zastosowania, w którym ważne jest tylko względne uporządkowanie podobieństwa lub odległości w zbiorze wektorów, to która funkcja jest używana jest nieistotna, ponieważ wybór nie będzie miał wpływu na wynikowe uporządkowanie.

L 2 {\i0}L_{2}} -normalizowana odległość euklidesowaEdit

Innym skutecznym wskaźnikiem odległości cosinusowej może być L 2 {displaystyle L_{2}}

normalizację wektorów, a następnie zastosowanie normalnej odległości euklidesowej. Przy użyciu tej techniki każdy człon w każdym wektorze jest najpierw dzielony przez wielkość wektora, dając wektor o jednostkowej długości. Następnie, jest jasne, że odległość euklidesowa nad punktami końcowymi dowolnych dwóch wektorów jest właściwą metryką, która daje takie samo uporządkowanie jak odległość cosinusowa dla dowolnego porównania wektorów, a ponadto pozwala uniknąć potencjalnie kosztownych operacji trygonometrycznych wymaganych do uzyskania właściwej metryki. Po normalizacji, przestrzeń wektorowa może być używana z pełnym zakresem technik dostępnych dla każdej przestrzeni euklidesowej, w szczególności ze standardowymi technikami redukcji wymiarowości. Ta znormalizowana odległość postaci jest w szczególności używana w wielu algorytmach Deep Learning.

Współczynnik Otsuka-OchiaiEdit

W biologii istnieje podobna koncepcja znana jako współczynnik Otsuka-Ochiai nazwany na cześć Yanosuke Otsuka (pisany również jako Ōtsuka, Ootsuka lub Otuka, jap: 大塚 弥之助) i Akira Ochiai (japoński: 落合 明), znany również jako współczynnik Ochiai-Barkman lub Ochiai, który można przedstawić jako:

K = | A ∩ B | | A | × | B | {{displaystyle K={frac {|A|cap B|}{{sqrt {|A|times |B|}}}}

Tutaj, A {displaystyle A}

i B {displaystyle B}

są zbiorami, a | A | {displaystyle |A|}

jest liczbą elementów w A {displaystyle A}.

. Jeśli zbiory są reprezentowane jako wektory bitów, współczynnik Otsuka-Ochiai może być postrzegany jako to samo, co podobieństwo cosinusowe.

W jednej z ostatnich książek współczynnik ten jest błędnie przypisany innemu japońskiemu badaczowi o nazwisku Otsuka. Zamieszanie wynika z tego, że w 1957 roku Akira Ochiai przypisuje współczynnik tylko Otsuce (bez podania imienia), powołując się na artykuł Ikuso Hamai (japoński: 浜井 生三), który z kolei powołuje się na oryginalny artykuł Yanosuke Otsuki z 1936 roku.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.