Koszinusz hasonlóság

Két nem nulla vektor koszinuszát az euklideszi pontszorzat képletével lehet levezetni:

A ⋅ B = ‖ A ‖ ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \cdot \mathbf {B} =\left\|\mathbf {A} \right\|\left\|\mathbf {B} \right\|\cos \theta }

Adott két attribútumvektor, A és B, a koszinusz hasonlóság, cos(θ), pontszorzat és nagyságrend segítségével a következőképpen ábrázolható:

hasonlóság = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle {\text{similarity}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \over \|\mathbf {A} \|\|\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

hol A i {\displaystyle A_{i}}}

és B i {\displaystyle B_{i}}

az A {\displaystyle A} vektor komponensei.

és B {\displaystyle B}

, illetve

.

A kapott hasonlóság -1-től, ami pontosan ellentétes, 1-ig, ami pontosan ugyanazt jelenti, a 0 ortogonalitást vagy dekorrelációt jelez, míg a kettő közötti értékek köztes hasonlóságot vagy különbözőséget jeleznek.

Szövegillesztés esetén az A és B attribútumvektorok általában a dokumentumok terminusfrekvencia-vektorai. A koszinusz hasonlóságot tekinthetjük a dokumentumok hosszának normalizálására szolgáló módszernek az összehasonlítás során.

Információkeresés esetén két dokumentum koszinusz hasonlósága 0 és 1 között mozog, mivel a terminusfrekvenciák (tf-idf súlyok segítségével) nem lehetnek negatívak. Két terminusfrekvencia-vektor közötti szög nem lehet 90°-nál nagyobb.

Ha az attribútumvektorokat a vektorok átlagainak levonásával normalizáljuk (pl. A – A ¯ {\displaystyle A-{\bar {A}}}}

), akkor a mértéket központosított koszinusz hasonlóságnak nevezzük, és a Pearson-féle korrelációs együtthatóval egyenértékű. Egy példa a központosításra: ha A = T , akkor A ¯ = T , tehát A – A ¯ = T . {\displaystyle {\text{if}}\,A=^{T},{\text{ then }}}{\bar {A}}=\left^{T},{\text{ so }}A-{\bar {A}}=\left^{T}.}

Szögtávolság és hasonlóságSzerkesztés

A “koszinusz hasonlóság” kifejezést néha a hasonlóság alább megadott eltérő definíciójára használják. A “koszinusz hasonlóság” leggyakoribb használata azonban a fenti definíció szerint történik, és az alább definiált hasonlósági és távolsági metrikákra “szöghasonlóság”, illetve “szögtávolság” néven hivatkozunk. A vektorok közötti normalizált szög egy formális távolsági metrika, és a fent meghatározott hasonlósági pontszámból számítható ki. Ez a szögtávolsági metrika ezután felhasználható egy 0 és 1 között korlátos hasonlósági függvény kiszámítására.

Ha a vektorelemek lehetnek pozitívak vagy negatívak:

szögtávolság = cos – 1 ( kozinusz hasonlóság ) π {\displaystyle {\text{szögtávolság}}={\frac {\cos ^{-1}({\text{kozinusz hasonlóság}})}{\pi }}}}

szöghasonlóság = 1 – szögtávolság {\displaystyle {\text{szöghasonlóság}}=1-{\text{szögtávolság}}}

Vagy, ha a vektor elemei mindig pozitívak:

szögtávolság = 2 ⋅ cos – 1 ( cosinus hasonlóság ) π {\displaystyle {\text{szögtávolság}}={\frac {2\cdot \cos ^{-1}({\text{kosinus hasonlóság}})}{\pi }}}

szöghasonlóság = 1 – szögtávolság {\displaystyle {\text{szöghasonlóság}}=1-{\text{szögtávolság}}}}

Bár a “koszinusz hasonlóság” kifejezést használták erre a szögtávolságra, a kifejezés a szög koszinuszaként csak egy kényelmes mechanizmusként szolgál magának a szögnek a kiszámításához, és nem része a jelentésnek. A szöghasonlósági együttható előnye, hogy ha különbség együtthatóként használjuk (kivonva 1-ből), akkor a kapott függvény egy megfelelő távolságmetrika lesz, ami az első jelentés esetében nem így van. A legtöbb felhasználásnál azonban ez nem fontos tulajdonság. Minden olyan felhasználásnál, ahol csak a hasonlóság vagy a távolság relatív sorrendje fontos egy vektorhalmazon belül, akkor lényegtelen, hogy melyik függvényt használjuk, mivel a kapott sorrendet nem befolyásolja a választás.

L 2 {\displaystyle L_{2}} -normalizált euklideszi távolságSzerkesztés

A koszinusz-távolság másik hatékony helyettesítője az L 2 {\displaystyle L_{2}}

vektorok normalizálásával, majd a normál euklideszi távolság alkalmazásával. Ezzel a technikával minden egyes vektor minden egyes tagját először elosztjuk a vektor nagyságával, így kapunk egy egységnyi hosszúságú vektort. Ezután nyilvánvaló, hogy az euklideszi távolság bármely két vektor végpontja felett egy megfelelő metrika, amely a vektorok bármely összehasonlításához ugyanazt a sorrendet adja, mint a koszinusz-távolság, és ráadásul elkerüli a megfelelő metrika előállításához szükséges, potenciálisan költséges trigonometrikus műveleteket. Miután a normalizálás megtörtént, a vektorteret a bármely euklideszi térhez rendelkezésre álló technikák teljes skálájával lehet használni, nevezetesen a szokásos dimenziócsökkentési technikákkal. Ezt a normalizált alakú távolságot számos mélytanulási algoritmusban használják.

Otsuka-Ochiai együtthatóSzerkesztés

A biológiában létezik egy hasonló fogalom, az Otsuka-Ochiai együttható, amelyet Yanosuke Otsuka (más írásmóddal Ōtsuka, Ootsuka vagy Otuka, japánul: 大塚 弥之助) és Akira Ochiai (japánul: 落合 明), más néven Ochiai-Barkman vagy Ochiai együttható, amely a következőképpen ábrázolható:

K = | A ∩ B | | | A | × | B | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Itt, A {\displaystyle A}

és B {\displaystyle B}

halmazok, és | A | {\displaystyle |A|}

az A {\displaystyle A} elemeinek száma.

. Ha a halmazokat bitvektorokként ábrázoljuk, akkor az Otsuka-Ochiai együtthatót úgy tekinthetjük, hogy az megegyezik a koszinusz hasonlósággal.

Egy nemrég megjelent könyvben az együtthatót tévesen egy másik japán kutatónak tulajdonítják, akinek Otsuka a vezetékneve. A félreértés abból adódik, hogy 1957-ben Akira Ochiai az együtthatót csak Otsukának tulajdonítja (keresztnevét nem említi), idézve Ikuso Hamai (japánul: 浜井 生三) cikkét, aki viszont Yanosuke Otsuka eredeti, 1936-os cikkét idézi.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.