Kosinuksen samankaltaisuus

Kahden nollasta poikkeavan vektorin kosinus voidaan johtaa käyttämällä euklidista pistetuoton kaavaa:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \cdot \mathbf{B} =\left\|\mathbf {A} \right\|\left\|\mathbf {B} \right\ |\cos \theta}

Tiedostetaan kahden attribuuttivektorin, A ja B, kosinusarvoinen samankaltaisuus, cos(θ), esitetään pistepotentiaalin ja suuruuden avulla seuraavasti

similarity = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle {\text{similarity}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \over \|\mathbf{A} \||\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

joissa A i {\displaystyle A_{i}}}

ja B i {\displaystyle B_{i}}

ovat vektorin A komponentteja {\displaystyle A}

ja B {\displaystyle B} vektorin osat.

vastaavasti.

Tuloksena saatava samankaltaisuus vaihtelee arvosta -1, joka tarkoittaa täsmälleen vastakkaista, arvoon 1, joka tarkoittaa täsmälleen samaa, jolloin 0 osoittaa ortogonaalisuutta tai dekorrelaatiota, kun taas siltä väliltä olevat arvot ilmaisevat välillistä samankaltaisuutta tai erilaisuutta.

Tekstien täsmäytyksessä attribuuttivektorit A ja B ovat tavallisesti asiakirjojen termifrekvenssivektoreita. Kosinin samankaltaisuus voidaan nähdä menetelmänä, jolla normalisoidaan asiakirjojen pituudet vertailun aikana.

Tiedonhaun tapauksessa kahden asiakirjan kosinin samankaltaisuus vaihtelee välillä 0-1, koska termifrekvenssit (käyttäen tf-idf-painoja) eivät voi olla negatiivisia. Kahden termifrekvenssivektorin välinen kulma ei voi olla suurempi kuin 90°.

Jos attribuuttivektorit normalisoidaan vähentämällä vektoreiden keskiarvot (esim. A – A ¯ {\displaystyle A-{\bar {A}}}

), toimenpidettä kutsutaan keskitetyksi kosinin samankaltaisuudeksi (centered cosine similarity) ja se vastaa Pearsonin korrelaatiokerrointa. Esimerkki keskittämisestä: jos A = T , niin A ¯ = T , joten A – A ¯ = T . {\displaystyle {\text{if}}\,A=^{T},{\text{ then }}{\bar {A}}=\left^{T},{\text{ so }}A-{\bar {A}}=\left^{T}.}

Kulmaetäisyys ja samankaltaisuusMuokkaa

Käsitteellä ”kosinin samankaltaisuus” viitataan joskus erilaiseen samankaltaisuuden määritelmään, joka esitetään jäljempänä. Yleisimmin ”kosinin samankaltaisuutta” käytetään kuitenkin edellä määritellyllä tavalla, ja jäljempänä määriteltyihin samankaltaisuus- ja etäisyysmetriikoihin viitataan nimillä ”kulmamainen samankaltaisuus” ja ”kulmamainen etäisyys”. Vektoreiden välinen normalisoitu kulma on muodollinen etäisyysmetriikka, ja se voidaan laskea edellä määritellystä samankaltaisuuspistemäärästä. Tätä kulmaetäisyysmetriikkaa voidaan sitten käyttää laskemaan samankaltaisuusfunktio, joka on rajattu välille 0 ja 1, mukaan lukien.

Kun vektorielementit voivat olla positiivisia tai negatiivisia:

kulmaetäisyys = cos – 1 ( kosinin samankaltaisuus ) π {\displaystyle {\text{kulmaetäisyys}}={\frac {\cos ^{-1}({\text{kosinin samankaltaisuus}})}{\pi }}}}

kulman samankaltaisuus = 1 – kulmaetäisyys {\displaystyle {\text{kulman samankaltaisuus}}=1-{\text{kulman etäisyys}}}

Tai jos vektorin alkiot ovat aina positiivisia:

kulmaetäisyys = 2 ⋅ cos – 1 ( kosinin samankaltaisuus ) π {\displaystyle {\text{kulmaetäisyys}}={\frac {2\cdot \cos ^{-1}({\text{kosinin samankaltaisuus}})}{\pi }}}

kulman samankaltaisuus = 1 – kulmaetäisyys {\displaystyle {\text{kulman samankaltaisuus}}=1-{\text{kulman etäisyys}}}

Vaikka tästä kulmaetäisyydestä on käytetty termiä ”kosinin samankaltaisuus”, termiä käytetään kulman kosinina vain kätevänä mekanismina itse kulman laskemiseksi, eikä se ole osa merkitystä. Kulman samankaltaisuuskertoimen etuna on se, että kun sitä käytetään erotuskertoimena (vähentämällä se arvosta 1), tuloksena oleva funktio on varsinainen etäisyysmetriikka, mikä ei päde ensimmäiseen merkitykseen. Useimmissa käyttötarkoituksissa tämä ei kuitenkaan ole tärkeä ominaisuus. Kaikissa käyttötarkoituksissa, joissa vain samankaltaisuuden tai etäisyyden suhteellinen järjestys vektorijoukon sisällä on tärkeää, ei ole väliä, mitä funktiota käytetään, koska valinta ei vaikuta tuloksena olevaan järjestykseen.

L 2 {\displaystyle L_{2}} -normalisoitu euklidinen etäisyysEdit

Toinen tehokas korvike kosinusetäisyydelle saadaan L 2 {\displaystyle L_{2}}

vektoreiden normalisoinnilla, minkä jälkeen sovelletaan normaalia euklidista etäisyyttä. Tätä tekniikkaa käyttäen jokaisen vektorin jokainen termi jaetaan ensin vektorin suuruudella, jolloin saadaan yksikköpituinen vektori. Tämän jälkeen on selvää, että minkä tahansa kahden vektorin päätepisteiden välinen euklidinen etäisyys on oikea metriikka, joka antaa saman järjestyksen kuin kosininen etäisyys missä tahansa vektorien vertailussa, ja lisäksi sillä vältetään mahdollisesti kalliit trigonometriset operaatiot, joita tarvitaan oikean metriikan saamiseksi. Kun normalisointi on suoritettu, vektoriavaruutta voidaan käyttää kaikilla euklidiselle avaruudelle käytettävissä olevilla tekniikoilla, erityisesti tavanomaisilla dimensioiden pienentämistekniikoilla. Tätä normalisoitua etäisyyttä käytetään erityisesti monissa Deep Learning -algoritmeissa.

Otsuka-Ochiai-kerroinEdit

Biologiassa on olemassa samankaltainen käsite, joka tunnetaan nimellä Otsuka-Ochiai-kerroin, joka on nimetty Yanosuke Otsukan (myös Ōtsuka, Ootsuka tai Otuka, jap: 大塚 弥之助) ja Akira Ochiai (jap. 落合 明), joka tunnetaan myös nimellä Ochiai-Barkman tai Ochiai-kerroin, joka voidaan esittää seuraavasti:

K = | A ∩ B | | A | × | B | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Tässä, A {\displaystyle A}

ja B {\displaystyle B}

ovat joukkoja, ja | A | {\displaystyle |A|}

on A:n {\displaystyle A} alkioiden lukumäärä.

. Jos joukot esitetään bittivektoreina, Otsuka-Ochiai-kertoimen voidaan katsoa olevan sama kuin kosinin samankaltaisuus.

Uudemmassa kirjassa kerroin on virheellisesti annettu toiselle japanilaiselle tutkijalle, jonka sukunimi on Otsuka. Sekaannus johtuu siitä, että vuonna 1957 Akira Ochiai omistaa kertoimen vain Otsukalle (etunimeä ei mainita) siteeraamalla Ikuso Hamain (jap. 浜井 生三) artikkelia, joka puolestaan siteeraa Yanosuke Otsukan alkuperäistä vuoden 1936 artikkelia.

Vastaa

Sähköpostiosoitettasi ei julkaista.