Cosinusgelijkenis

De cosinus van twee vectoren die niet nul zijn, kan worden afgeleid met behulp van de Euclidische dotproductformule:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \‖ ‖ ‖ cos θ \rechts = links = mathematbf {B} = links}

Gegeven twee vectoren van attributen, A en B, wordt de cosinusovereenstemming, cos(θ), weergegeven met behulp van een scalair product en de grootte als

overeenkomst = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle}=cos(\theta )={\mathbf {A} \mathbf {B} \over \mathbf {A} ={\mathbf {A}} \|}={\frac {sum \limits _{i=1}^{n}{A_{i}B_{i}}}}{\sqrt {sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

waarbij A i {{i}}

en B i {\displaystyle B_{i}}

zijn componenten van vector A {{i}}

en B {\displaystyle B}

respectievelijk.

De resulterende gelijkenis loopt van -1 voor precies tegenovergesteld, tot 1 voor precies hetzelfde, waarbij 0 staat voor orthogonaliteit of decorrelatie, terwijl tussenliggende waarden duiden op intermediaire gelijkenis of ongelijkenis.

Voor tekstmatching zijn de attribuutvectoren A en B gewoonlijk de termfrequentievectoren van de documenten. Cosinusgelijkheid kan worden gezien als een methode om de documentlengte tijdens de vergelijking te normaliseren.

In het geval van information retrieval zal de cosinusgelijkheid van twee documenten variëren van 0 tot 1, omdat de termfrequenties (met behulp van tf-idf gewichten) niet negatief kunnen zijn. De hoek tussen twee termfrequentievectoren kan niet groter zijn dan 90°.

Als de attribuutvectoren worden genormaliseerd door de vectorgemiddelden van elkaar af te trekken (bijv. A – A ¯ {Displaystyle A-{Bar {A}}}

), wordt de maat de gecentreerde cosinusgelijksoortigheid genoemd en is deze gelijk aan de Pearson-correlatiecoëfficiënt. Voor een voorbeeld van centrering: als A = T , dan A ¯ = T , dus A – A ¯ = T . {\displaystyle {\text{if}},A=^{T},{\text{ then }}{\bar {A}}=left^{T},{\text{ so }}A-{\bar {A}}=left^{T}.}

Hoeksafstand en overeenkomstEdit

De term “cosinusgelijkheid” wordt soms gebruikt om te verwijzen naar een andere definitie van overeenkomst die hieronder wordt gegeven. Het meest gebruikelijke gebruik van “cosinusgelijkheid” is echter zoals hierboven gedefinieerd en de hieronder gedefinieerde vergelijkbaarheid en afstand worden respectievelijk “hoeksgelijkheid” en “hoekafstand” genoemd. De genormaliseerde hoek tussen de vectoren is een formele afstandsmaat en kan worden berekend uit de hierboven gedefinieerde similariteitsscore. Deze hoekafstandsmetriek kan dan worden gebruikt om een gelijkenisfunctie te berekenen die tussen 0 en 1 ligt.

Wanneer de vectorelementen positief of negatief kunnen zijn:

hoekafstand = cos – 1 ( cosinusgelijkenis ) π {{hoeksgelijkenis}={\frac {cos ^{-1}({{cosinusgelijkenis}})}{\pi }}

hoeksamenhang = 1 – hoekafstand {{tekst{hoeksamenhang}}=1-{hoeksamenhang}}

Of, als de vectorelementen altijd positief zijn:

hoekafstand = 2 ⋅ cos – 1 ( cosinusgelijkenis ) π {{{hoeksgelijkenis}}={\frac {2\cdot \cos ^{-1}({{cosinusgelijkenis}})}{\pi }}

hoeksamenhang = 1 – hoekafstand {\displaystyle {{hoeksamenhang}}=1-{hoeksamenhang}}

Hoewel voor deze hoekafstand de term “cosinus similariteit” is gebruikt, wordt de cosinus van de hoek alleen gebruikt als een handig mechanisme om de hoek zelf te berekenen en maakt het geen deel uit van de betekenis. Het voordeel van de hoeksoortgelijkheidscoëfficiënt is dat, wanneer deze als verschilcoëfficiënt wordt gebruikt (door hem van 1 af te trekken), de resulterende functie een echte afstandsmetriek is, wat niet het geval is voor de eerste betekenis. Voor de meeste toepassingen is dit echter geen belangrijke eigenschap. Voor elk gebruik waar alleen de relatieve rangschikking van overeenkomst of afstand binnen een verzameling vectoren belangrijk is, doet het er niet toe welke functie gebruikt wordt, want de resulterende rangschikking wordt niet beïnvloed door de keuze.

L 2 {\displaystyle L_{2}} -genormaliseerde Euclidische afstandEdit

Een andere effectieve benadering voor de Cosinus-afstand kan worden verkregen met L 2 {\displaystyle L_{2}}

normalisatie van de vectoren, gevolgd door de toepassing van de normale Euclidische afstand. Met deze techniek wordt elke term in elke vector eerst gedeeld door de magnitude van de vector, zodat een vector van eenheidslengte ontstaat. Dan is het duidelijk dat de Euclidische afstand over de eindpunten van twee vectoren een eigen metriek is die dezelfde ordening geeft als de Cosinus-afstand voor elke vergelijking van vectoren, en bovendien de potentieel dure goniometrische bewerkingen vermijdt die nodig zijn om een eigen metriek te verkrijgen. Zodra de normalisatie heeft plaatsgevonden, kan de vectorruimte worden gebruikt met alle technieken die voor elke Euclidische ruimte beschikbaar zijn, met name de standaardtechnieken voor vermindering van de dimensie. Deze genormaliseerde vormafstand wordt met name gebruikt in veel Deep Learning-algoritmen.

Otsuka-Ochiai-coëfficiëntEdit

In de biologie bestaat een soortgelijk concept dat bekend staat als de Otsuka-Ochiai-coëfficiënt, genoemd naar Yanosuke Otsuka (ook gespeld als Ōtsuka, Ootsuka of Otuka, Japans: 大塚 弥之助) en Akira Ochiai (Japans: 落合 明), ook bekend als de Ochiai-Barkman of Ochiai-coëfficiënt, die kan worden weergegeven als:

K = | A ∩ B | | A | × | B | {\displaystyle K={\frac {|Acap B|}{\sqrt {|A|times |B|}}}}

Hier, A {\lemaal A}

en B {\displaystyle B}

zijn verzamelingen, en | A | {\displaystyle |A|}

is het aantal elementen in A {{Displaystyle A}}

. Als verzamelingen worden voorgesteld als bitvectoren, is de Otsuka-Ochiai-coëfficiënt gelijk aan de cosinusgelijkenis.

In een recent boek wordt de coëfficiënt ten onrechte toegeschreven aan een andere Japanse onderzoeker met de achternaam Otsuka. De verwarring ontstaat doordat Akira Ochiai in 1957 de coëfficiënt alleen aan Otsuka toeschrijft (geen voornaam vermeld) door een artikel van Ikuso Hamai (Japans: 浜井 生三) aan te halen, die op zijn beurt het oorspronkelijke artikel van Yanosuke Otsuka uit 1936 aanhaalt.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.