Kosinusähnlichkeit

Der Kosinus zweier von Null verschiedener Vektoren lässt sich mit Hilfe der euklidischen Punktproduktformel herleiten:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \cdot \mathbf {B} =\left\|\mathbf {A} \right\|\left\|\mathbf {B} \right\|\cos \theta }

Gegeben zwei Vektoren von Attributen, A und B, wird die Kosinusähnlichkeit, cos(θ), wird mit Hilfe eines Punktprodukts und der Größe als

Ähnlichkeit = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 dargestellt, {\displaystyle {\text{similarity}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \über \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

wobei A i {\displaystyle A_{i}}

und B i {\displaystyle B_{i}}

sind Komponenten des Vektors A {\displaystyle A}

und B {\displaystyle B}

.

Die sich daraus ergebende Ähnlichkeit reicht von -1, was genau entgegengesetzt bedeutet, bis 1, was genau gleich bedeutet, wobei 0 Orthogonalität oder Dekorrelation anzeigt, während Werte dazwischen eine mittlere Ähnlichkeit oder Unähnlichkeit anzeigen.

Für den Textabgleich sind die Attributvektoren A und B in der Regel die Termfrequenzvektoren der Dokumente. Die Cosinus-Ähnlichkeit kann als eine Methode zur Normalisierung der Dokumentenlänge während des Vergleichs angesehen werden.

Im Falle des Information Retrieval reicht die Cosinus-Ähnlichkeit zweier Dokumente von 0 bis 1, da die Termfrequenzen (unter Verwendung von tf-idf-Gewichten) nicht negativ sein können. Der Winkel zwischen zwei Termfrequenzvektoren kann nicht größer als 90° sein.

Wenn die Attributvektoren durch Subtraktion der Vektormittelwerte normalisiert werden (z. B. A – A ¯ {\displaystyle A-{\bar {A}}}

), wird das Maß als zentrierte Kosinusähnlichkeit bezeichnet und entspricht dem Pearson-Korrelationskoeffizienten. Ein Beispiel für die Zentrierung: Wenn A = T , dann A ¯ = T , also A – A ¯ = T . {\displaystyle {\text{if}},A=^{T},{\text{ then }}{\bar {A}}=\left^{T},{\text{ so }}A-{\bar {A}}=\left^{T}.}

Winkeldistanz und ÄhnlichkeitBearbeiten

Der Begriff „Kosinusähnlichkeit“ wird manchmal verwendet, um sich auf eine andere Definition von Ähnlichkeit zu beziehen, die weiter unten gegeben wird. Die gebräuchlichste Verwendung von „Kosinusähnlichkeit“ ist jedoch die obige Definition, und die nachstehend definierten Ähnlichkeits- und Abstandsmetriken werden als „Winkelähnlichkeit“ bzw. „Winkeldistanz“ bezeichnet. Der normalisierte Winkel zwischen den Vektoren ist eine formale Abstandsmetrik und kann aus dem oben definierten Ähnlichkeitswert berechnet werden. Diese Winkeldistanzmetrik kann dann verwendet werden, um eine Ähnlichkeitsfunktion zu berechnen, die zwischen 0 und einschließlich 1 begrenzt ist.

Wenn die Vektorelemente positiv oder negativ sein können:

Winkeldistanz = cos – 1 ( Kosinusähnlichkeit ) π {\displaystyle {\text{angular distance}}={\frac {\cos ^{-1}({\text{cosine similarity}})}{\pi }}

Winkelähnlichkeit = 1 – Winkelabstand {\displaystyle {\text{winkelähnlichkeit}}=1-{\text{winkelabstand}}}

Oder, wenn die Vektorelemente immer positiv sind:

Winkelabstand = 2 ⋅ cos – 1 ( Kosinusähnlichkeit ) π {\displaystyle {\text{Winkelabstand}}={\frac {2\cdot \cos ^{-1}({\text{Kosinusähnlichkeit}})}{\pi }}

Winkelähnlichkeit = 1 – Winkelabstand {\displaystyle {\text{winkelähnlichkeit}}=1-{\text{winkelabstand}}}

Obwohl der Begriff „Kosinusähnlichkeit“ für diesen Winkelabstand verwendet wurde, wird der Begriff als Kosinus des Winkels nur als bequemer Mechanismus zur Berechnung des Winkels selbst verwendet und ist nicht Teil der Bedeutung. Der Vorteil des Winkelähnlichkeitskoeffizienten besteht darin, dass die sich ergebende Funktion, wenn sie als Differenzkoeffizient verwendet wird (durch Subtraktion von 1), eine echte Abstandsmetrik ist, was bei der ersten Bedeutung nicht der Fall ist. Für die meisten Verwendungen ist dies jedoch keine wichtige Eigenschaft. Für jede Verwendung, bei der nur die relative Ordnung der Ähnlichkeit oder des Abstands innerhalb einer Menge von Vektoren wichtig ist, ist es unerheblich, welche Funktion verwendet wird, da die resultierende Ordnung durch die Wahl nicht beeinflusst wird.

L 2 {\displaystyle L_{2}} -normalisierter euklidischer AbstandEdit

Ein anderer effektiver Ersatz für den Cosinusabstand kann durch L 2 {\displaystyle L_{2}} erhalten werden.

Normalisierung der Vektoren, gefolgt von der Anwendung des normalen euklidischen Abstands. Bei dieser Technik wird zunächst jeder Term in jedem Vektor durch den Betrag des Vektors geteilt, so dass ein Vektor mit Einheitslänge entsteht. Dann ist klar, dass der euklidische Abstand über die Endpunkte zweier Vektoren eine geeignete Metrik ist, die für jeden Vergleich von Vektoren die gleiche Ordnung wie der Cosinus-Abstand ergibt und darüber hinaus die potenziell teuren trigonometrischen Operationen vermeidet, die für die Ermittlung einer geeigneten Metrik erforderlich sind. Nach der Normalisierung kann der Vektorraum mit allen Techniken verwendet werden, die für jeden euklidischen Raum zur Verfügung stehen, insbesondere mit den Standardverfahren zur Dimensionalitätsreduktion. Diese normalisierte Formdistanz wird vor allem in vielen Deep-Learning-Algorithmen verwendet.

Otsuka-Ochiai-KoeffizientBearbeiten

In der Biologie gibt es ein ähnliches Konzept, das als Otsuka-Ochiai-Koeffizient bekannt ist, benannt nach Yanosuke Otsuka (auch als Ōtsuka, Ootsuka oder Otuka, japan: 大塚 弥之助) und Akira Ochiai (japanisch: 落合 明), auch bekannt als Ochiai-Barkman- oder Ochiai-Koeffizient, der dargestellt werden kann als:

K = | A ∩ B | | A | × | B | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Hier, A {\displaystyle A}

und B {\displaystyle B}

sind Mengen, und | A | {\displaystyle |A|}

ist die Anzahl der Elemente in A {\displaystyle A}

. Wenn Mengen als Bitvektoren dargestellt werden, ist der Otsuka-Ochiai-Koeffizient dasselbe wie die Kosinusähnlichkeit.

In einem neueren Buch wird der Koeffizient fälschlicherweise einem anderen japanischen Forscher mit dem Familiennamen Otsuka zugeschrieben. Die Verwirrung entsteht dadurch, dass Akira Ochiai 1957 den Koeffizienten nur Otsuka zuschreibt (ohne Angabe des Vornamens), indem er einen Artikel von Ikuso Hamai (jap. 浜井 生三) zitiert, der wiederum den ursprünglichen Artikel von Yanosuke Otsuka aus dem Jahr 1936 zitiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.