Kosinusová podobnost

Kosinus dvou nenulových vektorů lze odvodit pomocí vzorce pro euklidovský bodový součin:

A ⋅ B = ‖ A ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \cdot \mathbf {B} =\left\|\mathbf {A} \pravá\|\levá\|\mathbf {B} \pravý\|\cos \theta }

Při dvou vektorech atributů A a B je kosinová podobnost cos(θ), je reprezentována pomocí bodového součinu a velikosti jako

podobnost = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle {\text{podobnost}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B} \nad \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},}

kde A i {\displayystyle A_{i}}

a B i {\displaystyle B_{i}}

jsou složky vektoru A {\displaystyle A}

a B {\displaystyle B}

.

Výsledná podobnost se pohybuje v rozmezí od -1, což znamená přesně opačný, do 1, což znamená přesně stejný, přičemž 0 znamená ortogonalitu nebo dekorrelaci, zatímco mezihodnoty znamenají mezipodobnost nebo nepodobnost.

Pro porovnávání textů jsou atributové vektory A a B obvykle vektory četnosti termínů dokumentů. Kosinovou podobnost lze považovat za metodu normalizace délky dokumentu při porovnávání.

V případě vyhledávání informací se kosinová podobnost dvou dokumentů bude pohybovat v rozmezí 0 až 1, protože frekvence termínů (pomocí vah tf-idf) nemohou být záporné. Úhel mezi dvěma vektory četností termínů nemůže být větší než 90°.

Pokud jsou vektory atributů normalizovány odečtením středních hodnot vektorů (např: A – A¯ {\displaystyle A-{\bar {A}}}

), míra se nazývá centrovaná kosinová podobnost a je ekvivalentní Pearsonovu korelačnímu koeficientu. Příklad centrování: Jestliže A = T , pak A¯ = T , takže A – A¯ = T . {\displaystyle {\text{li}},A=^{T},{\text{tedy }}{\bar {A}}=\levý^{T},{\text{tak }}A-{\bar {A}}=\levý^{T}.}

Úhlová vzdálenost a podobnostEdit

Termín „kosinová podobnost“ se někdy používá pro jinou definici podobnosti uvedenou níže. Nejčastěji se však „kosinová podobnost“ používá tak, jak je definována výše, a níže definované metriky podobnosti a vzdálenosti se označují jako „úhlová podobnost“ a „úhlová vzdálenost“. Normalizovaný úhel mezi vektory je formální metrikou vzdálenosti a lze ji vypočítat z výše definovaného skóre podobnosti. Tuto metriku úhlové vzdálenosti pak lze použít k výpočtu funkce podobnosti omezené mezi 0 a 1 včetně.

Když prvky vektoru mohou být kladné nebo záporné:

úhlová vzdálenost = cos – 1 ( kosinus podobnosti ) π {\displaystyle {\text{úhlová vzdálenost}}={\frac {\cos ^{-1}({\text{kosinus podobnosti}})}{\pi }}}}

úhlová podobnost = 1 – úhlová vzdálenost {\displaystyle {\text{úhlová podobnost}}=1-{\text{úhlová vzdálenost}}}

Nebo, pokud jsou prvky vektoru vždy kladné:

úhlová vzdálenost = 2 ⋅ cos – 1 ( kosinová podobnost ) π {\displaystyle {\text{úhlová vzdálenost}}={\frac {2\cdot \cos ^{-1}({\text{kosinová podobnost}})}{\pi }}}.

úhlová podobnost = 1 – úhlová vzdálenost {\displaystyle {\text{úhlová podobnost}}=1-{\text{úhlová vzdálenost}}}

Ačkoli se pro tuto úhlovou vzdálenost používá termín „kosinus podobnosti“, je tento termín používán jako kosinus úhlu pouze jako vhodný mechanismus pro výpočet samotného úhlu a není součástí významu. Výhodou koeficientu úhlové podobnosti je, že při použití jako rozdílového koeficientu (odečtením od 1) je výsledná funkce správnou metrikou vzdálenosti, což není případ prvního významu. Pro většinu použití však tato vlastnost není důležitá. Pro jakékoli použití, kdy je důležité pouze relativní uspořádání podobnosti nebo vzdálenosti v rámci množiny vektorů, pak není důležité, jaká funkce se použije, protože výsledné uspořádání nebude volbou ovlivněno.

L 2 {\displaystyle L_{2}} -normalizovaná euklidovská vzdálenostEdit

Další účinný zástupce kosinové vzdálenosti lze získat pomocí L 2 {\displaystyle L_{2}}.

normalizací vektorů a následným použitím normální euklidovské vzdálenosti. Při použití této techniky se každý člen v každém vektoru nejprve vydělí velikostí vektoru, čímž se získá vektor jednotkové délky. Pak je zřejmé, že euklidovská vzdálenost přes koncové body libovolných dvou vektorů je správnou metrikou, která poskytuje stejné uspořádání jako kosinová vzdálenost pro libovolné porovnání vektorů a navíc se vyhýbá potenciálně nákladným trigonometrickým operacím, které jsou nutné k získání správné metriky. Jakmile dojde k normalizaci, lze vektorový prostor používat s celou řadou technik dostupných pro jakýkoli euklidovský prostor, zejména se standardními technikami snižování dimenzionality. Tato normalizovaná forma vzdálenosti se používá zejména v mnoha algoritmech hlubokého učení.

Koeficient Otsuka-OchiaiEdit

V biologii existuje podobný koncept známý jako koeficient Otsuka-Ochiai pojmenovaný podle Yanosuke Otsuka (psáno také jako Ōtsuka, Ootsuka nebo Otuka, japonsky: 大塚 弥之助) a Akira Ochiai (japonsky: 落合 明), známý také jako koeficient Ochiai-Barkman nebo Ochiai, který lze znázornit jako:

K = | A ∩ B | | A | × | B | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Tady A {\displaystyle A}

a B {\displaystyle B}

jsou množiny a | A | {\displaystyle |A|}

je počet prvků v A {\displaystyle A}

. Pokud jsou množiny reprezentovány jako bitové vektory, lze Otsuka-Ochiaiho koeficient považovat za stejný jako kosinovou podobnost.

V nedávné knize je tento koeficient chybně připsán jinému japonskému badateli s příjmením Otsuka. Zmatek vzniká proto, že Akira Ochiai v roce 1957 přisuzuje koeficient pouze Otsukovi (bez uvedení křestního jména) citací článku Ikuso Hamaiho (japonsky: 浜井 生三), který zase cituje původní článek Yanosukeho Otsuky z roku 1936.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.