O cosseno de dois vetores não-zero pode ser derivado usando a fórmula do produto Euclidean ponto:
A ⋅ B = ‖ A ‖ ‖ ‖ B ‖ cos θ {\displaystyle \mathbf {A} \Cdot =mathbf =esquerda \Direita, esquerda, direita, direita, direita, esquerda, direita, direita, direita, esquerda. \Muito bem…}
Dados dois vetores de atributos, A e B, a semelhança co-seno, cos(θ), é representado usando um produto de ponto e magnitude como
similaridade = cos ( θ ) = A ⋅ B ‖ A ‖ ‖ ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , estilo de jogo \cdot {B}mathbf \sobre o “matemathbf”. \|\|\Mathbf
e B i {\i}displaystyle B_{\i}}
são componentes do vector A {\\i1}displaystyle A
e B {\i1}displaystyle B
respectivamente.
A semelhança resultante varia de -1 significando exatamente o oposto, a 1 significando exatamente o mesmo, com 0 indicando ortogonalidade ou decorrelação, enquanto que entre os valores indicam semelhança intermediária ou dissemelhança.
Para correspondência de texto, os vetores de atributo A e B são geralmente os vetores de freqüência dos documentos. A semelhança co-seno pode ser vista como um método de normalização do comprimento do documento durante a comparação.
No caso da recuperação de informação, a semelhança co-seno de dois documentos irá variar de 0 a 1, uma vez que o termo frequência (usando pesos tf-idf) não pode ser negativo. O ângulo entre os dois termos vectores de frequência não pode ser superior a 90°.
Se os atributos vectoriais forem normalizados subtraindo a média vectorial (por exemplo, A – A ¯ ¯ ¯ {\displaystyle A-{\bar {A}}
), a medida é chamada de semelhança cosseno centrada e é equivalente ao coeficiente de correlação de Pearson. Para um exemplo de centralização, se A = T , então A ¯ = T , então A – A ¯ = T . estilo de jogo, A = texto se, A = texto, depois A = barra, então A = texto, então A = texto, então A = texto, então A = texto.
Distância angular e similaridadeEditar
O termo “similaridade co-seno” é às vezes usado para se referir a uma definição diferente de similaridade fornecida abaixo. Contudo, o uso mais comum da “semelhança cosseno” é o definido acima e as métricas de semelhança e distância definidas abaixo são referidas como “semelhança angular” e “distância angular”, respectivamente. O ângulo normalizado entre os vetores é uma métrica de distância formal e pode ser calculado a partir do escore de similaridade definido acima. Esta métrica de distância angular pode então ser usada para calcular uma função de semelhança limitada entre 0 e 1, inclusive.
Quando os elementos vectoriais podem ser positivos ou negativos:
distância angular = cos – 1 ( semelhança cosseno ) π {\displaystyle {\text{\distância angular}}={\frac ^{-1}({\text{\distância cosseno}} ^{\pi }}
similaridade angular = 1 – distância angular {\\i1}=1-{\i1}-(similaridade de texto{\i1}}=1-{\i1} distância angular
Or, se os elementos vectoriais forem sempre positivos:
distância angular = 2 ⋅ cos – 1 ( semelhança cosseno ) π {\i}{\i}{\i1}displaystyle {\i}={\i}frac {\i}{\i}(2\i}(semelhança cosseno) ^{\i}{\i}{\i}
similaridade angular = 1 – distância angular {\i1}=1-{\i1}-(similaridade de texto{\i1}}=1-{\i1} distância angular
Embora o termo “semelhança cosseno” tenha sido usado para esta distância angular, o termo é usado como o cosseno do ângulo apenas como um mecanismo conveniente para calcular o ângulo em si e não faz parte do significado. A vantagem do coeficiente de semelhança angular é que, quando usado como coeficiente de diferença (subtraindo-o de 1) a função resultante é uma métrica de distância adequada, o que não é o caso para o primeiro significado. No entanto, para a maioria dos usos, esta não é uma propriedade importante. Para qualquer uso onde apenas a ordenação relativa de similaridade ou distância dentro de um conjunto de vetores é importante, então qual função é usada é irrelevante, pois a ordem resultante não será afetada pela escolha.
L 2 {\displaystyle L_{2}}} -distância euclidiana normalizadaEditar
Um outro proxy eficaz para a Distância Cosine pode ser obtido por L 2 {\displaystyle L_{2}}
normalização dos vectores, seguida da aplicação da distância euclidiana normal. Usando esta técnica, cada termo em cada vector é primeiro dividido pela magnitude do vector, produzindo um vector de comprimento unitário. Depois, é claro, a distância euclidiana sobre os pontos finais de quaisquer dois vectores é uma métrica adequada que dá a mesma ordem que a distância cosseno para qualquer comparação de vectores, e além disso evita as operações trigonométricas potencialmente dispendiosas necessárias para produzir uma métrica adequada. Uma vez que a normalização tenha ocorrido, o espaço vectorial pode ser utilizado com toda a gama de técnicas disponíveis para qualquer espaço euclidiano, nomeadamente técnicas padrão de redução da dimensionalidade. Esta distância de forma normalizada é utilizada nomeadamente em muitos algoritmos de Aprendizagem Profunda.
Coeficiente Otsuka-OchiaiEdit
Em biologia, existe um conceito semelhante conhecido como coeficiente Otsuka-Ochiai com o nome de Yanosuke Otsuka (também escrito como Ōtsuka, Ootsuka ou Otuka, japonês: 大塚 弥之助) e Akira Ochiai (japonês: 落合 明), também conhecido como o coeficiente Ochiai-Barkman ou Ochiai, que pode ser representado como:
K = | A ∩ B | | | A | × | B | | {\displaystyle K={\frac {|A\cap B|}{\sqrt {|A|||times |B|}}}}
Aqui, A {\an8}aqui, A {\an8}displaystyle A
e B {\i1}displaystyle B
são conjuntos, e | A | |displaystyle |A|}
é o número de elementos em A {\i1}displaystyle A
. Se os conjuntos são representados como vetores de bits, o coeficiente Otsuka-Ochiai pode ser visto como sendo o mesmo que a semelhança cosseno.
Em um livro recente, o coeficiente é atribuído erroneamente a outro pesquisador japonês com o nome de família Otsuka. A confusão surge porque em 1957 Akira Ochiai atribui o coeficiente apenas a Otsuka (sem nome próprio mencionado), citando um artigo de Ikuso Hamai (japonês: 浜井 生三), que por sua vez cita o artigo original de 1936 de Yanosuke Otsuka.