Similitud del coseno

El coseno de dos vectores distintos de cero puede derivarse utilizando la fórmula del producto punto euclidiano:

A ⋅ B = ‖ A ‖ B ‖ cos θ {\displaystyle \mathbf {A} = izquierda = A = derecha = izquierda \derecha, izquierda, B. \right\||cos \theta }

Dados dos vectores de atributos, A y B, la similitud del coseno, cos(θ), se representa utilizando un producto punto y una magnitud como

similitud = cos ( θ ) = A ⋅ B ‖ A ‖ B ‖ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 , {\displaystyle {\text{similaridad}}=\cos(\theta )={mathbf {A} \cdot \mathbf {B} \por encima de la mata de la A. \|\|\…por encima de la matriz A… |}={{frac} {{suma |limits _{i=1}^{n}{A_{i}B_{i}}}{{sqrt {{suma |limits _{i=1}^{n}{A_{i}^{2}}}}{{sqrt {{suma |limits _{i=1}^{n}{B_{i}^{2}}}}}},}

donde A i {{displaystyle A_{i}}

y B i {\displaystyle B_{i}}

son componentes del vector A {\displaystyle A}

y B {\displaystyle B}

respectivamente.

La similitud resultante oscila entre -1, que significa exactamente opuesto, y 1, que significa exactamente igual, con 0 indicando ortogonalidad o descorrelación, mientras que los valores intermedios indican similitud o disimilitud intermedia.

Para la comparación de textos, los vectores de atributos A y B suelen ser los vectores de frecuencia de términos de los documentos. La similitud del coseno puede verse como un método para normalizar la longitud de los documentos durante la comparación.

En el caso de la recuperación de información, la similitud del coseno de dos documentos oscilará entre 0 y 1, ya que las frecuencias de los términos (utilizando las ponderaciones tf-idf) no pueden ser negativas. El ángulo entre dos vectores de frecuencia de términos no puede ser mayor de 90°.

Si los vectores de atributos se normalizan restando las medias de los vectores (por ejemplo, A – A ¯

), la medida se denomina similitud del coseno centrado y es equivalente al coeficiente de correlación de Pearson. Para un ejemplo de centrado, si A = T , entonces A ¯ = T , por lo que A – A ¯ = T . {\displaystyle {\texto{si},A=^{T},{\texto{entonces}}{barra{A}}=Izquierda^{T},{\texto{entonces}}A-{barra{A}}=Izquierda^{T}.}

Distancia angular y similitudEditar

El término «similitud del coseno» se utiliza a veces para referirse a una definición diferente de similitud que se proporciona a continuación. Sin embargo, el uso más común de «similitud coseno» es el definido anteriormente y las métricas de similitud y distancia definidas a continuación se denominan «similitud angular» y «distancia angular» respectivamente. El ángulo normalizado entre los vectores es una métrica de distancia formal y puede calcularse a partir de la puntuación de similitud definida anteriormente. Esta métrica de distancia angular puede entonces utilizarse para calcular una función de similitud limitada entre 0 y 1, ambos inclusive.

Cuando los elementos del vector pueden ser positivos o negativos:

distancia angular = cos – 1 ( similitud del coseno ) π {{displaystyle {\text{distancia angular}}={frac {\cos ^{-1}({\text{similitud del coseno}})}{pi}

similaridad angular = 1 – distancia angular {{displaystyle {\text{similaridad angular}}=1-{\text{distancia angular}}

O, si los elementos del vector son siempre positivos: distancia angular = 2 ⋅ cos – 1 ( similitud del coseno ) π {\displaystyle {\text{distancia angular}}={frac {2\cdot \cos ^{-1}({\text{similitud del coseno}})}{pi}

similaridad angular = 1 – distancia angular {{displaystyle{text{similaridad angular}}=1-{text{distancia angular}}

Aunque el término «similitud del coseno» se ha utilizado para esta distancia angular, el término se utiliza como el coseno del ángulo sólo como un mecanismo conveniente para calcular el ángulo en sí y no es parte del significado. La ventaja del coeficiente de similitud angular es que, cuando se utiliza como coeficiente de diferencia (restándolo de 1), la función resultante es una métrica de distancia adecuada, lo que no ocurre con el primer significado. Sin embargo, para la mayoría de los usos esto no es una propiedad importante. Para cualquier uso en el que sólo el ordenamiento relativo de la similitud o la distancia dentro de un conjunto de vectores es importante, entonces la función que se utiliza es irrelevante ya que el orden resultante no se verá afectado por la elección.

L 2 {{displaystyle L_{2}} -distancia euclidiana normalizadaEditar

Otro sustituto eficaz de la distancia coseno puede obtenerse mediante L 2 {displaystyle L_{2}}

normalización de los vectores, seguida de la aplicación de la distancia euclidiana normal. Utilizando esta técnica, cada término de cada vector se divide primero por la magnitud del vector, obteniendo un vector de longitud unitaria. Entonces, está claro que la distancia euclidiana sobre los puntos extremos de dos vectores cualesquiera es una métrica adecuada que da el mismo orden que la distancia coseno para cualquier comparación de vectores y, además, evita las operaciones trigonométricas potencialmente costosas necesarias para obtener una métrica adecuada. Una vez realizada la normalización, el espacio vectorial puede utilizarse con toda la gama de técnicas disponibles para cualquier espacio euclidiano, especialmente las técnicas estándar de reducción de la dimensionalidad. Esta forma de distancia normalizada se utiliza especialmente en muchos algoritmos de aprendizaje profundo.

Coeficiente de Otsuka-OchiaiEditar

En biología, existe un concepto similar conocido como coeficiente de Otsuka-Ochiai llamado así por Yanosuke Otsuka (también escrito como Ōtsuka, Ootsuka u Otuka, japonés: 大塚 弥之助) y Akira Ochiai (japonés: 落合 明), también conocido como coeficiente Ochiai-Barkman u Ochiai, que se puede representar como:

K = | A ∩ B | | A | × | B | {\displaystyle K={frac {|A\cap B|}{\sqrt {|A|\times |B|}}}}

Aquí, A {\\cdeclaración A}

y B {\displaystyle B}

son conjuntos, y | A | {\displaystyle |A|}

es el número de elementos de A {\displaystyle A}

. Si los conjuntos se representan como vectores de bits, se puede ver que el coeficiente de Otsuka-Ochiai es el mismo que la similitud del coseno.

En un libro reciente, el coeficiente se atribuye erróneamente a otro investigador japonés de apellido Otsuka. La confusión surge porque en 1957 Akira Ochiai atribuye el coeficiente sólo a Otsuka (no se menciona el nombre de pila) citando un artículo de Ikuso Hamai (japonés: 浜井 生三), que a su vez cita el artículo original de 1936 de Yanosuke Otsuka.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.