miércoles, 5 de diciembre de 2012

Modelo Vectorial

El modelo de espacio vectorial se basa en el grado de similaridad de una consulta dada por el usuario con respecto a los documentos de la colección cuyos términos fueron ponderados mediante TF-IDF. El modelo vectorial fue presentado por Salton en 1975 y posteriormente asentado en 1983 junto con Mc Gill y se basa en tres principios esenciales (MARTÍNEZ COMECHE, J.A. 2006):
  • La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y la consulta.
  • La ponderación de los términos en los documentos, no limitándose a señalar la presencia o ausencia de los mismos, sino adscribiendo a cada término en cada documento un número real que refleje su importancia en el documento.
  • La ponderación de los términos en la consulta, de manera que el usuario puede asignar pesos a los términos de la consulta que reflejen la importancia de los mismos en relación a su necesidad informativa.
Si bien en el modelo booleano un documento de la colección puede ser representado por la presencia o ausencia de los términos indexados en el fichero diccionario de la siguiente forma...
Documento1 { 1,0,1,1,1,0,0,1,0,0,0,1,1,0,1,1 }
...en el modelo de espacio vectorial se emplea el peso de los términos para cada documento, que refleja la relevancia de los términos del documento de cara a su representatividad en la colección, adquiriendo una forma como la que sigue...
Documento1 { 1`452, 0, 2`122, 3`564, 4`123, 0, 0, 2`342, 0, 0, 0, 1`975, 4`543, 0, 6`134, 2`234 }
A este conjunto de números reales, que son los pesos, que representan al documento, se les denomina Vector del documento, permitiendo su representación en el espacio vectorial y en  consecuencia, su tratamiento matemático. Por ello la formulación del vector se representa de la  siguiente forma, véase tabla1.


Documento1
Id
Término
Peso binario
Peso TF-IDF
T1
Clima
1
1,452
T2
Biblioteca
0
0
T3
Universidad
1
2,122
T4
Alcalá
1
3,564
T5
España
1
4,123
T6
Libros
0
0
T7
Geografía
0
0
T8
Población
1
2,342
T9
Electricidad
0
0
T10
Ciencia
0
0
T11
Social
0
0
T12
Luz
1
1,975
T13
Unamuno
1
4,543
T14
Física
0
0
T15
Fluidos
1
6,134
T16
Literatura
1
2,234
Vector del documento1
Documento1 { Clima(1,452), Biblioteca(0), Universidad(2,122), Alcalá(3,564), España(4,123), Libros(0), Geografía(0), Población(2,342), Electricidad(0), Ciencia(0), Social(0), Luz(1,975), Unamuno(4,543), Física(0), Fluidos(6,134), Literatura(2,234) }
Fórmula para la representación del vector de un documento


Tabla1. Representación del vector de un documento

Posteriormente, la colección sigue lo que se denomina un Proceso de Vectorización por el que todos los documentos son representados mediante pesos TF-IDF, la consulta del usuario también requiere de dicho tratamiento. Ello significa que se tiene que ponderar la importancia de los términos de la consulta para poder generar el Vector de la consulta del usuario. Este paso es imprescindible para poder efectuar el Proceso de Equiparación de la consulta con los documentos de la colección y determinar cuáles de ellos son más relevantes, véase tabla2.
 
Cadena de consulta original del usuario
Los libros y la literatura de Unamuno en la biblioteca de la Universidad de Alcalá
Depuración de la consulta del usuario
Libros Literatura Unamuno Biblioteca Universidad Alcalá
Fichero diccionario
Documento1
q = pesos de la consulta del usuario
Id
Término
Peso binario
Peso TF-IDF
T1
Clima
1
1,452
0
T2
Biblioteca
0
0
1,345
T3
Universidad
1
2,122
1,453
T4
Alcalá
1
3,564
1,987
T5
España
1
4,123
0
T6
Libros
0
0
2,133
T7
Geografía
0
0
0
T8
Población
1
2,342
0
T9
Electricidad
0
0
0
T10
Ciencia
0
0
0
T11
Social
0
0
0
T12
Luz
1
1,975
0
T13
Unamuno
1
4,543
3,452
T14
Física
0
0
0
T15
Fluidos
1
6,134
0
T16
Literatura
1
2,234
4,234
Tabla2. Obsérvese el documento1 y una consulta q dada por el usuario con sus pesos

Proceso de equiparación mediante el producto escalar
Los procesos de equiparación de los documentos de la colección con respecto a la consulta del usuario, en el modelo booleano, se efectúan mediante cálculos de similaridad. Existen muchas modalidades de comparación o equiparación mediante similaridad, en este caso se presenta una de las más sencillas por su simplicidad y sistematización inmediata. Se trata del producto escalar de los pesos, véase figura1.

Figura1. Similaridad de un documento d y la consulta q mediante producto escalar

De esta forma, la similaridad de un documento y una consulta, es igual a la suma de los productos de sus pesos. (Y no se debe olvidar que cada peso representa a un término). Este método puede aplicarse tanto a pesos binarios como a pesos TF-IDF.

Modalidad de pesos binarios
En el caso de la modalidad binaria, la similaridad de un documento con respecto a la consulta es equivalente a la presencia de los términos de la consulta en el documento, véase tabla3. Esto quiere decir que la ausencia de un término de la consulta o del documento implica un producto igual a 0 y por lo tanto no tienen incidencia en el cálculo. Por el contrario la presencia de un término dado tanto en la consulta como en el documento siempre tendrá valor 1. Por ello sólo basta con contabilizar el número de términos coincidentes de la consulta en el documento y ése será su valor de similaridad.

Cadena de consulta original del usuario
Los libros y la literatura de Unamuno en la biblioteca de la Universidad de Alcalá
Depuración de la consulta del usuario
Libros Literatura Unamuno Biblioteca Universidad Alcalá
Fichero diccionario
Documento1
q = pesos binarios de la consulta del usuario
Id
Término
Peso binario
T1
Clima
1
0
T2
Biblioteca
0
1
T3
Universidad
1
1
T4
Alcalá
1
1
T5
España
1
0
T6
Libros
0
1
T7
Geografía
0
0
T8
Población
1
0
T9
Electricidad
0
0
T10
Ciencia
0
0
T11
Social
0
0
T12
Luz
1
0
T13
Unamuno
1
1
T14
Física
0
0
T15
Fluidos
1
0
T16
Literatura
1
1
Proceso de equiparación mediante el producto escalar de pesos binarios
Sim(doc1,q) = Clima(1*0) + Biblioteca(0*1) + Universidad(1*1) + Alcalá(1*1) + España(1*0) + Libros(0*1) + Geografía(0*0) + Población(1*0) + Electricidad(0*0) + Ciencia(0*0) +  Social(0*0) + Luz(1*0) + Unamuno(1*1) + Física(0*0) + Fluidos(1*0) + Literatura(1*1) = 4
Tabla3. Producto escalar de pesos binarios

Como se puede analizar en la tabla3, el número de términos coincidentes de la consulta con el documento1 es 4 que corresponde a los términos Universidad, Alcalá, Unamuno y Literatura. Por lo tanto, en una escala de 6 (Por ser todos los términos empleados en la consulta original depurada del usuario), el documento1, tiene un alto grado de coincidencia y por ende tiene más probabilidades de ser relevante.

Modalidad de pesos TF-IDF
En el caso de la modalidad de pesos binarios, las limitaciones en la definición de la representatividad de los términos de cada documento quedan patentes. Resulta por tanto un resultado bastante limitado y parcial. Por ello el método de la similaridad mediante el producto escalar se aplica habitualmente con pesos TF-IDF, mucho más precisos, véase tabla4.

Cadena de consulta original del usuario
Los libros y la literatura de Unamuno en la biblioteca de la Universidad de Alcalá
Depuración de la consulta del usuario
Libros Literatura Unamuno Biblioteca Universidad Alcalá
Fichero diccionario
Documento1
Documento2
q = pesos de la consulta del usuario
Id
Término
Peso TF-IDF
Peso TF-IDF
T1
Clima
1,452
0
0
T2
Biblioteca
0
2,093
1,345
T3
Universidad
2,122
0
1,453
T4
Alcalá
3,564
0
1,987
T5
España
4,123
4,245
0
T6
Libros
0
1,234
2,133
T7
Geografía
0
0
0
T8
Población
2,342
0
0
T9
Electricidad
0
0
0
T10
Ciencia
0
0
0
T11
Social
0
2,345
0
T12
Luz
1,975
0
0
T13
Unamuno
4,543
2,135
3,452
T14
Física
0
0
0
T15
Fluidos
6,134
0
0
T16
Literatura
2,234
3,456
4,234
Proceso de equiparación mediante el producto escalar de pesos TF-IDF
Sim(doc1,q) = Clima(1,452*0) + Biblioteca(0*1,345) + Universidad(2,122*1,453) + Alcalá(3,564*1,987) + España(4,123*0) + Libros(0*2,133) + Geografía(0*0) + Población(2,342*0) + Electricidad(0*0) + Ciencia(0*0) +  Social(0*0) + Luz(1,975*0) + Unamuno(4,543*3,452) + Física(0*0) + Fluidos(6,134*0) + Literatura(2,234*4,234) = 3,083 + 7,082 + 15,682 + 9,459 = 35,306

Sim(doc2,q) = Clima(0*0) + Biblioteca(2,093*1,345) + Universidad(0*1,453) + Alcalá(0*1,987) + España(4,245*0) + Libros(1,234*2,133) + Geografía(0*0) + Población(0*0) + Electricidad(0*0) + Ciencia(0*0) +  Social(2,345*0) + Luz(0*0) + Unamuno(2,135*3,452) + Física(0*0) + Fluidos(0*0) + Literatura(3,456*4,234) = 2,815 + 2,632 + 7,370 + 14,633 = 27,450
Tabla4. Producto escalar de pesos TF-IDF

El cálculo de la similaridad se aplica a cada uno de los documentos de la colección siguiendo el patrón expuesto en la tabla4. Para el documento1 la similaridad con respecto a la consulta del usuario q, será diferente que para el documento2. Obsérvese que al igual que ocurria con los pesos binarios, sólo tienen incidencia aquellos términos presentes tanto en la consulta como en el documento, pues sus pesos se multiplican y se suman sucesivamente al resto. En este caso, la similaridad del documento1 (35,306) es superior a la del documento2 (27,450), siendo éstas unas cifras mucho más precisas que un simple número entero.

Proceso de equiparación mediante la fórmula del coseno
Tal como se ha explicado en la fórmula del producto escalar, el proceso de equiparación es posible cuando en el vector de la consulta y en el del documento existen términos coincidentes. Pero este enfoque no supone la representación del vector de la consulta y del documento. De hecho una de las claves del modelo de espacio vectorial es precisamente la posibilidad de determinar el ángulo que forman los vectores del documento y de la consulta que se está comparando, véase figura2.

Figura2. El ángulo del coseno

Es posible medir cuál es la desviación de un documento con respecto a una consulta, por el número de grados del ángulo que forman. Esto es posible porque crean una estructura triangular a la que se aplica el cálculo del ángulo que forma la hipotenusa (en este caso el vector del documento1) y el adyacente (el vector q de la consulta dada por el usuario) que resulta ser el coseno del triángulo. En el caso de la figura2, se comprueba visualmente cierta distancia del vector de la consulta con respecto al documento1; cuando ambos vectores se muestran tan próximos como para superponerse, implicará que el ángulo que forman será menor y que su nivel de coincidencia será superior. De hecho, un coseno de 0º implicaría una similaridad máxima.

Figura3. Fórmula para el cálculo de la similaridad del coseno

Por lo tanto, la fórmula aplicada para calcular el coeficiente de similaridad del coseno entre un documento y una consulta es aquella que permite poner en relación los vectores de la consulta y del documento. De hecho el coseno de alfa de un triángulo cualquiera siempre es igual al cateto adyacente entre la hipotenusa. Tomando como clave esa idea, la figura3 muestra la misma relación pero esta vez con los pesos que forman los vectores del documento y la consulta. De hecho el numerador no deja de ser un producto escalar entre los pesos del documento y la consulta; y el denominador la raíz cuadrada del producto del sumatorio de los pesos del documento y la consulta al cuadrado. La formulación del denominador con raíz cuadrada y cálculo de cuadrados, se diseñó para conseguir un resultado final de la división, inferior a 1, de tal manera que el coeficiente fuera de fácil manejo y lectura. La similaridad del coseno aplicada al ejemplo que se viene utilizando, tendría la forma que sigue a continuación en la tabla5.

Cadena de consulta original del usuario
Los libros y la literatura de Unamuno en la biblioteca de la Universidad de Alcalá
Depuración de la consulta del usuario
Libros Literatura Unamuno Biblioteca Universidad Alcalá
Fichero diccionario
Documento1
Documento2
q = pesos de la consulta del usuario
Id
Término
Peso TF-IDF
Peso TF-IDF
T1
Clima
1,452
0
0
T2
Biblioteca
0
2,093
1,345
T3
Universidad
2,122
0
1,453
T4
Alcalá
3,564
0
1,987
T5
España
4,123
4,245
0
T6
Libros
0
1,234
2,133
T7
Geografía
0
0
0
T8
Población
2,342
0
0
T9
Electricidad
0
0
0
T10
Ciencia
0
0
0
T11
Social
0
2,345
0
T12
Luz
1,975
0
0
T13
Unamuno
4,543
2,135
3,452
T14
Física
0
0
0
T15
Fluidos
6,134
0
0
T16
Literatura
2,234
3,456
4,234
Proceso de equiparación mediante el producto escalar de pesos TF-IDF
Tabla5. Cálculo del coeficiente de similaridad del coseno

Como se puede observar en los resultados del coeficiente de similaridad del coseno para el documento1 y 2 en la tabla5, son diametralmente distintos a los obtenidos en la tabla4. Esto significa que los pesos de los términos del documento2, lo convierten en más representativo y probablemente más relevante que el documento1, dando por lo tanto una mayor precisión que el cálculo del producto escalar. El máximo valor del coeficiente de similaridad del coseno es 1, que equivaldría a un ángulo de 0º entre los vectores del documento y la consulta.

Proceso de equiparación mediante el coeficiente de Dice
El cálculo del coeficiente de similaridad según Lee Raymond Dice es una adaptación del cálculo del coeficiente del coseno. La diferencia en la formulación estriba en que la cardinalidad del numerador es 2 veces la información compartida y el denominador la suma de los pesos al cuadrado del documento y su consulta. Véase figura4 y tabla6.

Figura4. Fórmula para el cálculo del coeficiente de similaridad de Dice

Proceso de equiparación mediante el coeficiente de Dice
Tabla6. Cálculo del coeficiente de similaridad de Dice

Proceso de equiparación mediante el coeficiente de Jaccard (Tanimoto)
El cálculo del coeficiente de similaridad de Jaccard* al igual que el de Dice, resultan deudores del coeficiente de similaridad del coseno. Su aplicación, centrada en usos estadísticos, también se aplica a recuperación de información y mide la similitud entre conjuntos. Se puede definir como el tamaño de la intersección (numerador) dividido por el tamaño de la unión de la muestra, en este caso la suma de los pesos al cuadrado del documento y la consulta menos la intersección, véase figura5 y tabla7.

Figura5. Fórmula para el cálculo del coeficiente de similaridad de Jaccard

Proceso de equiparación mediante el coeficiente de Jaccard (Tanimoto)
Tabla7. Cálculo del coeficiente de similaridad de Jaccard

Ventajas e inconvenientes del modelo vectorial

Ventajas
  • El modelo vectorial es muy versátil y eficiente a la hora de generar rankings de precisión en colecciones de gran tamaño, lo que le hace idóneo para determinar la equiparación parcial de los documentos. 
  • Tiene en cuenta los pesos TF-IDF para determinar la representatividad de los documentos de la colección.
 Inconvenientes
  • El modelo vectorial por producto escalar tiene la desventaja de que sólo tiene en cuenta la intersección de los términos del documento con respecto a la consulta, por lo que la gradación de los resultados no es tan precisa como en el caso del cálculo del coseno.
  • Necesita de la intersección de los términos de la consulta con los documentos, en caso contrario no se produce la recuperación de información.
  • Al ser un modelo estadístico-matemático, no tiene en cuenta la estructura sintáctico-semántica del lenguaje natural.

Anotación

* El coeficiente de similaridad de Jaccard ha sido ámpliamente confundido con el coeficiente de  Tanimoto. Según (ZAZO, A.F. 2004) se viene conveniendo el empleo de la fórmula reseñada en la figura5. También existen variantes en las que se elimina el cuadrado de los pesos, pero su composición no disocia de la expresada.

Bibliografía

SINGHAL, A. 2001. Modern Information Retrieval: A Brief Overview. En: Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Disponible en: http://singhal.info/ieee2001.pdf

FIGUEROLA, C.G.; ALONSO BERROCAL, J.L.; ZAZO RODRÍGUEZ, A.F.; RODRÍGUEZ, E. Algunas Técnicas de Clasificación Automática de Documentos. En: Cuadernos de Documentación Multimedia, (15). Disponible en: http://multidoc.rediris.es/cdm/viewarticle.php?id=28&layout=html

MARTÍNEZ COMECHE, J.A. 2006. Los modelos clásicos de recuperación de información y su vigencia. En: Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas. pp.187-206. Disponible en: http://eprints.rclis.org/bitstream/10760/9662/1/Modelos_RI_vers_def.pdf

RIJSBERGEN, C.J.; [et.al.] 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html
ROGERS, J.D.; TANIMOTO, T.T. 1960. A Computer Program for Classifying Plants. Science. pp1115-1118. Disponible: http://www.sciencemag.org/content/132/3434/1115.full.pdf

SALTON, G.; WONG, A.; YANG, C.S. 1975. A vector space model for automatic indexing. En: Communications of the ACM, vol. 18, nr. 11, pp. 613–620. Disponible en: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf

SALTON, G.; McGILL, M.J. 1983. Introduction to Modern Information Retrieval. New York: Mc Graw Hill.

ZAZO, A.F.; BERROCAL, J.L.; FIGUEROLA, C.G.; RODRÍGUEZ, E. 2004. Estudio de usuarios de Datathéke: Propuestas de mejora utilizando expansión de consultas. Disponible: http://reina.usal.es/papers/zazo2004estudio.pdf

No hay comentarios:

Publicar un comentario