Modèle d'espace vectoriel textuel
Salut à tous et bienvenus sur ce nouveau post qui présente des modèles vectoriels textuels.
Modèle d’espace vectoriel textuel
Source :[ From Frequency to Meaning: Vector Space Models of Semantics Peter D. Turney et al.]
L’idée de VSM(Vector Space Models) est de représenter les documents comme point dans l’espace (un vecteur dans l’espacd).
Les points prochent dans l’espace sont sémantiquement similaires et les points éloignés sont sémanitquement distants.
La motivation première de VSM est d’utiliser les fréquences de mots dans les corpus de texts pour découvir
les informations sémantiques.
Similarité entre documents: Matrice terme-document
Lorsque l’on dispose un ensemble de docoments, il peut être organisé sous la forme de matrice terme-document; dans la quelle les lignes sont les termes( ou mots ) et les colonnes les documents( les pages web par exemple ).
Définition : sac
En mathématique un sac ( multiset ) est un ensemble ou les doublons sont acceptés et dont l’ordre des éléments
importe peu; {a,a,a,b,b,b,c} et {a,b,a,b,c,a,b,b} sont des sacs equivalents et contenant * a, b, c .
Un sac peut être represente sous forme de vecteur x = <3,3,1> ou le premier 3 est le nombre d’occurences de
l’élément *a, le second 3 le monbre d’occurence de l’element b et 1 le nombre d’occurence de l’élément c.
Un ensemble de sac peut être représenté par une matrice X, ou chaque colonne x_{:j} correspond à un sac
, haque ligne x_{i:} correspond à un élément unique et x_{i,j} correspond à la fréquence du ieme élément dans le
jeme sac.
Dans la matrice terme-document, le vecteur document représent le dit document comme un sac a mot.
Hypothèse du sac à mots
Dans le domaine de la recherche d’information, cette hypothèse stipule que on peut estimer l’importance d’un document
par rapport à une requête en représentant le document et la requête en sac à mots c’est à dire que les fréquences de
mots dans un document indique l’importance du dit document par rapport à la requête; en d’autre terme, le vecteur
colonne du la matrice terme-document exprime à un certain degré à ceux à quoi renvoit le document.
Soit X une matrice terme-document d’une collection contenant n document de m unique mots distincts
( le vocabulaire ), la matrice aura m lignes et n colonnes. Soit w_{i} le ieme mot dans le vocabulaire et
d_{j} le jeme document dans la collection, le vecteur ligne de X (x_{:j}) contient n éléments correspondants
à la fréquence du ieme mot du vocabulaire dans chaque document, c’est aussi la signature de ce mot et le
vecteur colonne de X (x_{i:}) contient m éléments représentants la fréquence de chaque élément du vocabulaire
dans le ieme document, c’est aussi la signature de ce docuement.
L’élément x_{ij} de la matrice X est la frequence du ieme terme dans le jeme document.
Toute fois, bien que cette représentation pour chaque document donne la fréquence des mots dans ce document, cette
représentation perd l’ordre de la sequence de ces mots dans le document ainsi que la structuration du document ( les
phrases, les paragraphes, les sections, les chapitres).
Néanmoins cette représentation capte bien certain aspect de la sémantique.
Similarité des mots: Matrice terme-context
Selon les auteurs, l’importance d’une requête, par rapport à un document est donnée par la similarité entre le vecteur
du document et celui de la requête.
D’autre part les auteurs Deerwester et al. (1990) disent qu’au lieu de regarder la similarité entre les documents, on
peut regarder la similarité entre les mots ou termes en prennant en considération le ligne au lieu des colonnes de la
matrice terme-document.
Deerwester et son équipe s’inspire de la matrice terme-document en évoquant le fait que la taille du document n’est pas
forcement la longueur ideale pour pour la messure de similarité. De ce fait, ils proposent la matrice terme-contexte ou
le contexte peut etre des mots, des phrases, des paragraphes ou des documents.
Hypothèse de distributivité
En linguistique cet hypothèse stipule que les mots qui apparaissent dans les contextes similaires ont tendance à avoir
le même sens(Harris, 1954).
C’est cette hypothese qui justifie l’utilisation du VSM pour mesurer la similarité entre les mots. Pour ce qui est de
la représentation terme-contexte, la représentation vectorielle d’un mot permet deriver de la co-occurance du mot avec
des contexte variés comme les fenêtres de mots, les dépendances grammaticales… . les lignes de vecteurs similaire de
la matrice terme-contexte indique les mots ayant des sens similaires.
Similarité entre les relations: Matrice des pair-pattern
Dans la matrice pair-pattern, les vecteurs lignes correspondent aux paires de mots comme mason:stone, carpenter:wood et les vecteurs colonnes correpondent aux patterns dont les paires apparaissent, comme X cuts Y, works with Y.