Outils d’analyse de cooccurrences de mots

Existe-t-il un outil sur le Web qui permet d’identifier au sein de la littérature académique de la cooccurence des mots (i.e. des mots étant souvent associés dans les phrases et paragraphes) ?

Par exemple, je cherche à savoir quels mots apparaissent le plus souvent dans des phrases ou paragraphes d’articles scientifiques contenant le mot ‘parasite’ ou ‘plante’.

 

 

INRA-QR-IST-LOGO-50

L’UMR LISIS (ex-SenS) (http://umr-lisis.fr/recherches/axe/axe-4/) a développé une plateforme numérique CorText (https://www.cortext.net/projects/cortext-manager/) permettant de réaliser des analyses textuelles.

Grâce à cette plateforme, dans un premier temps vous pouvez extraire le vocabulaire des publications et le nettoyer (sélection / harmonisation des termes) avec la fonctionnalité « Terms extractions ». Puis, vous pouvez réindexer le corpus de publications avec la liste nettoyée grâce à la fonctionnalité « Corpus terms indexer ».

Dans un second temps, vous pouvez utiliser une fonctionnalité « Network mapping » permettant de cartographier le réseau des mots-clés basée sur le calcul des co-occurences entre les termes. Dans cette fonctionnalité, il est possible de sélectionner la distance lexicale entre 2 termes (paramétrage: « Only take « short range » » cooccurrences dans l’onglet « Edges »), la distance lexicale est comptée en nombre de phrases (5 = co-occurence entre 2 termes à une distance maxi de 5 phrases).

Pour découvrir des associations entre des termes « clés » (parasite, plante, …) et d’autres termes, il est plus pertinent de construire 2 variables lors de la réindexation  avec « Corpus terms indexer »: l’une basée sur une liste ne contenant que des termes clés, l’autre basée sur une liste de termes sans les termes clés. Ensuite, ces 2 variables sont sélectionnées en entrée pour réaliser la cartographie avec « Network mapping ».

A partir des résultats générés par le « Network mapping » , outre la visualisation du réseau, il peut être intéressant d’ouvrir le fichier .gexf avec Gephi, plateforme de visualisation de réseaux (https://gephi.org/). Vous pouvez ainsi accéder aux données brutes avec toutes les associations des termes 2 à 2 (dans l’onglet « laboratoire de données » de Gephi).

Ci-dessous un exemple de réseau de mots-clés réalisé avec le « Network mapping » de Cortext :

Cortext demande une prise en main et un certain effort pour préparer les données, mais peut répondre à vos questions, vous trouverez de la documentation à l’adresse suivante : https://docs.cortext.net/video/.

Il existe aussi l’outil d’analyse de données textuelles R-TeMis dont vous trouverez une description et un lien vers le téléchargement de l’application à l’adresse : https://rtemis.hypotheses.org/r-temis-dans-rstudio

Ce contenu a été publié dans Recherche documentaire. Vous pouvez le mettre en favoris avec ce permalien.