Nos tutelles

CNRS

Nom tutelle 1

Nos partenaires

Nom tutelle 2 Nom tutelle 3

Rechercher





Accueil > A la une

Les interactions cancéreuses vues par le prisme du réseau Wikipédia

Une étude du réseau Wikipédia, entre les articles consacrés aux cancers et ceux consacrés aux médicaments, a permis de clarifier et de hiérarchiser les liens qu’entretiennent ces deux sujets. Avec la méthode d’analyse employée, des liens non soupçonnés entre maladie et outils thérapeutiques émergent de la structure du réseau.

Wikipédia est un réseau complexe de connaissances liées entre elles à un instant t. En effet, chaque article expose une connaissance sur un sujet tout en faisant référence à d’autres articles via des liens hypertextes. Dans ce cadre, des chercheurs de l’Institut UTINAM (CNRS/Université de Franche-Comté) et du laboratoire de Physique Théorique de Toulouse (CNRS/Université Paul Sabatier) ont entrepris de scruter les liens entre les pages consacrées aux cancers, aux médicaments et aux pays.

Ce sont les articles de 37 types de cancers, 203 types de médicaments et 195 pays noyés dans les 5 416 537 articles de l’édition anglaise 2017 de Wikipédia qui ont été passés au crible de l’algorithme PageRank. Ce dernier est directement dérivé des travaux de Sergei Brin et Lawrence Page, les cofondateurs de l’entreprise Google où l’algorithme est utilisé pour classer les pages web. Le classement généré est le produit de la simulation d’un processus aléatoire de visite de pages web, de liens en liens. Pour imager, l’algorithme calcule les positions les plus probables d’un surfeur aléatoire qui sauterait de manière hasardeuse de site en site.

La dynamique simulée par l’algorithme est en fait un cas particulier de processus dit "de Markov" à temps discret. Appliqué au réseau Wikipédia, et plus particulièrement aux articles consacrés aux différents cancers, il a été possible de produire une liste qui reflète assez fidèlement les données officielles de l’OMS concernant le classement du nombre de victimes de chaque type de cancer de par le monde. Ce résultat confirme que le réseau Wikipédia possède, dans sa structure propre, l’information concernant l’importance donnée à chaque type de cancer. Il apparaît que cette réserve de connaissances, liées entre elles dans Wikipédia, pourrait posséder une grande importance vis-à-vis des pistes thérapeutiques envisageables.
Pour aller plus loin, c’est la technique dite de la "matrice de Google réduite" qui a été utilisée. Par cette technique, en se concentrant uniquement sur des articles parlant des cancers, des médicaments ou des pays, il est possible de voir émerger des liens "cachés" (ou indirects) entre les articles. Ces liens peuvent avoir des origines illogiques, médicales, historiques, sociologiques… Par exemple le cancer A peut être lié, plus ou moins fortement, au cancer B indirectement par le biais d’un autre article (ou d’une chaîne d’autres articles) pouvant traiter de sujets totalement différents.

La méthode de la matrice réduite propose ainsi de visualiser une richesse de liens bien plus importante que si l’on se contentait d’analyser uniquement les liens directs.
Dans ce travail, il est montré que des cancers similaires sont reliés entre eux sous forme de grappes d’influences au sein du réseau. Ces grappes sont le plus souvent en accord avec des liens médicaux reconnus. Deux groupes de sujets d’intérêts ont aussi été conjugués, par exemple : les cancers et les médicaments. Ce faisant, il apparaît que via des liens indirects, le réseau est susceptible de mettre l’accent sur des relations non envisagées a priori. Ce type de relations, dans le cadre médical ici étudié, au-delà de fournir des informations sur la manière dont les sujets sont traités dans Wikipédia, pourrait avoir un intérêt concernant les pistes de recherche de lutte contre la maladie. Rappelons que, selon l’OMS, dans les décennies à venir, les maladies cancéreuses pourraient devenir la première cause de mortalité mondiale. Cela tend à renforcer l’apport potentiel de ces nouveaux résultats.


Sous réseau des pages Wikipédia consacrées aux cancers (en vert) et aux médicaments (en jaune). Ici, seuls les cancers et médicaments principaux du PageRank sont montrés.
L’encart présente le réseau complet. - Crédit photo : G. Rollin, J.Lages, D. L. Shepelyansky, PloS ONE, 2019

Contacts chercheurs

  • Guillaume Rollin, Chercheur post-doctoral à l’Institut UTINAM, Besançon, mail : guillaume.rollin chez utinam.cnrs.fr, page web.
  • José Lages, Maître de conférence à l’Université de Franche-Comté et chercheur à l’Institut UTINAM, Besançon, mail : jose.lages chez utinam.cnrs.fr, page web.
  • Dima Shepelyansky, Directeur de recherche CNRS au Laboratoire de Physique Théorique IRSAMC de l’Université Paul Sabatier, Toulouse, mail : dima chez irsamc.ups-tlse.fr, page web.

En savoir plus

« G. Rollin, J. Lages, D. L. Shepelyansky, Wikipedia network analysis of cancer interactions and world influence, PloS ONE (2019) »