(suite de l’article 1/6 & de l’article 2/6)

3) La Data : une ressource inépuisable – matière première de l’expert

Qu’elles soient massives, de volume réduit, ou de taille intermédiaire, les données sont toujours générées dans un objectif précis (on parle alors de données primaires).

Elles peuvent ensuite être exploitées dans le cadre d’autres objectifs (on parle alors de données secondaires).

Les données secondaires sont toujours riches d’enseignements, pour peu qu’on ait des questions ou un objectif précis, et qu’on dispose d’un minimum d’informations sur le contexte dans lequel elles ont été collectées, et sur les objectifs de leur collecte.

Il convient tout d’abord de distinguer les données non structurées et les données structurées :

1. Les données non structurées sont typiquement des textes, des images, des sons ou des vidéos dont le volume connaît depuis quelques années une croissance exponentielle avec le développement des systèmes d’information, et plus récemment des réseaux sociaux et des terminaux mobiles. Ces données non structurées peuvent faire l’objet d’analyses spécifiques en vue d’en extraire du sens ou tout simplement de les transformer en données structurées. Les comptes rendus médicaux dictés, retranscrits ou manuscrits constituent un bel exemple de données non structurées.

2. Les données structurées correspondent quant à elles à des grandeurs ou des modalités dont la nature est connue. Qu’elles soient numériques, discrètes ou continues, textuelles ou catégorielles, les données structurées décrivent une situation ou un phénomène précis.
Les données structurées sont le plus souvent collectées par des experts d’une discipline pour vérifier une hypothèse, ou pour suivre un processus. Elles documentent à cette fin un ensemble d’observations dans une diversité de contextes à un instant ou sur une période temporelle donnée. Ces observations sont décrites par un ensemble de variables plus ou moins nombreuses, qui rendent compte d’une réalité souvent complexe, qu’il serait impossible de décrire dans toutes ses dimensions. Notons au passage que l’expert est capable de percevoir un certain nombre de phénomènes qui ne sont presque jamais disponibles dans les bases de données. A titre d’exemple, les données structurées recueillies dans le cadre des études cliniques contiennent les données démographiques (sexe, âge), cliniques (poids, taille, diagnostic, traitement, dose, durée), biologiques, biomiques. Elles ne contiennent en revanche pratiquement jamais de données relatives au profil psychologique ou émotionnel des patients, ni de données rendant compte de la qualité de la relation avec leur médecin. Ces variables ont pourtant une influence non négligeable sur l’efficacité des traitements.

La possibilité de mettre en commun et d’analyser un très grand nombre de données émanant de multiples experts – et par conséquent de disposer d’un champ d’expérience beaucoup plus large que celui d’un expert isolé – compense largement la difficulté ou l’impossibilité relative de collecter certaines variables. En effet, si la technologie ne permet pas encore de mesurer ou de qualifier certaines grandeurs ou certains phénomènes pourtant naturellement perçus par l’expert, les capacités de centralisation, de stockage, de manipulation et de traitement de données multidimensionnelles offertes par l’informatique ouvrent de nouveaux horizons aux experts de toutes disciplines.

Si vous observez la survenue ou l’intensité d’un phénomène en surveillant simultanément un paramètre donné, vous ne tarderez pas à détecter par vous même – et sans ordinateur – la présence et la nature d’une éventuelle corrélation entre le paramètre et le phénomène.

Cela vous sera également possible – quoiqu’au prix d’un effort légèrement supérieur – avec 2 paramètres.

En revanche, cela deviendra vite très difficile à partir de 3 paramètres, et impossible au delà de 7 ou 8 paramètres.

Intéressons nous un instant à la manière dont l’expert acquiert ses connaissances par la pratique. C’est en accumulant de l’expérience à travers des observations sur une période suffisamment longue, que l’expert est capable d’établir des liens entre ses actions, les contextes dans lesquels il agit, et les conséquences de ses actions.

Notons une fois de plus que ces liens ne sont pas nécessairement conscients, et peuvent relever de l’intuition.

Le processus mental de l’expert est-il de nature globale et homogène ? Cherche-t-il à résumer l’ensemble des cas particuliers auxquels il a fait face par une seule grande fonction à plusieurs variables qui lui permettrait de prédire l’issue de telle ou telle action, et de faire ses choix en fonction de cette prédiction ?
Le processus mental de l’expert est-il au contraire de nature spécifique et hétérogène ? Cherche-t-il à détecter des biais positifs ou négatifs dans son expérience, par rapport à ce qu’il cherche à obtenir ? Entendons par biais, les situations spécifiques dans lesquelles le phénomène à reproduire (ou à éviter) se produit avec une fréquence anormalement élevée (ou anormalement basse) par rapport à la moyenne.

Une chose est sûre : l’expert commence à apprendre de son expérience avec ses premiers succès. Tout comme il cesse d’apprendre de cette expérience s’il ne connaît plus d’échecs. L’apprentissage se nourrit du contraste, lorsque celui-ci émerge du bruit et de l’aléa.

Ceci vaut également pour l’apprentissage automatique, ou « Machine Learning », qui consiste à exploiter les données disponibles sur des observations passées, souvent en vue de prédire un phénomène en fonction de variables sélectionnées selon leur influence sur le phénomène d’intérêt.

Ces techniques d’apprentissage automatique sont aujourd’hui largement utilisées dans de nombreux secteurs, et en particulier dans le secteur médical, notamment dans le domaine du diagnostic et des biomarqueurs. Leur succès est cependant très mitigé. En effet, la plupart des biomarqueurs ou des bio signatures prédictives d’une pathologie ou d’une réponse à un traitement, mises au point à partir des données d’un ensemble de patients, échouent en phase de validation. Autrement dit, elles perdent leur performance de prédiction lorsqu’on les teste sur des données issues d’autres ensembles de patients, totalement distincts de ceux sur lesquels elles ont été élaborées. La plupart des publications concernant de nouveaux marqueurs ou de nouvelles signatures ne proposent que des validations dites « croisées » qui consistent à diviser le jeu d’apprentissage en X sous-ensembles, à apprendre X fois de suite et de manière tournante en laissant l’un des sous ensemble de coté pour la phase de validation.

Si ces validations, que l’on pourrait qualifier de « consanguines », permettent d’évaluer partiellement la qualité du modèle, et de limiter le sur apprentissage, elles ne permettent absolument pas d’évaluer la manière dont il se comportera avec un autre jeu de données. Un article dans Plos Computational Biology de 2011 l’a d’ailleurs fort bien démontré (David Venet, Jacques E. Dumont, Vincent Detours « Most Random Gene Expression Signatures Are Significantly Associated with Breast Cancer Outcome », October 20, 2011 DOI: 10.1371/journal.pcbi.1002240).

Ces approches, qui ont pour principal objectif de fournir une prédiction globale, font nécessairement l’hypothèse implicite de représentativité des données d’apprentissage vis a vis de la population mère. Celle-ci revient à estimer que les biais présents dans les données d’apprentissage sont identiques aux biais présents dans la population mère, comme à ceux présents dans n’importe quel autre échantillon d’observations issu de celle-ci. Or ceci est d’autant moins vrai que l’échantillon est petit par rapport à la population mère.

Un modèle construit sur quelques centaines ou même quelques milliers de patients est-il généralisable à quelques dizaines ou quelques centaines de millions de patients ? Avec beaucoup de chance, peut-être. La plupart du temps non.

Le nombre de patients inclus dans les études cliniques reste en effet systématiquement très faible par rapport à la population mère, et ce secteur est pour l’instant très éloigné du premier bénéfice du monde la « Big Data », à savoir le fait de disposer d’un échantillon dont la taille – en nombre d’observations – est de l’ordre de celle de la population mère.

Il est d’ailleurs frappant de constater que le nombre de thérapies ciblées reste relativement faible, et que la médecine personnalisée demeure globalement un concept malgré l’explosion des données dites « biomiques » qui donnent toujours plus d’informations sur la biologie des patients. Accumuler ces données sur des séries de patients de plus en plus grandes, est probablement une manière de réduire le taux d’attrition de ces modèles, en travaillant sur des échantillons toujours plus représentatifs de la population mère. C’est d’ailleurs ce que compte faire Craig Venter dans le cadre de sa nouvelle société Human Longevity Inc., qui entend séquencer quarante mille patients par an, pour atteindre rapidement le chiffre de cent mille.

Mais est-ce la seule voie ? Et cela suffira-t-il ?

Suite de la série d’articles prochainement…

Alexandre TEMPLIER

Alexandre Templier évolue depuis plus de 20 ans dans le domaine des Sciences de la Vie. Passionné par les technologies de l'information et l'optimisation des décisions en environnements complexes, Alexandre a consacré l'essentiel de sa carrière à mettre les sciences de l'ingénieur au service du monde médical. Co-fondateur et directeur général de la société QUINTEN depuis sa création, il est notamment en charge du développement et des partenariats académiques dans le domaine de la Santé. Alexandre est titulaire d’un doctorat en biomécanique de l’Ecole Nationale Supérieure d’Arts & Métiers Paris Tech, et du MBA de l’Institut d’Administration des Entreprises de Paris ; il a été maître de conférences associé à l’Ecole Nationale Supérieure des Arts & Métiers - Paris Tech de 2001 à 2013.

2 Comments on “Big data : Nouvelle arme thérapeutique (3/6)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *