Gouvernement
PEReN – Pôle d’Expertise de la Régulation Numérique
L’expertise de la science des données au service de la régulation numérique
Data scientist
Contribution à la valorisation des données textuelles libres dans le secteur de la santé (2022)
Récemment, les systèmes de santé ont été confrontés à de nombreux défis (gestion d’épidémie,demande volatile, condensation des temps de prise en charge, etc.), conduisant à un besoin croissant d’informations améliorant les processus décisionnels. Par ailleurs, une part importante des données du secteur de la santé sont disponibles sous la forme de textes écrits en langage naturel (notes cliniques, messages sur les réseaux sociaux, etc.). Dans ce contexte, les récentes percées dans le domaine du Traitement Automatique des Langues (TAL), obtenues notamment grâce aux modèles de langage basés sur de l’apprentissage profond, ont ouvert de nouvelles opportunités pour déverrouiller ces informations et ainsi améliorer la gestion globale du secteur de santé. Les apports de ces outils sont potentiellement multiples, puisqu’ils permettraient d’enrichir les entrepôts de données de santé, fluidifier les transmissions d’information entre les différents acteurs et améliorer les processus allant de la prévision de la demande au suivi épidémiologique. Ainsi, cette thèse s’est consacrée à traiter de la valorisation des données textuelles libres dans le secteur de la santé. Deux revues de la littérature ont d’abord permis d’identifier les opportunités et enjeux d’application du TAL pour valoriser les diverses données textuelles disponibles et améliorer les processus de gestion. Toutefois, l’utilisation de ces techniques s’accompagne de plusieurs difficultés, telles que la grande variabilité et la nature implicite des expressions en langage naturel, ou encore la frugalité des données d’entraînement et d’évaluation des modèles. Ainsi, une méthodologie utilisant les modèles de langage récents basés sur les Transformers a été développée pour effectuer de l’extraction d’information de santé contextualisée (négations ou suspicions de maladies, etc.) à partir de textes variés, et ce, dans un contexte de frugalité de données d’entraînement en français. Enfin, une seconde contribution couplant des données médicales structurées à des données textuelles non structurées issues des médias d’information a été développée et validée sur deux cas réels dans l’industrie pharmaceutique.