Angie Nguyen

Data scientist

Thèse de doctorat

Contribution à la valorisation des données textuelles libres dans le secteur de la santé (2022)

Récemment, les systèmes de santé ont été confrontés à de nombreux défis (gestion d’épidémie,demande volatile, condensation des temps de prise en charge, etc.), conduisant à un besoin croissant d’informations améliorant les processus décisionnels. Par ailleurs, une part importante des données du secteur de la santé sont disponibles sous la forme de textes écrits en langage naturel (notes cliniques, messages sur les réseaux sociaux, etc.). Dans ce contexte, les récentes percées dans le domaine du Traitement Automatique des Langues (TAL), obtenues notamment grâce aux modèles de langage basés sur de l’apprentissage profond, ont ouvert de nouvelles opportunités pour déverrouiller ces informations et ainsi améliorer la gestion globale du secteur de santé. Les apports de ces outils sont potentiellement multiples, puisqu’ils permettraient d’enrichir les entrepôts de données de santé, fluidifier les transmissions d’information entre les différents acteurs et améliorer les processus allant de la prévision de la demande au suivi épidémiologique. Ainsi, cette thèse s’est consacrée à traiter de la valorisation des données textuelles libres dans le secteur de la santé. Deux revues de la littérature ont d’abord permis d’identifier les opportunités et enjeux d’application du TAL pour valoriser les diverses données textuelles disponibles et améliorer les processus de gestion. Toutefois, l’utilisation de ces techniques s’accompagne de plusieurs difficultés, telles que la grande variabilité et la nature implicite des expressions en langage naturel, ou encore la frugalité des données d’entraînement et d’évaluation des modèles. Ainsi, une méthodologie utilisant les modèles de langage récents basés sur les Transformers a été développée pour effectuer de l’extraction d’information de santé contextualisée (négations ou suspicions de maladies, etc.) à partir de textes variés, et ce, dans un contexte de frugalité de données d’entraînement en français. Enfin, une seconde contribution couplant des données médicales structurées à des données textuelles non structurées issues des médias d’information a été développée et validée sur deux cas réels dans l’industrie pharmaceutique.

Thèmes de recherche

Traitement automatique du langage naturel
Santé
Apprentissage automatique
Apprentissage profond
Science des données

Principales publications

Nguyen, Angie & Lamouri, Samir & Pellerin, Robert & Tamayo Giraldo, Simon & Lekens, Béranger. (2021). Data analytics in pharmaceutical supply chains: state of the art, opportunities, and challenges. International Journal of Production Research. 60. 10.1080/00207543.2021.1950937.
Nguyen, Angie & Usuga Cadavid, Juan Pablo & Lamouri, Samir & Grabot, Bernard & Pellerin, Robert. (2021). Understanding Data-Related Concepts in Smart Manufacturing and Supply Chain Through Text Mining. 10.1007/978-3-030-69373-2_37.
Nguyen, Angie & Pellerin, Robert & Lamouri, Samir & Lekens, Béranger. (2022). Managing demand volatility of pharmaceutical products in times of disruption through news sentiment analysis. International Journal of Production Research. 61. 10.1080/00207543.2022.2070044.
C. Eteve-Pitsaer & T. Marty & A. Nguyen & E. Le Priol & C. Paris & A. Mebarki & N. Texier & S. Schück. (2022). Psoriasis et altérations de la qualité de vie au travail: une étude avec des données issues de la base THIN® France croisées avec les contenus des réseaux sociaux analysés par l’outil Detec’t. Revue d’Épidémiologie et de Santé Publique. 10.1016/j.respe.2022.09.015.
Nguyen, Angie & Bougacha, Omar & Lekens, Béranger & Lamouri, Samir & Pellerin, Robert & Couvreur, Christophe. (2023). On the use of logistics data to anticipate drugs shortages through data mining. Procedia Computer Science. 219. 949-956. 10.1016/j.procs.2023.01.371.