Interoperability of Medical Data Through Information Extraction and Term Encoding
L’objectif du projet iMEDIATE est de permettre l'interopérabilité des données médicales structurées et non structurées dans les systèmes EHR (Electronic Health Records).
Nonobstant l'attrait actuel pour les nomenclatures et l'encodage systématique des dossiers patients, on considère qu’à l’heure actuelle plus de 70 % des données contenues dans les dossiers médicaux des patients sont du texte peu ou pas structuré (rapports de consultation, rapports d'analyse, lettre de sortie, etc.). De plus, certains hôpitaux ont déjà choisi de conserver une part importante d’encodage de texte libre (rapports en langage naturel) dans leurs dossiers patients électroniques. Cette masse de données constitue donc un énorme gisement d’informations qui reste difficilement accessible et exploitable.
Le projet iMEDIATE vise à proposer un ensemble de technologies pour construire et exploiter automatiquement une représentation structurée des données patient (ci-dessous RSDP) à partir de texte libre et de données structurées (comme une analyse sanguine par exemple). La structuration de documents médicaux jusque-là peu ou pas structurés devrait permettre la construction d'une vision holistique des trajectoires de patients, ce qui améliorerait la qualité des soins et optimiserait l'allocation des ressources disponibles. Ces technologies faciliteront également l'interopérabilité entre différentes systèmes d'informations (dossiers médicaux, publications scientifiques, documentation pour les patients, acteurs intra- et extra-hospitaliers , etc.).
Concrètement, trois applications prototypes seront développées :
- Un annotateur analysera les données textuelles et structurées comprises dans les dossiers médicaux et produira un index enrichi.
- Un catégoriseur assisté par ordinateur qui, sur base de l'index d'un acte médical donné, suggérera à l'utilisateur une liste de codes nécessaires pour remplir le RCM correspondant.
- Un moteur de recherche qui proposera une liste de documents pertinents pour une requête donnée. Ce moteur utilisera en interne les CUI extraits, afin de traiter d'autres sources d'informations (comme PubMed ou encore des documents provenant d'autres hôpitaux).
Un élément important du projet iMEDIATE est l'ontologie CUI. Il s'agit de créer une ressource documentaire permettant d'annoter des documents peu ou pas structurés issus des dossiers patients. Dès la conception du projet, il nous apparaissait évident qu'il ne fallait pas réinventer la roue, mais plutôt capitaliser sur les nombreuses ressources et les différents projets existants en la matière (ICD9-CM), etc..
Pour valider les technologies développées durant le projet, nous avons défini cinq scénarios qui couvrent les différents aspects d'applicabilité des résultats (interopérabilité, un catégoriseur semi-automatique et un moteur de recherche collaboratif). Ces scénarios se basent à la fois sur des corpus fournis par les hôpitaux sponsors ainsi que sur une expertise humaine pour évaluer la qualité réelle des résultats.
La structuration des données médicales est l'un des défis majeurs de l’informatisation des dossiers patients. L'usage de nomenclatures de référence (ICD, SNOMED, etc.) pour encoder l’historique d’un patient (affections, soins, traitements, etc.) doit permettre un traitement efficace des données par des programmes informatiques, d'assurer leur interopérabilité et de faciliter leur partage entre plusieurs acteurs intra- et extra-hospitaliers. C'est par exemple le cas pour le résumé clinique minimum (RCM) encodé en ICD-9-CM pour l’INAMI et qui intervient dans le financement des hôpitaux. La multiplicité des ontologies existantes (ICD-9, ICD-10, SNOMED, MeSH, etc.) introduit une certaine variabilité qui complique les échanges de données, malgré l’existence de méta-thésaurus (comme l’UMLS qui établit des liens entre les ontologies grâce à l'introduction un identifiant unique nommé CMI) ou de vastes projets de cartographie (par exemple Bioportal).
Concrètement, quatre applications prototypes seront développées :
- Un analyseur terminologique construira une ontologie propre à un hôpital donné. Cet analyseur exploitera les corpus textuels de données cliniques afin d’y relever les différentes variantes utilisées par l'hôpital pour un terme de référence (c’est-à-dire pour un CUI unique). Les résultats de cet analyseur alimenteront les autres applications.
- Un annotateur (constructeur de RSDP) analysera les données textuelles et structurées comprises dans les dossiers médicaux et produira des RSDP qui comprendra notamment les CUI. Les RSDP alimenteront les deux autres applications.
- Un catégoriseur assisté par ordinateur qui, sur base de la RSDP d'un acte médical donné, suggérera à l'utilisateur une liste de codes nécessaires pour remplir le RCM correspondant.
- Un moteur de recherche qui proposera une liste de documents pertinents pour une requête donnée. Ce moteur utilisera en interne les CUI extraits, afin de traiter d'autres sources d'informations (comme PubMed ou encore des documents provenant d'autres hôpitaux).
Financement
- Innoviris, Programme Strategic Platforms e-health 2013. Patient Centric e-health Interoperability
Partenaires
- CENTAL, UCLouvain (coordinateur)
- PRISME, UCLouvain
- Ecole de Santé Publique, ULB
- Termisti, ISTI
Parrainage
- Cliniques Erasme (Bruxelles)
- Cliniques universitaires Saint-Luc (Bruxelles)
- Centre Hospitalier Interrégional Edith Cavell - Chirec (Bruxelles-BW)
Dates
- 2014-2017
Publications
- De Meyere, Damien ; Klein, Thierry ; François, Thomas ; Debongnie, Jean-Claude ; Radulescu, Cristina ; Mbengo, Nicole ; Ouro Koura, Maliki ; Coppieters 't Wallant, Yves ; Fairon, Cédrick. Automatic annotation of medical reports using SNOMED-CT: a flexible approach based on medical knowledge databases. 7th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics (Poznań, Poland, du 27/11/2015 au 29/11/2015). In: Proceedings of the 7th Language & Technology Conference, Fundacja Uniwersytetu im. A. Mickiewicza: Poznań, Poland, 2015. 978-83-932640-8-7, p. 519-523. [http://hdl.handle.net/2078.1/171882]
- Hansart, Charlotte ; De Meyere, Damien ; Watrin, Patrick ; Bittar, André ; Fairon, Cédrick. CENTAL at SemEval-2016 Task 12: a linguistically fed CRF model for medical and temporal information extraction.10th International Workshop on Semantic Evaluation (SemEval-2016) (San Diego, California, du 16/06/2016 au 17/06/2016). In: Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), Association for Computational Linguistics2016, p. 1286-1291 [http://hdl.handle.net/2078.1/175562]
- Lemaire, Nathalie ; François, Thomas ; Debongnie, Jean-Claude ; De Meyere, Damien ; Fauquert, Benjamin ; et. al. L’enrichissement terminologique d’usage du projet iMediate : une collaboration tripartite terminologie/TALN/sciences de la santé. Second Congrès international du Réseau de Lexicographie (RELEX) (Universidade de Santiago de Compostela, du 05/10/2015 au 07/10/2015). In: La terminologie, un besoin pour la société actuelle, 2016 [http://hdl.handle.net/2078.1/184536]