Pipeline for Extraction and Anonymization of Data from EHRs

I dag er det er mange forskere som behøver hurtig tilgang til automatiske og oppdaterte uttrekk av pasientdata fra journalsystemer for å bearbeide og analysere data, samt bruke de til forskning og utvikling av diverse støttesystemer for klinikerne basert på NLP og kunstig intelligens (KI).  Hvordan kan en prosess for automatiske uttrekk av pasientdata fra et elektronisk journalsystem konstrueres slik at dataene automatisk anonymiseres og flyttes til en sikker forskningssone hvor forskerne kan jobbe videre? 

Dagens journalsystemer med pasientdata ligger i produksjonssoner hvor tilgangen er begrenset kun til IT-forvalteren.  Samtidig gjør reguleringer i lovverket det forbudt å forske på produksjonsdata hvor samtykke ikke er innhentet og hvor data ikke er anonymisert. Forskningsaktivitet skal bedrives i egne sikre soner godkjent og tilrettelagt for dette formålet.

Løsning

BigMed har jobbet med hvordan en slik prosess kan se ut for automatisk å flytte  data fra en produksjonssone over til en forskningssone, samtidig som pasientdataene automatisk anonymiseres i prosessen.

Løsningen ligger i å bruke komponenter som trekker ut data fra journalsystemet på en produksjonsslik sone, slik at produksjonen ikke forstyrres ved store datauttrekk. Deretter brukes standard komponenter for å anonymisere dataene og det benyttes eksisterende transportmekanismer for automatisk å flytte de nå anonymiserte dataene over til en avgrenset forskningssone hvor data kan bearbeides fritt. 

Bildet under illustrerer to soner (produksjonslikt til høyre og forskningssone til venstre), samt transportmekanismen (i midten) som automatisk flytter data mellom sonene.

Teknisk prosess

Fritekstfeltene fra pasientjournaler hentes ut fra DIPS (produksjonslikt miljø) med et skript som er laget for formålet og sikkerhetsvurdert i samarbeid med sykehuset som er databehandlingsansvarlig. Journalelementene sendes deretter videre til en virtuell maskin  der det kjøres et nytt skript som utfører avidentifiseringen av de ustrukturerte dataene. Videre overføres filene ved hjelp av integrasjonsmotor (tjenestebuss) til en forskningssone der de lagres i et rådatalager. For at dataene skal kunne brukes til videre bearbeiding, eller til utvikling av programvare med komponenter av kunstig intelligens, må de flyttes fra rådatalageret. Dette skjer igjen med en lokalt installert integrasjonsmotor. Etter bearbeidelse lagres resultatet i referansedatalageret.

 








Status:

Finished

Partners:

Sykehuspartner

Topics

Infrastructure,

Machine Learning/AI

Alia Zaka

Ass. Project Manager BIGMED Project

Sykehuspartner

+47 451 82 212

Send email

Relevant Projects

Infrastructure platform for South-East Regional Hospital Trusts

Infrastructure platform for South-East Regional Hospital Trusts

In this particular project, we are aiming to build a pre-clinial in silico lab to support research and innovation projects within precision medicine. It will serve as a test bed for development of prototype research and development