Forskningsprojekt DataLEASH: Lärande och delning av data med säker persondatahantering

Med de stora datamängder som genereras i dag har den personliga integriteten blivit en het fråga. I detta projekt studerar vi hur man kan skapa säkra språk- och datamodeller med hjälp av maskininlärning – utan att röja personuppgifter.
Genrebild: Flerfärgad text på datorskärm. Foto: Shahadat Rahman/Unsplash.

Foto: Shahadat Rahman/Unsplash.

Den pågående digitaliseringen har skapat stora mängder data, och områdena artificiell intelligens (AI) och maskininlärning har utvecklats kraftigt. Samtidigt har lagstiftning som GDPR skapat ett skydd för att personuppgifter inte ska sparas i onödan, och inte heller användas till annat än det ursprungliga syftet.

I projektet DataLeash utvecklar och testar vi maskininlärningsmodeller som säkerställer användningen av data utan att riskera att röja personers identitet. Deltagare i detta projekt är Stockholms universitet, KTH och RISE.

HB Deid är ett verktyg som har tagits fram för att avidentifiera och pseudonymisera texter på svenska.
Se hur HB Deid funkar

Tidigare medlemmar i detta projekt är Hanna Berg, Mila Grancharova och Tasos Lamproudis.

Avnämare för projektet är Charlotte Dingertz, Stockholms stad, Sven-Åke Lööv, Region Stockholm, Henrik Löf, Karolinska universitetssjukhuset, Marina Santini, RISE, och Peter Lundberg, Linköpings universitetssjukhus.

I fortsättningsprojektet, DataLEASH in Action, är avnämarna Region Halland och Kungliga Biblioteket. Region Halland vill avidentifiera och pseudonymisera patientjournaler för att kunna göra dessa tillgängliga för forskning men även för att kunna bygga kliniska språkmodeller.

Projektet finansieras av KTHs digitaliseringssatsning 2019 inom IT och mobil kommunikation (ICT TNG) genom regeringens strategiska forskningsområden (SFO) för att skapa världsledande forskning.

Dunstan, J., Vakili, T., Miranda, L., Villena, F., Aracena, C., Quiroga, T., et al (2024) - ”A Pseudonymized Corpus of Occupational Health Narratives for Clinical Entity Recognition in Spanish”

Vakili, T., Henriksson, A. och H Dalianis (2024) - ”End-to-End Pseudonymization of Fine-Tuned Clinical BERT Models”

Aracena, C., Miranda, L., Vakili, T., et al (2024) - ”Privacy-Preserving Corpus for Occupational Health in Spanish: Evaluation for NER and Classification Tasks”

Vakili, T., Hullmann T., Henriksson A. och H. Dalianis (2024) - ”When Is a Name Sensitive? Eponyms in Clinical Text and Implications for De-Identification”

Ngo, P., Tejedor M., Olsen Svenning T., Chomutare T., Budrionis A. och H. Dalianis (2024) - ”Deidentifying a Norwegian clinical corpus – An effort to create a privacy-preserving Norwegian large clinical language model”

Vakili, T., Hullmann T., Henriksson A. och Dalianis, H. (2024) - ”When Is a Name Sensitive? Eponyms in Clinical Text and Implications for De-Identification”

Ngo, P., Tejedor M., Olsen Svenning T., Chomutare T., Budrionis A. och Dalianis, H. (2024) - ”Deidentifying a Norwegian clinical corpus - An effort to create a privacy-preserving Norwegian large clinical language model”

Lamproudis, A., Olsen Svenning T., Torsvik T., Chomutare T., Budrionis A. et al (2023) - ”De-identifying Norwegian Clinical Text using Resources from Swedish and Danish”

Vakili, T. och Dalianis, H. (2023) - ”Using Membership Inference Attacks to Evaluate Privacy-Preserving Language Modeling Fails for Pseudonymizing Data”

Vakili, T. och Dalianis, H. (2022) - ”Utility Preservation of Clinical Text After De-Identification”

Vakili, T., Lamproudis, A., Henriksson, A. och Dalianis, H. (2022) - ”Downstream Task Performance of BERT Models Pre-Trained Using Automatically De-Identified Clinical Data”

Vakili, T. och Dalianis, H. (2021) - ”Are Clinical BERT Models Privacy Preserving? The Difficulty of Extracting Patient-Condition Associations”

Lamproudis, A., Henriksson, A. och Dalianis, H. (2021) - ”Developing a Clinical Language Model for Swedish: Continued Pretraining of Generic BERT with In-Domain Data”

Grancharova, M. och Dalianis, H. (2021) - ”Applying and Sharing pre-trained BERT-models for Named Entity Recognition and Classification in Swedish Electronic Patient Records”

Dalianis, H. och Berg, H. (2021) - ”HB Deid – HB De-identification tool demonstrator”

Berg, H., Henriksson, A., Fors, U. och Dalianis, H. (2021) - ”De-identification of Clinical Text for Secondary Use: Research Issues”

Grancharova, M., Berg, H. och Dalianis, H. (2020) - ”Improving Named Entity Recognition and Classification in Class Imbalanced Swedish Electronic Patient Records through Resampling”

Berg, H., Henriksson, A. och Dalianis, H. (2020) - ”The Impact of De-identification on Downstream Named Entity Recognition in Clinical Text”

Berg, H. och Dalianis, H. (2019) - ”Augmenting a De-identification System for Swedish Clinical Text Using Open Resources and Deep learning”

Dalianis, H. (2019) - ”Pseudonymisation of Swedish Electronic Patient Records Using a Rule-based Approach”

Inga nyheter tillgängliga.