This page in English

Forskningsprojekt DataLEASH: Lärande och delning av data med säker persondatahantering

Med de stora datamängder som genereras i dag har den personliga integriteten blivit en het fråga. I detta projekt studerar vi hur man kan skapa säkra språk- och datamodeller med hjälp av maskininlärning – utan att röja personuppgifter.

This page in English

Tema

Kontaktperson på SU

Hercules Dalianis

Professor

Institutionen för data- och systemvetenskap

08-16 16 16

hercules@dsv.su.se

Översikt

Projektperiod

2019-05-01 - 2025-06-30

Ansvarig

Institutionen för data- och systemvetenskap

Forskningsämne

AI och data science Språkteknologi

Status

Pågående

Forskargrupp

Natural Language Processing Research Group

Natural Language Processing Research Group utvecklar, tillämpar och utvärderar metoder för att bearbeta, modellera och analysera text, i synnerhet involverande stora språkmodeller. Vi utforskar tillämpningar inom olika domäner och fokuserar på frågor som integritet, förklarbarhet och domänanpassning.

Förstoring av HPV-16, en högrisktyp för cancer.

Mer information

Samarbeten

KTH

RISE

Foto: Shahadat Rahman/Unsplash.

Den pågående digitaliseringen har skapat stora mängder data, och områdena artificiell intelligens (AI) och maskininlärning har utvecklats kraftigt. Samtidigt har lagstiftning som GDPR skapat ett skydd för att personuppgifter inte ska sparas i onödan, och inte heller användas till annat än det ursprungliga syftet.

I projektet DataLeash utvecklar och testar vi maskininlärningsmodeller som säkerställer användningen av data utan att riskera att röja personers identitet. Deltagare i detta projekt är Stockholms universitet, KTH och RISE.

HB Deid är ett verktyg som har tagits fram för att avidentifiera och pseudonymisera texter på svenska.
Se hur HB Deid funkar

Tidigare medlemmar i detta projekt är Hanna Berg, Mila Grancharova och Tasos Lamproudis.

Avnämare för projektet är Charlotte Dingertz, Stockholms stad, Sven-Åke Lööv, Region Stockholm, Henrik Löf, Karolinska universitetssjukhuset, Marina Santini, RISE, och Peter Lundberg, Linköpings universitetssjukhus.

I fortsättningsprojektet, DataLEASH in Action, är avnämarna Region Halland och Kungliga Biblioteket. Region Halland vill avidentifiera och pseudonymisera patientjournaler för att kunna göra dessa tillgängliga för forskning men även för att kunna bygga kliniska språkmodeller.

Projektet finansieras av KTHs digitaliseringssatsning 2019 inom IT och mobil kommunikation (ICT TNG) genom regeringens strategiska forskningsområden (SFO) för att skapa världsledande forskning.

Projektmedlemmar

Projektansvariga

Hercules Dalianis

Professor

Institutionen för data- och systemvetenskap

08-16 16 16

hercules@dsv.su.se

Uno Fors

Forskare

Institutionen för data- och systemvetenskap

08-674 74 79

uno@dsv.su.se

Medlemmar

Thomas Vakili

Doktorand

Institutionen för data- och systemvetenskap

08-16 16 59

thomas.vakili@dsv.su.se

Martin Hansson

Amanuens

Institutionen för data- och systemvetenskap

martin.hansson@dsv.su.se

Publikationer

Dunstan, J., Vakili, T., Miranda, L., Villena, F., Aracena, C., Quiroga, T., et al (2024)

”A Pseudonymized Corpus of Occupational Health Narratives for Clinical Entity Recognition in Spanish”

Vakili, T., Henriksson, A. och H Dalianis (2024)

”End-to-End Pseudonymization of Fine-Tuned Clinical BERT Models”

Aracena, C., Miranda, L., Vakili, T., et al (2024)

”Privacy-Preserving Corpus for Occupational Health in Spanish: Evaluation for NER and Classification Tasks”

Vakili, T., Hullmann T., Henriksson A. och H. Dalianis (2024)

”When Is a Name Sensitive? Eponyms in Clinical Text and Implications for De-Identification”

Ngo, P., Tejedor M., Olsen Svenning T., Chomutare T., Budrionis A. och H. Dalianis (2024)

”Deidentifying a Norwegian clinical corpus – An effort to create a privacy-preserving Norwegian large clinical language model”

Vakili, T., Hullmann T., Henriksson A. och Dalianis, H. (2024)

”When Is a Name Sensitive? Eponyms in Clinical Text and Implications for De-Identification”

Ngo, P., Tejedor M., Olsen Svenning T., Chomutare T., Budrionis A. och Dalianis, H. (2024)

”Deidentifying a Norwegian clinical corpus - An effort to create a privacy-preserving Norwegian large clinical language model”

Lamproudis, A., Olsen Svenning T., Torsvik T., Chomutare T., Budrionis A. et al (2023)

”De-identifying Norwegian Clinical Text using Resources from Swedish and Danish”

Vakili, T. och Dalianis, H. (2023)

”Using Membership Inference Attacks to Evaluate Privacy-Preserving Language Modeling Fails for Pseudonymizing Data”

Vakili, T. och Dalianis, H. (2022)

”Utility Preservation of Clinical Text After De-Identification”

Vakili, T., Lamproudis, A., Henriksson, A. och Dalianis, H. (2022)

”Downstream Task Performance of BERT Models Pre-Trained Using Automatically De-Identified Clinical Data”

Vakili, T. och Dalianis, H. (2021)

”Are Clinical BERT Models Privacy Preserving? The Difficulty of Extracting Patient-Condition Associations”

Lamproudis, A., Henriksson, A. och Dalianis, H. (2021)

”Developing a Clinical Language Model for Swedish: Continued Pretraining of Generic BERT with In-Domain Data”

Grancharova, M. och Dalianis, H. (2021)

”Applying and Sharing pre-trained BERT-models for Named Entity Recognition and Classification in Swedish Electronic Patient Records”

Dalianis, H. och Berg, H. (2021)

”HB Deid – HB De-identification tool demonstrator”

Berg, H., Henriksson, A., Fors, U. och Dalianis, H. (2021)

”De-identification of Clinical Text for Secondary Use: Research Issues”

Grancharova, M., Berg, H. och Dalianis, H. (2020)

”Improving Named Entity Recognition and Classiﬁcation in Class Imbalanced Swedish Electronic Patient Records through Resampling”

Berg, H., Henriksson, A. och Dalianis, H. (2020)

”The Impact of De-identification on Downstream Named Entity Recognition in Clinical Text”

Berg, H. och Dalianis, H. (2019)

”Augmenting a De-identification System for Swedish Clinical Text Using Open Resources and Deep learning”

Dalianis, H. (2019)

”Pseudonymisation of Swedish Electronic Patient Records Using a Rule-based Approach”