Stockholms universitet logo, länk till startsida

Thomas VakiliDoktorand

Om mig

Jag är civilingenjör och doktorerar vid Institutionen för data- och systemvetenskap där jag handleds av Professor Hercules Dalianis. Min forskning handlar om skärningspunkten mellan språkteknologi och integritetsskydd.

De senaste åren har det språkteknologska fältet genomgått en revolution i och med skapandet av förtränade språkmodeller, t.ex. BERT. På DSV har vi framgångsrikt använt denna typ av modeller för att skapa medicinsk språkteknologi genom att använda patientjournaldata.

En viktig anledning till att dessa modeller är så framgångsrika är att de är väldigt stora och tränade på enorma mängder data. Detta har dock skapat ett stort problem: modellerna läcker information om sitt träningsdata. Min forskning handlar om att skapa modeller som skyddar integriteten hos de människor som nämns i träningsdatat.

Du kan läsa mer om min forskning på min akademiska webbplats.

Forskningsprojekt

Publikationer

I urval från Stockholms universitets publikationsdatabas

  • Are Clinical BERT Models Privacy Preserving? The Difficulty of Extracting Patient-Condition Associations

    2021. Thomas Vakili, Hercules Dalianis. Proceedings of the AAAI 2021 Fall Symposium on Human Partnership with Medical AI

    Konferens

    Language models may be trained on data that contain personal information, such as clinical data. Such sensitive data must not leak for privacy reasons. This article explores whether BERT models trained on clinical data are susceptible to training data extraction attacks. Multiple large sets of sentences generated from the model with top-k sampling and nucleus sampling are studied. The sentences are examined to determine the degree to which they contain information associating patients with their conditions. The sentence sets are then compared to determine if there is a correlation between the degree of privacy leaked and the linguistic quality attained by each generation technique. We find that the relationship between linguistic quality and privacy leakage is weak and that the risk of a successful training data extraction attack on a BERT-based model is small.

    Läs mer om Are Clinical BERT Models Privacy Preserving? The Difficulty of Extracting Patient-Condition Associations

Visa alla publikationer av Thomas Vakili vid Stockholms universitet