Svensk teknik för säkra språkmodeller testas i Chile

Hur kan integriteten skyddas när AI-baserade språkmodeller hanterar våra hälsodata? Thomas Vakili studerar frågan i sitt avhandlingsarbete. Nu har han fått ett chilenskt stipendium – och möjligheten att testa sina modeller på nya dataset.

Porträttfoto: Thomas Vakili, doktorand på DSV vid Stockholms universitet.
Thomas Vakili. Foto: Åse Karlén.

Myndigheter och företag hanterar stora mängder känsliga data, och det är viktigt att personuppgifter inte kommer på drift. På Institutionen för data- och systemvetenskap (DSV) arbetar en grupp forskare och doktorander för att utveckla integritetsskyddande språkteknologi.

Thomas Vakili är en av dem. Han fick nyligen veta att han kommer att tillbringa tre månader på University of Chile i höst.

– Det känns jättekul och spännande att jag ska till Santiago! Historiskt finns ju många band mellan Sverige och Chile, och det är ett land som jag alltid har velat besöka, säger Thomas Vakili.

Han fick höra talas om stipendiet när en forskare från Chile, Jocelyn Dunstan, besökte DSV för en tid sedan. Hon är verksam på ett forskningscentrum inom matematik.

– Deras forskning ligger ganska nära det som vi håller på med. De är särskilt intresserade av integritetsaspekter som råkar vara huvudområdet för min avhandling. Det är bakgrunden till att jag fick deras stipendium i år.

 

Risk för läckage

I dag utvecklas språkmodeller inom olika områden, vinterns stora snackis Chat GPT är bara ett exempel. De AI-baserade språkmodellerna bygger på enorma mängder data och det finns alltid en risk att de läcker känsliga personuppgifter.

Tidigare forskning har visat att språkmodeller kan ”memorera” känsliga personuppgifter redan när de matas med träningsdata. Dessa uppgifter kan sedan plockas ut av hackare, berättar Vakili. I sitt avhandlingsarbete fokuserar han på det tidiga stadiet då modellen skapas.

– Min forskning handlar om att se hur stora riskerna är, och minimera läckaget. De tekniker jag utvecklar ska inte vara kontextberoende, men jag arbetar just nu med hälsodata. Den databas jag använder innehåller uppgifter från två miljoner svenska patientjournaler, säger Thomas Vakili.

Forskarteamet på DSV har avidentifierat materialet och tränat upp en språkmodell så att den kan hantera förkortningar, fackuttryck och andra speciella ord som läkare använder när de gör journalanteckningar.

Det är viktigt att få upp frågor som rör integritetsskydd på landets agenda

Vakili berättar att det är svårt att få tag på så stora datamängder att forska på. Särskilt när det gäller andra språk än engelska.

– I Chile ska jag jobba med data som handlar om arbetsplatsolyckor. Det är viktigt att få upp frågor som rör integritetsskydd på landets agenda.

– Mitt mål med vistelsen är också att skriva en eller flera artiklar som kan ingå i min doktorsavhandling sedan.

 

”One size fits all” gäller inte

Thomas Vakili hoppas och tror att hans tid i Chile kommer att bidra med nya perspektiv till hans avhandlingsarbete.

– Det finns en risk att ens metoder blir snedvridna när man jobbar med samma data hela tiden. Därför ska det bli intressant att byta både datakällor och språk i höst. Det blir ett test som visar om de modeller vi utvecklar på DSV fungerar även i Chile, säger han.

Forskningsfältet språkteknologi domineras av engelskan. Även om spanska är ett av världens mest talade språk får det inte samma genomslag i forskningen, konstaterar Thomas Vakili. Och som svensk märker han att de senaste resultaten som har utvecklats i engelskspråkiga länder inte riktigt går att överföra på svenska data.

– Svenskan och engelskan har stora likheter, det är ju två germanska språk. Trots det kan man inte anta att metoder som utvecklats för det ena språket ska fungera för det andra. ”One size fits all” gäller inte för språkmodeller!

 

Mer om forskningen

Det stipendium som Thomas Vakili har fått innebär att han får tillbringa tre månader på Center for Mathematical Modeling (CMM) vid University of Chile.
Läs om CMM

Thomas Vakili är doktorand på Institutionen för data- och systemvetenskap (DSV) vid Stockholms universitet. Handledare för avhandlingsarbetet är Hercules Dalianis, DSV. Biträdande handledare är Aron Henriksson, DSV.

Innan Vakili åker till Chile i höst ska han hinna bli klar med sin licentiatuppsats. Den ska presenteras i maj 2023, en milstolpe på vägen mot doktorsavhandlingen som ska vara klar under 2026.

Kontaktuppgifter till Thomas Vakili

Naturlig språkbehandling, Natural Language Processing (NLP) på engelska, är en viktig del av forskningsämnet språkteknologi.
DSVs forskning inom ämnet

Health Bank är en forskningsinfrastruktur på DSV

Text: Åse Karlén