Språkmodeller som inte läcker – ny metod skyddar dina data
För att stora språkmodeller som Chat GPT ska fungera behöver de matas med enorma mängder data. Om systemen sedan utsätts för intrång finns alltid en risk att känsliga uppgifter läcker ut. Thomas Vakili har utvecklat metoder som värnar om integriteten, samtidigt som språkmodellernas fördelar tas till vara.

Patientuppgifter är ett exempel på känsliga data som behöver skyddas. Foto: Suriyo Munkaew/Mostphotos.
Nästan varje dag hör vi talas om hackerattacker som lett till dataläckor. Särskilt allvarligt är det när känsliga personuppgifter röjs – till exempel patientdata. Thomas Vakili forskar inom språkteknologi på Institutionen för data- och systemvetenskap (DSV).
– Forskningsfältet språkteknologi och AI har utvecklats enormt snabbt de senaste åren. När jag påbörjade min doktorsavhandling 2020 var det här ett obskyrt ämne. Jag kunde knappt förklara det för mina föräldrar, och de är ändå ganska tålmodiga, ler Thomas Vakili.
I dag är tekniken vardagsmat, liksom begrepp som ”prompt” och ”chattbot”. Stora språkmodeller – eller ”large language models” på engelska, förkortat LLM – fick sitt breda genombrott vintern 2022. Då släppte företaget Open AI Chat GPT 3.5 och vi har nu vant oss vid att använda verktyget som bollplank, lärare och kollega.
– LLM är ju en teknisk term, men i dag används den av alla, konstaterar Vakili.
Integriteten har ignorerats
Det snabba genomslaget, och de uppenbara fördelarna med stora språkmodeller, har lett till att frågor om integritet ibland har hamnat i skymundan. För bara några år sedan var integriteten också något av en icke-fråga, menar han.
– Att tekniken riskerar att läcka personuppgifter sågs som ett nischat problem. Man sa: ”Äh, händer det verkligen?” I dag ser vi att det händer regelbundet, det är inget snack om att modellerna riskerar att röja känsliga data.
Att dataläckor är ett reellt problem blev uppenbart för Thomas Vakili tidigt under avhandlingsarbetet. Han valde därför att fokusera på hur man kan minska riskerna. Tillsammans med kollegorna på DSV har han utvecklat metoder för att skydda personuppgifter i stora dataset. Och utgångspunkten är ganska intuitiv:
– Det bästa sättet att undvika att känsliga data röjs, är att aldrig stoppa in dem i modellen, säger Vakili.
När man tränar en språkmodell matar man in enorma mängder data. Även om man sätter upp sekretessregler finns alltid en risk att modellen ”memorerar” data som den egentligen inte ska ha kvar i minnet, förklarar han. Det innebär att känsliga data kan läcka ut längre fram, till exempel om systemet utsätts för ett intrång.

”Det är inget snack om att modellerna riskerar att röja känsliga data”, säger Thomas Vakili. Foto: Åse Karlén.
Två miljoner patientjournaler
Thomas Vakili arbetar bland annat med sjukvårdsdata – en av de mest känsliga kategorierna. Materialet kommer från två miljoner patientjournaler på Karolinska sjukhuset. Det innehåller uppgifter som ålder, kön, in- och utskrivningsdatum, diagnos, ordinerat läkemedel och labbdata.
DSV-metoderna går ut på att avidentifiera datamaterialet innan det plockas in i språkmodellen så att sjukdomar och behandling inte kan kopplas till en viss person. Forskarna experimenterar också med pseudonymisering, där namn och andra personuppgifter ersätts med fingerade uppgifter.
– Mina resultat visar att pseudonymisering fungerar väl. Att ersätta ett förnamn med ett annat förnamn gör att datamaterialet inte ser konstigt ut. Man bevarar innebörden och strukturen.
Integritet handlar inte bara om teknik eller matematik
Ett sjukhus måste förstås ha alla patientuppgifter i ett internt journalsystem. Men om man vill bearbeta och analysera patientdata i en AI-modell är det säkrast att avidentifiera dem först. Då kan man dra slutsatser om vilka symptom som visar på en viss sjukdom, vilken behandling som funkar bäst, och vilken medicin som ger minst biverkningar – utan att enskilda patienter kan urskiljas.
– Tidigare forskning som försökt lösa integritetsproblemet har ofta varit väldigt teknisk. Det har behövts en doktorsexamen i matte för att förstå den.
Avidentifiering är en enklare metod i det avseendet – en lekman kan förstå vad intentionen med metoden är, konstaterar Vakili.
– Jag tror att det finns en poäng i att kunna kommunicera hur en metod skyddar dina data. Integritet handlar inte bara om teknik eller matematik. Det är också kulturellt, och i högsta grad kopplat till trygghet.
Syntetiska data kan träna modellen
Thomas Vakili studerar också hur syntetiska data, det vill säga helt fingerade data, kan användas för att träna upp språkmodeller så att de kan bearbeta data från vitt skilda källor. Det kan exempelvis vara läkares journalanteckningar, röntgenbilder och resultat från blodprov – en svår nöt att knäcka även för AI.
I regel behövs gigantiska mängder data – och datorkraft – för att träna modellen i att hantera olika dataslag. Med syntetiska datamängder blir träningen både säkrare och billigare.
– Studierna visar att de mönster i materialet som maskininlärningsalgoritmerna behöver känna igen blir tillräckligt starka även med syntetiska data.
– Vi har kunnat visa att det går att skapa stora datamängder med små resurser, utan att det leder till sämre prestanda. Chat GPT kräver enorma datahallar, men våra språkmodeller kan potentiellt få plats på en vanlig gamingdator. Det finns en tillgänglighetsaspekt i det, säger Vakili.
Jätteföretagen dominerar
Han syftar på att den globala AI-utvecklingen i dag är koncentrerad till ett fåtal företag i USA, som Google, Microsoft, Meta och Open AI. Och det verkar inte som att integritetsproblem står särskilt högt på deras agendor.
– Som jag ser det skulle det vara ganska enkelt för ett företag som Open AI att avidentifiera data innan de tränar sina språkmodeller. De har tillräckligt många smarta människor anställda. Men de väljer att snarare satsa på att modellen ska bete sig snällt – och till exempel inte röja folks personuppgifter. Tyvärr går det nog alltid att komma runt det på olika sätt.
– De metoder vi utvecklar går ju ut på att känsliga data aldrig ska matas in. Då går det helt enkelt inte att lura modellerna att lämna ut personuppgifter, säger Thomas Vakili.
Det skulle vara ganska enkelt för ett företag som Open AI att avidentifiera data
Svensk offentlig sektor ligger relativt långt fram på det här området, berättar han. Men inom näringslivet är det nog många som skulle behöva vidta åtgärder.
– För företag är det en konkurrensfördel att kunna visa att du skyddar dina kunders data, och arbetar för att minska risken för incidenter. När jag är ute och pratar om min forskning på konferenser märker jag att många företagare blir intresserade. De är oroliga över hur de ska kunna använda stora datamängder på ett säkert sätt, säger Thomas Vakili.
Mer om Thomas forskning
Thomas Vakili försvarar sin doktorsavhandling på Institutionen för data- och systemvetenskap (DSV) vid Stockholms universitet, 13 januari 2026.
Avhandlingens titel är ”Preserving the Privacy of Language Models: Experiments in Clinical NLP”.
Den är en sammanläggning av sex vetenskapliga artiklar, med ytterligare tio artiklar listade som relaterade publikationer.
Avhandlingen kan laddas ner från Diva
Opponent vid disputationen är Martin Krallinger, Barcelona Supercomputing Center (BSC), Spanien.
Huvudhandledare är Hercules Dalianis, DSV. Handledare är Aron Henriksson, DSV.
Kontakta Thomas Vakili
Kontakta Hercules Dalianis
Kontakta Aron Henriksson
Vi har intervjuat Thomas tidigare:
Svensk teknik för säkra språkmodeller testas i Chile
Språkmodeller som minns – hur kan vi skydda patienters integritet?
Text: Åse Karlén
Senast uppdaterad: 2026-02-11
Sidansvarig: Institutionen för data- och systemvetenskap