Stockholms universitet logo, länk till startsida

Språkmodeller hjälper läkare att fatta bättre beslut

Aron Henriksson, forskare och lärare på Institutionen för data- och systemvetenskap (DSV) har befordrats till docent. Han forskar inom språkteknologi, och resultaten är av stor vikt för sjukvården.

Illustration med en mängd små datorskärmar som visar hjärtfrekvens.
Foto: Mingwei Lim/Unsplash.

Grattis Aron! Berätta om din forskning.
– Tack! Mitt huvudsakliga forskningsområde är språkteknologi, i första hand med tillämpningar inom hälsoområdet. I korthet handlar det om att utveckla verktyg för att kunna dra nytta av de stora mängder hälsodata som finns lagrade i elektroniska patientjournaler. Mycket av datamaterialet består av fritext, exempelvis i form av journalanteckningar om patienter. Klinisk text innehåller värdefull information som kan analyseras för olika ändamål, till exempel för att skapa kliniska prediktionsmodeller och beslutsstödsystem. För mig är det motiverande att jobba med tillämpningar av språkteknologi och maskininlärning inom hälsoområdet och försöka bidra till en bättre vård.

Porträttbild på Aron Henriksson, ny docent på DSV.
Aron Henriksson. Foto: Privat.

Vilka forskningsämnen arbetar du med?
– I min forskning intresserar jag mig för stora språkmodeller, anpassade för vården. De är maskininlärningsmodeller som lär sig genom att observera språkanvändningen i enorma mängder textdata. Språkmodeller är ofta generiska, men forskning har visat att domän-specifika modeller oftast presterar betydligt bättre. För att kunna användas på ett effektivt sätt inom den kliniska domänen behöver språkmodellerna anpassas till det särskilda språk som används i patientjournaler.

– Jag studerar också hur kliniska språkmodeller kan användas i multimodala system som utnyttjar heterogena data i elektroniska patientjournaler – både strukturerade data och ostrukturerade data, som journalanteckningar. Att kombinera olika typer av data i maskininlärningsmodeller ger ofta bättre prediktiv prestanda. Förutom att forska inom hälsa är jag intresserad av att tillämpa språkteknologi inom andra områden, som datadriven kravhantering och teknikstött lärande.

Hur funkar det att jobba med känsliga data om människor och deras hälsa?
– När man arbetar med känsliga data är det viktigt att ta hänsyn till den personliga integriteten. När vi utvecklar kliniska språkmodeller är målet förstås att de ska prestera väl på konkreta uppgifter och tillämpningar inom vården, till exempel att kunna förutsäga vilka diagnoser en patient har. Men för att kunna tillgängliggöra modellerna är det också viktigt att träna dem på ett integritetsbevarande sätt. Det reducerar risken att exponera känsliga uppgifter i datamaterialet och kan uppnås på olika sätt, till exempel genom att automatiskt avidentifiera de data som används för att träna språkmodellerna.

Men visst har du också andra viktiga åtaganden…?
– Ja, för närvarande är jag föräldraledig med vårt andra barn som nu är 11 månader gammalt. Att ta hand om min familj är just nu mitt huvudsakliga ”jobb”, men jag försöker också sköta några av mina forskningsåtaganden. Främst handlar det om att handleda doktorander och leda ett projekt som finansieras av Region Stockholm. Projektet är ett samarbete med forskare på Karolinska Institutet och läkare på Karolinska Universitetssjukhuset. Vi fokuserar på att förutse sjukdomsförloppet och olika utfall för patienter med covid-19, och tidig diagnosticering av sepsis.

Har forskningsprojektet resulterat i publikationer?
– Ja, vi har presenterat en rad artiklar på vetenskapliga konferenser och jag skriver just nu på en artikel till en vetenskaplig tidskrift. Det är en uppföljningsstudie där vi utvärderar hur bra vår multimodala modell kan avgöra vilka covidpatienter på akutmottagningar som behöver sjukhusvård. Några behöver inte läggas in utan kan bli hemskickade. Samtidigt finns det en risk att vissa patienter felaktigt blir hemskickade för att senare behöva läggas in på sjukhus. Om modellen klarar av att skilja på de här patientgrupperna kan vi undvika onödiga sjukhusvistelser och därmed minska sjukvårdskostnaderna. När patienter som verkligen behöver sjukhusvård blir inlagda direkt i stället för att först skickas hem, innebär det också en ökad vårdkvalitet.

När och var startade din forskningsresa?
– Jag började jobba som forskningsassistent på DSV 2010 efter att ha genomfört min masterutbildning på KTH. Jag antogs formellt som doktorand 2012 och la fram min avhandling 2015. Innan allt detta läste jag en kandidatutbildning i datavetenskap på RMIT University i Melbourne, Australien. Under mina doktorandstudier var jag gästforskare både på University of California San Diego i USA och University of Trento i Italien.

Hur ser du på din roll som lärare?
– Jag undervisar på flera kurser som har koppling till min forskning och mitt intresse för att hantera och analysera stora datamängder. Tillsammans med kollegor på DSV har jag utvecklat och är ansvarig för två kurser: ”Big Data med NoSQL-databaser” och ”Skalbar och ansvarsfull AI i organisationer”. Genom att utveckla och vara lärare på de här kurserna har jag breddat min kunskap och lärt mig mer om områden som ligger nära min egen forskning. Jag gillar att ta mig an komplexa ämnen och lära ut dem genom att bryta ner dem på ett strukturerat sätt. Jag försöker också hjälpa studenterna att förstå hur olika delar bygger på, och relaterar till, varandra.

Denna artikel finns också i en engelsk version

Mer info

Kontaktuppgifter till Aron Henriksson

Hans doktorsavhandling har titeln ”Ensembles of Semantic Spaces: On Combining Models of Distributional Semantics with Applications in Healthcare”.
Den kan laddas ner från Diva

Läs om kurserna ”Big Data med NoSQL-databaser”
och ”Skalbar och ansvarsfull AI i organisationer”