Stockholms universitet

Ny algoritm vaskar fram guldkornen i komplexa data

Data är en råvara som finns i överflöd. Men för att kunna använda materialet behöver vi sortera det, så att mönster och trender blir synliga. Zed Lee utvecklar algoritmer som är användbara inom industrin såväl som sjukvården.

A red heart on a black and white screen background with 1s and 0s.
Foto: Alexander Sinn/Unsplash.

Zed Lees forskningsintresse väcktes för tio år sedan. Då jobbade han för en biltillverkare i Korea där maskininlärning och så kallad deep learning, djupinlärning, var heta begrepp.

– Företaget hade massor av data som vi försökte analysera. Jag blev mer och mer intresserad av maskininlärning, säger Zed Lee.

– När jag började jobba på företaget trodde jag att jag skulle bli kvar där hela livet. Men ganska snart blev jag uttråkad. Jag var ung och ville lära mig mer om sådant som kunde påverka min framtida karriär, oavsett om den skulle finnas inom näringslivet eller akademin.

Nyfikenheten fick Zed Lee att flytta till Stockholm och gå en masterutbildning på KTH. Efter examen tipsade hans lärare Henrik Broström om att DSV, Institutionen för data- och systemvetenskap vid Stockholms universitet, sökte doktorander. Zed Lee blev antagen och disputerade i november 2023.

De metoder vi använder måste gå att tolka och förstå

Porträttbild på Zed Lee, Institutionen för data- och systemvetenskap (DSV).
Zed Lee intresserar sig för hur vi kan utvinna värdefull information ur stora och komplicerade dataset. Foto: Åse Karlén.

– När jag kom till Sverige blev jag introducerad till en massa märkliga algoritmer. Jag tänkte: ”Måste det vara så komplicerat?” Om din bil har problem vill du ju inte bara veta att den har det. Du vill förstå varför. De metoder vi använder måste gå att tolka och förstå.

Tolkningsbarhet är en ledstjärna i hans doktorsavhandling som till stor del är teoretisk. Den handlar om ”data mining” – ett engelskt begrepp som ofta används även på svenska för att beskriva hur vi arbetar med datautvinning.

 

Dolda värden i data

I traditionell gruvdrift hackar eller borrar man sig igenom bergväggar för att hitta ädelmetall och andra värdefulla ämnen. Data mining fungerar på samma sätt: Genom att bearbeta massiva datamängder kan man utvinna uppgifter av värde.

– Min avhandling utgår från tid och tidsserier. Det handlar om hur vi kan sammanföra olika typer av data och se mönster, säger Zed Lee.

I sin forskning har han använt data från såväl klädtillverkare som tandläkare, men principen är densamma. Hur kan vi samla kvalitativa och kvantitativa data som genererats under olika långa tidsperioder, analysera dem och dra slutsatser som det går att förstå och agera på?

– En tidsserie kan till exempel vara mätningar av en persons hjärtslag under ett halvår. Under samma period – eller en del av perioden – kan vi också mäta hens blodtryck.

De båda mätningarna resulterar i siffror. Men datamaterialet kan bli mer komplicerat än så. Säg att en läkare ställer en diagnos som leder till att patienten ska äta en medicin under två veckor. Under fem av de dagarna får patienten problem med yrsel – en möjlig biverkning av medicinen. Eller? I läkarens journalanteckningar finns kanske data som bidrar till förståelsen.

– För att kunna dra slutsatser och se mönster behöver vi integrera, tolka och analysera olika typer av data som förändras över tid. Vi behöver också kunna jämföra med andra patienter, med samma eller andra diagnoser.

 

Användbar algoritm

I avhandlingen utvecklar Zed Lee en ny algoritm som kan hantera tidsbaserade data från olika källor.

– Datamaterialet är komplext, och algoritmen är också ganska komplicerad. Men poängen är att resultatet ska vara enkelt att förstå.

– Algoritmen kan användas av alla slags organisationer som har den här typen av data, säger han.

När Zed Lee antogs till DSV ingick han i en stor kull om totalt tio doktorander, ett upplägg som passade honom bra. Ofta är ämnet för varje avhandling ganska styrt från institutionens sida, men i den här omgången var det ovanligt öppet. Även det var en fördel, menar Zed Lee.

Jag gillar att utforska nya saker

– Doktorandtillvaron kan vara ensam, men det har den inte varit för oss. Vi började samtidigt, har gått kurserna tillsammans, och haft våra halvtidsseminarier ungefär samtidigt. Det har varit en styrka.

– Jag hade ett intresse när jag började, även om jag inte visste exakt hur jag skulle formulera det till forskningsfrågor. Alla vi som började samtidigt har valt att fokusera på olika ämnen, berättar Zed Lee.

Han betonar att doktorandresan har varit tuff ibland, till exempel när hans artiklar inte blivit accepterade eller när flera deadlines har sammanfallit. Ändå ser han fram emot att fortsätta inom akademin.

– Som anställd i ett företag är det inte alltid så högt i tak. Jag gillar att utforska nya saker och ta ansvar för mina egna projekt, säger Zed Lee.

 

Mer om forskningen

Porträttbild på Zed Lee, DSV, som håller upp sin doktorsavhandling.
Zed Lee. Foto: Åse Karlén.

Zed Lee disputerade 24 november 2023 på Institutionen för data- och systemvetenskap (DSV) vid Stockholms universitet.

Avhandlingen har titeln ”Z-Series: Mining and learning from complex sequential data”. Den är en sammanläggning av sex vetenskapliga artiklar.

Ladda ner avhandlingen från Diva

Zed Lees huvudhandledare under avhandlingsarbetet var Panagiotis Papapetrou, DSV. Handledare var Tony Lindgren, DSV.

Opponent under disputationen var Toon Calders, University of Antwerp, Belgien.

I betygsnämnden ingick Tijl De Bie, University of Ghent, Belgien, Elisa Fromont, University of Rennes, Frankrike, Mattias Villani, Statistiska institutionen vid Stockholms universitet, och Hercules Dalianis, DSV.

Kontakta Zed Lee

Läs mer om forskning och utbildning på DSV

Read the English version of this article

Text: Åse Karlén