Stockholms universitet

Bättre robotkommunikation med ögonkontakt

Hur kan människor och maskiner förstå varandra bättre? Det är den övergripande frågan i Razan Jabers forskning. Svaren går att hitta i hur vi människor kommunicerar, menar hon.

Den röststyrda assistenten Tama varierar sina uttryck genom att "ögonen" lyser i lila eller grönt.
Roboten Tama kan variera sina uttryck. Foto: Donald McMillan.

Hej Siri! OK, Google! Alexa! Oavsett vilken röststyrd assistent vi använder tenderar det att bli lite tjatigt. För varje ny fråga måste vi ”väcka” assistenten genom att upprepa den speciella frasen som den lystrar till.

– För oss människor är det ett onaturligt sätt att kommunicera, konstaterar Razan Jaber som har disputerat på Institutionen för data- och systemvetenskap, DSV.

Dessutom blir det ofta missförstånd. Siri, Alexa och andra digitala assistenter kan ha svårt att förstå vad det är vi ber om.

– För att skapa bättre interaktion mellan oss och våra digitala assistenter behöver vi låna komponenter från den mellanmänskliga kommunikationen. När du och jag pratar med varandra använder vi blickar för att stämma av att den andra lyssnar och förstår. Gester, miner, tonfall och kroppsspråk hjälper också till, säger Razan Jaber.

Porträttbild på Razan Jaber, DSV vid Stockholms universitet.
Razan Jaber har undersökt hur blickar kan underlätta människors kommunikation med robotar. Foto: Åse Karlén.

I sin forskning har hon inriktat sig på ögonkontakt. I en rad experiment har hon testat om kommunikationen förbättras när assistenten ”väcks” av att användaren tittar på den, och när assistenten kan visa att den lyssnar.

Vi använder blickar för att stämma av att den andra lyssnar

För att genomföra experimenten behövdes en robotliknande högtalare med rörligt huvud och lysande ögon. Någon sådan fanns inte på marknaden, så Razan Jaber och hennes kollegor på DSV behövde först utveckla en. Tillsammans med forskare på University of Tsukuba i Japan tog de fram Tama.

– Tama är en plattform som även forskare på andra universitet kan använda. Den gör det möjligt att fokusera på studiens mål, det är inte tekniken som är viktig, förklarar hon.

Tamas ögon lyser i gult, grönt eller rosa beroende på om den vilar, lyssnar eller pratar. Det är ingen allvetande chattbot som självständigt svarar på frågor, utan snarare en smart högtalare som reagerar på mänskligt tal och mänskliga blickar. Forskaren kontrollerar vad Tama säger och hur Tama interagerar genom att röra på huvudet och rikta ”blicken” mot försökspersonen. Inom forskningsfältet människa–datorinteraktion kallas det för ett Wizard of Oz-experiment (se faktaruta).

 

Så funkar Wizard of Oz-experiment

The Wizard of Oz, trollkarlen från Oz, har fått låna sitt namn till en viss typ av experiment inom forskningsfältet människa–datorinteraktion. I den kända sagan visar det sig att den mäktiga trollkarlen bara är en vanlig man som sitter gömd bakom ett skynke. Han har inga magiska krafter.

På motsvarande sätt är ett Wizard of Oz-experiment en slags illusion. Försökspersonen tror att datorn eller roboten agerar självständigt, men i själva verket kontrollerar forskaren systemet.

I dag använder vi AI-assistenter mest för enkla uppgifter, som att spela upp musik eller berätta vad det ska bli för väder. Människan frågar och maskinen svarar. Razan Jaber intresserar sig för hur assistenterna kan användas för mer komplicerade uppgifter; hur de kan delta bättre i konversationer och lära av personer som de interagerar med.

– Med den senaste tidens utveckling inom generativ AI är det inte svårt att föreställa sig att vi kommer kunna kommunicera mer naturligt med de röststyrda assistenterna framöver. Assistenterna kommer att bidra i diskussioner och möten på ett helt annat sätt, och även lösa mer avancerade problem.

 

Legobygge och matlagning

Jabers forskning utgår från vardagliga situationer i hemmiljö. I ett av hennes experiment fick försökspersoner bygga en legomodell, med vägledning av Tama. I ett annat experiment ombads två försökspersoner att, med Tamas hjälp, diskutera sig fram till vart de ville åka på semester. Hon har också testat att låta vuxna i olika åldrar laga mat med Tama som assistent.

Testpersonerna fick laga soppa med Tamas hjälp

En övergripande slutsats är att ögonkontakt mellan människa och maskin kan göra att samtalet flyter smidigare, men det finns utmaningar. I ett matlagningsexperiment var samtliga testpersoner över 65 år gamla. De hade ibland svårt att höra och förstå instruktionerna. Razan Jaber konstaterar att det är viktigt att fortsätta involvera användare för att se hur tekniken kan komma till användning på bästa sätt.

Den röststyrda assistenten Tama står på en köksbänk omgiven av köksredskap och ingredienser.
Köksassistenten Tama är redo att hjälpa till. Foto: Razan Jaber.

– Testpersonerna fick laga soppa med Tamas hjälp. De tog uppgiften på allvar och gjorde ett bra jobb. Tama fungerade som en assistent som hjälpte dem att navigera genom receptet.

Forskarteamet hade lagt in olika typer av information i systemet, till exempel alternativa ingredienser och tips för att underlätta matlagningen. Om testpersonen frågade kunde Tama till exempel tala om att smör kan ersättas med olja, eller att en mjölredning kan få soppan att tjockna. Men alla frågor kunde inte besvaras.

– Jag blev faktiskt förvånad över hur tålmodiga försökspersonerna var. De försökte interagera med Tama på olika sätt även om det inte alltid fungerade. Ibland pratade de med systemet som om det var en människa. De kunde till exempel fråga. ”Var finns saxen?” och förväntade sig att Tama skulle ha koll på kökslådorna.

– Studien visar också på den sociala interaktionen. Flera personer sa saker som ”Tack så mycket, det smakar bra” och ”Det var kul att laga mat med dig”. Det är viktig input när man ska designa den här typen av system, säger Jaber.

 

Anpassa tekniken efter användarna

När hon drog igång sitt avhandlingsprojekt hade röststyrda assistenter börjat bli populära, men det var tydligt att tekniken stod i fokus. Hur människor skulle använda tjänsterna var inte lika uppenbart.

– Jag ville utforska användares förväntningar, och jämföra det med vad systemen kunde erbjuda.

– När människor använder röststyrda assistenter för första gången pratar de ofta som till en människa. Om systemet inte förstår blir användaren frustrerad. Hen försöker kanske anpassa sig – tala högre, mer artikulerat, eller i kortare meningar – för att tekniken ska fungera. Men det vore ju bättre om tekniken var anpassad efter oss människor, säger Razan Jaber.

Förutom att reagera på ord vi uttalar och blickar vi ger, skulle systemen kunna ta hänsyn till våra gester, minspel och kroppsspråk. För Tamas del väntar en uppgradering i form av hjul – för ökad rörlighet. Och för teknikområdet som helhet erbjuder generativ AI stora utvecklingsmöjligheter.

Tekniken har potential att göra gott i samhället

Jaber tar nu med sig kunskaperna och erfarenheterna från avhandlingsarbetet in i ett nytt projekt. Tillsammans med forskarkollegor på KTH ska hon undersöka hur unga med ätstörningar kan få bättre stöd.

– Vi kommer att använda KBT och röststyrda assistenter. Tekniken har potential att göra gott i samhället, den kan vara ett stöd och verkligen hjälpa människor, säger Razan Jaber.

 

Mer om forskningen

Razan Jaber disputerade 12 januari 2024 på Institutionen för data- och systemvetenskap (DSV) vid Stockholms universitet.

Avhandlingen har titeln ”Towards Designing Better Speech Agent Interaction: Using Eye Gaze for Interaction”. Den är en sammanläggning av sex vetenskapliga artiklar.

Ladda ner avhandlingen från Diva

Razan Jabers huvudhandledare under avhandlingsarbetet var Barry Brown, DSV. Handledare var Donald McMillan, DSV.

Opponent under disputationen var Kerstin Fischer, University of Southern Denmark, Danmark.

Kontakta Razan Jaber

Läs mer om forskning och utbildning på DSV

 

Razan Jaber om sin doktorandresa: ”Jag visste inte ens vilka ABBA var”

Redan när Razan Jaber läste sin grundutbildning i hemlandet Palestina hade hon en dröm om att skriva en doktorsavhandling. Genom de vägval hon gjorde kunde drömmen bli verklighet – på Stockholms universitet.

Razan Jaber framför väggen på DSV där hon spikat upp sin doktorsavhandling.
Razan Jaber spikade sin avhandling på DSV. Foto: Donald McMillan.

– Jag kände ingen i Sverige när jag flyttade hit. Jag visste inte ens vilka ABBA var! Jag kände ju till låtarna, men jag hade inte förstått att det var en svensk grupp, skrattar Razan Jaber.

Hon flyttade till Sverige för sex år sedan för att påbörja sin forskarutbildning. Innan dess arbetade hon som forskningsassistent i Palestina, och läste en masterutbildning i Italien.

– Under hela studietiden utforskade jag olika möjligheter. När det var dags att bli doktorand hade jag också alternativ i Tyskland och Belgien, berättar Jaber.

Till slut föll valet på Sverige, ett beslut hon inte har ångrat. Institutionen för data- och systemvetenskap (DSV) vid Stockholms universitet blev hennes hemvist.

– Platta hierarkier och hög grad av inkludering var avgörande för mig. I många andra länder hade jag nog blivit behandlad mer som en student, här sågs jag som en medarbetare och fick delta på institutionskonferenser.

– Det har varit fantastiskt att doktorera på DSV. Jag har fått frihet att arbeta med det som intresserar mig, det har funnits resurser och jag har fått resa. DSV har en familjär stämning, allt finns nära och det är lätt att prata med kollegorna, säger Razan Jaber.


Text: Åse Karlén