Forskningsprojekt Mot tillförlitliga stora språkmodeller

Stora språkmodeller driver dagens AI-assistenter, men de fungerar ofta som ”svarta lådor”. Det här projektet undersöker varför språkmodeller kan vara opålitliga och hur metoder för förklarbarhet kan göra deras beslut mer transparenta, tillförlitliga och hållbara.

Illustration: Korbinian Randl.

Stora språkmodeller (på engelska ”large language models”, förkortat LLM:er) som Llama och GPT-5 har blivit en central teknik bakom chattbotar, innehållsskapande och mjukvarustöd. Trots sina imponerande förmågor fungerar dessa system ofta som ”svarta lådor”: De levererar självsäkra svar utan att användaren har insyn i deras interna ”resonerande” processer.

Moderna LLM:er genererar text, ett tecken i taget, genom att förutsäga vad som mest sannolikt ska komma härnäst – snarare än att väga in fakta. Det gör att språkmodellerna kan producera svar som låter trovärdiga även när de saknar relevant information.

De är enormt stora och tränas till stor del på okurerade data från internet, vilket förstärker problem som partiskhet, hallucinationer och miljöpåverkan. Detta är särskilt problematiskt inom säkerhetskritiska områden som hälso- och sjukvård eller lagstiftning, där misstag kan få allvarliga konsekvenser.

Det här forskningsprojektet undersöker varför dagens LLM:er har svårt att vara tillförlitliga och hur vi bättre kan förstå deras beteende. Genom att kombinera teknisk insikt med förklaringar som är begripliga för människor vill vi att språkmodellerna ska gå från att vara imponerande men otydliga verktyg, till att bli system som kan användas på ett ansvarsfullt och meningsfullt sätt.

Det här är Korbinian Randls avhandlingsprojekt. Tony Lindgren är huvudhandledare, och Aron Henriksson och John Pavlopoulos är biträdande handledare.

Projektet finansierades under perioden februari 2023 – mars 2026 av Europeiska unionens Horizon Europe – forsknings- och innovationsprogrammet EFRA.

Läs mer om projektet EFRA – Extreme Food Risk Analytics

Medlemmar

John Pavlopoulos

Department of Informatics Athens University of Economics and Business, Greece

Randl, K., Pavlopoulos, J, Henriksson, A., och Lindgren, T. (2024).
CICLe: Conformal In-Context Learning for Largescale Multi-Class Food Risk Classification. In: Findings of the Association for Computational Linguistics: ACL 2024, pages 7695–7715, Bangkok, Thailand. Association for Computational Linguistics.
Läs artikeln

Randl, K., Pavlopoulos, J., Henriksson, A., och Lindgren, T. (2025).
Evaluating the Reliability of Self-explanations in Large Language Models. In: Pedreschi, D., Monreale, A., Guidotti, R., Pellungrini, R., Naretto, F. (eds) Discovery Science. DS 2024. Lecture Notes in Computer Science 15243. Springer, Cham.
Läs artikeln

Randl, K., Pavlopoulos, J, Henriksson, A., och Lindgren, T. (2025).
Mind the gap: from plausible to valid self-explanations in large language models. Mach Learn 114, 220.
Läs artikeln

Randl, K., Rocchietti, G., Henriksson, A., Abedjan, Z., Lindgren, T., och Pavlopoulos, J. (2026).
RAG-E: Quantifying Retriever-Generator Alignment and Failure Modes.
Läs artikeln

Inga nyheter tillgängliga.
Inga evenemang tillgängliga.