Stockholms universitet

Språkteknologen som knäcker historiska gåtor

Chiffer har genom historien använts för att bevara många hemligheter. Beáta Megyesi leder ett tvärvetenskapligt projekt där bland andra språkvetare, datavetare och historiker använder AI för att avkoda hemliga dokument.

Beáta Megyesi på Riksarkivet med gamla krypterade texter.
Beáta Megyesi på Riksarkivet med några av de gamla krypterade texter hon studerar. Foto: Ingmarie Andersson

Beáta Megyesi är fascinerad av språk och av att se mönster i språk. Efter att ha studerat datorlingvistik vid Stockholms universitet doktorerade hon vid KTH, flyttade till Uppsala universitet innan hon 2023 återvände till Stockholms universitet. Här är hon idag professor i datorlingvistik och arbetar med automatisk analys av texter.

År 2011 kom hon av en slump in på ett forskningsområde som då var nytt och som hon sedan dess ägnat sig åt. Området heter historisk kryptologi. Där arbetar forskare från olika ämnesområden med att hitta sätt för att avkoda historiska hemliga dokument.

– Jag blev inspirerad av ett chiffer som vi råkade knäcka och ville titta på problemet mer systematiskt i större skala. Det är viktigt att ha möjlighet och ta tid till att utforska problem som man snubblar på och finner intressanta att arbeta med.

Historiska manuskript skrivna i hemlig kod finns i tusental i arkiv och bibliotek världen över och där chiffret gjort att de kunnat hållas hemliga för utomstående. Det rör sig om allt från diplomatisk korrespondens och underrättelserapporter till privata brev, dagböcker eller texter med anknytning till hemliga sällskap.

 

Vad fick dig intresserad av att forska om chiffer?

– Mångsidigheten i forskningen. Komplexiteten och variationen i dessa fascinerande historiska källor kräver både avancerad humanistisk forskning och ny teknologi. Det är en krävande intellektuell utmaning som involverar olika ämnen och möjliggör samarbete med olika experter. Som språkteknolog försöker jag bygga broar mellan de involverade disciplinerna.

 

Arkivstudier vid Vatikanen

Förutom att det finns behov av kompetens från flera forskningsområden, som lingvistik, datavetenskap och historia finns även behov av data från olika arkiv. Genom åren har Beáta Megyesi tillbringat många timmar i arkiv där hon gått igenom chiffer i gamla skrifter. I Sverige har hon varit på Kungliga biblioteket, Carolina Rediviva och Riksarkivet men det som gjort mest intryck är ett par besök på Vatikanarkivet i Rom. Det är ett av de äldsta och viktigaste arkiven i världen.

När Beáta Megyesi kontaktade arkivet i slutet av 2012 fick hon snabbt svar av arkivets chef om att hon var välkommen dit.  Besöken i Vatikanarkivet var något speciellt. Efter att ha passerat schweizergardet i deras färggranna uniformer fick hon komma in i arkivet där huvuddelen av Vatikanens korrespondens finns bevarad sedan tidig medeltid. Under sträng övervakning gick hon igenom tusentals brev mellan biskopar, kardinaler och Vatikanstaten, vissa texter var ända från 1300-talet. Hon beställde kopior på de brev hon ville studera vidare hemma i Sverige. Utifrån breven har hon sedan tillsammans med andra forskare knäckt fler hemliga chiffer som författats av eller skickats till Vatikanen.

 

Stor uppmärksamhet för ockult chiffer

En sida i Copiale-chiffret
Copiale-chiffret skapades på 1700-talet av ett hemligt tyskt ordenssällskap som kallades ockulisterna.

I april 2011 lyckades Beáta Megyesi tillsammans med två andra forskare knäcka det så kallade Copiale-chiffret. Det är ett krypterat manuskript i bokform med 75 000 handskrivna bokstäver och symboler. Manuskriptet är daterat till perioden 1760-1780, men själva texten är sannolikt cirka 25 år äldre. Manuset innehåller både abstrakta symboler och bokstäver ur de grekiska och latinska alfabeten. Forskarna upptäckte att dokumentet härrörde från ett hemligt tyskt ordenssällskap som kallades ockulisterna. Studien fick enorm internationell uppmärksamhet, bland annat i New York Times och Der Spiegel. Beáta Megyesi beskriver det som ”månader av mediestorm”. I flera år efteråt blev hon sedan kontaktad av forskare och privatpersoner kring Copiale-chiffret och andra chiffer.
Läs mer om Copiale-chiffret

 

Nätverk för historisk kryptologi

Chiffer med finger med doktorsring
I Axel Oxenstiernas korrespondens finns en del av de chiffer som studerats. På fingret har Beáta Megyesi sin doktorsring. Foto: Ingmarie Andersson

För att utveckla forskningen inom historisk kryptologi skapade hon ett nätverk med forskare från olika ämnesområden. Den första internationella konferensen inom ämnet arrangerades i Uppsala 2018. Nätverket består idag av över 100 forskare. Beáta Megyesi lämnade in en ansökan till Vetenskapsrådet för projektet Decode som 2015-2017 utvecklade metoder för att automatiskt dekryptera historiska dokument med krypterad text. Projektet leddes från Uppsala universitet i samarbete med datavetare i Kalifornien och i Barcelona.

För att kunna fortsätta forskningen bestämde sig några forskare att starta det som blev projektet DECRYPT: Decryption of historical manuscripts när Vetenskapsrådet hade en utlysning om tvärvetenskaplig forskning. Projektet beviljades 29,5 miljoner kronor för perioden 2018-2024. Inom projektet finns cirka 20 forskare inom datorlingvistik, kryptologi, bildbehandling, datavetenskap, historia och lingvistik från flera länder.

 

Tvärvetenskap och artificiell intelligens

Sommaren 2023 började Beáta Megyesi vid Stockholms universitet som professor i datorlingvistik och tog då med sig ansvaret för DECRYPT. Hon betonar tvärvetenskap och artificiell intelligens (AI) som två huvudkomponenter inom DECRYPT.
– Inom projektet har vi förenat flera olika tillämpningar av AI. Humanistiska frågeställningar ska vara drivande i arbetet och AI-modeller ska kunna utvecklas och användas inom flera områden.

AI används på flera sätt inom projektet, bland annat för bildanalys för att omvandla symboler på bilden till text samt för dechiffrering. AI assisterar användaren att tolka chiffret.

Fokus för forskningen är för närvarande på transkription. Forskarna samlar exempel på olika typer av symboler från handskrifter som används för att träna AI-modeller.

– Transkriptionen är en av de största utmaningarna då vi måste omvandla bilden till textformat. Det är tidsödande och ofta källor till fel. Texterna består av många sorters symboler och ovanliga skriftsystem, de kan ha svårlästa handstilar och skadade sidor. Krypterade texter skiljer sig dessutom mycket åt i hur de är kodade, och att gissa sig till vilken kodtyp och vilket underläggande språk chiffret har utgör ytterligare svårigheter, säger Beáta Megyesi.

 

Massor av material väntar på dechiffrering

Beáta Megyesi med en box med gamla manuskript på Riksarkivet.
Beáta Megyesi med en box med gamla manuskript på Riksarkivet. Foto: Ingmarie Andersson

Det finns en stor mängd historiskt material med sällsynta eller okända skriftsystem som väntar på analys och dechiffrering.
– De vanligaste krypteringssätten historiskt sett var så kallade substitutionschiffer där alfabetiska tecken, stavelser, ord, fraser eller meningar ersattes med egna koder skrivna som siffror, alfabetiska tecken eller olika symboler som Zodiac eller alkemiska tecken, säger Beáta Megyesi.

Historisk kryptologi är ett nytt forskningsområde så det finns mycket att utforska.
– Vi behöver samla in mer material för att kunna skapa bättre algoritmer som kan användas för att hjälpa till med transkription av olika symbolsystem, och vi behöver bättre analysmetoder anpassade till historiska varianter av världens tusentals språk.

 

Vad hoppas du DECRYPT ska resultera i?

– Det främsta målet är att utveckla nya metoder och verktyg som kan identifiera, transkribera och tolka historiska chiffer, som sedan kan tillämpas på nya källor för nya insikter om vår historia. Ett annat är att historisk kryptologi blir ett etablerat ämne som gör det möjligt för experter från olika discipliner att samarbeta kring komplexa problem och lära av varandra. Att lösa problem tillsammans är oerhört givande men kräver också tid, tålamod och respekt för varandras kompetens.

 

Vad fascinerar dig mest med chiffer?

– De är gåtfulla, ovärderliga och spännande men så svårtolkade och utmanande de kan vara!

 

Resultaten tillgängliga för alla

Chiffer
Ett av chiffren i Riksarkivets samling av Axel Oxenstiernas korrespondens. Foto: Ingmarie Andersson

Beáta Megyesi ägnar sig främst åt grundforskning men hon är mån om att resultaten kommer samhället och allmänheten till godo. Allt material från DECRYPT släpps fritt. Chiffren och nycklar med beskrivningar finns i DECODE-databasen. Verktygen för transkription och dechiffrering finns tillgängliga online och även för nedladdning. De vetenskapliga resultaten publiceras öppet, fritt tillgängliga för alla.

– Att tillgängliggöra forskningsresultat till allmänheten har flera viktiga fördelar, som berör både det vetenskapliga samfundet och samhället i stort. När forskare har tillgång till varandras arbete kan de bygga vidare på befintligt resultat istället för att uppfinna hjulet på nytt. Det kan accelerera takten på vetenskapliga framsteg och leda till att det går snabbare att lösa komplexa problem. Vi kan också samarbeta lättare och kombinera kunskap från olika områden, det möjliggör tvärvetenskaplig forskning, säger Beáta Megyesi.

Forskningsresultat gagnar också allmänheten.
– Alla historiska chiffer som vi lägger upp kan intresserade sätta tänderna i och försöka knäcka. Många roar sig med det, som ett slags sudoku. Vårt projekt kan också leda till bättre automatisk handskriftsigenkänning och bättre dechiffreringsalgoritmer.

Material från forskarnätverket finns med på en utställning om krypto på Deutsches Museum i München. Deltagare i projektet delar också med sig av chiffer till The Crypto Challenge Contest MysteryTwister som en av gruppens medlemmar startat där besökarna uppmanas lösa chiffer.

I slutet av juni anordnas en stor internationell konferens om historisk kryptologi (HistoCrypt 2024) i Oxford och Bletchley Park, där Beáata Megyesi är ledamot i programkommittén.

Länkar:
Projektsidan Decipherment of Historical Manuscripts
DECRYPT:s webb
Beata Megyesis profilsida
Konferensen HistoCrypt 2024

Läs även:
Curie: Tillsammans knäcker forskarna historisk kod
Läs även om ”Borgchiffret” som Beata Megyesi varit med och dechiffrerat