Stockholms universitet

Beata MegyesiProfessor

Om mig

Jag är professor i datorlingvistik och arbetar med automatisk analys av texter. Jag är särskilt intresserad av tvärvetenskaplig forskning för att möjliggöra kvantitativa studier med hjälp av artificiell intelligens inom humaniora och samhällsvetenskap. För närvarande arbetar jag med historisk kryptologi för att analysera och lösa hemligt kodade dokument, så kallade chiffer. 

Jag har innehaft olika akademiska uppdrag:

  • Ordförande för Vetenskapsrådets språkvetenskaliga beredningsgrupp (HS-J) 2024 och panelmedlem sedan 2021;
  • Medlem i styrelsen för Nationella Forskarskolan i Digital Filologi (DigPhil), Sverige, 2023-;
  • Medlem i styrelsen för Centrum för Digital Humaniora, Uppsala universitet, Sverige, 2020-2023;
  • Ordförande för Northern European Association for Language Technology (NEALT), 2020-2021 och vice ordförande 2018-2019; 
  • Prefekt för institutionen för lingvistik och filologi, Uppsala universitet, 2009-2018;
  • Direktör för Engelska Park Campus, Uppsala universitet, 2017-2018;

Du kan hitta mer information om min forskning och undervisning nedan. 

Undervisning

Jag undervisar regelbundet på grund- och avancerad nivå huvudsakligen inom datorlingvistik. Jag ansvarar också för det internationella masterprogrammet i AI och språk. För närvarande är jag också handledare till två doktorander och bihandledare till en doktorand. 

Genom åren har jag undervisat vid tre universitet: Stockholms universitet (SU), Uppsala universitet (UU) och Kungliga tekniska högskolan (KTH). Jag har ansvarat för olika kurser inom datorlingvistik och allmän lingvistik från grundläggande till avancerad nivå. Jag har också medverkat i forskarutbildning.

Kurser på grundnivå:

  • Korpuslingvistik, 7.5 ECTS: 2023 (SU)
  • Datorlingvistisk grammatik II, 7.5 ECTS: 2004 (UU)
  • Korpuslingvistik, 7.5 ECTS: 2005, 2006, 2007 (UU)
  • Introduktion till språkteknologi: 2015 (UU)
  • Språk, datorer och textbehandling (på svenska): 2016 (UU)
  • Tekniker för storskalig analys (delar): 2009 (UU)
  • Handledare för språkteknologiprojekt, 7.5 ECTS: 2011-2016 (UU)
  • Handledning av kandidatuppsatser (SU, KTH, UU)

Kurser på avancerad nivå:

  • Korpusbaserade metoder, 7.5 ECTS: 2023 (SU)
  • Forskning och utveckling, 15 ECTS: 2021 (UU)
  • Digital filologi, 7.5 ECTS: 2018-2019 (UU)
  • Datorbaserade verktyg för humanistisk forskning, 7.5 ECTS: 2007-2013 (UU)
  • Examensarbete inom språkteknologi, 30 ECTS: 2005, 2006, 2007 (UU)
  • Avancerad kurs i korpuslingvistik, 7.5 ECTS: 2005 (UU)
  • Handledare för språkteknologiprojekt, 7.5 ECTS: 2011-2016 (UU)
  • Handledning av masteruppsatser (UU)

Forskarutbildning:

  • Jag är huvudhandledare till Micaella Bruton (SU) och Crina Tudor (SU) samt bihandledare till Oreen Yousuf (UU)
  • Jag var biträdande handledare för Eva Petterson och Mojgan Seraji (UU)
  • Kurs i Naturlig språkbehandling, Den nationella forskarskolan i språkteknologi (GSLT), 2008
  • Kurs i Infrastrukturella verktyg för studier av språklig variation: Doktorandkurs vid Oslo universitet, juni 2009

Forskning

Jag har alltid varit väldigt intresserad av hur mänskligt språk fungerar och hur det kan bearbetas och analyseras av datorer, delvis för att hjälpa oss förstå mänskligt språk och kommunikation och delvis för att datorer ska göra nytta i våra dagliga liv.

Min forskning fokuserar idag på automatisk analys av historiska handskrivna dokument å ena sidan, och storskalig grammatisk analys av texter för humanistisk och samhällsvetenskaplig forksning å andra sidan. Jag samarbetar både nationellt och internationellt med andra forskare i Sverige, Norge, Spanien, Tyskland, Ungern och USA. Min forskning har fått extern fiannsiering på över 40 miljoner SEK under de senaste 10 åren och mitt vetenskapliga arbete har resulterat i över 100 vetenskapliga artiklar som publicerats i internationella fora. 

Några projekt som jag har lett och/eller medverkat i:

  • DECRYPT: Dekryptering av historiska manuskript: Huvudansvarig forskare, Vetenskapsrådet, 2018-2024
  • DECODE: Automatisk avkodning av historiska manuskript: Huvudansvarig forskare, Vetenskapsrådet, 2015-2017
  • HistoCrypt: Forskarnätverk för historisk kryptologi 2018-
  • HistCorp: En samling historiska korpusar för 17 europeiska språk 2015- 
  • SWEGRAM: Automatisk annotering och analys av svenska texter, Huvudansvarig forskare; del av Swe-CLARIN-projektet, Vetenskapsrådet, 2014-2024
  • SWeLL: Forskningsinfrastruktur för svenska som andraspråk: Medsökande, RJ, 2017-2019
  • Multilingual Parallel Corpora, Vetenskapsrådet: Medlem, 2006-2010
  • Metoder och verktyg för automatisk grammatikutvinning: Vetenskapsrådet: Medlem, 2005-2007
  • En infrastruktur för svensk språkteknologi: Medlem, Vetenskapsrådet, 2007-2008

Jag ger också regelbundet intervjuer om min forskning i media, till exempel:

Mer information om min forskning kan du hitta under publikationer. 

Jag har även tjänstgjort vid flertalet kommittéer för doktorsavhandlingar och halvtidskontroller, är granskare regelbundet för konferenser och workshopar och har haft många sakkunniguppdrag vid tjänstetillsättningar i Sverige och utlandet. Jag har också varit bedömare av projekt för Vetenskapsrådet och Wallenbergstiftelsen. 

Forskningsprojekt

Publikationer

Beáta Megyesis publikationer per år och per typ.

I urval från Stockholms universitets publikationsdatabas

  • Historical Cryptology

    2024. Beáta Megyesi (et al.). Learning and Experiencing Cryptography with CrypTool and SageMath

    Kapitel

    Historical cryptology studies (original) encrypted manuscripts, often handwritten sources, produced in our history. These historical sources can be found in archives, often hidden without any indexing and therefore hard to locate. Once found they need to be digitized and turned into a machine-readable text format before they can be deciphered with computational methods. The focus of historical cryptology is not primarily the development of sophisticated algorithms for decipherment, but rather the entire process of analysis of the encrypted source from collection and digitization to transcription and decryption. The process also includes the interpretation and contextualization of the message set in its historical context. There are many challenges on the way, such as mistakes made by the scribe, errors made by the transcriber, damaged pages, handwriting styles that are difficult to interpret, historical languages from various time periods, and hidden underlying language of the message. Ciphertexts vary greatly in terms of their code system and symbol sets used with more or less distinguishable symbols. Ciphertexts can be embedded in clearly written text, or shorter or longer sequences of cleartext can be embedded in the ciphertext. The ciphers used mostly in historical times are substitutions (simple, homophonic, or polyphonic), with or without nomenclatures, encoded as digits or symbol sequences, with or without spaces. So the circumstances are different from those in modern cryptography which focuses on methods (algorithms) and their strengths and assumes that the algorithm is applied correctly. For both historical and modern cryptology, attack vectors outside the algorithm are applied like implementation flaws and side-channel attacks. In this chapter, we give an introduction to the field of historical cryptology and present an overview of how researchers today process historical encrypted sources.

    Läs mer om Historical Cryptology
  • The Swell Language Learner Corpus: From Design to Annotation

    2019. Elena Volodina (et al.). Northern European Journal of Language Technology (NEJLT) 6, 67-104

    Artikel

    The article presents a new language learner corpus for Swedish, SweLL, and the methodology from collection and pesudonymisation to protect personal information of learners to annotation adapted to second language learning. The main aim is to deliver a well-annotated corpus of essays written by second language learners of Swedish and make it available for research through a browsable environment. To that end, a new annotation tool and a new project management tool have been implemented, both with the main purpose to ensure reliability and quality of the final corpus. In the article we discuss reasoning behind metadata selection, principles of gold corpus compilation and argue for separation of normalization from correction annotation.

    Läs mer om The Swell Language Learner Corpus
  • Learner Corpus Anonymization in the Age of GDPR: Insights from the Creation of a Learner Corpus of Swedish

    2018. Beáta Megyesi (et al.). Proceedings of the 7th Workshop on NLP for Computer Assisted Language Learning at SLTC 2018 (NLP4CALL 2018), 47-56

    Konferens

    This paper reports on the status of learner corpus anonymization for the ongoing research infrastructure project SweLL. The main project aim is to deliver and make available for research a well-annotated corpus of essays written by second language (L2) learners of Swedish. As the practice shows, annotation of learner texts is a sensitive process demanding a lot of compromises between ethical and legal demands on the one hand, and research and technical demands, on the other. Below, is a concise description of the current status of pseudonymization of language learner data to ensure anonymity of the learners, with numerous examples of the above-mentioned compromises.

    Läs mer om Learner Corpus Anonymization in the Age of GDPR
  • A Friend in Need? Research agenda for electronic Second Language infrastructure

    2016. Elena Volodina (et al.).

    Konferens

    In this article, we describe the research and societal needs as well as ongoing efforts to shape Swedish as a Second Language (L2) infrastructure. Our aim is to develop an electronic research infrastructure that would stimulate empiric research into learners' language development by preparing data and developing language technology methods and algorithms that can successfully deal with deviations in the learner language.

    Läs mer om A Friend in Need? Research agenda for electronic Second Language infrastructure
  • EACL - Expansion of Abbreviations in CLinical text

    2014. Lisa Tengstrand (et al.). Proceedings of the 3rdWorkshop on Predicting and Improving Text Readability for Target Reader Population

    Konferens

    In the medical domain, especially in clinical texts, non-standard abbreviations are prevalent, which impairs readability for patients. To ease the understanding of the physicians’ notes, abbreviations need to be identified and expanded to their original forms. We present a distributional semantic approach to find candidates of the original form of the abbreviation, and combine this with Levenshtein distance to choose the correct candidate among the semantically related words. We apply the method to radiology reports and medical journal texts, and compare the results to general Swedish. The results show that the correct expansion of the abbreviation can be found in 40% of the cases, an improvement by 24 percentage points compared to the baseline (0.16), and an increase by 22 percentage points compared to using word space models alone (0.18).

    Läs mer om EACL - Expansion of Abbreviations in CLinical text
  • Professional language in Swedish clinical text: Linguistic characterization and comparative studies

    2014. Kelly Smith (et al.). Nordic Journal of Linguistics 37 (2), 297-323

    Artikel

    This study investigates the linguistic characteristics of Swedish clinical text in radiology reports and doctor's daily notes from electronic health records (EHRs) in comparison to general Swedish and biomedical journal text. We quantify linguistic features through a comparative register analysis to determine how the free text of EHRs differ from general and biomedical Swedish text in terms of lexical complexity, word and sentence composition, and common sentence structures. The linguistic features are extracted using state-of-the-art computational tools: a tokenizer, a part-of-speech tagger, and scripts for statistical analysis. Results show that technical terms and abbreviations are more frequent in clinical text, and lexical variance is low. Moreover, clinical text frequently omit subjects, verbs, and function words resulting in shorter sentences. Clinical text not only differs from general Swedish, but also internally, across its sub-domains, e.g. sentences lacking verbs are significantly more frequent in radiology reports. These results provide a foundation for future development of automatic methods for EHR simplification or clarification.

    Läs mer om Professional language in Swedish clinical text
  • Annotation of learner corpora: first SweLL insights

    2018. Elena Volodina (et al.). Proceedings of 7th Workshop on NLP for Computer Assisted Language Learning at SLTC 2018

    Konferens
    Läs mer om Annotation of learner corpora

Visa alla publikationer av Beata Megyesi vid Stockholms universitet