39. Historisk textnormalisering

Läser idag en artikel om olika metoder för normalisering av historisk text, skriven av Bollmann (2019) med titeln A large-scale comparison of historical text normalization systems. Historisk text kan avse exempelvis medeltida manuskript där stavningen är långt ifrån regelbunden, och normaliseringsuppgiften blir då att mappa de olika stavningsvarianterna av ett och samma ord till en standardform. Detta för att dels underlätta parsning och POS-taggning, och dels för att underlätta sökningar i historiska textkorpusar (Bollman 2019).

Målet för artikeln är att utvärdera och analysera de olika normaliseringssystem som finns: 1) ersättningslistor, 2) regelstyrda metoder, 3) avståndsbaserade metoder, 4) statistiska metoder och 5) neurala nätverk. Ersättningslistor (eng. substitution lists) är den enklaste lösningen och går helt enkelt ut på att sammanställa en lista över olika varianter (där de ord eller varianter som inte finns med i listan inte kan hanteras), något som existerar som komponent i flera normaliseringsverktyg, bland andra VARD och Norma.

De regelstyrda metoderna försöker istället fånga upp regelbundenheter i stavningsvarianterna, exempelvis att bokstaven u ofta skrivs som v. Utifrån meningskontexten kan man då implementera olika ersättningsregler för när v ska normaliseras till u. De regelstyrda metoderna har en lång historia och är ofta anpassade för ett specifikt språk. De kan också användas för att skapa kluster av olika typer av stavningsvarianter eller för att hitta stavningsvarianter i informationshämtningssammanhang.

De avståndsbaserade metoderna mäter istället hur stor skillnaden är mellan olika ordformer, sett till antalet ändringar som måste göras för att gå från den ena stavningsvarianten till den andra. För svenska språkets del refererar Bollmann dels till Pettersson et al. (2013a), som använder en viktad variant av Levensthein-avståndet som ger bättre resultat än de regelstyrda metoderna, dels till Adesam et al. (2012) som använder Levenshtein-avståndet för att härleda ersättningsregler från träningsdata. Den senare studien visar på hur avståndsbaserade och regelstyrda metoder ibland går in i varandra.

Inom de statistiska metoderna kan normaliseringen ses som en variant av noisy channel-modellen, med målet att optimera sannolikheten P(t|s) att den nutida ordformen t är en normaliserad form av det historiska ordet s. En vanlig metod är teckenbaserad statistisk maskinöversättning (CSMT) där man analyserar orden som sekvenser av bokstäver snarare än individuella ord. Pettersson et al. (2013b, 2014) applicerar den här metoden på bland annat svenska med goda resultat.

De neurala nätverksmodellerna verkar fortfarande vara ganska nya i det här sammanhanget. Det har gjorts studier med neurala teckenbaserade maskinöversättningsmodeller (CNMT) på bland annat tyska, ofta med LSTM-baserade kodare-avkodare-modeller. En utvärdering på två neurala nätverksmodeller av Robertson & Goldwater (2018) visade att den här typen av lösning fungerar bra på okända ord för fem olika språk (bl.a. svenska), men utan någon klar fördel gentemot baseline på senare POS-taggning.

Bollmanns utvärderar dessa fem metoder på åtta olika språks (tyska, engelska, spanska, ungerska, isländska, portugisiska, slovenska och svenska) största och mest representativa datasamlingar. Resultaten visar att statisk maskinöversättning (SMT) ger bättre precision än de neurala maskinöversättningsmodellerna (NMT) på fyra av de 10 dataseten och icke-signifikanta skillnader på fem andra. Bollmann finslipar utvärderingen genom att att också kika på trunkeringsprecision (eng. stemming accuracy), d.v.s. huruvida ordstammen i de felaktigt normaliserade orden ändå stämmer överens med den rätta formen.

Han avslutar artikeln med några handfasta råd: 1) använd verktyget Norma när datamängen är liten (<500 tokens), 2) använd annars det statistiska maskinöversättningsverktyget cSMTiser, och 3) använd naiva memoriserings-/lookup-tekniker för ord som finns i vokabuläret när det är möjligt.

Referenser

Yvonne Adesam, Malin Ahlberg och Gerlof Bouma. 2012. bokstaffua, bokstaffwa, bokstafwa, bokstaua, bokstawa … Towards lexical link-up for a corpus of Old Swedish. I Proceedings of KONVENS 2012 (LThist 2012 workshop), sidorna 365-369.
Marcel Bollmann. 2019. A Large-Scale Comparison of Historical Text Normalization Systems. I Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volym 1 (Long and Short Papers), sidorna 3885–3898. Association for Computational Linguistics.
Eva Pettersson, Beáta Megyesi och Jörg Tiedemann. 2013a. Normalisation of Historical Text Using Context-Sensitive Weighted Levenshtein Distance and Compound Splitting. I Proceedings of the Workshop on Computational Historical Linguistics at NODALIDA 2013. NEALT Proceedings Series 18; Linköping Electronic Conference Proceedings 87:54-69.
Eva Pettersson, Beáta Megyesi och Jörg Tiedemann. 2013b. An SMT Approach to Automatic Annotation of Historical Text. I Proceedings of the Workshop on Computational Historical Linguistics at NODALIDA 2013. NEALT Proceedings Series 18; Linköping Electronic Conference Proceedings 87:54-69.
Eva Pettersson, Beáta Megyesi och Joakim Nivre. 2014. A Multilingual Evaluation of Three Spelling Normalisation Methods for Historical Text. I Proceedings of the 8th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH) @ EACL 2014, sidorna 32–41.
Alexander Robertson, Sharon Goldwater. 2018. Evaluating Historical Text Normalization Systems: How Well Do They Generalize?. I NAACL-HLT (2) 2018: 720-725.

Written on November 30, 2020