39. Historisk textnormalisering

Läser idag en artikel om olika metoder för normalisering av historisk text, skriven av Bollmann (2019) med titeln A large-scale comparison of historical text normalization systems. Historisk text kan avse exempelvis medeltida manuskript där stavningen är långt ifrån regelbunden, och normaliseringsuppgiften blir då att mappa de olika stavningsvarianterna av ett och samma ord till en standardform. Detta för att dels underlätta parsning och POS-taggning, och dels för att underlätta sökningar i historiska textkorpusar (Bollman 2019).

Målet för artikeln är att utvärdera och analysera de olika normaliseringssystem som finns: 1) ersättningslistor, 2) regelstyrda metoder, 3) avståndsbaserade metoder, 4) statistiska metoder och 5) neurala nätverk. Ersättningslistor (eng. substitution lists) är den enklaste lösningen och går helt enkelt ut på att sammanställa en lista över olika varianter (där de ord eller varianter som inte finns med i listan inte kan hanteras), något som existerar som komponent i flera normaliseringsverktyg, bland andra VARD och Norma.

De regelstyrda metoderna försöker istället fånga upp regelbundenheter i stavningsvarianterna, exempelvis att bokstaven u ofta skrivs som v. Utifrån meningskontexten kan man då implementera olika ersättningsregler för när v ska normaliseras till u. De regelstyrda metoderna har en lång historia och är ofta anpassade för ett specifikt språk. De kan också användas för att skapa kluster av olika typer av stavningsvarianter eller för att hitta stavningsvarianter i informationshämtningssammanhang.

De avståndsbaserade metoderna mäter istället hur stor skillnaden är mellan olika ordformer, sett till antalet ändringar som måste göras för att gå från den ena stavningsvarianten till den andra. För svenska språkets del refererar Bollmann dels till Pettersson et al. (2013a), som använder en viktad variant av Levensthein-avståndet som ger bättre resultat än de regelstyrda metoderna, dels till Adesam et al. (2012) som använder Levenshtein-avståndet för att härleda ersättningsregler från träningsdata. Den senare studien visar på hur avståndsbaserade och regelstyrda metoder ibland går in i varandra.

Inom de statistiska metoderna kan normaliseringen ses som en variant av noisy channel-modellen, med målet att optimera sannolikheten P(t|s) att den nutida ordformen t är en normaliserad form av det historiska ordet s. En vanlig metod är teckenbaserad statistisk maskinöversättning (CSMT) där man analyserar orden som sekvenser av bokstäver snarare än individuella ord. Pettersson et al. (2013b, 2014) applicerar den här metoden på bland annat svenska med goda resultat.

De neurala nätverksmodellerna verkar fortfarande vara ganska nya i det här sammanhanget. Det har gjorts studier med neurala teckenbaserade maskinöversättningsmodeller (CNMT) på bland annat tyska, ofta med LSTM-baserade kodare-avkodare-modeller. En utvärdering på två neurala nätverksmodeller av Robertson & Goldwater (2018) visade att den här typen av lösning fungerar bra på okända ord för fem olika språk (bl.a. svenska), men utan någon klar fördel gentemot baseline på senare POS-taggning.

Bollmanns utvärderar dessa fem metoder på åtta olika språks (tyska, engelska, spanska, ungerska, isländska, portugisiska, slovenska och svenska) största och mest representativa datasamlingar. Resultaten visar att statisk maskinöversättning (SMT) ger bättre precision än de neurala maskinöversättningsmodellerna (NMT) på fyra av de 10 dataseten och icke-signifikanta skillnader på fem andra. Bollmann finslipar utvärderingen genom att att också kika på trunkeringsprecision (eng. stemming accuracy), d.v.s. huruvida ordstammen i de felaktigt normaliserade orden ändå stämmer överens med den rätta formen.

Han avslutar artikeln med några handfasta råd: 1) använd verktyget Norma när datamängen är liten (<500 tokens), 2) använd annars det statistiska maskinöversättningsverktyget cSMTiser, och 3) använd naiva memoriserings-/lookup-tekniker för ord som finns i vokabuläret när det är möjligt.

Referenser

Written on November 30, 2020