1. Ngram och Zipf-Mandelbrot-lagen

Inleder den här bloggen med att förkovra mig i de begrepp och verktyg som figurerar i en artikel publicerad 2018 i tidskriften Corpus Linguistics and Linguistic Theory. Författaren har utifrån korpora skapade i Google Ngram Viewer velat undersöka hur språkliga förändringar (lexikala, syntaktiska och stilistiska) kan kvantifieras och visualiseras genom parametrarna i Zipf-Mandelbrot-lagen – en potens- eller exponentlag (”power law”) för sannolikhetsfördelning.

Google Ngram Viewer är en tjänst som kom 2010 och som består av korpora av böcker och texter publicerade mellan år 1500 och 2012 på flera olika språk. Den har genom åren dykt upp i såväl vetenskapliga som populärvetenskapliga sammanhang, samtidigt som den har kritiserats för att bland annat förlita sig alltför mycket på bristfälliga OCR-inscanningar, felaktig metadata och stor andel vetenskapliga texter [1]. Ett n-gram eller ngram definieras på sajten IT-ord som “ett urval av n objekt från en given uppsättning”, ofta använt i sannolikhetsbaserade sammanhang där man utifrån tidigare ord i en mening eller text vill kunna förutsäga nästa. Det kan referera till ett eller flera ord, men också till enskilda fonem, stavelser och bokstäver (t.ex. bigrammet “th”).

Zipf-Mandelbrot-lagen har sitt ursprung i Zipfs lag, framtagen av filologen och språkforskaren George Kingsley Zipf (1902-1950) vid Harvard, som illustrerar hur några få ord i språket används mycket ofta medan det stora flertalet ord förekommer mer sällan. På så sätt dyker det näst mest förekommande ordet i en text eller ett språk upp hälften så många gånger som det mest förekommande, det tredje en tredjedel så ofta, och så vidare. Frekvenserna bildar en rät linje med negativ lutning i ett log-log-diagram.

Lagen visade sig kunna appliceras på fler områden än frekvensordlistor i språket – i allt från mängden genuttryck i celler [2] hos olika organismer till inkomstfördelningen hos japanska företag [3] (!) - och generaliserades senare av matematikern Benoit Mandelbrot. Titta till exempel på Sveriges tre största städer och deras befolkning; Göteborg har med sina 572 779 invånare drygt hälften så många som Stockholm (965 232) medan Malmö har strax under en tredjedel (316 588). Coolt va? :D

Här är en rolig och pedagogisk video om Zipfs lag:

The Zipf Mystery

Written on March 3, 2019