Häromveckan gick NLP-kursen in på det som mer än något annat symboliserar språkteknologins reella framsteg och baksteg: dialogsystemen. Även om virtuella assistenter som Alexa och Google Home blivit allt vanligare år 2019, har den röststyrda tekniken ännu inte helt ersatt tangenterna och musklicken i våra datorer och mobiler.
Vari ligger då svårigheterna i att utveckla system som kan hantera dialoger med användaren på ett så övertygande sätt att det klarar Turing-testet? Mänskliga dialoger är ett komplext maskineri som kännetecknas av talarbyte, talakter, grounding, subdialoger, initiativ samt implikatur (Jurafsky & Martin 2019).
Talarbyte (eng. turns) omfattar två problem: dels att systemet måste kunna avgöra när användaren talat klart, sk endpoint detection (vilket kan vara svårt pga störande ljud eller pauser mitt i mening), och dels att det måste kunna avgöra när det själv ska sluta tala pga av avbrott från användaren för exempelvis rättning eller precisering.