30. Boktips - "Talk to me" (2019)
På Göteborgs stadsbibliotek hittade jag av en slump en ganska nyutkommen bok på temat röststyrda dialogsystem: “Talk to me - Amazon, Google, Apple and the race for voice-controlled AI” av James Vlahos (2019).
Den första delen av boken, med titeln “Competition”, beskriver bland annat bakgrunden till Siri, som när hon officiellt lanserades med iPhone 4S år 2011 på sätt och vis redan hade 20 år på nacken genom arbetet av Adam Cheyer med flera vid forskningsinstitutionen SRI International: “Proto-Siri as of the early 1990s was housed as a chunky black box and looked like a shoddy knockoff of a Sony Walkman. […] The prototype system, called Open Agent Architecture, could help users send emails, create calendars entries, and pull up maps” (Vlahos 2019:21).
SRI låg även bakom CALO, en administrativ virtuell assistant för militärt bruk som kunde utföra olika slags sysslor och dessutom lära sig och ta beslut i nya sammanhang. Cheyer var en av nyckelspelarna i projektet, men frustrerad av byråkratin i det hela kom han senare att bli en av grundarna till det startup som påbörjade utvecklingen av Siri i syfte att skapa en virtuell assistant för årtiondets nya teknologi: den smarta telefonen. Siri lanserades som fristående app 2010 och imponerade så starkt på Steve Jobbs att företaget snart köptes upp av Apple.
Samma år som Siri lanserades som en integrerad del av iPhone 4S gav Amazons VD Jeff Bezos sina anställda direktiv till ett nytt projet - att utveckla en helt röststyrd maskin av typen “Star Trek-dator”. Haken vara bara att Amazon knappast hade någon NLP-avdelning av tala om (enligt boken hade man då bara två anställda med sådan expertis). Genom att köpa upp en rad företag med fokus på taligenkänning, talsyntes och automatisk svarsgenerering pumpade man in ny kompetens till företaget.
Ett av utmaningarna med projektet var att lösa far-field speech recognition, det vill säga att kunna urskilja användarröster från annat bakgrundsljud (t.ex. gråtande barn, konversationer, musik- och tv-ljud). Den enklaste lösningen man experimenterade med var att placera ut mikrofoner i hela rummet som kunde fånga upp användarens röst. “Inte tillräckligt magiskt”, ansåg de överordnade, och istället hittade man en annan lösning som involverade att bygga in mikrofoner runt om i den cylinderformade apparaten. Det innebär att den mikrofon som starkast fångade upp en röstsignal (initierad av ett väckningsord) förstärktes medan de övriga försvagades. Högtalaren Echo, med Alexa inbyggd, lanserades 2014 och blev en försäljningssuccé.
De efterföljande åren kom eftersläntarna. Facebook började att experimentera med chatbotar, inte minst för företag att presentera sig mot sina kunder. Microsoft gjorde detsamma med sitt Microsoft Bot Framework. Google släppte äntligen sin egna virtuella assistent, Google-assistenten, år 2016. Adam Cheyer och hans medgrundare av Siri gick vidare från Apple och startade 2016 ett nytt företag i syfte att skapa en ännu bättre röststyrd assistent som skulle kunna “skriva sin egen kod”: Viv. Viv köptes upp av Samsung samma år och dess teknologi kom att användas i Samsungs egna Bixby-assistent.
Den andra delen av boken, “Innovation”, börjar med en djupdykning i de förhistoriska dialogsystemen: “talande” manicker från 1700- och 1800-talet, 1960-talets Eliza, 80-talens textdrivna datorspel och 90-talets regelstyrda chatbotar. Kapitlet “Rule breakers” ger sen en underbar introduktion till maskininlärning. Valhos förklarar likheten mellan mänskliga och artificiella neuroner med att mänskliga neuroner tar emot nervsignaler från andra neuroner via en eller flera utskott som kallas dendriter. Signalerna påverkar spänningen över neuronens cellmembran och beroende på voltnivån triggas neuronen av en elektrisk impuls (eng. spike) att skicka ut sina egna signalsubstansre till andra neuroner.
Att neuronen antingen triggas eller inte triggas kan jämföras med datorernas binära värden, 0 och 1, något som AI:ns morföräldrar – Warren McCulloch och Walter Pitts – beskrev i en viktig artikel från 1943 (!). Den här insikten gjorde det nämligen teoretiskt möjligt att modellera satslogiska uttryck med deras konnektiv (AND, OR, NOT, IF/THEN). För meningen “Om det är soligt går jag ut och går, men inte om det regnar, såvida jag inte har ett paraply” skulle det i så fall bara behövas ett nätverk av två neuroner. En som som matar ut sant eller falskt (1 eller 0) beroende på om det regnar eller inte medan en annan som gör detsamma för huruvuda det finns ett paraply eller ej. Summan av utadata från neuronerna kan då antingen bli 0 (inte soligt och inget paraply), 1 (soligt men inget paraply eller vice versa) eller 2 (soligt samt paraply) (Vlahos 2019: 87).
För att träna neurala nätverk att känna igen mönster i data krävs att vikterna hos olika neuroner regleras. Den här processen löses genom något som kallas backpropagation på engelska (framfört av Rumelhart, Hinton och Williams 1986). Om ett neuralt nätverk ger felaktig utdata när man tränar upp det så sätter man utdatalagret i nätverket till rätt värde och går därefter bakåt till var och ett av de gömda lagren för att kika på hur de olika neuroerna bidrog till det felaktiga svaret och justera vikterna därefter (något som kan kräva många iterationer). Backpropagation var avgörande för ett av de neurala nätverkens första reella framgångar: automatisk handstilsigenkänning (Bengio & LeCun 1998).
Maskininlärningskapitlet beskriver en hel del annat om NLP-inriktade applikationer, men de resterande kapitlen i den här delen av boken är också läsvärda. Personlighetskapitlet beskriver de resonemang och kreativa processer som ofta ligger bakom personligheterna hos virtuella assistenter. Svårigheten i att skapa en personlighet som tilltalar alla användare, och tanken om att skräddarsy assistenternas personligheter efter varje användares egna preferenser. Kapitlet “Conversationalists” ger en fascinerande inblick i tävlingen Amazon Prize, där studentlag från olika universitet världen över tävlar om att skapa en chatbot som kan hålla ett sammanhängande och engagerande samtal med användaren i 20 minuter. Något som är mycket svårare än man kanske kan tro!
Den sista delen av boken, “Revolution”, handlar om riskerna och fördelarna med virtuella assistener i en rad olika roller: vän, orakel, övervakare och odödlig. Särskilt kapitlet “Oracles” intresserade mig genom att lyfta fram hur röststyrningen påverkar möjligheten för företag och andra innehållsskapare att synas på nätet. När sökningar inte längre görs i webbläsare som generar listor med otaliga länkar, utan den virtuella assistenten istället förväntas ge ett och endast ett riktigt svar, blir det exempelvis svårare för företag att locka besökare till sina webbsidor. Shopping via Alexa ger Amazon stor makt att diktera produktval för användaren genom att per automatik föreslå ett visst märke. Vlahos spekulerar att det antagligen bara är en fråga om tid innan företag kommer att kunna köpa reklamutrymme i de virtuella assistenternas utdata på samma sätt som de idag kan köpa annonsplatser i sökmotorerna.
Allt som allt en riktigt läsvärd bok för alla som vill veta mer om varför de dialogsystem vi har idag ser ut som de gör och vad vi kan förvänta oss av framtiden!