Gabriel Skantze

Analys av prediktiva modeller för turtagning i talad interaktion

Koordinering av turtagning är en av de mest fundamentala aspekterna av talad interaktion och har studerats inom flera olika discipliner, som lingvistik, fonetik, psykologi och talteknologi. Många studier har undersökt de underliggande mekanismerna, till exempel genom att identifiera akustiska och lingvistiska signaler vid turskiften. Flera forskare har dock påpekat att turskiften inte bara kan ses som en omedelbar reaktion på signaler från samtalspartnern; talarna måste börja planera vad de ska säga tidigare, baserat på förutsägelser om vad samtalspartnern kommer att säga och när deras tur ska sluta. Vår förståelse av hur denna prediktion går till, och vilka signaler som är involverade, är dock begränsad, delvis därför att vi saknar de nödvändiga verktygen för sådan analys. Eftersom de signaler som är involverade är så komplexa, tvetydiga och sammanflätade är de väldigt svåra att identifiera och lokalisera. På KTH har vi nyligen utvecklat nyskapande beräkningsmodeller för att göra förutsägelser i talad interaktion, baserat på djupinlärning. Dessa modeller är kraftfulla i det att de kan lära sig att identifiera och representera komplexa signaler i olika modaliteter och över olika tidsskalor. Ett problem är dock att de saknar transparens. I det här projektet kommer vi att utveckla nya metoder och verktyg för att analysera och visualisera sådana modeller, och använda dem för att identifiera de komplexa signaler som involverade i prediktion och turtagning i mänsklig interaktion.
Slutredovisning
PROJEKTETS HUVUDMÅL

Projektets mål har varit att utveckla och analysera datormodeller för turtagning i talad konversation. Syftet har dels varit att analysera modellerna för att få insikter i de grundläggande mekanismerna bakom turtagning i samtal, dels att undersöka hur modellerna kan användas i interaktion mellan människa och maskin, exempelvis i människor–robotinteraktion eller i AI-assistenter.

Mänskliga samtal kännetecknas av snabba talarbyten, ofta med endast omkring 200 millisekunders fördröjning och relativt lite överlapp. För att uppnå denna precisa koordinering måste samtalspartnerna kontinuerligt förutsäga varandras talbeteende och anpassa sitt eget därefter. Detta sker genom en kombination av signaler, till exempel prosodi och blickbeteende. En central forskningsfråga är därför att förstå vilka signaler som är mest avgörande, och hur dessa bearbetas och tolkas i realtid. Forskare från flera olika områden har närmat sig denna fråga med hjälp av metoder från bland annat psykolingvistik, konversationsanalys och neuropsykologi.

I detta projekt har vi använt djupinlärningsmodeller som tränats på att förutsäga turtagningsmönster i stora mängder inspelade samtal. Uppgiften tvingar modellen att plocka upp och skapa representationer av de samordningssignaler som finns i talsignalen. Genom att analysera modellerna har vi kunnat identifiera vilka signaler som är mest avgörande.

PROJEKTETS GENOMFÖRANDE

I den inledande fasen utvecklade vi modellen TurnGPT, som baseras enbart på den verbala komponenten i samtal, det vill säga transkriptioner. Modellen har samma arkitektur som GPT-baserade språkmodeller, såsom ChatGPT, men är vidaretränad på samtalstranskriptioner med särskilda markörer för talarskiften. Analysen visade att lingvistiska signaler som är relevanta för talarskiften kan förekomma flera turer innan själva skiftet, vilket indikerar att en längre kontext kan vara avgörande för att koordinera turtagning.

I nästa steg utvecklade vi modellen Voice Activity Projection (VAP), som istället för transkriptioner använder den råa ljudvågen i samtalet och kontinuerligt förutsäger talarnas röstaktivitet under de två följande sekunderna. Jämfört med TurnGPT innebär detta att viktiga akustiska komponenter, såsom prosodi och temporala aspekter som pauslängd, bevaras. Modellen tränades på cirka 2000 timmar inspelade telefonsamtal mellan amerikaner (det så kallade Fisher-korpuset).

När modellen väl var tränad analyserade vi den med inspiration från experiment inom psykolingvistik. I dessa experiment får försökspersoner lyssna på ljudklipp och trycka på en knapp när de tror att ett talarskifte är på väg. Genom att manipulera talsignalen – till exempel genom att platta ut grundtonen – kan man studera hur detta påverkar förmågan att förutsäga skiften. Med liknande stimuli undersökte vi hur våra modellers prediktioner påverkades. Vi fann att intonation generellt var mindre viktig än förväntat, men att den blev avgörande vid syntaktiskt tvetydiga beslutspunkter. Vi analyserade även hur fyllda pauser (”uhm”) signalerar att talaren vill behålla turen, och fann att duration, intensitet och grundton alla bidrar till signalens styrka.

Vidare undersökte vi hur väl modellen hanterar tre språk från olika språkfamiljer – amerikansk engelska, japanska och kinesiska (mandarin). Resultaten visade att en modell tränad på ett språk inte fungerar särskilt bra för ett annat, vilket antyder att turtagningssignaler är relativt språkspecifika. Däremot kan en och samma modell tränas på flera språk och uppnå goda resultat för samtliga.

I projektets slutskede applicerade vi modellerna i människa–robotinteraktion för att undersöka om de kunde förbättra turtagningen. Vi använde ett scenario där människan och roboten diskuterar etiska dilemman, vilket naturligt ger upphov till längre tankepauser där roboten måste undvika att avbryta. Vi jämförde vår modell med en mer traditionell modell, där roboten väntar in en tystnad av viss längd innan den tar turen. Resultaten visade att vår modell möjliggjorde kortare responstider och färre avbrott av användaren. Detta speglades också i användarnas subjektiva upplevelser, mätt genom enkäter.

PROJEKTETS TRE VIKTIGASTE RESULTAT

1. Utvecklingen av djupinlärningsbaserade datormodeller som legat till grund för senare analyser och experiment, och som även använts av forskare världen över i andra studier.

2. Utvecklingen av metoder och paradigm för hur sådana modeller kan analyseras för att generera insikter om mänsklig kommunikation. Detta inkluderar både parameteranalyser och manipulation av insignaler.

3. Demonstrationen av hur modellerna kan användas i praktiska AI-tillämpningar för att förbättra interaktionen mellan användare och system.

NYA FORSKNINGSFRÅGOR

I projektets slutfas undersökte vi demografiska och individuella skillnader i turtagningsbeteende genom större dataset där samma talare förekommer i flera olika samtal. Vi fann vissa generella effekter av kön och ålder, men ännu större individuella variationer. Framför allt framkom att varje talarpar utvecklar ett unikt beteende. Detta innebär att datormodeller bör anpassas efter det specifika samtal som modelleras, för att kunna predicera den dynamik som uppstår. Att förstå och modellera demografiska och individuella skillnader i samtal utgör därför en viktig framtida forskningsfråga.

En annan central fråga är hur modellerna kan utvidgas till fler än två talare samt integrera multimodala signaler, exempelvis blickriktning och gester.

SPRIDNING AV RESULTAT OCH SAMVERKAN

Projektets resultat har presenterats vid ett flertal prestigefyllda internationella konferenser inom talkommunikation, fonetik, språkteknologi och AI. Vid två tillfällen har våra arbeten belönats med Best Paper Award: vid SIGDIAL 2022 (ACL Special Interest Group for Discourse and Dialogue) i Edinburgh och vid HRI 2025 (Human-Robot Interaction) i Melbourne.

Under projektets gång har vi haft flera internationella gästforskare. Bland annat har Koji Inoue, Associate Professor vid Kyoto University, samarbetat med oss i ett antal publikationer och senare byggt vidare på vårt arbete i sin egen forskning. Vi har även haft besök av Yu Wang, doktorand vid Bielefeld University, som utgått från vårt arbete i sina studier av återkopplingsljud i samtal.

De modeller vi utvecklat har publicerats som öppen källkod, vilket möjliggjort att andra forskare kunnat använda och vidareutveckla dem.

Även kommersiella aktörer, inklusive amerikanska AI-startups, har visat stort intresse för resultaten. Detta understryker att de problem vi adresserat inom konversationell AI har relevans inte bara för grundforskning inom fonetik och lingvistik, utan även för industrin.
Bidragsförvaltare
KTH
Diarienummer
P20-0484
Summa
SEK 4 271 000
Stödform
RJ Projekt
Ämne
Jämförande språkvetenskap och lingvistik
År
2020