Eva Szekely

CAPTivating: En jämförande analys av offentligt tal med talsyntes

Att fånga en publik betyder att locka och hålla lyssnarnas uppmärksamhet genom att vara intressant, spännande eller trevlig. Tack vare en kombination av ett paradigmskifte inom talsyntes (TTS), och våra egna framsteg är det nu möjligt att bygga en talsyntes på spontana taldata, vilket gör det möjligt att efterlikna en fängslande talares egenskaper. På Interspeech 2019 fick vårt papper "Off the Cuff: Exploring Extemporaneous Speech Delivery with TTS" priset för bästa demo. Den visade vad man kan göra med våra spontana TTS röster. Det är ett gränssnitt där man kan navigera olika versioner av talsyntes som läst upp transkriptionen av två symposietal. Syftet med det föreslagna projektet är att vidareutveckla verktyg och det för forskning inom språkvetenskap och talanalys, med fokus på att studera offentligt tal. Den föreslagna metoden syftar till att använda jämförande perceptuella experiment med spontan talsyntes för att systematiskt kunna variera aspekter av talproduktion och mäta deras direkta och kombinerade perceptuella inverkan på lyssnare. Vi kommer att kontrollera andning, röstkvalitet, prosody och tvekningar i vår TTS, för att studera deras effekt på lyssnarnas uppfattning av talaren, minne och kognitiva belastning mätt med multimodala sensorer. Slutligen avser vi att jämföra och kontrastera effekterna av dessa variationer i offentligt tal mellan svenska och engelska, och för att möjliggöra detta kommer vi att skapa det första talsyntesen byggd från svenskt spontant tal.
Slutredovisning
Projektets huvudmål
Projektet CAPTivating (Comparative Analysis of Public Speaking with Text-to-Speech) har haft som övergripande syfte att etablera och empiriskt validera en forskningsmetodologi där kontrollerbar neural text-till-tal-syntes (TTS), tränad på spontant tal, används som experimentellt verktyg inom lingvistik och fonetik. Projektets fokus har varit att undersöka vilka perceptuella konsekvenser en talares sätt att prata har, speciellt när det gäller offentligt tal. Detta inkluderar prosodisk och artikulatorisk variation samt fenomen typiska för spontant tal, såsom upprepningar, fyllda pauser (”uh/um”), och andra pausinterna partiklar. Projektet har genomförts i enlighet med den ursprungliga projektplanen. En tidsmässig justering uppstod till följd av projektledarens föräldraledighet under perioden augusti 2021 till juni 2022, vilket medförde viss fördröjning av planerade aktiviteter men inte påverkade projektets vetenskapliga inriktning, målsättningar eller omfattning.

Projektets genomförande
Inom projektet har neural TTS för spontant tal använts för att generera kontrollerade talstimuli avsedda för perceptionsbaserade lyssningsexperiment. Denna metod kombinerar ekologisk validitet (tal­mönstren är baserade på spontana taldatabaser) med experimentell kontroll. Detta möjliggör systematisk manipulation av utvalda akustisk-prosodiska och spontan­talsrelaterade variabler samtidigt som det språkliga innehållet hålls konstant. Perceptionsstudierna har genomförts i online-miljö, vilket gjort det möjligt att kvantifiera hur specifika sätt att tala påverkar lyssnares bedömningar av talarens attityd och sociala ställning. Under projektets senare fas har tillgången till stora språkmodeller även möjliggjort generering av kontrollerade textuella varianter baserade på naturligt förekommande exempel. Detta har minskat beroendet av korpusfrekvens vid studier av sällsynta fenomen och möjliggjort en mer systematisk och replikerbar design av experimentella stimuli.

Projektets tre viktigaste resultat
1) Disfluens och prosodiskt framförande formar gemensamt upplevd säkerhet och kompetens.
En serie studier visade att disfluensegenskaper och prosodiska parametrar samverkar på ett systematiskt sätt i lyssnares bedömningar av talare. Särskilt framträdande är den additiva effekten av fyllda pausers placering, taltempo och medel-f0 på upplevd säkerhet, där fyllda pauser som inte var initiala utgjorde en särskilt stark faktor. Vidare visar analyser att falska starter och det totala antalet disfluenser påverkar upplevd talarkompetens negativt, medan upprepningar gav upphov till olika grad av negativ effekt beroende på vad som upprepades. Sammantaget indikerar resultaten att disfluensens perceptuella inverkan är differentierad och beroende av både disfluensens typ och dess samspel med prosodin. Dessa slutsatser har relevans för såväl utbildning i offentligt tal som utveckling av mer naturligt klingande syntetiska röster.

(2) Kontrollerad prosodisk variation påverkar pragmatisk tolkning och beteendemässig intention.
Genom att använda TTS med prosodikontroll för spontant tal har projektet visat att naturliga variationer i taltempo och röststyrka påverkar både upplevd artighet och lyssnares benägenhet att följa en indirekta förfrågan. Resultaten visar att högre taltempo och ökad röststyrka ökar sannolikheten för efterlevnad, samt att dessa effekter varierar beroende på talare. Detta visar att den prosodiska realiseringen inte bara påverkar hur en talare uppfattas i termer av säkerhet och kompetens, utan även har direkt betydelse för pragmatiska tolkning av det som sägs, vilket är av största vikt vid publikriktad kommunikation.

3. Datadriven identifiering av prosodiska mönster möjliggör experimentell analys av subtila pragmatiska funktioner.
Projektet har visat att prosodisk variation hos diskursmarkörer kan påverka upplevd betydelse även när det lexikala sammanhanget hålls konstant. En datadriven metod utvecklades för att identifiera återkommande prosodiska mönster hos diskursmarkören ”well” i oannoterade naturliga data. Metoden bestod av en klustringsanalys för att hitta representativa prosodiska realisationer, som sedan kunde realiseras med hjälp av vår TTS med prosodikontroll. Perceptuella utvärderingar visar att prosodiska egenskaper, såsom duration och f0-kontur, systematiskt påverkar hur lyssnare upplever hur väl en talare håller med det som sades innan. Resultaten stöder slutsatsen att neural TTS för spontant tal kan användas för att isolera och experimentellt undersöka subtila pragmatiska signaler som är svåra att studera med traditionella metoder för stimulusframställning.

Nya forskningsfrågor
Projektet har genererat nya forskningsfrågor inom de huvudsakliga områden. För det första indikerar resultaten att de perceptuella och pragmatiska effekterna av framförandekännetecken är beroende av variation mellan talare, inklusive faktorer kopplade till uppfattad talaridentitet. Detta motiverar vidare studier av hur prosodiska och spontantalsrelaterade kontroller generaliserar över talare samt hur uppfattning av identitet samspelar vid lyssnares bedömningar. För det andra aktualiserar resultaten frågor om hur prosodiska ledtrådar samverkar med sekventiell och kontextuell information vid pragmatisk inferens, samt hur sådana funktioner bör modelleras i kontrollerbara syntessystem. För det tredje väcker en av våra positionsartiklar frågan om huruvida den ökande förekomsten av syntetiska röster på sikt kan påverka mänskliga talstilar genom mekanismer för anpassning och entrainment, med potentiella socioindexikala och etiska konsekvenser.

Spridning av resultat och samverkan
Projektets resultat har huvudsakligen spridits genom internationella, sakkunniggranskade konferenser inom talteknologi, lingvistik och fonetik, med publikationer i öppet tillgängliga kanaler. Projektet har innefattat samarbeten inom institutionen med doktorander och forskare verksamma inom neural TTS, samt internationella samarbeten, däribland med professor Bernd Möbius’ forskargrupp i Saarbrücken och med Dr. Ilaria Torre, vilket resulterat i gemensamma publikationer. Projektet bidrar till den bredare forskarsamhället genom att tillhandahålla empiriskt underbyggd kunskap om vilka kontrollerbara dimensioner i neural TTS för spontant tal som är perceptuellt och pragmatiskt relevanta, med betydelse för såväl grundforskning som tillämpad utveckling av framtida talteknologier.
Bidragsförvaltare
KTH
Diarienummer
P20-0298
Summa
SEK 4 352 000
Stödform
RJ Projekt
Ämne
Språkstudier
År
2020