Språket bortom orden

2014-01-13

– Det övergripande målet är att lära sig så mycket som möjligt om hur ett samtal mellan människor fungerar. Om vi lyckas skapa en modell där människor faktiskt interagerar på samma vis med en artificiell samtalspartner som mot en människa har vi lyckats fånga vad som är typiskt för mänskligt tal, säger Mattias Heldner.

Prosodi kan enkelt beskrivas som språkets ton. Hit räknas språkets melodiska aspekter, som röstens grundton, dess rytm eller tempo (hastighetsförändringar), samt om man talar starkt eller svagt. Även ”knarr” i rösten som markerar att man nästan talat färdigt kan räknas hit.  

Tillsammans bygger dessa prosodiska element upp de signaler eller mönster som kännetecknar ett samtal. I samtalet är prosodin viktig för att markera vem som ska prata när, men även för att bjuda in till ställen i samtalet där det är lämpligt att humma.

Forskargruppen, som också består av Jens Edlund, Anna Hjalmarsson och Kornel Laskowski, använder inspelade samtal men struntar i innehållet och lyssnar bara på hur talet låter, samtalets prosodiska egenskaper. Det inspelade materialet kommer från SPONTAL (en databas med inspelade spontana samtal). Till institutionens studio i källaren bjöds kolleger och bekantas bekanta in och väl där parades folk ihop två och två. Instruktionerna var att tala om precis vad som helst under en halvtimme, men att säga till om det var någon del av samtalet som man inte ville skulle sparas. Deltagarna fick två biobiljetter var för besväret och sammanlagt spelades 60 timmars samtal in.

Materialet analyseras med hjälp av VAD, voice activity detection, som på en millisekundskala mäter när det är tal och när det är tyst. Här delas också det inspelade ljuden in i om det är man själv, annan, ingen eller båda som talar. Dessa sekvenser analyseras sedan och exempelvis vittnar sekvensen ”själv – ingen – annan” om att det har skett ett talarskifte. Det går också att se vem som har lett samtalet (då är det långa sekvenser av tal i den ena kanalen och korta i den andra). Mönstret i ett tvåpartssamtal visar sig se helt annorlunda ut jämfört med exempelvis ett föredrag eller en predikan, där det är betydligt mindre interaktion mellan deltagarna.

Gruppen samarbetar även internationellt och tillbringade tre veckor i New York vid Columbia University för att tillsammans med datorvetaren Julia Hirschberg analysera hummanden. Dessa signalerar att man låter den andra parten prata vidare, eller att man håller med.  

I studien ville de undersöka hur hummandena ser ut. Till sin karaktär är dessa ljud försynta, litet tysta och korta. Arbetshypotesen var att de kanske även var försynta i den bemärkelsen att de inte ska avvika alltför mycket från det som sades innan – att de inte skulle utgöra så mycket kontrast utan istället likna det föregående talets tonhöjd. Det visade sig vara på detta vis och resultaten presenterades i september i Japan på fältets största konferens – Interspeech.

Den 1 juli tillträder Mattias Heldner en professur i fonetik vid Institutionen för lingvistik vid Stockholms universitet. Här planerar han att låta en doktorand undersöka materialet från SPONTAL med avseende på hur ofta människor i ett samtal hummar, nickar eller blinkar.  

– Det skulle ge en ännu bättre beskrivning av hur dessa små markörer påverkar samtalets flöde, säger Mattias Heldner.

Mer om Mattias Heldner forskning kan man läsa på projektets hemsida där resultaten presenteras kontinuerligt