Göteborgkorpusen för talspråk

The aim of this dissertation is to contribute with knowledge about how speech communities are formed and maintained in Swedish preschools when minority language children participate. The dissertati ...

NyS Titel: Göteborgskorpusen för talspråk Forfatter: Jens Allwood, Leif Grönqvist, Elisabeth Ahlsén og Magnus Gunnarsson Kilde: NyS – Nydanske Sprogstudier 30. Korpuslingvistik, 2002, s. 39-58 Udgivet af: Akademisk Forlag A/S URL: www.nys.dk © NyS og artiklens forfattere Betingelser for brug af denne artikel Denne artikel er omfattet af ophavsretsloven, og der må citeres fra den. Følgende betingelser skal dog være opfyldt: • • • Citatet skal være i overensstemmelse med „god skik“ Der må kun citeres „i det omfang, som betinges af formålet“ Ophavsmanden til teksten skal krediteres, og kilden skal angives, jf. ovenstående bibliografiske oplysninger. Søgbarhed Artiklerne i de ældre NyS-numre (NyS 1-36) er skannet og OCR-behandlet. OCR står for ’optical character recognition’ og kan ved tegngenkendelse konvertere et billede til tekst. Dermed kan man søge i teksten. Imidlertid kan der opstå fejl i tegngenkendelsen, og når man søger på fx navne, skal man være forberedt på at søgningen ikke er 100 % pålidelig. Goteborgskorpusen for talspråk (The Gateborg Spoken Language Corpus, GSLC) JENS ALLWOOD, LEIF GRONQVIST, ELISABETH AHLSEN OG MAGNUS GUNNARSSON l. INLEDNING Denna uppsats innehåller en beskrivning av talspråkskorpusen (GSLC) vid institutionen for lingvistik, Gateborgs universitet, samt en sammanfattning av de olikatyper av analys och verktyg som har utvecklats for arbete med denna korpus. Arbete på korpusen inleddes under sent 1970tal (det finns dock aven material från 1960-talet) och har inkrementellt byggts på sedan dess. Idag innehåller korpusen ca. 1,3 millioner ord från omkring 25 olika sociala verksamheter. Korpusen har byggts upp for att tillgodose det vaxande intresset inom lingvistik for naturalistiska talspråksdata. En utgångspunkt ar har att talspråk i stor utstrackning varierar i olika sociala verksamheter med avseende på uttal, ordforråd, grammatik ochkommunikativa funktioner. Målsattningen for korpusen ar att inkluderatalspråk från så många typer av social verksamhet som mojligt for att få en mera fullstandig forståelse av den roll språk och kommunikation spelar i manskligt socialt liv. Denna typ av talspråkskorpus ar fortfarande relativt unik, t.o.m. for engelska, eftersom många talspråkskorpora har insamlats for speciella syften såsom taligenkanning, fonetik, dialektal variation eller interaktion med ett datorst6tt dialogsystem. Oftast kommer också inspelningarna från en mycket begransad verksamhet eller doman, se t.ex. Edinburgh Map Task (Isard och Carletta (1995), TRAINS (Heeman och Allen (1994), Waxholm, Blomberg m.fl. (1993) Jamfort med engelska korpora liknar Goteborgskorpusen kanske mest den nya zeelandska Wellington Corpus o f Spoken New Zealand English (Holmes, Vine och Johnson 1998), men den har också gemensaroma drag med BNC (British National Corpus) och London/Lund-korpusen (Svartvik 1990). Likheter finns också med den danska BySoc-korpusen 39 (Gregersen 1991, Henrichsen 1997). Nar det galler inspelningar baseras korpusen tiliSOo/o på audio- och tiliSOo/o på videoinspelningar av naturalistiskt forekommande interaktion. Inspelningarna har transkriberats enligt en transkriptionsstandard, GTS 6.2 (Nivre 1999b), (den har testats på kinesiska, arabiska, engelska, spanska, bulgariska och finska) och en språkspecifik del som galler svenska- Modifierad Standard-Ortografi, MSO, f.n. version 6 (Nivre 1999a). Båda delarna har gått igenom 6 stora revisioner och flera mindre. For att forbattra reliabiliteten kantrolleras alla transkriptioner av en person u tover transkriptoren. De kantrolleras också automatiskt så att deras format blir korrekt innan de inkluderas i korpusen. I MSO anvands standardortografi om det inte finns flera konventionella talspråksvarianter av ett ord. Nar det finns flera varianter hålls de isar grafiskt. Åven om målet ar att hålla transkriptionerna enkla, innehåller standarden talspråksdrag såsom kontrastiv betoning, overlapp och pauser. Den innehåller också procedurer for att anonymisera transkriptioner och for att introducera kommentarer gallande delar av transkriptionen. Parallelit med att korpusen insamlats och transkriberats har kontinuerligt olika daterbaserad verktyg utvecklats for att underlatta arbetet med korpusen. Dessa beskrivs korfattat nedan. Genom att anvanda korpusen och dessa verktyg har vi kunnat gora olika typer av kvalitativ och kvantitativ analys, ett exempel på detta ar en bok med jamforelser av frekvenser for svenskt tal- och skriftspråk (Allwood 1998). Boken innehåller ordfrekvenser både for ord skrivna i MSO-format och skrivna i standardortografiskt format. Den innehåller vidare statistik gallande ordklasser i tal och skrift, grundade på en automatisk probabilistisk taggning som ger 97% korrekt klassifikation. Korpusen har inte bara bearbetats automatiskt utan har också anvants for olika typer av manuell kodning, t.ex. "kommunikationsreglering" (innefattande tvekljud, talandringar, återkoppling och turtagande), talakter, åtaganden, missforstånd etc. (Allwood 2001). Korpusen kan också utnyttjas for andra typer av kvalitativ analys, t. ex. for CA-relaterad sekventiell analys. Inspelningarna i korpusen digitaliseras kontinuerligt på digitala band eller CD med mpeg-kompression. Varje CD innehåller både transkriptioner och inspelningar. 40 NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK .. 2. GSLC OCH ANDRA KORPORA I GOTBBORG Talspråkskorpora vid institutionen for lingvistik vid Goteborgs universitet innehåller forutom GSLC flera andra typer av korpora, se tabell l nedan. Dessutom arbetar vi också med talspråkskorpora som insamlats av andra forskargrupper. TABEL 1. Talspråkskorpora vid <Wteborgs universitet, institutionen tOr lingvistik • Giiteborgskorpusen fiir talspråk- GSLC (karnkorpusen -- vuxna fiirstaspråkstalare av svenska), 1,3 millionerord • Talare med afasi · Barnspråkskorpus (svenska och andra nordiska språk), O, 75 millioner ord inkluderande vuxna deltagare · Utbildningsprocess, 416 longitudinella intervjuer, 2 millioner ord · Talspråkskorpora med icke-svenska vuxna - Kinesiska (70 000 ord) - Bulgariska (25 000 ord) -Arabiska - Engelska (10 000 ord)+ BNC - Finska - ltalienska (3 000 ord) - Norska (140 000 ord) - Spanska • Wizard-of-Qz och Bionisk korpus • lnterkulturell kommunikationskorpus Det ar klirnkorpusen (GSLC) vi kommer att fokusera på i denna artikel. I tabell 2 nedan presenterar vi några data om denna korpus. Som nlirnnts ovan lir korpusen baserad på sociala verksamheter snarare ån på t. ex. dialekter eller kategoriseringar av talare som socialklass eller kon. Broellertid kan omgrupperingar eller urval från korpusen goras på basis av sådana kriterier. De begrånsningar som finns for våra mojligheter att skapa subkorpora år beroende av att vi inte alltid har den information som skulle behovas om individuella talare. 41 TABEL2 Typ av social verksamhet Antal inspel- Genomtsniltlig ningar Antal OrdfiireHiirbara sektioner* kornster (in ordforeantal talare klusive pau- kornster ser och kommentarer) Duration** Auktion 2 6,0 111 26 776 26 459 3:14:11 Bussfiirare/ 1 33,0 20 1 360 1 345 0:13:33 16 3,0 239 34 865 34 285 2:44:25 6 5,0 79 33 401 33 261 3:58:33 5 8,0 30 30 738 30 001 2:49:54 34 5,8 255 240 426 237 583 17:19:24 passagerare Konsultation Rattegång Middag Diskussion Fabrik Formelit mote 5 7.4 48 29 024 28 860 2:19:47 13 9.7 186 219 352 215 582 15:45:54 9 19,2 183 18 950 18137 6:47:50 lnformellt samtal 22 4.4 152 94 490 93 436 7:48:41 Informationsservice 32 2,1 40 14 700 14 614 0:13:40 lntervju 58 2,9 1 031 396 758 393 907 30:34:27 Hoteli Foreliisning 2 3,5 3 14 682 14 667 1:38:00 Marknad 4 24,2 38 12 581 12 175 2:18:37 Hiigmassa 2 3,5 10 10 273 10 234 1:10:45 Återbreattande 7 2,0 7 5 331 5 290 0:42:00 2 2,5 7 5 702 5 652 0:39:16 49 7.4 139 36 385 34 976 6:40:46 26 2,3 46 15 475 15 347 2:05:20 2 7,0 8 13 841 13 529 2:04:07 Massa 16 2,1 16 14 353 14116 1:12:46 Resebyrå 40 2.7 112 40 370 40129 5:53:57 353 4,9 2 762 1310284 av artikel Rollspel Affar Uppgiftscentrerad dialog Terapi Totalt 1 204 029 118:15:53 * En sektion ar en ]angre fas av en verksamhet med ett distinktivt underordnat syfte. Bussfiirar-/pas- sagerarinspelningarna har t.ex. 30 sektioner dar varje sektion innehåller tal med en ny passagerare. ** For vissa inspelningar saknas uppgift om duration. Vi uppskattar att siffran ovan understiger den faktiska durationen med ungefår 30 timmar. 42 NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK 3. LAGRING Omkring 50% av de 1,3 millioner Ordforekomsterna ar lagrade på audioband och resten finns på videoband (Umatic, VHS eller BetaCAM). For att kunna hevara inspelningarna, håller vi på att digitalisera dem genom att kopiera dem till digitala band. Ett mini-DV-band rymmer 60 minuter eller ett DVCam-band 180 minuter. Detta format kraver en snabb dator. Vid Mpeg-kompression har vi forsokt att anvanda en konstant datahastighet på omkring 200 Kb per sekund. Dettager en bra kvalitet och formatet kan anvandas på de tlesta PC/Mac-maskiner. 4. BESKRIVNING AV KORPUSENS TRANSKRIPTIONSSTANDARD Transkriptionsstandarden (GTS + MSO) vi har anvant kan kanske lattast forkiaras genom ett exempel. EXEMPEL l. Thanskription enligt GTS + MSO § 1. Small talk $D: sager du de{t} a{r} de{t} a{r} de{t} så besvarlit då $P: ja ja $D: m11 ha l de{t} kan ju bl i så se{ r} du $P: @ $D: $P: $D: $D: <jaha > <ingressive> du ta{r} den på morrenen nej inte på MORRONEN kan ja{g} ju tar allti en promenad på formiddan [1 åO ]1 då vill ja{g} inte ha [2 den )2 medicinen åO sen na ja{g} kommer hem majligtvis [1 Q}a ]1 [2 na 12 Exemplet visar foljande egenskaper hos transkriptionsstandarden: (i) Sektionsgranser markeras med paragrafrecken (§) och delar upp en verksamhet i subaktiviteter. En lakar-patient-konsultation kan t.ex. ha foljande subaktiviteter: (i) halsning och introduktion, (ii) anledning tin besoket, (iii) undersokning, (iv) diagnos, (v) forslagtillbehandling 43 (ii) Ord och mellanrum mellan orden (iii) Dollartecken ($) foljt av stor bodstav, foljd av kolon(:) anvånds for att indikera ny talare och ett nytt yttrande. (iv) Dubbla snedstreck (li) anvånds for att indikera pauser. Snedstreck l, li eller III anvånds for att indikera pauser av olika långd. (v) Stora bokståver anvånds for att indikera kontrastiv betoning. (vi) Ordindex anvånds for att indikera vilket skriftspråksord som motsvarar den talspråksform som anges i transkriptionen. (åO) motsvarar skriftspråkets och. I de fall då talspråksvarianterna kan ses som forkortade former av skriftspråk, anvånder vi krullparenteser ({ }) for att visa vad den standardortografiska formen skulle vara, t.ex. de{ t}. (vii) Overlapp indikeras med hakparenteser ([ ]) med index, vilket tillåter disambiguering om flera talare overlappar samtidigt. (viii) Kommentarer kan skrivas in genom att anvånda vinkelparenteser ( < >) for att markera råckvidden på kommentaren i transkriptionen och (@< >) for att skriva in den aktuella kommentaren. Kommentarer kan t.ex. galla håndelser som år viktiga for interaktionen eller sådana fenomen som rostkvalitet och gester. 5. VERKTYG SOM HAR UTVECKLATS Under den tid som korpusen har insamlats och transkriberats har många verktyg for att arbeta med korpusen utvecklats. Foljande år fortfarande aktuella. 5.1. TRANSTOOL TransTool (Nivre m.fl. 1998) år ett datorverktyg for att transkribera talspråk i enlighet med transkriptionsstandarden (Nivre 1999a,b). Det hjål- 44 NYS 30 • GOTEBORGKORPUSBN FOR TALSPRÅK per den anvandare att transkribera korrekt och go r det lattare att hålla reda på index for overlapp och kommentarer (se Nivre et al1998). 5.2 KORPUS-BROWSERN Korpusbmwsem ar ett verktyg som gor det mojligt att via internet soka på ord, ordkombinationer och fraser (som reguljara uttryck) i Goteborgskorpusen for talspråk. Resuhaten kan presenteras som konkordanser eller listor av uttryck med så mycket kontext man vill ha och med direkta lankar till transkriptionen. 5.3 TRACTOR TRACTOR ar ett kodningsverktyg som go r det mojligt att skapa nya kodningsscheman och att koda transkriptioner. De segment i transkriptionen som kodas kan vara kontinuerliga eller diskontinuerliga och det ar aven mojligt att koda relationer. Ett kodningsschema kan representeras som ett trad med strangar på allanoder och lov och ett kodningsvarde ar en "stig" genom tradet. Modellen liknar fil- och mappstrukturen på en datorhårddisk. Denna struktur gor det lattare att analysera kodningarna i ett prologsystem, men det ar in te mojligt att ordna koderna eller att koda en kodning, eftersom en kod alltid består enbart av två diskontinuerliga intervall och ett kodat varde (Larsson 1997). 5.4 VISUALISERING AV KODER MED FRAMEMAKER Vi har också skapat en verktygslåda som gor det mojligt att visualisera kodningsscheman och kodade varden med fårg, fetstil, kursiv stil etc. direkt i transkriptionerna som ett FrameMaker-dokument. Olika delar av transkriptionen kan också markeras (eller uteslutas!) for att få en overskådlig bild utan de detaljer man kanske inte for tillfillet ar intresserad av (Gronqvist 1999). 5.5 TRASA Om man har en korpus som ar transkriberad enligt Gt>teborgsstandarden for transkription kan man genom att anvanda TraSA (Gronqvist 2000b) 45 relativt enkelt erhålla ett 30-tal statistiska mått for olika egenskaper, verksamheter, sektioner eller talare. Man kan t. ex. rakna antal ordforekomster, ordtyper, yttranden eller mer komplexa mått som ordrikedom. 5.6 SYNCTOOL SyncTool (Nivre m.fl. 1998) iir en prototyp for MultiTool nedan, som mojliggor synkronisering av transkriptioner med digitaliserade audiooch videoinspelningar. Den iir också avsedd att vara ett "vyverktyg" som tillåter anviindaren att se transkriptionen och att spela upp det relaterade inspelade materialet, utan att behova manuellt lokalisera de aktuella passagen i inspelningen. 5.7 ARBETE PÅ ETT SYNKRONISERINGSVERKTYG- MULTITOOL Många av de ovan beskrivna verktygen skulle vara mer anviindbara om man kunde utnyttja de olika funktionernasimultant i ett verktyg. MultiTool iir ett forsok att bygga ett sådant verktyg for transkription och kodning av talspråk, liksom for "browsing", sokning och rakning. Systemet kan hantera ett godtyckligt antal talare, overlappande tal, hierarkiska kodningsscheman, diskontinuerliga kodningsintervall, relationer och synkronisering mellan kodningar och mediafiler (Gronqvist 2000a). Den grundliiggande iden iir att samla all information i ett internt tillstånd som iir en lågnivå-representation av alla typer av annotering (kodning), inklusive transkription. Tillståndet innehåller de abstrakta objekten kodning och synkroniseringar. Detta iir de typer av grundliiggande information datorpmgrammet behover. For anviindare som utnyttjar audio- och videoinspelningarna i korpusen iir transkriptionerna enbart en kodning av inspelningarna. En viktig detalj iir att alla vyer (t.ex "partitur" eller andra vyer av transkriptionen, vyer av kodningar och akustisk analys, liksom iiven videofiler) som iir kopplade till samma tidpunkt kan synkroniseras for att visa samma sekvens från olika perspektiv narhelst en anviindare utnyttjar en av dem. Det interna tillståndet innehåller all information, så det iir mojligt att ha flera olika vyer på samma sekvens i en dialog. Foriindringar av något i en vy kommer ornedelbart att foriindra det inre tillståndet och som en konsekvens hiirav de andra vyerna. NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK MultiTool ar skrivet i JAVA+ JMF, vilket gor programmet forhållandevis plattformsoberoende och eftersom interpretatorerna snabbt blir m er effektiva, kommer troligen prestanda att bli tillrackligt bra på alla viktiga plattformar inom den narmaste framtiden. En ny egenskap vi håller på att lagga till ar import- och exportformat for våra lokala transkriptionsformat, TRACTOR-filer och troligen också for CA- transkriptioner (CA = Conversation Analys is). Vår ambition ar att de nya versionerna av MultiTool i framtiden for många anvandare kommer att ersatta de olika verktygen vi har beskrivit ovan. Emellertid kommer TraSA och Korpusbmwsem fortfarande att behovas nar man arbetar på storadelarav korpusen samtidigt. Med adekvata import/exportfunktioner kommer olika anvandare att kunna anvanda sina egna transkriptions- och kodningsformat i MultiTool. På så satt hoppas vi att MultiTool kommer att utgora en god basnivåfor analys av mutlimodala talspråkskorpora: transkription, annotering/kodning, konversion, soklning, rakning, "browsing" och visualisering. For anvandare med andra intressen finns dock battre verktyg, som t.ex. Waves for fonetiker och MediaTagger for enklare kodningar av audio/videofiler. 6. TYPER AV KVANTITATIV ANALYS På grundval av den information som ges av transkriptioner enligt Goteborgsstandarden har vi definierat en uppsattning egenskaper som kan hadedas automatisktur transkriptionerna. Några av dessa egenskaper ar foljande (seAllwood och Hagman 1994, Allwood 1996): (i) Volym: Volym omfattar mått som antal ord, ordlangd, pauser, betoning, yttranden och turer relativt talare, verksamhet och subaktivitet. (ii) Kvoter: Ifrån volymmåtten kan sedan olika kvoter raknas fram. T. ex.: MLU = ord l yttrande o/o pauser= 100 x pauser l (ord+ pauser) o/o betoning= 100 x betonade ord l ord o/o overlapp = 100 x overlappade ord l ord hastighet = ord l duration 47 Alternativt kan pauser, betoning och overlapp heraknas per yttrande. Alla dessa kvoter kan sedan relateras till talare, verksamhet eller subaktivitet (sektion). (iii) Specieila deskriptorer: Ett exempel på en "speciell deskriptor" ar "ordrikedom", som kan matas genom ordforekomst l ordtyp. Guiraud, iiber, Herdan eller "teoretisk vokabular", cf. Van Hout och Rietveld ( 1993 ). Andra deskriptorer som vi har konstruerat ar "stereotypiskhet, som raknar ut h ur ofta ord och fraser upprepas i en verksamhet, "verbal dominans" och verbal jarnlikhet", "livlighet" och "forsiktighet" samt "overlapp" i olika yttrandepositioner. (iv) Lemma: Vi har också implementerat en enkel "stam"-algoritm som go r det mojligt for oss att gruppera regelbundet boj da former med sin ordstam. (v) Ordklasser: Orden i korpusen kan tilidelas ordklasser genom att anvanda en sannolikhetsbaserad statistisk (Viterbi-trigram) ordklasstaggare som har anpassats till talspråk. Genomatt anvanda denna har ordklasstaggning gjorts for hela GSLC ( ungefår 1,3 millioner transkriberade ord). Korrektheten ar ungefår 97o/o (cf. N ivre och Gronqvist 200 1). Ord som taggats for ordklass kan sedan tilidelas talare, verksamhet och subaktivitet. (vi) Kollokationer: Alla talare, verksamheter och subaktiviteter kan beskrivas med avseende på vilka kollokationer som forekommer. Dessa kan sorteras efter frekvens, efter forekomst som fullstandiga yttranden eller efter "mutual information" (Manning och Schiitze 1999). (vii) Frekvenslistor: Frekvenslistor kan gora for ord, lemman, ordklasser, kollokationer och yttrandetyper. (viii) Sekvenser av ordklasser: Yttranden av olika langd kan beskrivas med avseende på vilka ordklassekvenser de innehåller. Detta tillåter en forsta analys av grammatiska skilinader mellan talare, verksamheter och subaktiviteter. NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK - - - - - - - ----------- ---- ----------- • (ix) Likheter: Likheter mellan verksamheter kan fångas genom att analysera i hur stor utstrackning ord och kollokationer delas mellan verksamheter. Validitets- och reliabilitetskontroll gors manuellt av alla automatiska mått. 7. TYPER AV KVALITATIV ANALYS 7.1 OVERSIKT For att oka reliabiliteten i kodning, har kvalitativ analys i Gateborg ofta resulterat i utvecklandet av kodningsscheman, dvs. scheman for annotation ovanpå transkriptioner. De kodningsscheman som utvecklats i Goteborg kan jamforas med andra scheman och då kan vi se att några av dessaligger ovanpå transkription, t.ex. DAMSL (Core and Allen 1997) and DRI, medan andra ar integrerade med transkriptionsstandarden, t.ex. uppmarkningsramen i MATE (Dybkjaer m.fl. 1998). En rattvis jamforeise mellan de viktigaste, for att inte saga alla scheman ligger utanfor ramarna for denna redogorelse. De kodningsscheman som presenteras nedan reflekterarsåledes de intresseområden Gateborgs-gruppen har fokuserat på. Den underliggande transkriptionsstandarden begransar på ett naturligt satt finkornigheten for alla nya kodningsscheman, men de två kodningsverktyg som utvecklats i Goteborg, MultiTool och TRACTOR, ar avsedda att vara så o beroende av alla individuella kodningsscheman och transkriptionsstandarder som mojligt. Foljande lista ger en oversikt av kodningsscheman från Gateborg (cf. Allwood 2001). Kodning relaterad till: l. Social verksamhet och kommunikativa akter 1.1 1.2 1.3 1.4 Social verksamhet Kommunikativa akter Expressiva och evokativa funktioner Forpliktelser (åtaganden) 49 2. Kodning relaterad till kommunikationsreglering 2.1 Aterkoppling (feedback) 2.2 Tur- och sekvensreglering 2.3 Egen kommunikationsreglering 3. Grammatisk kodning 3.1 Ordklasser (automatisk, probabilistisk) 3.2 Maximala grammatiska enheter 4. Semantisk kodning Kontrollav reliabilitet ar planerad att inkluderas i utvecklingen av alla kodningsscheman. Hittills har sådan kontroll gjortsav kodning for "återkoppling" och "egen kommunikationsreglering" (med hjalp av Cohens kappa). 7.2 BIDRAG, YTTRANDEN OCH TURER I enlighet med Grice (1975), Allwood, Nivre och Ahlsen (1990) och Allwood (2000), antas de grundlaggande enheterna i dialog vara gestuella eller vokala bidrag från deltagarna. Termen bidrag anvands istallet for yttrande, nar vi vill inkludera inte bara muntlig vokal input till kommunikationen utan också gester eller skriftlig input. Verbala bidrag kan bestå av enstaka morfem eller vara flera satser långa. Termen tur anvands for "ratten att bidra" snarare lin for det bidrag som produceras genom anvandande av denna ratt. Man kan "gora ett bidrag" utan att "ha turen" och man kan "ha turen" utan att anvanda den for ett aktivt bidrag. Ett exempel på detta ges nedan, dar B:s forsta bidrag innebar givande av positiv återkoppling utan att ha turen (hakparenteser indikerar overlapp) och B:s andra bidrag innebar att han/hon under sin tur ar tyst och inte gestikulerar. A: titta glass [vill] du ha en glass 81: [ja] 82: (tystnad och ingen handling) Bidrag, yttranden och turer kodas inte eftersom de kan fås direkt ur GTS, den Goteborgska transkriptionsstandarden. 50 NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK ~· 7.3 KODNING RELATERAD TILL SOCIAL VERKSAMHET OCH KOMMUNIKATIVA AKTER 7.3.1 Social verksamhet Varje transkription ar lankad tillen databaspost och ett "huvud" (header) som innehåller information om: (i) Syfte(n), funktion( er) och procedurer i verksamheten (ii) Verksamhetens roller (iii) Artefakterna, dvs. objekt, mobler, instrument och media som utnyttjas i verksamheten (iv) Den sociala och fysiska omgivningen (v) Data om deltagarna (anonymiserade), såsom ålder, kon, dialekt och etnicitet Dessutom anges de viktigaste subaktiviteterna for varje verksamhet. 7.3.2 Kommunikativa akter Varje bidrag kan kodas med hansyn till vilka kommunikativa akter den innehåller simultant eller sekventiellt. De kommunikativa akterna finns på en lista som kan utvidgas. De flesta typer har idag definitioner och operationalisering. Några av de typer som anvands ofta ar foljande: Uppmaning, Påstående, Tvekan, Fråga, Svar, Specifikation, Konfirmation (Bekraftelse), Affirmation (Bekraftelse), Avslutande av interaktion, Avbrott, Slutsats och Erbjudande. 7.3.3 Expressiva och evokativa funktioner I enlighet med Allwood {1976, 1978, 2000) anses varje bidrag ha en expressiv och en evokativ funktion. Dessa funktioner explicitgor några av de funktioner som impliceras av kodningen av kommunikativa akter. Den expressiva funktionen lter sandaren uttrycka trosuppfattningar och 51 andra kognitiva attityder och kanslor. Vad som "uttrycks" består av en kombination av reaktioner på foregående bidrag och nya initiativ. Den evokativa funktionen ar den reaktion sandaren avser att "framkalla" hos lyssnaren. På så satt ar den evokativa funktionen hos ett påstående normalt att "framkalla" samma uppfattning som "uttryckts" i påståendet hos lyssnaren. Den evokativa funktionen hos en fråga ar att framkalla ett svar, medan den evokativa funktionen hos en uppmaning ar att framkalla en onskad handling. 7.3.4 Forpliktelser (åtaganden) Om dialog och kommunikation skall fungera på eu kooperativt sau, oavseu om dettasker sommedel for en annan verksamhet eller ej, nodvandiggors vissa forpliktelser och åtaganden for både talare (sandare) och lyssnare (moUagare). Med avseende på både expressiva och evokativa funktioner, bor sandaren ta hansyn tillmouagarens perceptuella, kognitiva och beteendemassiga formåga och bor inte vilseleda, skada eller onodigtvis inskranka moUagarens frihet. Mouagaren bor tillmotesgå med en vardering av huruvida hon/han kan hora, forstå och utfora det som ges av sandarens evokativa avsikter och signalera deua till sandaren. Sandarens och mouagarens forpliktelser och åtaganden kan summeras på foljande satt (se också Allwood 1994): Sandaren (åtaganden): l. Uppriktighet, 2. Motivation, 3. Hansyn (se Allwood 1976). Mottagaren (forpliktelser): l. Vardering, 2. Rapport, 3. Handling. 7.4 KODNING RELATERAD TILL KOMMUNIKATIONSREGLERING 7.4.1 Inledning Termen "kommunikationsreglering" syftar på de medel som talare kan anviinda for att reglera interaktionen eller sin egen kommunikation. Det finnstre kodningsscheman som ar relaterade till kommunikationsreglermg (se Allwood m.fl. 1999): 52 NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK ~ -~ ------------- l) Kodning av återkoppling 2) Kodning av tur- och sekvensreglering 3) Kodning av egen kommunikationsreglering 7.4.2 Kodningsschema for återkoppling En återkopplingsenhet kan beskrivas som "en maximal kontinuerlig utstrackning av ett yttrande (forekommande sjalvstandigt eller som del av ett langre yttrande), vars primara funktion ar att ge och/eller framkalla återkoppling rorande kontakt, perception, forståelse och acceptans av evokativ funktion" (Allwood 1993). Aila återkopplingsenheter kodas med avseende på "Struktur", "Position/Status", och "Funktion". Att koda struktur betyder att kodagrammatisk kategori (satsdel, fras eller mening) och aven "strukturella operationer". "Strukturella operationer" indelas i "fonologiska", "morfologiska" och kontextuella" operationer, vilka var och en har olika varden. 7.4.3 Kodning av tur- och sekvensreglering Tur- och sekvensreglering omfattar foljan de fenomen: (A) Overlapp och avbrott: Overlapp kodas i transkriptionerna och kan extraheras automatiskt. Avbrott ar en kod for de overlapp som syftar till att eller lyckas byta amne eller ta turen från en annan talare. (B) Avsedd mottagare: Denna typ av kodning har 4 sjalvforklarande varden: (i) en viss deltagare (ii) en viss grupp av deltagare (iii) alla deltagare (iv) ingen annan deltagare (att tala till sig sjalv) 53 -~ ~- (C) Markerande av inledande och avslutande av subaktiviteter och/eller interaktionen som helhet. 7.4.4 Kodningsschema for egen kommunikations-regiering (EKR) EKR betyder "Egen kommunikations-reglering" och står for processer som talare anvander for att reglera sina egna bidrag i kommunikativ interaktion. Att koda EKR-funktion innebar att klassificera om EKR-enheten ar: Val-relaterad- hjålper talaren att vinnatid for processer som beror fortlopande val av innehåll och typer av Strukturella uttryck, eller: Åndrings-relaterad- hjålper n att andra innehåll, struktur eller uttryck som redan producerats. EKR-enheter kodas också med avseende på det EKR-relaterade uttryckets struktur. Denna struktur kan indelas i "grundlaggande EKR-drag", "grundlaggande EKR-operationer" och "komplexa EKR-operationer". Pauser, enkla EKR-uttryck som tvekljud etc. och explicita EKR-fraser raknas som grundllaggande EKR-drag. Grundlaggande EKR-operationer ar: "forlangning av kontinuanter", "sjålv-avbrott" och "sjålvupprepning". Kategorin "komplexa EKR-operationer" står for olika satt att modifiera den språkliga strukturen. EKR-kodningsschemat beskrivs i Allwood m.fl. (1997). 7.5 GRAMMATISK KODNING Det finns också mojligheter att koda grammatisk struktur. En av dessa ar den ovannamnda automatiska ordklasstaggningen. En annanar kodning av "maximala grammatiska enheter"- ett kodningsschema som finns beskrivet i Allwood (2001). Nar mankodat "maximala grammatiska enheterd" bor man i forsta hand forsoka hitta såstora enheter som mojligt, den storsta enheten ar harvidlag "fullstandiga satser". Satser kan subklassificeras genom att anvanda schemat "satser". I talspråk finnsdet många yttranden som inte ar satser, så i andra hand bor man forsoka hitta "fullstandiga fraser". Dessa borkodasmed schemat "fraser". Om det inte ar mojligt att finna vare sig fullstandiga satser eller fullstandiga fraser, kodas 54 NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK enskilda ord med schemat "ordklasser". Vart och ett av de tre namnda schemana innehåller flera underkatego rier. 8. SLUTSATSER OCH FRAMTIDA ARBETE I denna uppsats har vi beskrivit en del av det arbete som gjorts vid institutionen for lingvistik vid Gateborgs universitet for att samla, transkribera och lagra talspråksmaterial. Vi har också beskrivit några av de verktyg som har utvecklats for att underlagga arbetet med att analysera data, både automatiskt och manuellt. Slutligen har vi beskrivit några av de resultat vi hittilis erhållit. Frarutida arbete kommer att inkludera en inkrementen utvidgning av korpusen både for att få data från nyasocial verksamheter och for att utjamna storleken på inspelat och transkriberat material från olika verksamhetstyper. Vi kommer också att gora flera anstrangningar att gora korpusen mera multimodal genom att gora de audio- och videoinspelningar som transkriptionerna bygger på mera tillgangliga. Arbete på verktyg for att analysera korpusen kommer att fortsatta. Det mest orneddbara målet ar att komplettera MultiTool, vilket forhoppningsvis kommer at ge oss battre mojligheter att arbeta med multimodala data. Parallelit med detta kommer arbete på kvalitativ och kvantitativ analys att fortsatta. Ett ambitiost mål ar att arbeta mot en grammatisk beskrivning av talspråk och mot en systematisk beskrivning (aven om detta kanske inte skall vara en grammatik) av multimodal ansikte-mot-ansikte-kommunikation. Jens Allwood Leif Gronqvist Institutionen for Lingvistik, Institutionen for Lingvistik, Geteborg Universitet Geteborg Universitet email: jens@ling.gu.se email: leifg@ling.gu.se Elisabeth Ahlsen Magnus Gunnarsson Institutionen for Lingvistik, Institutionen for Lingvistik, Geteborg Universitet Geteborg Universitet email: elisa@ling.gu.se email: mgunnar@ling.gu.se 55 LITTERATUR Allwood, J. (1976): Linguistic Communication as Action and Cooperation. Gothenburg Monographs in Linguistics 2. Gateborgs universitet, institutionen for lingvistik. Allwood, J. (1978): On the Analysis of Communicative Action. M. Brenner (red.): The Structure ofAction: 168-191. Oxford: Basil Blackwell. Allwood, J. (1993): Feedback in Second Language Acquisition. C. Perdue (red.): Adult Language Acquisition. Cross Linguistic Perspectives, Vol. II: 37-51. Cambridge: Cambridge University Press. Allwood, J. (1994): Obligations and Options in Dialogue. Think, Vol3, May: 918. ITK, Tilburg University. Allwood, J. (red.) (1996 and later editions): Talspråksfrekvenser, Ny och utvidgad upplaga. Gothenburg Papers in Theoretical Linguistics S21. Gateborgs universitet, institutionen for lingvistik. Allwood, J. (1998): Some Frequency based Differences between Spoken and Written Swedish. T. Haukioja (red.): Proceedings of the 16th Scandinavian Conference of Linguistics: 18-29. Turku University, Department of Linguistics. Allwood, J. (2000): An Activity Based Approach to Pragmatics. H. Bunt, & B. Black (red.): Abduction, Belief and Contextin Dialogue; Studies in Com- putational Pragmatics: 47-80. Amsterdam: John Benjamins. J. (red.) (200 l): Dialog Coding- Function and Grammar: Gateborg Goding Schemas. Gothenburg Papers in Theoretical Linguistics; GPTL 85. Allwood, Gateborgs universitet, institutionen for lingvistik. Allwood, J. & Hagman, J. ( 1994): Some Simple Measures o f Spoken Interaction. F. Gregersen & J. Allwood (red.): Spoken Language, Proceedings of the XIV Conference of Scandinavian Linguistics: 3-22. Allwood, J.,Ahlsen, E., Nivre, J. & Larsson, S. (200 1): Own communication management. Allwood, J. (red.) ( 200 l): Dialog Goding- Function and Gram- mar: Gateborg Coding Schemas: 45-52. Gothenburg Papers in Theoretical Linguistics; GPTL 85. Gateborgs universitet, institutionen for lingvistik. Allwood, J., Nivre, J. & Ahlsen, E. (1990): Speech Management: On the NonWritten Life of Speech. Nordie journal of Linguistics 13: 3-48. Blomberg, M., Carlson, R., Elenius, K., Granstrom, B., Gustafson, J, Hunnicutt, S., Lindell, R. & Neovius, L (1993): An experimental dialogue system: WAXHOLM. Proceedings of EUROSPEECH 93: 1867-1870. NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK Core, M. G. &Allen, J, F. (1997): Coding Dialogs with the DAMSLAnnotation Scheme. Working Notes of AAAI Pall Symposium on Communicative Ac- tion in Humans and Machines. Boston, MA, November 1997. Dybkjær, L., Bernsen, N.O., Dybkjær, H., McKelvie, D. & Mengel, A. ( 1998 ): The MATE Markup Framework. MATE Deliverable Dl.2, November 1998. Gregersen, F. (1991): The Capenhagen Studyin Urban Sociolinguistics 1-11. København: Reitzel. Grice, H.P. ( 1975): Logic and conversation. Syntax and Semantics, Vol. 3: P. Cole & J. L. Morgan (red.): Speech Acts: 41-58. New York: Seminar Press. Gronqvist, L. (1999): Kodningsvisualisering med Framemaker. Gateborgs universitet, institutionen for lingvistik. Gronqvist, L (2000a): The MultiTool User's Manual. A tool for browsing and syn- chronizing transeribed dialogues and corresponding video recordings. Go teborgs universitet, institutionen for lingvistik. Gronqvist, L. (2000b): The TraSA v0.8 Users Manual. A user friend/y graphical tool for au tomatic transcription statistics. Gateborgs universitet, institutionen for lingvistik. Heeman, P.A. & Allen, J.F. (1994): The TRAINS 93 Dialogues. TRAINS Techni- cal Note 94-2. Henrichsen, P.J. (1997): Talesprog med Ansigtsløftning. IAAS, Univ. of Copenhagen, Instrumentalis 10/97. Holmes, J., Vine, B. & Johnson, G. (1998): Guide to the Wellington Corpus of Spaken New Zealand English. Victoria University of Wellington, Wellington. H out, R. v. & Rietveld, T. ( 1993 ): Statistical Techniques for the Study ofLangua- ge and Language Behaviour. Berlin & New York: Mouton de Gruyter. Isard, A. & Carletta, J, (1995): Transaction and action coding in the Map Task Corpus. Research Paper HCRC/RP-65. Larsson, S. (1997): TRACTOR vl.Obl anviindarmanual. Gateborgs universitet, institutionen for lingvistik. Manning, C. D. & Schutze, H. (1999): Faundations ofStatistical Natura[ Lang- uage Processing. Boston, Mass.: The MIT Press. Nivre, J. (1999a): Transcription Standard. Version 6.2. Gateborgs universitet, institutionen for lingvistik. Nivre, J, (1999b): Modifierad StandardOrtografi (MSO) Version 6. Gateborgs universitet, institutionen for lingvistik. 57 Nivre, J., Tullgren, K., Allwood, J., Ahlsen, E., Holm, J., Gronqvist, L., LopezKiisten, D. & Sotkova, S. ( 1998 ): Towards multimodal spoken language corpora: TransTool and SyncTool. Proceedings of ACL-COLING 1998, June 1998. Nivre, J. & Gronqvist, L. (2001): Tagging a corpus ofSpoken Swedish. Interna- tional Journal of Corpus Linguistics. Svartvik, J, (red.) (1990): The London Corpus ofSpoken English: Description and Research. Lund Studies in English 82. Lund University Press. NYS 30 • GOTEBORGKORPUSEN FOR TALSPRÅK

Log In

Göteborgkorpusen för talspråk

Göteborgkorpusen för talspråk

Related Papers

RELATED PAPERS