Orthografische transcriptie

Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografische transcriptie is een woordelijke neerslag van wat er gezegd werd. Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven; achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden in de transcriptie weergegeven.

Hieronder wordt nader ingegaan op de rol van de orthografische transcriptie in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over

doel en motivatie
werkwijze
protocol
bestandstypen en -formaten
overzicht van beschikbare data
woordfrequentielijsten

Doel en motivatie

Het doel van de orthografische transcriptie van de data in het CGN was tweeledig. Ten eerste werd daarmee beoogd gebruikers van het corpus te voorzien van uiterst waardevolle informatie. Door deze zeer eenvoudig symbolische representatie van het audiobestand is het bijvoorbeeld mogelijk eenvoudig door het corpus te navigeren, kunnen frequentietellingen worden gedaan, e.d. Samen met de POS tagging en lemmatisering is het de enige vorm van transcriptie/annotatie die én voor het gehele corpus beschikbaar is én bovendien handmatig geverifieerd is. Ten tweede vormt de orthografische transcriptie het uitgangspunt waarop alle overige transcripties en annotaties zijn gebaseerd.

Gezien het belang van de orthografische transcriptie is er in de beginfase van het project uitgebreid nagedacht over wat de aard van de transcriptie diende te zijn (wat wordt hoe weergegeven) en op welke wijze kwalitatief hoogwaardige transcripties zouden kunnen worden verkregen. De neerslag hiervan is te vinden in het protocol voor orthografische transcriptie. Bij de opstelling van dit protocol werden de volgende uitgangspunten gehanteerd:

de orthografische transcriptie zou moeten aansluiten bij de internationale standaarden waaraan ook andere grote (gesproken) corpora zich houden. De EAGLES richtlijnen en de documentatie van het CHILDES project betreffende orthografische transcriptie zijn van invloed geweest op de specificatie van het CGN-protocol. Ook is gekeken naar de documentatie die beschikbaar was bij diverse grote spraakcorpora (o.a. Switchboard dat verkrijgbaar is via het Linguistic Data Consortium - LDC). Daar waar het CGN-protocol afwijkt van de aanbevelingen/richtlijnen die elders zijn gegeven, wordt dit gemotiveerd.
de orthografische transcriptie zou een minimum aan interpretatie moeten veronderstellen. Dat houdt bijvoorbeeld in dat er geen correctie van grammaticale fouten heeft plaatsgevonden en dat afgebroken woorden als zodanig worden geschreven (en dus niet werden aangevuld). Ook werd zoveel mogelijk aansluiting gezocht bij gangbare spelling conventies (zoals dat tevens wordt aanbevolen in ondermeer de documentatie bij de SpeechDat en Switchboard corpora).
de orthografische transcriptie zou gekoppeld moeten zijn aan het spraaksignaal. Door al tijdens het transcriptieproces om de twee à drie seconden een tijdsmarkering aan te brengen waarbij korte stukjes spraak in het signaal gekoppeld kunnen worden aan de orthografische transcriptie, wordt het mogelijk woorden en/of woordcombinaties in het signaal op te sporen. Bovendien bood het aanduiden van korte segmenten ook voor de transcribent voordeel: in plaats van één lang signaal achter elkaar te transcriberen, kon men een deel van het signaal herhaaldelijk afluisteren tijdens het transcriberen.
de orthografische transcriptie zou bruikbaar moeten zijn voor de diverse gebruikersgroepen waar het CGN zich op richtte: spraak- en taaltechnologen, taalkundigen, lexicologen, fonetici, etc. Ondanks vele discussies met representanten van elk van deze gebruikersgroepen is het niet mogelijk gebleken altijd tot een unaniem besluit te komen voor wat betreft de transcriptiespecificaties en de te volgen procedures.

Terug naar het begin van deze pagina.

Werkwijze

Om het transcriptieproces te vereenvoudigen werd gebruik gemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografische transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar.

Tijdens het transcriptieproces werden in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden zo veel mogelijk geplaatst in de natuurlijke pauzes tussen woorden (merk op: de markeringen vallen niet noodzakelijkwijs samen met syntactische grenzen). In een later stadium werden deze tijdsmarkeringen gebruikt als ankerpunten voor de automatische koppeling van de orthografische transcriptie met de audiofile.

Terug naar het begin van deze pagina.

Protocol

Gegeven de uitgangspunten die hierboven zijn weergegeven en daarbij de beschikbare tijd en middelen, werd een aantal criteria geformuleerd die vervolgens werden vastgelegd en de basis vormden voor het Protocol voor orthografische transcriptie (Goedertier & Goddijn 2000; hier beschikbaar in .ps- en .pdf-formaat). Dit zijn achtereenvolgens

consistentie
accuraatheid
helderheid

Consistentie
De ervaringen opgedaan in een aantal andere projecten (o.a. Switchboard, SpeechDat) hebben laten zien dat het aanbeveling verdient zoveel mogelijk de gangbare spellingconventies aan te houden. Dit blijkt in het algemeen voor de transcribenten eenvoudiger en draagt op die manier bij aan het vergroten van de consistentie. Ook voor de orthografische transcriptie van het CGN werd de conventionele spelling zoveel mogelijk aangehouden om zoveel mogelijk consistent te kunnen zijn. Om diezelfde reden werd op een (klein) aantal punten besloten van de gangbare conventies juist af te wijken. Dit betreft dan met name de interpunctie en het gebruik van hoofd- en kleine letters.

Ten einde de orthografische transcriptie zo consistent mogelijk te laten zijn, werd de spelling van alle woorden tijdens het transcriptieproces on-line gecontroleerd met behulp van een electronische spellingchecker. Als er een vermoedelijke fout werd geconstateerd, werd de transcribent verondersteld het desbetreffende woord te corrigeren of het te markeren met behulp van één van de speciale symbolen die daartoe in het protocol waren vastgelegd. Zo werden in het protocol speciale markeringen voorzien voor nieuwe (d.w.z. tot dan toe niet in het lexicon opgenomen) woorden, maar ook bijvoorbeeld voor afgebroken woorden, dialectwoorden, dialectisch uitgesproken woorden en woorden afkomstig uit een vreemde taal. De gemarkeerde woorden werden door een lexicoloog beoordeeld en desgewenst aan het lexicon toegevoegd.

Accuraatheid
De procedure voor het vervaardigen van orthografische transcripties was erop gericht de accuraatheid van de transcripten zo groot mogelijk te laten zijn. Nadat een transcribent een eerste transcriptie had gemaakt waarbij hetgeen gezegd werd woordelijk werd uitgeschreven en tevens om de twee à drie seconden tijdsmarkeringen werden aangebracht, werd deze transcriptie door een tweede transcribent gecontroleerd. Daarbij werd gecontroleerd of hetgeen gezegd werd volledig en correct werd weergegeven (qua spelling, maar ook voor wat betreft het gebruik van de vereiste speciale markeringen en de toewijzing van spraak aan de juiste spreker(s)). Ook werd gecontroleerd of de tijdsmarkeringen correct waren aangebracht.

De accuraatheid van de orthografische transcripten werd aan een verdere controle onderworpen doordat bij de verdere verwerking van de data waarbij andere transcripties en annotaties werden aangebracht, vermeende onjuistheden steeds werden gerapporteerd. Deze rapportages waren aanleiding om de transcripties op die punten nogmaals te controleren en eventueel bij te stellen.

Helderheid
Er is geprobeerd het aantal regels in het protocol zo gering mogelijk te laten zijn. Dit maakte het voor transcribenten eenvoudiger om ze te onthouden en correct toe te passen. In het protocol zijn niet alleen regels maar ook een groot aantal voorbeelden opgenomen. Bij het ontwikkelen van het protocollen werden de ervaringen van transcribenten meegenomen. Het resultaat is een protocol dat praktisch werkbaar is gebleken.

Literatuurverwijzingen

Gibbon, D., R. Moore & R. Winski. 1997. Handbook of Standards and Resources for Spoken Language Systems. The Hague: Mouton.
MacWhinney, B. 1999. The CHILDES Project: Tools for Analyzing Talk (2nd ed.) Hillsdale: Lawrence Erlbaum Associates.
Switchboard: A User's Manual. LDC. 1994. http://www.ldc.upenn.edu/readme_files/switchboard.readme.html
Senia, F. & J. Van Velden. 1997. Specification of Orthographic Transcription and Lexicon Conventions. SpeechDat technical report. SD1.3.3. http://www.speechdat/org/SpeechDat.html, deliverables.
Verbmobil. http://www.phonetik.uni-muenchen.de/Verbmobil.html

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De orthografische transcripties zijn beschikbaar in twee formaten:

het (short) TextGrid-formaat zoals dat door het programma PRAAT wordt gegenereerd en ook weer kan worden ingelezen;
XML-formaat. De orthograische transcriptie en de sprekerinformatie (spreker ID's) zijn opgeslagen in bestanden van het type .pri, terwijl de tijdsinformatie is opgeslagen in bestanden van het type .skp.

Voor een gedetailleerde beschrijving van bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het ort-formaat, het pri-formaat en het skp-formaat.

Bestanden in het TextGrid-formaat zijn van het type .ort. Deze bestanden zijn te vinden in de directory /data/annot/text/ort/ van de annotatie-DVD die deel uitmaakt van versie 1.0
De bestanden in het XML-formaat zijn te vinden in resp. de directory /data/annot/xml/pri/ en /data/annot/xml/skp/ van de annotatie-DVD die deel uitmaakt van versie 1.0

Terug naar het begin van deze pagina.

Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data

Component Totaal aantal
woorden

VL NL

a.
Spontane conversaties ('face-to-face')
2.626.172
878.383 1.747.789

b.
Interviews met leraren Nederlands
565.433
315.554 249.879

c.
Telefoondialogen opgenomen m.b.v. platform
1.208.633

465.096

743.537

d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
853.371
343.167
510.204

e.
Zakelijke onderhandelingen
136.461
0 136.461

f. Interviews en discussie uitgezonden op radio en televisie
790.269
250.708 539.561

g.
Discussie, debatten, vergaderingen (m.n. politieke)
360.328

138.819
221.509

h.
Lessen
405.409

105.436

299.973

i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
78.022 130.377

j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
95.206 90.866

k.
Nieuwsbulletins uitgezonden op radio en televisie
368.153
82.855 285.298

l.
Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
65.386 80.167

m.
Missen, lezingen, plechtige toespraken
18.075
12.510 5.565

n.
Colleges, voordrachten, lezingen
140.901
79.067 61.834

o.
Voorgelezen teksten 903.043 351.419 551.624

Totaal
8.916.272
3.261.628 5.654.644

Component	Totaal aantal woorden
VL	NL
a.	Spontane conversaties ('face-to-face')	2.626.172	878.383	1.747.789
b.	Interviews met leraren Nederlands	565.433	315.554	249.879
c.	Telefoondialogen opgenomen m.b.v. platform	1.208.633	465.096	743.537
d.	Telefoondialogen opgenomen m.b.v. minidisc recorder	853.371	343.167	510.204
e.	Zakelijke onderhandelingen	136.461	0	136.461
f.	Interviews en discussie uitgezonden op radio en televisie	790.269	250.708	539.561
g.	Discussie, debatten, vergaderingen (m.n. politieke)	360.328	138.819	221.509
h.	Lessen	405.409	105.436	299.973
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	208.399	78.022	130.377
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	186.072	95.206	90.866
k.	Nieuwsbulletins uitgezonden op radio en televisie	368.153	82.855	285.298
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	145.553	65.386	80.167
m.	Missen, lezingen, plechtige toespraken	18.075	12.510	5.565
n.	Colleges, voordrachten, lezingen	140.901	79.067	61.834
o.	Voorgelezen teksten	903.043	351.419	551.624
Totaal	8.916.272	3.261.628	5.654.644

Terug naar het begin van deze pagina.

Woordfrequentielijsten

Op basis van de data die beschikbaar zijn in versie 1.0 van het corpus zijn verschillende woordfrequentielijsten gemaakt die inzicht geven in de frequentie waarmee woorden in het corpus voorkomen. De verschillende typen frequentielijsten zijn de volgende:

een alfabetische woordfrequentielijst met daarin de frequentie van voorkomen van woordvormen over alle data in deze release (totalph.frq);
een woordfrequentielijst als 'rank order list', eveneens over alle data (totrank.frq);
een alfabetische woordfrequentielijst waarbij onderscheid gemaakt wordt tussen de Vlaamse data en de Nederlandse data (areaalph.frq);
een woordfrequentielijst als 'rank order list' waarbij onderscheid gemaakt wordt tussen de Vlaamse data en de Nederlandse data (arearank.frq);
een alfabetische woordfrequentielijst waarbij een uitsplitsing wordt gemaakt naar de componenten die in het corpus worden onderscheiden (typealph.frq);
een woordfrequentielijst als 'rank order list' waarbij een onderscheid gemaakt wordt naar de componenten die in het corpus worden onderscheiden (typerank.frq).

Een beschrijving van de verschillende lijsten is te vinden op ../../lexicon/freq_lst.htm. De frequentielijsten zelf zijn te vinden in de directory /data/lexicon/ van de annotatie-DVD die deel uitmaakt van versie 1.0

Terug naar het begin van deze pagina.