Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografische transcriptie is een woordelijke neerslag van wat er gezegd werd. Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven; achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden in de transcriptie weergegeven.
Hieronder wordt nader ingegaan op de rol van de orthografische transcriptie in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.
Lees verder over
Het doel van de orthografische transcriptie van de data in het CGN was tweeledig. Ten eerste werd daarmee beoogd gebruikers van het corpus te voorzien van uiterst waardevolle informatie. Door deze zeer eenvoudig symbolische representatie van het audiobestand is het bijvoorbeeld mogelijk eenvoudig door het corpus te navigeren, kunnen frequentietellingen worden gedaan, e.d. Samen met de POS tagging en lemmatisering is het de enige vorm van transcriptie/annotatie die én voor het gehele corpus beschikbaar is én bovendien handmatig geverifieerd is. Ten tweede vormt de orthografische transcriptie het uitgangspunt waarop alle overige transcripties en annotaties zijn gebaseerd.
Gezien het belang van de orthografische transcriptie is er in de beginfase van het project uitgebreid nagedacht over wat de aard van de transcriptie diende te zijn (wat wordt hoe weergegeven) en op welke wijze kwalitatief hoogwaardige transcripties zouden kunnen worden verkregen. De neerslag hiervan is te vinden in het protocol voor orthografische transcriptie. Bij de opstelling van dit protocol werden de volgende uitgangspunten gehanteerd:
Om het transcriptieproces te vereenvoudigen werd gebruik gemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografische transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar.
Tijdens het transcriptieproces werden
in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door
er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden zo
veel mogelijk geplaatst in de natuurlijke pauzes tussen woorden (merk op:
de markeringen vallen niet noodzakelijkwijs samen met syntactische
grenzen). In een later stadium werden deze tijdsmarkeringen gebruikt als
ankerpunten voor de automatische koppeling van de orthografische transcriptie
met de audiofile.
Gegeven de uitgangspunten die hierboven zijn weergegeven en daarbij de beschikbare tijd en middelen, werd een aantal criteria geformuleerd die vervolgens werden vastgelegd en de basis vormden voor het Protocol voor orthografische transcriptie (Goedertier & Goddijn 2000; hier beschikbaar in .ps- en .pdf-formaat). Dit zijn achtereenvolgens
Ten einde de orthografische transcriptie zo consistent mogelijk te laten zijn, werd de spelling van alle woorden tijdens het transcriptieproces on-line gecontroleerd met behulp van een electronische spellingchecker. Als er een vermoedelijke fout werd geconstateerd, werd de transcribent verondersteld het desbetreffende woord te corrigeren of het te markeren met behulp van één van de speciale symbolen die daartoe in het protocol waren vastgelegd. Zo werden in het protocol speciale markeringen voorzien voor nieuwe (d.w.z. tot dan toe niet in het lexicon opgenomen) woorden, maar ook bijvoorbeeld voor afgebroken woorden, dialectwoorden, dialectisch uitgesproken woorden en woorden afkomstig uit een vreemde taal. De gemarkeerde woorden werden door een lexicoloog beoordeeld en desgewenst aan het lexicon toegevoegd.
Accuraatheid
De procedure voor het vervaardigen
van orthografische transcripties was erop gericht de accuraatheid van de
transcripten zo groot mogelijk te laten zijn. Nadat een transcribent een
eerste transcriptie had gemaakt waarbij hetgeen gezegd werd woordelijk
werd uitgeschreven en tevens om de twee à drie seconden tijdsmarkeringen
werden aangebracht, werd deze transcriptie door een tweede transcribent
gecontroleerd. Daarbij werd gecontroleerd of hetgeen gezegd werd volledig
en correct werd weergegeven (qua spelling, maar ook voor wat betreft het
gebruik van de vereiste speciale markeringen en de toewijzing van spraak
aan de juiste spreker(s)). Ook werd gecontroleerd of de tijdsmarkeringen
correct waren aangebracht.
De accuraatheid van de orthografische transcripten werd aan een verdere controle onderworpen doordat bij de verdere verwerking van de data waarbij andere transcripties en annotaties werden aangebracht, vermeende onjuistheden steeds werden gerapporteerd. Deze rapportages waren aanleiding om de transcripties op die punten nogmaals te controleren en eventueel bij te stellen.
Helderheid
Er is geprobeerd het aantal regels
in het protocol zo gering mogelijk te laten zijn. Dit maakte het voor transcribenten
eenvoudiger om ze te onthouden en correct toe te passen. In het protocol
zijn niet alleen regels maar ook een groot aantal voorbeelden opgenomen.
Bij het ontwikkelen van het protocollen werden de ervaringen van transcribenten
meegenomen. Het resultaat is een protocol dat praktisch werkbaar is gebleken.
Literatuurverwijzingen
De orthografische transcripties zijn beschikbaar in twee formaten:
Bestanden in het TextGrid-formaat
zijn van het type .ort. Deze bestanden zijn te vinden in de directory /data/annot/text/ort/
van de annotatie-DVD die deel uitmaakt van versie 1.0
De bestanden in het XML-formaat
zijn te vinden in resp. de directory /data/annot/xml/pri/ en /data/annot/xml/skp/
van de annotatie-DVD die deel uitmaakt van versie 1.0
In Tabel 1 wordt een overzicht gegeven
van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een
nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft
gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving
van de corpusopbouw.
Tabel 1. Overzicht van beschikbare
data
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383 | 1.747.789 |
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554 | 249.879 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
1.208.633
|
465.096
|
743.537
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
853.371
|
343.167 |
510.204
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0 | 136.461 |
f. | Interviews en discussie uitgezonden op radio en televisie |
790.269
|
250.708 | 539.561 |
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509 |
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022 | 130.377 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206 | 90.866 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855 | 285.298 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386 | 80.167 |
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510 | 5.565 |
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067 | 61.834 |
o.
|
Voorgelezen teksten | 903.043 | 351.419 | 551.624 |
Totaal |
8.916.272
|
3.261.628 | 5.654.644 |
Op basis van de data die beschikbaar zijn in versie 1.0 van het corpus zijn verschillende woordfrequentielijsten gemaakt die inzicht geven in de frequentie waarmee woorden in het corpus voorkomen. De verschillende typen frequentielijsten zijn de volgende: