Hieronder wordt nader ingegaan op de woordsegmentatie van de data in
het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed
aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven,
en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot
wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar
zijn.
Lees verder over
Een functie van de woordsegmentatie is om te dienen als een snelle manier
om woorden en hun akoestische weergave daarvan in het corpus terug te vinden.
Daarnaast levert vooral het handmatig geverifieerde deel een betrouwbaar
subcorpus op, dat kan dienen als ontwikkelcorpus voor bijvoorbeeld het
trainen van een automatische spraakherkenner waarbij de eerste segmentatiestap
reeds is uitgevoerd. Tot slot levert de woordsegmentatie een 1-op-1 koppeling
aan tussen een orthografisch woord en zijn fonetische transcriptie, waarbij
de koppeling is vastgelegd door de grenzen in het signaal. Voor het handmatig
geverifieerde deel geldt dat de fonetische transcripties ook handmatig
zijn gecreëerd.
Voor het deel dat handmatig geverifieerd en gecorrigeerd werd, is de onderliggende foneemsegmentatie niet opgeleverd. De basis voor de automatische segmentatie van dit deel was een handmatig gemaakte brede fonetische transcriptie (zie hier). Alle andere data werd voorzien van een automatische fonetische transcriptie (zie Demuynck et al. 2002 en Cucchiarini et al. 2001).
Tijdens de manuele verificatie van de automatische woordgrenzen is gebruik gemaakt van PRAAT, conform de werkwijze van de orthografische en fonetische transcripties. In PRAAT is het mogelijk om zowel het oscillogram van het spraaksignaal, als de tiers waarin de orthografische en fonetische woorden staan tegelijkertijd zichtbaar te maken en het signaal af te spelen tussen de automatisch gezette woordgrenzen. De grenzen waarmee de woorden zijn afgebakend zijn eenvoudigweg met de muis te ‘verslepen’ naar de gewenste positie.
Demuynck, K., T. Laureys & S. Gillis. 2002. Automatic Generation of Phonetic Transcriptions for Large Speech Corpora. In Proceedings International Conference on Spoken Language Processing. Vol. 1: 333-336. Denver, USA.
Cucchiarini, C., D. Binnenpoorte & S. Goddijn. 2001. Phonetic Transcriptions
in the Spoken Dutch Corpus: how to combine efficiency and good transcription
quality. In Proceedings Eurospeech 2001. Aalborg, Denmark. pp. 1679-1682
Binnenpoorte, D. 2002. Protocol voor manuele verificatie van automatisch
gegenereerde woordsegmentaties. (Hier beschikbaar in .ps-
en .pdf-formaat
Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen
van het wrd-formaat en het awd-formaat,
de bpt-formaten en de skp-formaten
van deze annotatielaag.
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
177.127
|
70.945 | 106.182 |
b.
|
Interviews met leraren Nederlands |
59.751
|
34.064 | 25.687 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
270.027
|
68.886
|
201.141
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
6.257
|
6.257 |
0
|
e.
|
Zakelijke onderhandelingen |
25.485
|
0 | 25.485 |
f. | Interviews en discussie uitgezonden op radio en televisie |
100.250
|
25.144 | 75.106 |
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
34.126
|
9.009
|
25.117 |
h.
|
Lessen |
36.064
|
10.103
|
25.961
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
35.116
|
10.130 | 24.986 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
32.744
|
7.679 | 25.065 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
32.601
|
7.305 | 25.296 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
32.502
|
7.431 | 25.071 |
m.
|
Missen, lezingen, plechtige toespraken |
7.077
|
1.893 | 5.184 |
n.
|
Colleges, voordrachten, lezingen |
23.056
|
8.143 | 14.913 |
o.
|
Voorgelezen teksten | 135.071 | 64.848 | 70.223 |
Totaal |
1.007.254
|
331.837 | 675.417 |
Voor alle data in het corpus is zijn ook niet handmatig geverifieerde
data beschikbaar, met daarin tevens een foneemsegmentatie. Gegevens over
de hoeveelheid en de soort data kan worden gevonden in de tabel onder orthografische
transcriptie.