Woordsegmentatie

Het volledige corpus werd automatisch gesegmenteerd op woordniveau. Dit betekent dat elk woord in het corpus wordt verbonden met een stukje spraaksignaal waarin dat woord is uitgesproken. Van alle data is ook een foneemsegmentatie beschikbaar. En voor een deel van de data waarvoor ook een handmatige fonetische transcriptie beschikbaar was, werd de automatische segmentatie tevens handmatig geverifieerd en gecorrigeerd. In dit deel is de oorspronkelijke foneemsegmentatie niet beschikbaar. Voor alle andere data, waarbij een automatische fonetische transcriptie ten grondslag lag, is deze informatie nog wel beschikbaar.

Hieronder wordt nader ingegaan op de woordsegmentatie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over

doel en motivatie
werkwijze
protocol
bestandstypen en -formaten
overzicht van beschikbare data

Doel en motivatie

Het doel van deze annotatielaag is om woorden in verbonden spraak van elkaar te scheiden door grenzen, of markeringen, te plaatsen in het spraaksignaal. Deze grenzen moeten dusdanig geplaatst worden, zodat het stukje signaal dat omgeven is door die grenzen precies het bijbehorende woord bevat. De afzonderlijke woorden moeten akoestisch acceptabel klinken en dus als zodanig auditief herkenbaar zijn.

Een functie van de woordsegmentatie is om te dienen als een snelle manier om woorden en hun akoestische weergave daarvan in het corpus terug te vinden. Daarnaast levert vooral het handmatig geverifieerde deel een betrouwbaar subcorpus op, dat kan dienen als ontwikkelcorpus voor bijvoorbeeld het trainen van een automatische spraakherkenner waarbij de eerste segmentatiestap reeds is uitgevoerd. Tot slot levert de woordsegmentatie een 1-op-1 koppeling aan tussen een orthografisch woord en zijn fonetische transcriptie, waarbij de koppeling is vastgelegd door de grenzen in het signaal. Voor het handmatig geverifieerde deel geldt dat de fonetische transcripties ook handmatig zijn gecreëerd.

Terug naar het begin van deze pagina.

Werkwijze

De automatische segmentatie is ontstaan doordat een automatische spraakherkenner de klanksymbolen uit een fonetische transcriptie gekoppeld heeft aan de bijbehorende gedeelten van het geluidssignaal. Voor ieder foneem wordt een stukje signaal gevonden waarbij het hoort. Uit de foneemsegmentaties zijn de uiteindelijke woordgrenzen afgeleid, zowel fonetisch getranscribeerde woorden als orthografische. Voor meer informatie over het tot stand komen van de segmentatie, zie Martens et al. (2002).

Voor het deel dat handmatig geverifieerd en gecorrigeerd werd, is de onderliggende foneemsegmentatie niet opgeleverd. De basis voor de automatische segmentatie van dit deel was een handmatig gemaakte brede fonetische transcriptie (zie hier). Alle andere data werd voorzien van een automatische fonetische transcriptie (zie Demuynck et al. 2002 en Cucchiarini et al. 2001).

Tijdens de manuele verificatie van de automatische woordgrenzen is gebruik gemaakt van PRAAT, conform de werkwijze van de orthografische en fonetische transcripties. In PRAAT is het mogelijk om zowel het oscillogram van het spraaksignaal, als de tiers waarin de orthografische en fonetische woorden staan tegelijkertijd zichtbaar te maken en het signaal af te spelen tussen de automatisch gezette woordgrenzen. De grenzen waarmee de woorden zijn afgebakend zijn eenvoudigweg met de muis te ‘verslepen’ naar de gewenste positie.

Literatuurverwijzingen:

Martens, J.P. , D. Binnenpoorte, K. Demuynck, R. van Parys, T. Laureys, W. Goedertier & J. Duchateau 2002. Word Segmentation in the Spoken Dutch Corpus, in Proceedings of LREC2002, Las Palmas de Gran Canaria, Spain.

Demuynck, K., T. Laureys & S. Gillis. 2002. Automatic Generation of Phonetic Transcriptions for Large Speech Corpora. In Proceedings International Conference on Spoken Language Processing. Vol. 1: 333-336. Denver, USA.

Cucchiarini, C., D. Binnenpoorte & S. Goddijn. 2001. Phonetic Transcriptions in the Spoken Dutch Corpus: how to combine efficiency and good transcription quality. In Proceedings Eurospeech 2001. Aalborg, Denmark. pp. 1679-1682

Terug naar het begin van deze pagina.

Protocol

Voor de handmatige verificatie van de woordsegmentaties werd gebruik gemaakt van een protocol (Binnenpoorte, 2002). Het belangrijkste uitgangspunt bij de handmatige verificatie was dat dit consistent gebeurde. Ten behoeve daarvan zijn enkele regels opgesteld in het protocol waarvan hieronder de belangrijkste:

geen onnodige verplaatsing van automatisch gevonden grenzen
behoudt de 1-op-1 consistentie tussen orthografisch en fonetische weergave van het woord

De spraakdata die in het corpus is verzameld, is verbonden spraak. In verbonden spraak zijn woorden niet van elkaar gescheiden door pauzes, zoals bijvoorbeeld spaties in geschreven taal, maar de klanken van de woorden lopen in één stroom door. Dit levert voor een aantal gevallen moeilijkheden op bij het bepalen van de grens tussen twee woorden. Dit is het geval als twee woorden een klank delen, de laatste klank van het eerste woord is dezelfde als de beginklank van het tweede woord en wordt als één, niet twee afzonderlijk te onderscheiden, klank uitgesproken. In het protocol is beschreven hoe dit is aangepakt.

Binnenpoorte, D. 2002. Protocol voor manuele verificatie van automatisch gegenereerde woordsegmentaties. (Hier beschikbaar in .ps- en .pdf-formaat

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De woordsegmentatie is opgeslagen in de volgende bestanden:

De in Praat handmatig geverifieerde woordoplijningen zijn opgeslagen als bestanden van het type .wrd. Hierbij gaat het om een (short) TextGrid-formaat. Deze bestanden zijn te vinden in de directory /data/annot/text/wrd/ van de annotatie-DVD die deel uitmaakt van versie 1.0
De niet handmatige geverifieerde bestanden die tevens een extra tier bevatten met foneemsegmentaties zijn opgeslagen als bestanden van het type .awd. Hierbij gaat het ook om (short) TextGrid-formaat. Deze bestanden zijn te vinden in de directory /data/annot/text/awd/ van de annotatie-DVD die deel uitmaakt van versie 1.0
Van beide bestandstypen is een XML formaat gegeneerd. De koppeling tussen de orthografische en fonetische woorden en de spreker informatie is opgeslagen in bestanden van het type .bpt, en zijn respectievelijk te vinden in de directory /data/annot/xml/bpt-fon/ voor de handmatig geverifieerde bestanden en in de directory /data/annot/xml/bpt-auto/ voor de niet handmatig geverifieerde bestanden (beide directories zijn te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). De .bpt bestanden zijn dezelfde als de .bpt bestanden zoals beschreven bij ‘Brede fonetische transcriptie’.
De tijdsinformatie is van beide bestandstypen opgeslagen in XML bestanden van het type .skp in wederom verschillende directories, /data/annot/xml/skp-wrd/ voor de handmatig geverifieerde, en /data/annot/xml/skp-auto/ voor de niet handmatig geverifieerde data (eveneens te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) .

Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het wrd-formaat en het awd-formaat, de bpt-formaten en de skp-formaten van deze annotatielaag.

Terug naar het begin van deze pagina.

Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data voorzien van een manueel geverifieerde woordsegmentatie
Component		Totaal aantal woorden
Component		Totaal aantal woorden	VL	NL
a.	Spontane conversaties ('face-to-face')	177.127	70.945	106.182
b.	Interviews met leraren Nederlands	59.751	34.064	25.687
c.	Telefoondialogen opgenomen m.b.v. platform	270.027	68.886	201.141
d.	Telefoondialogen opgenomen m.b.v. minidisc recorder	6.257	6.257	0
e.	Zakelijke onderhandelingen	25.485	0	25.485
f.	Interviews en discussie uitgezonden op radio en televisie	100.250	25.144	75.106
g.	Discussie, debatten, vergaderingen (m.n. politieke)	34.126	9.009	25.117
h.	Lessen	36.064	10.103	25.961
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	35.116	10.130	24.986
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	32.744	7.679	25.065
k.	Nieuwsbulletins uitgezonden op radio en televisie	32.601	7.305	25.296
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	32.502	7.431	25.071
m.	Missen, lezingen, plechtige toespraken	7.077	1.893	5.184
n.	Colleges, voordrachten, lezingen	23.056	8.143	14.913
o.	Voorgelezen teksten	135.071	64.848	70.223
Totaal		1.007.254	331.837	675.417

Voor alle data in het corpus is zijn ook niet handmatig geverifieerde data beschikbaar, met daarin tevens een foneemsegmentatie. Gegevens over de hoeveelheid en de soort data kan worden gevonden in de tabel onder orthografische transcriptie.

Terug naar het begin van deze pagina.