Corpusopbouw

Het project had tot doel een corpus samen te stellen dat een plausibele steekproef zou vormen van het hedendaags Nederlands zoals dat gesproken wordt in Vlaanderen en Nederland. Eenderde van het materiaal werd in Vlaanderen verzameld en tweederde in Nederland. Er werd onderscheid gemaakt tussen het basiscorpus enerzijds en het kerncorpus/de kerncorpora anderzijds. De term basiscorpus verwijst naar het volledige corpus. Hiervan zijn niet alleen opnames beschikbaar, ook werd al het materiaal orthografisch getranscribeerd. In de orthografische transcriptie werden bovendien korte stukjes van circa 3 seconden spraak aangeduid en gelinkt met het geluidssignaal. Al het materiaal werd tevens gelemmatiseerd en verrijkt met woordsoortinformatie. Voor een deel van het corpus, aangeduid met de term kerncorpus, is een verdere verrijking van de data beschikbaar. Dit omvat een brede fonetische transcriptie, een segmentatie op woordniveau en/of een syntactische en/of prosodische annotatie.

Het basiscorpus

Idealiter is een corpus zoals het CGN zo samengesteld en van een zodanige omvang dat het optimaal bruikbaar is voor de diverse doelstellingen zoals die in de verschillende onderzoeksdisciplines en toepassingsgebieden worden nagestreefd. In de praktijk doen zich daarbij echter een aantal complicaties voor. Allereerst kan worden opgemerkt dat het gesproken Nederlands wordt gekenmerkt door een grote mate aan diversiteit en blijken de interesses van verschillende gebruikersgroepen en de daaruit voortvloeiende vereisten ten aanzien van het corpus op een aantal punten nogal uiteenlopend. Verder hebben we te maken met een aantal beperkende factoren die het ons onmogelijk maken in principe ongelimiteerd spraakdata te verzamelen, te annoteren en te distribueren. Onder die factoren zijn de volgende:

de beschikbare tijd en middelen;
de technische mogelijkheden waarover men kan beschikken voor het maken van de opnames en de verdere bewerking van de data; en
de juridische regelgeving waaraan men gehouden is met betrekking tot het verzamelen en openbaar maken van data.

In het CGN-project is er derhalve gekozen voor een ontwerp zodanig dat het resulterende corpus beschouwd kan worden als een noodzakelijkerwijs beperkte doch plausibele steekproef van het hedendaags Nederlands, waarbij tevens zoveel mogelijk tegemoet gekomen wordt aan de wensen en behoeften van de verschillende groepen potentiële gebruikers. Ook is rekening gehouden met de databestanden die voor het Nederlands reeds beschikbaar zijn, dit om duplicatie te voorkomen en de beschikbare middelen optimaal in te zetten.

Voor nadere informatie over het ontwerp van het basiscorpus en de motivatie daarvoor, zie hieronder.

Ontwerp en motivatie

Bij het ontwerp voor de opbouw van het Corpus Gesproken Nederlands is uitgegaan van een getrapte sampling. Daarbij werd om te beginnen op basis van een aantal situationele parameters een veertiental taalvariëteiten onderscheiden die aanvankelijk elk een component in het corpus vormden. Binnen elke component werd vervolgens een verdere detaillering aangebracht waarbij naast aanvullende situationele parameters ook sprekerkenmerken een rol speelden.

Het oorspronkelijke, globale ontwerp van het basiscorpus kan schematisch worden weergegeven als in Tabel 1. In deze tabel wordt tevens de toen beoogde omvang (in aantal woorden) per component weergegeven, totaal en afzonderlijk voor Vlaanderen en Nederland. Een toelichting hierop wordt verderop gegeven.

Tabel 1. Het oorspronkelijke ontwerp van het basiscorpus (najaar 1998)

Component

VL

NL

dialoog /
multiloog
8.110.000
privé
6.635.000
spontaan
6.635.000
'direct'
3.460.000
1: conversaties ('face-to-face')
3.000.000

1.000.000

2.000.000

2: interviews
460.000

230.000

230.000

'distanced'
3.175.000
3: telefoondialogen
3.000.000

1.000.000

2.000.000

4: zakelijke onderhandelingen
175.000

0

175.000

publiek
1.475.000
uitgezonden
750.000
min of meer voorbereid
750.000
5: interviews en discussies
750.000

230.000

520.000

niet uitgezonden
725.000
spontaan
725.000
6: discussies, debatten, vergaderingen
375.000

130.000

245.000

7: lessen
350.000

110.000

240.000

monoloog
1.890.000
privé
40.000
min of meer voorbereid
40.000
8: beschrijving van route of plaatjes
40.000

40.000

0

publiek
1.850.000
uitgezonden
950.000
spontaan
250.000
9: spontaan commentaar
250.000

70.000

180.000

min of meer voorbereid
700.000
10: actualiteitenrubrieken, reportages
250.000

80.000

170.000

11: nieuwsbulletins
250.000

80.000

170.000

12: beschouwingen, commentaren
200.000

60.000

140.000

niet uitgezonden
900.000
min of meer voorbereid
900.000
13: lezingen, toespraken
275.000

95.000

180.000

14: voorgelezen tekst
625.000 (+375.000)

210.000

(+125.000)

415.000
(+250.000)

	Component	VL	NL
dialoog / multiloog 8.110.000	privé 6.635.000	spontaan 6.635.000	'direct' 3.460.000	1: conversaties ('face-to-face') 3.000.000	1.000.000	2.000.000
2: interviews 460.000	230.000	230.000
'distanced' 3.175.000	3: telefoondialogen 3.000.000	1.000.000	2.000.000
4: zakelijke onderhandelingen 175.000	0	175.000
publiek 1.475.000	uitgezonden 750.000	min of meer voorbereid 750.000	5: interviews en discussies 750.000	230.000	520.000
niet uitgezonden 725.000	spontaan 725.000	6: discussies, debatten, vergaderingen 375.000	130.000	245.000
7: lessen 350.000	110.000	240.000
monoloog 1.890.000	privé 40.000	min of meer voorbereid 40.000	8: beschrijving van route of plaatjes 40.000	40.000	0
publiek 1.850.000	uitgezonden 950.000	spontaan 250.000	9: spontaan commentaar 250.000	70.000	180.000
min of meer voorbereid 700.000	10: actualiteitenrubrieken, reportages 250.000	80.000	170.000
11: nieuwsbulletins 250.000	80.000	170.000
12: beschouwingen, commentaren 200.000	60.000	140.000
niet uitgezonden 900.000	min of meer voorbereid 900.000	13: lezingen, toespraken 275.000	95.000	180.000
14: voorgelezen tekst 625.000 (+375.000)	210.000 (+125.000)	415.000 (+250.000)

In de opbouw van het corpus werd op basis van het aantal sprekers een onderscheid gemaakt tussen monologen enerzijds en dialogen/multilogen anderzijds. De verdere onderverdeling tussen privé en publiek was van toepassing op beide.
Het hier gehanteerde onderscheid tussen privé en publiek was gebaseerd op het al dan niet aanwezig zijn van toehoorders. Dialogen of gesprekken tussen meerdere personen die enkel bestemd waren voor en gevoerd werden ten behoeve van de participanten - hoewel ze mogelijkerwijs gehoord konden worden door anderen die niet aan het gesprek deelnemen - werden aangeduid als privé. De als publiek aangeduide dialogen of gesprekken werden gevoerd door de gesprekspartners, maar waren nadrukkelijk bedoeld gehoord te worden door anderen. In het laatste geval was het gespreksonderwerp veelal vooraf vastgesteld en bekend bij de gesprekspartners. Dit in tegenstelling tot als privé aangemerkte dialogen of gesprekken waarin het onderwerp kon variëren.
Het onderscheid tussen 'direct' en 'distanced' had betrekking op het gegeven of de gesprekspartner al dan niet toegang had tot gebaren die door de ander tijdens het spreken gemaakt werden, kennis van de omgeving waarin hun gesprekspartner zich bevond, e.d. Tot de 'distanced' dialogen werden bijvoorbeeld dialogen via de telefoon gerekend.

Uitgaande van de globale opbouw zoals geschetst in Tabel 1, werd voor elk van de componenten van het corpus een verdere specificatie gemaakt waarbij onder andere aanvullende situationele parameters en sprekerkenmerken werden ingebracht daar waar dat zinvol was. De hier gehanteerde benadering bood een maximum aan flexibiliteit. Steekproefgroottes, sprekeraantallen, demografische spreiding, etc. konden per component nader worden bepaald. In het algemeen kan gesteld worden dat een ruime mate van spreiding werd nagestreefd in de selectie van sprekers, gespreksonderwerpen, gesprekssituaties, etc.

De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:

er bestond met name behoefte aan spontaan gesproken data;
interactie werd gezien als een wezenlijk bestanddeel van gesproken communicatie en diende derhalve in ruime mate vertegenwoordigd te zijn;
bepaalde in termen van de verschillende componenten onderscheiden variëteiten vertoonden een grotere mate aan diversiteit dan andere. Voor heterogene componenten werden daarom een groter aantal fragmenten opgenomen om zo een redelijke spreiding in de steekproef te kunnen aanbrengen;
de omvang van de fragmenten liep van component tot component uiteen; de lengte per fragment voor een gegeven component werd bepaald aan de hand van een inschatting van hoe groot het fragment diende te zijn ten einde een redelijk beeld te kunnen geven van de desbetreffende variëteit. Daarbij speelde onder meer de 'natuurlijke' lengte van de spraak een rol: een nieuwsbericht op de radio is gewoonlijk van beduidend kortere duur dan de gesproken tekst bij een documentaire. De totale omvang van een component was groter naarmate de gemiddelde omvang van de fragmenten die erin voorkwamen toenam;
bepaalde data waren eenvoudiger te verzamelen dan andere;
teneinde van nut te kunnen zijn voor bepaalde toepassingsgebieden moest voldaan worden aan zekere minimum eisen. Dit gold met name voor technologische toepassingen.

De omvang van de component 'voorgelezen tekst' behoeft enige toelichting. Bij de start van het project was voorzien dat het corpus tien miljoen woorden min of meer spontaan gesproken Nederlands zou omvatten. Vanwege de aard van de in deze component aangeduide data - het betreft hier voorgelezen spraak die haar oorsprong vindt in geschreven teksten die bedoeld zijn gelezen te worden - was er weinig reden dit materiaal in het corpus op te nemen. Onder druk van de grote behoefte die er onder spraaktechnologen bestaat aan dergelijke data werd echter besloten toch een component van die aard op te nemen. Daarbij vormde vervolgens de vereiste omvang van tenminste één miljoen woorden een probleem. Teneinde uit de impasse te geraken werd overeengekomen 625.000 woorden als regulier deel van het corpus op te nemen, en een additionele 375.000 woorden bovenop de tien miljoen te realiseren (een en ander uiteraard voor zover de beschikbare middelen dit zouden toelaten).

Feitelijke realisatie

Hoewel gedurende het gehele CGN-project steeds van bovenstaand ontwerp en uitgangspunten werd uitgegaan, bleek de realisatie ervan vertraging op te lopen. Daarom werd tussentijds de omvang van enkele componenten die tot dan toe nog niet (volledig) gerealiseerd waren, bijgesteld. Ook kwam component 8 te vervallen. Bij de afsluiting van het project en de vaststelling van de definitieve structuur van het corpus werd geconstateerd dat een herschikking van gerealiseerde fragmenten en componenten beter zou aansluiten bij het toekomstig gebruik door diverse gebruikersgroepen. Dit resulteerde in het onderscheiden van de componenten zoals weergegeven in Tabel 2.

Tabel 2. In het corpus onderscheiden componenten (versie 1.0)

Componenten:

a.
Spontane conversaties ('face-to-face')

b.
Interviews met leraren Nederlands

c.
Telefoondialogen opgenomen m.b.v. platform

d. Telefoondialogen opgenomen m.b.v. minidisc recorder

e. Zakelijke onderhandelingen

f. Interviews en discussie uitgezonden op radio en televisie

g. Discussie, debatten, vergaderingen (m.n. politieke)

h.
Lessen

i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie

j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie

k.
Nieuwsbulletins uitgezonden op radio en televisie

l.
Beschouwingen en commentaren uitgezonden op radio en televisie

m.
Missen, lezingen, plechtige toespraken

n.
Colleges, voordrachten, lezingen

o.
Voorgelezen teksten

Componenten:

a.	Spontane conversaties ('face-to-face')
b.	Interviews met leraren Nederlands
c.	Telefoondialogen opgenomen m.b.v. platform
d.	Telefoondialogen opgenomen m.b.v. minidisc recorder
e.	Zakelijke onderhandelingen
f.	Interviews en discussie uitgezonden op radio en televisie
g.	Discussie, debatten, vergaderingen (m.n. politieke)
h.	Lessen
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
k.	Nieuwsbulletins uitgezonden op radio en televisie
l.	Beschouwingen en commentaren uitgezonden op radio en televisie
m.	Missen, lezingen, plechtige toespraken
n.	Colleges, voordrachten, lezingen
o.	Voorgelezen teksten

Het zou te ver voeren hier in detail in te gaan op de sampling procedure die voor elk van de componenten werd gevolgd. We beperken ons hier tot een kort overzicht van de verschillende sampling criteria en de (mogelijke) invulling die daaraan werd gegeven. Merk op dat niet voor alle componenten (in gelijke mate) gebruik gemaakt werd van alle hier genoemde criteria.

Steekproef: eenheid en omvang

Voor het gehele corpus geldt als minimale eenheid een fragment samenhangende discourse. De omvang van de fragmenten kan uiteenlopen. In een aantal gevallen, zoals bij de component 'voorgelezen tekst', is vanuit een specifiek toepassingsgebied een minimum omvang als vereiste opgelegd. Over het algemeen is gepoogd de fragmenten te laten samenvallen met hetgeen min of meer een natuurlijke eenheid vormt in een groter geheel. Daarbij werd gebruik gemaakt van voorgegeven breekpunten zoals de sprekerwisseling in een dialoog, de wisseling van item in een nieuwsbericht, etc.

Aantal sprekers per component

Het aantal sprekers per component is in principe variabel. Voor een aantal componenten, nl. de spontane conversaties (component a), de interviews (component b), de telefoondialogen (component c en d) en de voorgelezen tekst (component o), werd het minimum aantal sprekers vooraf nader gespecificeerd.

Sprekerkenmerken

De sprekerkenmerken die in meerdere of mindere mate, afhankelijk van de component, een rol speelden in het bepalen van de steekproef zijn de volgende: geslacht, leeftijd, geografische regio, sociaal-economische klasse en opleidingsniveau.

Kwaliteit van de opname

De kwaliteit van het signaal is wisselend. Uiteraard is gepoogd de kwaliteit in alle gevallen zo hoog mogelijk te laten zijn. Opnamecondities liepen echter nogal sterk uiteen, waardoor het niet altijd mogelijk is gebleken dezelfde goede kwaliteit te garanderen.Voor een overzicht van de data die in het basiscorpus beschikbaar zijn en de verdeling over de verschillende componenten verwijzen we naar het overzicht van beschikbare data.

Het kerncorpus

Het kerncorpus omvat een selectie van het materiaal dat deel uitmaakt van het basiscorpus. De gedachte slechts voor een deel van het totale materiaal een verdere verrijking aan te brengen werd ingegeven door de (uiteindelijk toch) beperkte hoeveelheid beschikbare middelen. Bij de bepaling van de samenstelling van het kerncorpus speelden naast de beschikbare tijd en financiële middelen de volgende overwegingen een rol:

het kerncorpus diende een redelijke afspiegeling te zijn van het basiscorpus met de nodige spreiding ten aanzien van de onderscheiden typen data;
de selectie van materiaal uit het basiscorpus bestond uit het (integraal) selecteren van daartoe geschikte fragmenten;
de behoeften van bepaalde gebruikersgroepen aan specifieke dataverzamelingen van een zekere omvang en mate van verrijking gaf aanleiding af te wijken van de voor de hand liggende selectiemethode waarbij van elke component uit het basiscorpus strikt ééntiende deel in het kerncorpus werd opgenomen;
de beschikbaarheid van de benodigde tools en annotatieschema's. Zo moest ten behoeve van b.v. de syntactische en prosodische annotatie nog aanzienlijk worden geïnvesteerd;
de inspanning die het aanbrengen van een bepaald type annotatie op een specifiek soort data vereiste.

Ten einde zoveel mogelijk tegemoet te komen aan de verschillende, op punten strijdige, overwegingen en belangen werd ervoor gekozen het niveau van verrijking als uitgangspunt te nemen bij het bepalen van de selectie. Daarbij werd steeds maximale overlap nagestreefd. Voor een overzicht van de samenstelling van het kerncorpus, zie hieronder.

Samenstelling van het kerncorpus

De beoogde samenstelling van het kerncorpus kan schematisch worden weergegeven als in Tabel 3. Er werd uitgegaan van de veertien componenten die bij het oorspronkelijk ontwerp voor de samenstelling van het basiscorpus werden onderscheiden. Per component is vermeld welk deel ervan met welk type annotatie nader zou worden verrijkt. Merk op dat in de tabel enkel de omvang (in aantal woorden) van het te selecteren materiaal wordt aangeduid. De specifieke invulling zou uiteraard mede afhankelijk zijn van overwegingen zoals de kwaliteit van het spraaksignaal, de spreiding over verschillende situationele contexten, sprekers, onderwerpen, etc.

Tabel 3. Beoogde samenstelling van het kerncorpus (najaar 1998)

Component Totaal aantal
woorden in
basiscorpus Hoeveelheid materiaal voorzien van een

fonetische transcriptie
en oplijning syntactische
annotatie prosodische
annotatie

1.
conversaties ('face-to-face')
3.000.000

150.000

550.000

100.000

2.
interviews
460.000

50.000

50.000

20.000

3.
telefoondialogen
3.000.000

300.000

100.000

50.000

4. zakelijke onderhandelingen
175.000

15.000

15.000

10.000

5. interviews en discussies
750.000

75.000

75.000

10.000

6. discussies, debatten, vergaderingen
375.000

35.000

35.000

10.000

7. lessen
350.000

35.000

35.000

0

8.
beschrijving van route of plaatjes
40.000

5.000

5.000

0

9.
spontaan commentaar
250.000

27.500

27.500

10.000

10.
actualiteitenrubrieken, reportages
250.000

25.000

25.000

10.000

11.
nieuwsbulletins
250.000

27.500

27.500

10.000

12.
beschouwingen, commentaren
200.000

25.000

25.000

10.000

13.
lezingen, toespraken
275.000

30.000

30.000

10.000

14.
voorgelezen tekst
625.000

(+ 375.000)

200.000

0

0

Totaal
10.000.000

1.000.000

1.000.000

250.000

Component	Totaal aantal woorden in basiscorpus	Hoeveelheid materiaal voorzien van een
fonetische transcriptie en oplijning	syntactische annotatie	prosodische annotatie
1.	conversaties ('face-to-face')	3.000.000	150.000	550.000	100.000
2.	interviews	460.000	50.000	50.000	20.000
3.	telefoondialogen	3.000.000	300.000	100.000	50.000
4.	zakelijke onderhandelingen	175.000	15.000	15.000	10.000
5.	interviews en discussies	750.000	75.000	75.000	10.000
6.	discussies, debatten, vergaderingen	375.000	35.000	35.000	10.000
7.	lessen	350.000	35.000	35.000	0
8.	beschrijving van route of plaatjes	40.000	5.000	5.000	0
9.	spontaan commentaar	250.000	27.500	27.500	10.000
10.	actualiteitenrubrieken, reportages	250.000	25.000	25.000	10.000
11.	nieuwsbulletins	250.000	27.500	27.500	10.000
12.	beschouwingen, commentaren	200.000	25.000	25.000	10.000
13.	lezingen, toespraken	275.000	30.000	30.000	10.000
14.	voorgelezen tekst	625.000 (+ 375.000)	200.000	0	0
Totaal	10.000.000	1.000.000	1.000.000	250.000

Feitelijke realisatie

In het project zijn de beoogde doelstellingen m.b.t. het kerncorpus nagenoeg geheel gerealiseerd. Aangezien er een herschikking van fragmenten en componenten heeft plaatsgevonden, heeft dit uiteraard ook gevolgen gehad voor de indeling zoals die hierboven (Tabel 3) werd gepresenteerd. Voor een overzicht van de beschikbare data verwijzen we hier naar het overzicht van beschikbare data.