Corpusopbouw
Het project had tot doel een corpus samen te stellen dat een plausibele
steekproef zou vormen van het hedendaags Nederlands zoals dat gesproken
wordt in Vlaanderen en Nederland. Eenderde van het materiaal werd in Vlaanderen
verzameld en tweederde in Nederland. Er werd onderscheid gemaakt tussen
het basiscorpus enerzijds en het kerncorpus/de kerncorpora
anderzijds. De term basiscorpus verwijst naar het volledige corpus.
Hiervan zijn niet alleen opnames beschikbaar, ook werd al het materiaal
orthografisch getranscribeerd. In de orthografische transcriptie werden
bovendien korte stukjes van circa 3 seconden spraak aangeduid en gelinkt
met het geluidssignaal. Al het materiaal werd tevens gelemmatiseerd en
verrijkt met woordsoortinformatie. Voor een deel van het corpus, aangeduid
met de term kerncorpus, is een verdere verrijking van de data beschikbaar.
Dit omvat een brede fonetische transcriptie, een segmentatie op woordniveau
en/of een syntactische en/of prosodische annotatie.
Idealiter is een corpus zoals het CGN zo samengesteld en van een zodanige omvang dat het optimaal bruikbaar is voor de diverse doelstellingen zoals die in de verschillende onderzoeksdisciplines en toepassingsgebieden worden nagestreefd. In de praktijk doen zich daarbij echter een aantal complicaties voor. Allereerst kan worden opgemerkt dat het gesproken Nederlands wordt gekenmerkt door een grote mate aan diversiteit en blijken de interesses van verschillende gebruikersgroepen en de daaruit voortvloeiende vereisten ten aanzien van het corpus op een aantal punten nogal uiteenlopend. Verder hebben we te maken met een aantal beperkende factoren die het ons onmogelijk maken in principe ongelimiteerd spraakdata te verzamelen, te annoteren en te distribueren. Onder die factoren zijn de volgende:
Voor nadere informatie over het ontwerp van het basiscorpus en de motivatie
daarvoor, zie hieronder.
Bij het ontwerp voor de opbouw van het Corpus Gesproken Nederlands is uitgegaan van een getrapte sampling. Daarbij werd om te beginnen op basis van een aantal situationele parameters een veertiental taalvariëteiten onderscheiden die aanvankelijk elk een component in het corpus vormden. Binnen elke component werd vervolgens een verdere detaillering aangebracht waarbij naast aanvullende situationele parameters ook sprekerkenmerken een rol speelden.
Het oorspronkelijke, globale ontwerp van het basiscorpus kan schematisch worden weergegeven als in Tabel 1. In deze tabel wordt tevens de toen beoogde omvang (in aantal woorden) per component weergegeven, totaal en afzonderlijk voor Vlaanderen en Nederland. Een toelichting hierop wordt verderop gegeven.
Tabel 1. Het oorspronkelijke ontwerp van het
basiscorpus (najaar 1998)
Component |
VL |
NL |
|||||
---|---|---|---|---|---|---|---|
dialoog /
multiloog 8.110.000
|
privé
6.635.000
|
spontaan
6.635.000
|
'direct'
3.460.000
|
1: conversaties ('face-to-face')
3.000.000
|
1.000.000
|
2.000.000
|
|
2: interviews
460.000
|
230.000
|
230.000
|
|||||
'distanced'
3.175.000
|
3: telefoondialogen
3.000.000
|
1.000.000
|
2.000.000
|
||||
4: zakelijke onderhandelingen
175.000
|
0
|
175.000
|
|||||
publiek
1.475.000
|
uitgezonden
750.000
|
min of meer voorbereid
750.000
|
5: interviews en discussies
750.000
|
230.000
|
520.000
|
||
niet uitgezonden
725.000
|
spontaan
725.000
|
6: discussies, debatten, vergaderingen
375.000
|
130.000
|
245.000
|
|||
7: lessen
350.000
|
110.000
|
240.000
|
|||||
monoloog
1.890.000
|
privé
40.000
|
min of meer voorbereid
40.000
|
8: beschrijving van route of plaatjes
40.000
|
40.000
|
0
|
||
publiek
1.850.000
|
uitgezonden
950.000
|
spontaan
250.000
|
9: spontaan commentaar
250.000
|
70.000
|
180.000
|
||
min of meer voorbereid
700.000
|
10: actualiteitenrubrieken, reportages
250.000
|
80.000
|
170.000
|
||||
11: nieuwsbulletins
250.000
|
80.000
|
170.000
|
|||||
12: beschouwingen, commentaren
200.000
|
60.000
|
140.000
|
|||||
niet uitgezonden
900.000
|
min of meer voorbereid
900.000
|
13: lezingen, toespraken
275.000
|
95.000
|
180.000
|
|||
14: voorgelezen tekst
625.000 (+375.000)
|
210.000
(+125.000)
|
415.000
(+250.000) |
In de opbouw van het corpus werd op basis van het aantal sprekers een
onderscheid gemaakt tussen monologen enerzijds en dialogen/multilogen anderzijds.
De verdere onderverdeling tussen privé en publiek was van toepassing
op beide.
Het hier gehanteerde onderscheid
tussen privé en publiek was gebaseerd op het al dan
niet aanwezig zijn van toehoorders. Dialogen of gesprekken tussen meerdere
personen die enkel bestemd waren voor en gevoerd werden ten behoeve van
de participanten - hoewel ze mogelijkerwijs gehoord konden worden door
anderen die niet aan het gesprek deelnemen - werden aangeduid als privé.
De als publiek aangeduide dialogen of gesprekken werden gevoerd door de
gesprekspartners, maar waren nadrukkelijk bedoeld gehoord te worden door
anderen. In het laatste geval was het gespreksonderwerp veelal vooraf vastgesteld
en bekend bij de gesprekspartners. Dit in tegenstelling tot als privé
aangemerkte dialogen of gesprekken waarin het onderwerp kon variëren.
Het onderscheid tussen 'direct'
en 'distanced' had betrekking op het gegeven of de gesprekspartner al dan
niet toegang had tot gebaren die door de ander tijdens het spreken gemaakt
werden, kennis van de omgeving waarin hun gesprekspartner zich bevond,
e.d. Tot de 'distanced' dialogen werden bijvoorbeeld dialogen via de telefoon
gerekend.
Uitgaande van de globale opbouw zoals geschetst in Tabel 1, werd voor elk van de componenten van het corpus een verdere specificatie gemaakt waarbij onder andere aanvullende situationele parameters en sprekerkenmerken werden ingebracht daar waar dat zinvol was. De hier gehanteerde benadering bood een maximum aan flexibiliteit. Steekproefgroottes, sprekeraantallen, demografische spreiding, etc. konden per component nader worden bepaald. In het algemeen kan gesteld worden dat een ruime mate van spreiding werd nagestreefd in de selectie van sprekers, gespreksonderwerpen, gesprekssituaties, etc.
De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:
Hoewel gedurende het gehele CGN-project steeds van bovenstaand ontwerp en uitgangspunten werd uitgegaan, bleek de realisatie ervan vertraging op te lopen. Daarom werd tussentijds de omvang van enkele componenten die tot dan toe nog niet (volledig) gerealiseerd waren, bijgesteld. Ook kwam component 8 te vervallen. Bij de afsluiting van het project en de vaststelling van de definitieve structuur van het corpus werd geconstateerd dat een herschikking van gerealiseerde fragmenten en componenten beter zou aansluiten bij het toekomstig gebruik door diverse gebruikersgroepen. Dit resulteerde in het onderscheiden van de componenten zoals weergegeven in Tabel 2.
Tabel 2. In het corpus onderscheiden componenten (versie 1.0)
Componenten: | |
---|---|
a.
|
Spontane conversaties ('face-to-face') |
b.
|
Interviews met leraren Nederlands |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
d. | Telefoondialogen opgenomen m.b.v. minidisc recorder |
e. | Zakelijke onderhandelingen |
f. | Interviews en discussie uitgezonden op radio en televisie |
g. | Discussie, debatten, vergaderingen (m.n. politieke) |
h.
|
Lessen |
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
m.
|
Missen, lezingen, plechtige toespraken |
n.
|
Colleges, voordrachten, lezingen |
o.
|
Voorgelezen teksten |
Het zou te ver voeren hier in detail in te gaan op de sampling procedure die voor elk van de componenten werd gevolgd. We beperken ons hier tot een kort overzicht van de verschillende sampling criteria en de (mogelijke) invulling die daaraan werd gegeven. Merk op dat niet voor alle componenten (in gelijke mate) gebruik gemaakt werd van alle hier genoemde criteria.
Steekproef: eenheid en omvang
Voor het gehele corpus geldt als minimale eenheid een fragment samenhangende discourse. De omvang van de fragmenten kan uiteenlopen. In een aantal gevallen, zoals bij de component 'voorgelezen tekst', is vanuit een specifiek toepassingsgebied een minimum omvang als vereiste opgelegd. Over het algemeen is gepoogd de fragmenten te laten samenvallen met hetgeen min of meer een natuurlijke eenheid vormt in een groter geheel. Daarbij werd gebruik gemaakt van voorgegeven breekpunten zoals de sprekerwisseling in een dialoog, de wisseling van item in een nieuwsbericht, etc.
Aantal sprekers per component
Het aantal sprekers per component is in principe variabel. Voor een aantal componenten, nl. de spontane conversaties (component a), de interviews (component b), de telefoondialogen (component c en d) en de voorgelezen tekst (component o), werd het minimum aantal sprekers vooraf nader gespecificeerd.
Sprekerkenmerken
De sprekerkenmerken die in meerdere of mindere mate, afhankelijk van de component, een rol speelden in het bepalen van de steekproef zijn de volgende: geslacht, leeftijd, geografische regio, sociaal-economische klasse en opleidingsniveau.
Kwaliteit van de opname
De kwaliteit van het signaal is wisselend. Uiteraard is gepoogd de kwaliteit
in alle gevallen zo hoog mogelijk te laten zijn. Opnamecondities liepen
echter nogal sterk uiteen, waardoor het niet altijd mogelijk is gebleken
dezelfde goede kwaliteit te garanderen.Voor een overzicht van de data die
in het basiscorpus beschikbaar zijn en de verdeling over de verschillende
componenten verwijzen we naar het overzicht
van beschikbare data.
Het kerncorpus omvat een selectie van het materiaal dat deel uitmaakt van het basiscorpus. De gedachte slechts voor een deel van het totale materiaal een verdere verrijking aan te brengen werd ingegeven door de (uiteindelijk toch) beperkte hoeveelheid beschikbare middelen. Bij de bepaling van de samenstelling van het kerncorpus speelden naast de beschikbare tijd en financiële middelen de volgende overwegingen een rol:
Samenstelling van het kerncorpus
De beoogde samenstelling van het kerncorpus kan schematisch worden weergegeven
als in Tabel 3. Er werd uitgegaan van de veertien componenten die bij het
oorspronkelijk ontwerp voor de samenstelling van het basiscorpus
werden onderscheiden. Per component is vermeld welk deel ervan met welk
type annotatie nader zou worden verrijkt. Merk op dat in de tabel enkel
de omvang (in aantal woorden) van het te selecteren materiaal wordt aangeduid.
De specifieke invulling zou uiteraard mede afhankelijk zijn van overwegingen
zoals de kwaliteit van het spraaksignaal, de spreiding over verschillende
situationele contexten, sprekers, onderwerpen, etc.
Tabel 3. Beoogde samenstelling van het kerncorpus
(najaar 1998)
Component | Totaal aantal
woorden in basiscorpus |
Hoeveelheid materiaal voorzien van een | |||
---|---|---|---|---|---|
en oplijning |
annotatie |
annotatie |
|||
1.
|
conversaties ('face-to-face') |
3.000.000
|
150.000
|
550.000
|
100.000
|
2.
|
interviews |
460.000
|
50.000
|
50.000
|
20.000
|
3.
|
telefoondialogen |
3.000.000
|
300.000
|
100.000
|
50.000
|
4. | zakelijke onderhandelingen |
175.000
|
15.000
|
15.000
|
10.000
|
5. | interviews en discussies |
750.000
|
75.000
|
75.000
|
10.000
|
6. | discussies, debatten, vergaderingen |
375.000
|
35.000
|
35.000
|
10.000
|
7. | lessen |
350.000
|
35.000
|
35.000
|
0
|
8.
|
beschrijving van route of plaatjes |
40.000
|
5.000
|
5.000
|
0
|
9.
|
spontaan commentaar |
250.000
|
27.500
|
27.500
|
10.000
|
10.
|
actualiteitenrubrieken, reportages |
250.000
|
25.000
|
25.000
|
10.000
|
11.
|
nieuwsbulletins |
250.000
|
27.500
|
27.500
|
10.000
|
12.
|
beschouwingen, commentaren |
200.000
|
25.000
|
25.000
|
10.000
|
13.
|
lezingen, toespraken |
275.000
|
30.000
|
30.000
|
10.000
|
14.
|
voorgelezen tekst |
625.000
(+ 375.000)
|
200.000
|
0
|
0
|
Totaal |
10.000.000
|
1.000.000
|
1.000.000
|
250.000
|
In het project zijn de beoogde doelstellingen m.b.t. het kerncorpus nagenoeg geheel gerealiseerd. Aangezien er een herschikking van fragmenten en componenten heeft plaatsgevonden, heeft dit uiteraard ook gevolgen gehad voor de indeling zoals die hierboven (Tabel 3) werd gepresenteerd. Voor een overzicht van de beschikbare data verwijzen we hier naar het overzicht van beschikbare data.