Part-of-speech tagging


Het volledige corpus werd getagd. Binnen het project werd hiervoor een eigen CGN-tagset gedefinieerd die 316 tags omvat en die aansluit bij de praktijk van de ANS (Haeseryn et al., 1997). De tagset is conform de EAGLES-richtlijnen die daarvoor opgesteld zijn in het kader van de internationale standaardisering en wordt beschreven in Van Eynde (2003; hier beschikbaar in .pdf-formaat).

Voor het taggen werd gebruik gemaakt van een tagger die aan elk woord de meest waarschijnlijke tag toekende. De tagger output werd gecontroleerd en waar nodig handmatig gecorrigeerd.

Hieronder wordt nader ingegaan op de part-of-speech tagging in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over



Doel en motivatie

De verrijking van het corpus met woordsoortinformatie is een van de weinige vormen van annotatie die voor het volledige corpus beschikbaar is. De toevoeging van POS tags maakt het mogelijk het gebruik van woorden (d.w.z. orthografische woorden, of beter gezegd woordvormen of tokens) meer specifiek te duiden. Waar veel woordvormen in isolatie ambigu blijken, is dit in een gegeven context zelden het geval. Neem bijvoorbeeld de vorm werk. Dit kan een noun zijn, maar even goed een werkwoord. In de context het was zwaar werk is het zonder meer duidelijk dat de noun interpretatie de enig juiste is, terwijl in een zin als ik werk altijd hard de toekenning van de werkwoordtag vereist is. Door het corpus van POS tags te voorzien wordt de onderzoeker in staat gesteld het corpus niet alleen te doorzoeken op letterlijke voorkomens, maar daarbij tevens onderscheid te maken naar de specifieke woordsoort(en) en bepaalde morfosyntactische kenmerken (o.a. getal, geslacht, graadaanduiding). Uiteraard is het dankzij de POS tagging ook mogelijk zoekacties te verrichten waarbij de zoekvraag zich richt op (sub)klassen van woorden die door middel van hun tags kunnen worden aangeduid. Zo kan bijvoorbeeld een zoekvraag zich specifiek richten op het doorzoeken van het corpus op voorkomens van postnominale adjectiva.

De tagset sluit aan bij de tien woordsoorten die gewoonlijk voor het Nederlands worden onderscheiden (zie b.v. de Algemene Nederlandse Spraakkunst). Als gevolg van het aanbrengen van een grote mate aan detail omvat de tagset in totaal 316 verschillende tags.

Literatuurverwijzing

Haeseryn, W., K. Romijn, G. Geerts, J. de Rooij & M. van den Toorn. 1997. Algemene Nederlandse Spraakkunst. Groningen: Nijhoff en Deurne: Wolters Plantyn.

Terug naar het begin van deze pagina.


Werkwijze

Bij het toekennen van de tags aan de woorden werden de volgende principes gehanteerd:

Om het taggingproces te versnellen en te vereenvoudigen werd gebruik gemaakt van een aan de Universiteit van Tilburg ontwikkelde (combinatie) POS tagger. Hierbij werd gebruik gemaakt van een combinatie van vier taggers: de TnT tagger, een Brill tagger, een maximum entropy tagger en een memory-based tagger. Voor verdere details zie Van Eynde et al. (2000).

Alle output werd handmatig gecontroleerd en waar noodzakelijk gecorrigeerd. Daarbij werd gebruik gemaakt van een tagselectieprogramma dat door de Universiteit van Nijmegen beschikbaar werd gesteld. Dit tagselectieprogramma stelde correctoren in staat de tagger output te bekijken en eventueel te corrigeren. Wanneer geconstateerd werd dat een woord verkeerd getagd was, kon uit de set alternatieve tags die via een menu werden aangeboden de juiste tag worden geselecteerd. Door eenvoudig deze tag aan te klikken werd de foutieve tag automatisch door de goede vervangen. Het gebruik van dit tagselectieprogramma bevorderde de snelheid waarmee de controle en correctie kon plaatsvinden en voorkwam dat er onnodig fouten werden geïntroduceerd.

Literatuurverwijzing

Van Eynde, F., J. Zavrel & W. Daelemans. 2000. Part-of-Speech Tagging and Lemmatization for the Spoken Dutch Corpus. In M. Gravilidou et al. (eds.), Proceedings of the Second International Conference on Language Resources and Evaluation. 1427-1433. Athens.
 

Terug naar het begin van deze pagina.


Protocol

De CGN-tagset en de richtlijnen voor de toepassing ervan zijn vastgelegd in een protocol:

Van Eynde, F. 2003. Protocol voor POS tagging en lemmatisering. (Hier beschikbaar in .pdf-formaat.)
 

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De POS tagging is samen met de lemmatisering opgeslagen in de volgende bestanden:

Voor bovengenoemde formaten, zie de afzonderlijke beschijvingen van het plk-formaat en het tag-formaat.
 
 
Terug naar het begin van deze pagina.


Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.
 

Tabel 1. Overzicht van beschikbare data
 
Component Totaal aantal 
woorden
VL
NL
a.
Spontane conversaties ('face-to-face')
2.626.172
 878.383 1.747.789
b.
Interviews met leraren Nederlands
565.433
 315.554 249.879
c.
Telefoondialogen opgenomen m.b.v. platform
1.208.633
465.096
743.537
  d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
853.371
 343.167
510.204
  e.
Zakelijke onderhandelingen
136.461
 0  136.461
  f. Interviews en discussie uitgezonden op radio en televisie
790.269
250.708  539.561
  g.
Discussie, debatten, vergaderingen (m.n. politieke)
360.328
138.819
 221.509
h.
Lessen
405.409
105.436
299.973
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
 78.022  130.377
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
 95.206  90.866
k.
Nieuwsbulletins uitgezonden op radio en televisie
368.153
 82.855  285.298
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
 65.386  80.167
m.
Missen, lezingen, plechtige toespraken
18.075
 12.510  5.565
n.
Colleges, voordrachten, lezingen
140.901
 79.067  61.834
o.
Voorgelezen teksten  903.043 351.419 551.624
Totaal
8.916.272
3.261.628 5.654.644

 
 

Terug naar het begin van deze pagina.



Frequenties van tags

Op basis van de POS-tagging van het corpus is een alfabetische frequentielijst gemaakt die inzicht geeft in de frequentie waarmee bepaalde tags aan specifieke woorden zijn toegekend. De frequentielijst (tagalph.frq) is te vinden in de directory /data/lexicon/ van de annotatie-DVD die deel uitmaakt van versie 1.0. Een beschrijving van de wijze waarop informatie in deze lijst is weergegeven is te vinden op ../../lexicon/freq_lst.htm
 

Terug naar het begin van deze pagina.