Het CGN-Lexicon
|
1 maart 2004 |
|
|
|
Richard Piepenbrock |
|
Mila Groot |
|
Raffaela Vlot |
|
Maarten Jansonius |
Algemene informatie
Het CGN-Lexicon, zoals dat geleverd
wordt als onderdeel van de Eindrelease (Versie 1.0) van het CGN-Corpus,
bevat vrijwel alle types (unieke woordvormen) uit het corpus. Het lexicon
vermeldt alleen woorden die in het corpus voorkomen en sluit die types
uit, waarvoor uitgebreide lexicale informatie irrelevant is. Dat laatste
geldt voor versprekingen, in de spraak afgebroken woorden, niet ingeburgerde
vreemdtalige woorden, leestekens en onverstaanbare uitingen.
Dit lexicon bevat uitsluitend aaneengeschreven
woordvormen; meerwoordsuitdrukkingen met spaties worden geleverd in een
apart CGN-Meerwoordslexicon met als filenaam cgnmlex.txt. Wel zijn in dit
lexicon alle losse delen van deze meerwoordsuitdrukkingen opgenomen.
Het CGN-Lexicon telt 14 kolommen,
waarvan de eerste 4 (Id-Nummer Woordvorm, Orthografie Woordvorm,
Woordsoort en Lemma) altijd gevuld zijn. De kolom Gebruik
bevat slechts codes voor een regionale of stijlvariant, en de kolommen
Syntax, Uitspraak (4 subkolommen), Morfologie en Definitie
zijn voorzien van codes voor zover deze voorhanden zijn in de bronlexica
CELEX (Centrum voor Lexicale Informatie) 1
en RBN (Referentiebestand Nederlands) 2,
of gegenereerd op basis van de uitspraken in CELEX en FONILEX (Fonetisch
Lexicon Vlaams) 3.
Formaat en inhoud van het CGN-Lexicon
Het lexicon wordt geleverd in twee fileformaten:
-
Een standaard tekstfile (platte ASCII)
met als naam cgnlex.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters
met diakritische tekens (accenten) worden weergegeven in SGML-formaat.
Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond
van de unieke veldscheidingstekens worden geladen in databasesystemen als
Access, ORACLE of dBase.
-
Een XML-file met als naam cgnlex.lex.
Deze file kan worden ingelezen in een willekeurige XML-browser of -editor,
en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document
Type Definition) lex.dtd is meegeleverd, zodat een indruk kan worden gegeven
van de structuur van de XML-file.
De lexiconfiles zijn geordend op Orthografie
Woordvorm, Woordsoort en vervolgens op Lemma.
Aantal woordvormingangen
(type-woordsoortparen) |
181.579 |
Totaal aantal ingangen, inclusief
syntaxpatronen |
229.104 |
Aantal velden |
14 |
Inhoud van de lexiconvelden
-
CGN_LEXICON.Id-Nummer Woordvorm ::=
[0-9]+
Uniek volgnummer (Id = 'identificatie')
voor elk woordvorm-tag-paar. Het is niet uniek per regel, omdat voor elke
type-tag-combinatie meer dan één syntactisch complementatiepatroon
voor kan komen. Orthografisch identieke woordvormen kunnen sowieso twee
of meer keren vóórkomen indien zij behoren tot verschillende
lemmata, of binnen één lemma indien zij over onderscheiden
morfosyntactische codes kunnen beschikken, zoals 'vatten' als infinitiefvorm,
tegenwoordige tijd meervoud en verleden tijd meervoud van het werkwoord
'vatten'.
-
CGN_LEXICON.Orthografie Woordvorm ::=
([0-9][A-Z][a-z][&'-;])+
Orthografische representatie van
de woordvorm, oftewel het flexieparadigma behorend bij het lemma, voor
zover die flexies voorkomen in het CGN-Corpus. Diakritische tekens worden
weergegeven in SGML-formaat, in de volgende standaardsequentie:
"&" + hoofdletterteken/kleine
letterteken + accentrepresentatie + ";"
In concreto:
"&" + |
"a" + |
"grave" |
+ ";" |
|
"c" |
"acute" (= aigu) |
|
|
"e" |
"circ" (= circonflexe) |
|
|
"i" |
"uml" (= trema) |
|
|
"n" |
"cedil" (= cedille) |
|
|
"o" |
"tilde" |
|
|
"u" |
"ring" (alleen in de namen 'Åkermans'
en 'Ålesund') |
|
|
"A" |
|
|
|
"C" |
|
|
|
"E" |
|
|
|
"I" |
|
|
|
"N" |
|
|
|
"O" |
|
|
|
"U" |
|
|
b.v. |
'inconveniëren' voor 'inconveniëren' |
|
|
|
en |
|
|
|
'Française' voor 'Française' |
|
|
Daarnaast wordt het SGML-symbool
'&' gebruikt ter representatie van het leesteken '&' (ampersand).
-
CGN_LEXICON.Woordsoort ::=
-
"ADJ(" waarde ("," waarde)* ")" |
-
"BW(" ("dial"|"") ")" |
-
"LID(" waarde ("," waarde)* ") |
-
"N(" waarde ("," waarde)* ")" |
-
"SPEC(afgebr)" |
-
"SPEC(deeleigen)" |
-
"SPEC(meta)" |
-
"SPEC(onverst)" |
-
"SPEC(vreemd)" |
-
"TSW(" ("dial"|"") ")" |
-
"TW(" waarde ("," waarde)* ")" |
-
"VG(" waarde ")" |
-
"VNW(" waarde ("," waarde)* ")" |
-
"VZ(" waarde ("," waarde)* ")" |
-
"WW(" waarde ("," waarde)* ")"
Waarden voor de open woordklassen volgens
het document Part of Speech Tagging en Lemmatisering (Van Eynde
2003):
-
ADJ
-
adjectief
-
BW
-
bijwoord
-
LID
-
lidwoord
-
N
-
substantief
-
SPEC(afgebr)
-
code vrijwel alleen in lexicon gebruikt
voor delen van meerledige samentrekkingen ('in- en uitvoer'); in het corpus
ook gebruikt voor elk in spraak afgebroken woord
-
SPEC(deeleigen)
-
code voor deel van een meerledige eigennaam
-
SPEC(meta)
-
code voor woord in zelfnoemfunctie
-
SPEC(onverst)
-
code voor onverstaanbare uiting
-
SPEC(vreemd)
-
code voor uiting in vreemde taal of
niet ingeburgerd leenwoord
-
TSW
-
tussenwerpsel
-
TW
-
telwoord
-
VG
-
voegwoord
-
VNW
-
voornaamwoord
-
VZ
-
voorzetsel
-
WW
-
werkwoord
-
CGN_LEXICON.Lemma ::= ([0-9][A-Z][a-z][&'-;_])+
Orthografische representatie van
het lemma, d.w.z. het trefwoord dat dient ter karakterisering van het complete
flexieparadigma. Diakritische tekens als bij woordvorm. Bij woordvormen
met woordsoort 'SPEC' wordt standaard een underscore in plaats van een
lemmawaarde toegekend.
-
CGN_LEXICON.Id-Nummer Lemma: ::= [0-9]+
Volgnummer (Id = 'identificatie')
dat aangeeft welke woordvormen behoren tot één flexieparadigma.
Het vóórkomen van orthografisch identieke lemmata met verschillende
Id-Nummers impliceert dat het gaat om lemmata met onderscheiden morfosyntactische
eigenschappen, zoals verschillend genus bij 'het blik' en 'de blik', verschillende
woordsoort bij 'het leven' en 'wij leven' en verschillende derivationele
morfologie bij 'koker' ('cilinder' vs. 'iemand die kookt'), of onderscheiden
uitspraak, zoals 'band' ('stof': /bAnt/ vs. 'muziekgroep': /bEnt/). Deze
onderscheiden vormkenmerken dienen dan wel samen te gaan met een betekenisverschil;
zodoende worden 'de matras' en 'het matras' gewoon behandeld als één
lemma. Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie.
-
CGN_LEXICON.Syntax
De mogelijke syntactische complementatiepatronen
per woordvorm. Per woordvorm zijn meerdere patronen mogelijk, die dan in
afzonderlijke records onder elkaar worden weergegeven met eenzelfde woordvorm-woordsoortcombinatie.
De patronen zijn afgeleid uit de dwarsdoorsnede van CELEX en RBN. Patronen
die na conversie alleen in CELEX of in RBN voorkwamen, zijn dus niet opgenomen.
De gebruikte waarden zijn conform het document CGN Syntactische Annotatie
(Hoekstra et al. 2004).
-
CGN_LEXICON.Status ::= ("B" | "INF"
| "*d" | "*u" | "*v" | "*x" | "*z")("," Status)* | NULL
Status van woordvorm:
B = Belgicisme
INF = informeel
*d = dialect
*u = al dan niet opzettelijke verspreking
*v = niet ingeburgerd vreemdtalig
woord
*x = slecht verstaanbaar woord
*z = zwaar dialectisch uitgesproken
woord, getranscribeerd in genormaliseerde spelling
-
'B' is een code oorspronkelijk afkomstig
uit het RBN-Lexicon voor woorden die beschouwd kunnen worden als 'karakteristiek
voor de Vlaamse woordenschat'. Dat kan zowel slaan op woorden die alleen
in Vlaanderen gangbaar zijn, zoals 'frigo' en 'jobstudent', als op woorden
die gewoon Algemeen Nederlands zijn, maar in Vlaanderen in een andere dan
voor het gehele taalgebied gangbare betekenis worden gebruikt, zoals 'aardig'
(vreemd) en 'afschrijven' (spieken).
-
'INF' wordt gebruikt voor woorden die
vanuit de papieren bronnen (zoals Van Dale), volgens de CGN-protocollen
of het oordeel van medewerkers als behorend tot de algemene woordenschat
worden beschouwd, maar toch gezien zouden kunnen worden als informeel,
idiosyncratisch of regionaal gemarkeerd. In de huidige versie worden de
diminutiefvormen eindigend op '-ie(s)' (Noord-Nederlands) en '-ke(n)(s)'
(Vlaams) niet aangemerkt als dialectisch, maar houden ze wel de code 'INF':
bakkie\N(soort,ev,dim,onz,stan)\bakkie\INF\
beessie\N(soort,ev,dim,onz,stan)\beest\INF\
-
'*d' wordt gebruikt voor woorden die
door de transcribeurs en de lexicologen zeker als dialect worden aangemerkt.
Voorbeeld:
benne\WW(pv,tgw,mv)\zijn\*d\
-
CGN_LEXICON.Uitspraak CGN Nederlands
Normaal ::= [+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*
Canonieke (standaard) Nederlandse
uitspraakrepresentatie gegenereerd met de CGN grafeem-foneemomzetter 4,
getraind op de CELEX-uitspraaktranscriptie. Deze representatie bevat geen
syllabegrenzen of klemtoonmarkering.
-
CGN_LEXICON.Uitspraak CGN Vlaams Normaal
::= [*+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*
Canonieke (standaard) Vlaamse uitspraakrepresentatie
gegenereerd met de CGN grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie.
Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
-
CGN_LEXICON.Uitspraak CGN Vlaams Formeel
::= [+2:@AEGINOSYZ`abdefghijklmnoprstuvwxyz]*
Zeer formele Vlaamse uitspraakrepresentatie
gegenereerd met de CGN grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie.
Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
-
CGN_LEXICON.Uitspraak CELEX ::= ['+-2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*
Canonieke uitspraakrepresentatie
van de woordvorm inclusief syllabegrenzen en hoofdklemtoon, voor zover
voorhanden in het CELEX-bronlexicon. Deze representatie geeft alleen die
assimilaties weer, welke leiden tot veranderingen op foneemniveau, zoals
Auslautverhärtung ("paard": /'part/) en regressieve assimilatie en
degeminatie ("inboedel": /'Im-bu-d@l/; "bloeddruk": /'blu-drYk/) en is
daarom te kenschetsen als fonemisch, op een niveau tussen fonologisch en
fonetisch in.
De representatie is in de CGN-foneemset,
inclusief de palatale nasaal /J/.
-
CGN_LEXICON.Morfologie
Hiërarchische morfologische
segmentatie van het lemma. Deze representatie betreft het lemma, en omvat
dus slechts derivationele en compositionele morfologie, en geen karakterisering
van de inflectionele kenmerken van de woordvorm. De representatie is in
zoverre redundant, dat voor elke woordvorm de morfologische representatie
van het lemma herhaald wordt. De verschillende niveaus van segmentatie,
van het gehele lemma tot op diens atomaire (ondeelbare) morfemen, worden
weergegeven door elkaar omvattende paren van ronde haken, waarbij elk morfeem
voorzien is van een woordsoortaanduiding tussen rechte haken. Gebonden
morfemen (affixen) worden aangegeven door punten, of de letter 'x' in het
geval van een discontinu affix (in combinatie met een punt voor het andere
lid).
Overzicht van de woordsoortcodes:
-
N = substantief
-
A = adjectief
-
Q = telwoord
-
V = werkwoord
-
D = lidwoord
-
O = voornaamwoord
-
B = bijwoord
-
P = voorzetsel
-
C = voegwoord
-
I = tussenwerpsel
-
X = restcategorie
-
. = affix
-
x = deel van discontinu affix
De rol van het affix in de afleiding
of samenstelling wordt weergegeven door een verticale streep, waarbij de
woordsoort achter de streep duidt op de woordsoorten van de morfemen die
dienen als input voor het morfologisch proces, en de woordsoort vóór
de streep duidt op de woordsoort van de output van het morfologisch proces,
m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem.
Zo staat '[N|A.]' bij 'arrogantie' voor het affigeringsproces waarbij een
adjectief d.m.v. een achtervoegsel '-ie' tot een substantief kan worden
omgevormd:
((arrogant)[A],(ie)[N|A.])[N]
Voorbeelden van morfologische segmentatie:
-
boek:
-
(boek)[N] (nl. monomorfematisch)
-
telraam:
-
((tel)[V],(raam)[N])[N]
-
hondenhok:
-
((hond)[N],(en)[N|N.N],(hok)[N])[N]
-
onmondig:
-
((on)[A|.A],((mond)[N],(ig)[A|N.])[A])[A]
-
gehemelte:
-
((ge)[N|.Nx],(hemel)[N],(te)[N|xN.])[N]
-
arbeidsovereenkomst:
-
((arbeid)[N],(s)[N|N.N],(((overeen)[B],(kom)[V])[V],(st)[N|V.])[N])[N]
-
CGN_LEXICON.Corpus Status ::= ( "C"
| "I" | "O" | "V" ) | NULL
Code die de orthografische status
aangeeft van het in het corpus aangetroffen type:
-
C = correcte spelling van corpustype
-
I = incorrecte spelling van corpustype
-
O = ongevalideerde spelling van corpustype
-
V = gevalideerde spelling van corpustype
Als de spelling van de woordvorm in
het corpus in orde bevonden is, krijgt de lexiconingang de code V
(gevalideerd). Bij een incorrecte spelling wordt de code I (incorrect)
toegekend. Indien validatie van de woordvorm niet meer mogelijk was, wordt
geen uitspraak gedaan over de correctheid en krijgt de woordvorm het neutrale
label O (ongevalideerd). De code C (correct) wordt gebruikt
voor alternatieve, correcte lemmatiseringen van de gevallen die als I,
O of V zijn aangemerkt, zoals:
396259\asielaanvragen\N(soort,mv,basis)\asielaanvrage\133817\C\
392625\asielaanvragen\N(soort,mv,basis)\asielaanvraag\131545\V\
-
CGN_LEXICON.Definitie
Voor alle lemmata die meer dan eens
met dezelfde woordsoort zijn opgenomen om reden van onderscheiden
vormkenmerken (zoals de morfosyntactische eigenschappen genus of derivationele
morfologie), in combinatie met een betekenisverschil, is een bondige definitie
opgenomen ter onderscheiding van de lemmata, bijvoorbeeld:
73704\doorlopen\WW(inf,vrij,zonder)\doorlopen\23802\dor-'lo-p@\V\bewegen
door, tot het einde volgen\
73705\doorlopen\WW(inf,vrij,zonder)\doorlopen\501446\'dor-lo-p@\V\verder
lopen, vermengen van kleuren\
1
Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak,
Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek,
Nijmegen.
2
Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit
Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement
Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands,
Universiteit Utrecht.
3
FONILEX. Centre for Computational Linguistics, Katholieke Universiteit
Leuven & Centrum voor Nederlandse Taal en Spraak, Universiteit Antwerpen
& Vakgroep voor Electronica en Informatiesystemen, Universiteit Gent
4
CGN grafeem-foneemomzetter. Zie:
Véronique Hoste, Steven Gillis
en Walter Daelemans (Universiteit Antwerpen), A Rule Induction Approach
to Modeling Regional Pronunciation Variation. In: Proceedings of COLING
2000, Saarbrücken, Germany. San Francisco: Morgan Kaufman Publishers,
2000, pp. 327-333.
en:
Véronique Hoste, Steven Gillis
en Walter Daelemans, Machine Learning for Modeling Dutch Pronunciation
Variation. Proceedings of the tenth CLIN meeting, Utrecht, The Netherlands.