Het CGN-Meerwoordslexicon
|
1 maart 2004 |
|
|
|
Richard Piepenbrock |
|
Mila Groot |
|
Raffaela Vlot |
|
Maarten Jansonius |
Algemene informatie
Het CGN-Meerwoordslexicon, zoals dat
geleverd wordt als onderdeel van de Eindrelease (versie 1.0) van het CGN-Corpus,
is gebaseerd op een inventarisatie van alle meerwoordsuitdrukkingen die
voorkomen in een reeks bronbestanden (CELEX 1,
RBN 2, Woordenlijst Nederlandse Taal (Groene
Boekje, 1995), Corpus Uit den Boogaart 3)
en het Van Dale Groot Woordenboek der Nederlandse Taal 4),
aangevuld met alle in het CGN-Corpus aangetroffen meerledige expressies.
Het lexicon vermeldt alleen die meerwoordsuitdrukkingen die in het corpus
voorkomen.
Formaat en inhoud van het CGN-Meerwoordslexicon
Het lexicon wordt geleverd in twee fileformaten:
-
Een standaard tekstfile (platte ASCII)
met als naam cgnmlex.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters
met diakritische tekens (accenten) worden weergegeven in SGML-formaat.
Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond
van de unieke veldscheidingstekens worden geladen in databasesystemen als
Access, ORACLE of dBase.
-
Een XML-file met als naam cgnmlex.lex.
Deze file kan worden ingelezen in een willekeurige XML-browser of -editor,
en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document
Type Definition) mlex.dtd is meegeleverd, zodat een indruk kan worden gegeven
van de structuur van de XML-file.
Het CGN-Meerwoordslexicon telt 11 kolommen.
De beide lexiconfiles zijn geordend op Orthografie Meerwoord en vervolgens
op Woordsoort Meerwoord, Id-Nummer Meerwoordslemma en Volgnummer van de
leden binnen de meerwoordsuitdrukking.
Aantal unieke meerwoordsuitdrukkingen |
23.567 |
Aantal unieke meerwoordslemmata |
18.593 |
Totaal aantal meerwoordsingangen |
53.704 |
Inhoud van de lexiconvelden
-
CGN_MLEXICON.Orthografie Meerwoord ::=
([0-9][A-Z][a-z][ &'*-;])+
Orthografische representatie van
de meerwoordsuitdrukking. Het flexieparadigma behorend bij het meerwoordslemma
is hier opgenomen, voor zover die flexies voorkomen in het CGN-Corpus.
Diakritische tekens worden weergegeven in SGML-formaat, in de volgende
standaardsequentie:
"&" + hoofdletterteken/kleine
letterteken + accentrepresentatie + ";"
In concreto:
"&" + |
"a" + |
"grave" |
+ ";" |
|
"c" |
"acute" (= aigu) |
|
|
"e" |
"circ" (= circonflexe) |
|
|
"i" |
"uml" (= trema) |
|
|
"n" |
"cedil" (= cedille) |
|
|
"o" |
"tilde" |
|
|
"u" |
"ring" |
|
|
"A" |
|
|
|
"C" |
|
|
|
"E" |
|
|
|
"I" |
|
|
|
"N" |
|
|
|
"O" |
|
|
|
"U" |
|
|
b.v. |
'à la carte' voor 'à
la carte' |
|
|
|
en |
|
|
|
'Gustaf Åkermans' voor
'Gustaf Åkermans' |
|
|
Daarnaast wordt het SGML-symbool
'&' gebruikt ter representatie van het leesteken '&'.
-
CGN_MLEXICON.Volgnummer ::= [1-9]+
Dit nummer geeft de positie van
de Woordvorm aan in de zin ten opzichte van de andere leden van de meerwoordsuitdrukking.
-
CGN_MLEXICON.Orthografie Woordvorm ::=
([0-9][A-Z][a-z][&'-;])+
Orthografische representatie van
de woordvorm, d.w.z. de afzonderlijke leden van de meerwoordsuitdrukking.
Diakritische tekens als bij woordvorm.
-
CGN_MLEXICON.Woordsoort Woordvorm ::=
De woordsoort van de woordvorm,
d.w.z. van de afzonderlijke leden van de meerwoordsuitdrukking.
-
"ADJ(" waarde ("," waarde)* ")" |
-
"BW("")" |
-
"LID(" waarde ("," waarde)* ") |
-
"N(" waarde ("," waarde)* ")" |
-
"SPEC(deeleigen)" |
-
"SPEC(meta)" |
-
"SPEC(onverst)" |
-
"SPEC(vreemd)" |
-
"TSW()" |
-
"TW(" waarde ("," waarde)* ")" |
-
"VG(" waarde ")" |
-
"VNW(" waarde ("," waarde)* ")" |
-
"VZ(" waarde ")" |
-
"WW(" waarde ("," waarde)* ")"
Waarden voor de open woordklassen volgens
het document Part of Speech Tagging en Lemmatisering (Van Eynde
2003):
-
ADJ
-
adjectief
-
BW
-
bijwoord
-
LID
-
lidwoord
-
N
-
substantief
-
SPEC(deeleigen)
-
code voor deel van een meerledige eigennaam
-
SPEC(meta)
-
code voor woord in zelfnoemfunctie
-
SPEC(onverst)
-
code voor onverstaanbare uiting
-
SPEC(vreemd)
-
code voor uiting in vreemde taal of
niet ingeburgerd leenwoord
-
TSW
-
tussenwerpsel
-
TW
-
telwoord
-
VG
-
voegwoord
-
VNW
-
voornaamwoord
-
VZ
-
voorzetsel
-
WW
-
werkwoord
-
CGN_MLEXICON.Woordsoort Meerwoord ::=
De woordsoort van de meerwoordsuitdrukking,
indien men de gehele uitdrukking grammaticaal als één woord
wenst te beschouwen. Waarden als bij de woordsoort van de woordvorm, met
de volgende aanvulling:
-
COMB(eigen)
-
code voor meerledige eigennaam of meerledige
titel
Waarschuwing: dit veld is alleen
opgenomen in de tekstversie cgnmlex.txt en niet in de XML-versie cgnmlex.lex.
Het is daarmee een tentatieve code, die in de toekomst nog gewijzigd kan
worden.
-
CGN_LEXICON.Id-Nummer Meerwoordslemma:
::= [0-9]+
Volgnummer (Id = 'identificatie')
dat aangeeft welke meerwoordsuitdrukkingen kunnen beschouwd worden als
behorend tot één flexieparadigma. Het onderscheid is alleen
relevant voor scheidbaar samengestelde werkwoorden. Het vóórkomen
van orthografisch identieke (meerwoords)lemmata met verschillende Id-Nummers
impliceert dat het gaat om lemmata met onderscheiden morfosyntactische
(b.v. sterke of zwakke vervoeging) of fonetische (b.v. klemtoon) eigenschappen,
in combinatie met een betekenisverschil. Het betekenisonderscheid wordt
bondig aangeduid in het veld Definitie Meerwoordslemma.
-
CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])*
Het lemma van meerwoordsuitdrukkingen,
zoals 'uitademen' bij meerledige woordvormen als '(ik) adem uit'. Bij continue
meerwoordsuitdrukkigen, namelijk meerledige ingeburgerde vreemdtalige expressies,
meerledige eigennamen en titels, wordt een 'dummy' lemmavorm gepostuleerd
die gelijk is aan de expressie, waarbij de delen verbonden zijn door underscores,
als volgt:
pro forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
Kim Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\
Kim Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J
-
CGN_LEXICON.Morfologie Meerwoordslemma
Hiërarchische morfologische
segmentatie van het meerwoordslemma. Deze representatie betreft het meerwoordslemma,
en omvat dus slechts derivationele en compositionele morfologie, en geen
karakterisering van de inflectionele kenmerken van de woordvorm. De morfologische
segmentatie is alleen relevant voor scheidbaar samengestelde werkwoorden.
De representatie is in zoverre redundant, dat voor elke woordvorm de morfologische
representatie van het meerwoordslemma herhaald wordt. De verschillende
niveaus van segmentatie, van het gehele meerwoordslemma tot op diens atomaire
(ondeelbare) morfemen, worden weergegeven door elkaar omvattende paren
van ronde haken, waarbij elk morfeem voorzien is van een woordsoortaanduiding
tussen rechte haken. Gebonden morfemen (affixen) worden aangegeven door
punten, of de letter 'x' in het geval van een discontinu affix (in combinatie
met een punt voor het andere lid).
Overzicht van de woordsoortcodes:
-
N = substantief
-
A = adjectief
-
Q = telwoord
-
V = werkwoord
-
D = lidwoord
-
O = voornaamwoord
-
B = bijwoord
-
P = voorzetsel
-
C = voegwoord
-
I = tussenwerpsel
-
X = restcategorie
-
. = affix
-
x = deel van discontinu affix
De rol van het affix in de afleiding
of samenstelling wordt weergegeven door een verticale streep, waarbij de
woordsoort achter de streep duidt op de woordsoorten van de morfemen die
dienen als input voor het morfologisch proces, en de woordsoort vóór
de streep duidt op de woordsoort van de output van het morfologisch proces,
m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem.
Zo staat '[V|.A]' bij 'voorverwarmen' voor het affigeringsproces waarbij
een adjectief d.m.v. een voorvoegsel 'ver-' tot een werkwoord kan worden
omgevormd:
voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V]
Voorbeelden van morfologische segmentatie:
-
dichtmaken:
-
((dicht)[A],(maak)[V])[V]
-
navertellen:
-
((na)[P],((ver)[V|.V],(tel)[V])[V])[V]
-
achteruitdeinzen:
-
(((achter)[B],(uit)[B])[B],(deins)[V])[V]
-
CGN_LEXICON.Definitie Meerwoordslemma
Voor alle meerwoordslemmata die
meer dan eens met dezelfde woordsoort zijn opgenomen om reden van
onderscheiden vormkenmerken (zoals morfosyntactische eigenschappen of klemtoon)
in combinatie met een betekenisverschil, is een bondige definitie opgenomen
ter onderscheiding van de lemmata. Dit veld is alleen relevant voor scheidbaar
samengestelde werkwoorden. Gevallen van dergelijke ambiguïteit zullen
niet binnen dit lexicon optreden, maar wel in vergelijking met het
enkelwoordslexicon cgnlex.txt. Bijvoorbeeld:
loopt door\WW(pv,tgw,met-t)\501446\doorlopen\((door)[B],(loop)[V])[V]\verder
lopen, vermengen van kleuren\J\N\
-
CGN_MLEXICON.Optioneel lid ::= "J" |
"N"
Als de Woordvorm optioneel deel
uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'J'.
Als de Woordvorm verplicht deel uitmaakt van een meerwoordsuitdrukking,
dan bevat dit veld de waarde 'N'. Zodoende krijgt 'ademt' als lid van 'inademen'
en 'uitademen' de waarde 'J', terwijl 'apen' als lid van 'na-apen' de waarde
'N' krijgt.
-
CGN_MLEXICON.Continu meerwoord ::= "J"
| "N"
Als de meerwoordsuitdrukking niet
onderbroken kan worden in de zin, zoals bij 'Tien Voor Taal' of 'per se',
krijgt de meerwoordsuitdrukking als geheel hier de waarde 'J', anders 'N',
zoals voor scheidbaar samengestelde werkwoordsvormen. Uiteraard is deze
waarde niet absoluut op te vatten in een corpus van gesproken taal, waar
onderbreking door gevocaliseerde pauzes of correcties altijd mogelijk is.
1
Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak,
Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek,
Nijmegen.
2
Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit
Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement
Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands,
Universiteit Utrecht.
3
Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken
Nederlands. Utrecht: Oosthoek, Scheltema & Holkema. Elektronische
versie beschikbaar als deel van Eindhoven Corpus.
4
Geerts, G. & T. den Boon (1999). Van Dale Groot Woordenboek der
Nederlandse Taal. Utrecht/Antwerpen: Van Dale Lexicografie.