Het CGN-Meerwoordslexicon

	1 maart 2004

	Richard Piepenbrock
	Mila Groot
	Raffaela Vlot
	Maarten Jansonius

Algemene informatie

Het CGN-Meerwoordslexicon, zoals dat geleverd wordt als onderdeel van de Eindrelease (versie 1.0) van het CGN-Corpus, is gebaseerd op een inventarisatie van alle meerwoordsuitdrukkingen die voorkomen in een reeks bronbestanden (CELEX ¹, RBN ², Woordenlijst Nederlandse Taal (Groene Boekje, 1995), Corpus Uit den Boogaart ³) en het Van Dale Groot Woordenboek der Nederlandse Taal ⁴), aangevuld met alle in het CGN-Corpus aangetroffen meerledige expressies. Het lexicon vermeldt alleen die meerwoordsuitdrukkingen die in het corpus voorkomen.

Formaat en inhoud van het CGN-Meerwoordslexicon

Het lexicon wordt geleverd in twee fileformaten:

Een standaard tekstfile (platte ASCII) met als naam cgnmlex.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond van de unieke veldscheidingstekens worden geladen in databasesystemen als Access, ORACLE of dBase.
Een XML-file met als naam cgnmlex.lex. Deze file kan worden ingelezen in een willekeurige XML-browser of -editor, en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document Type Definition) mlex.dtd is meegeleverd, zodat een indruk kan worden gegeven van de structuur van de XML-file.

Het CGN-Meerwoordslexicon telt 11 kolommen. De beide lexiconfiles zijn geordend op Orthografie Meerwoord en vervolgens op Woordsoort Meerwoord, Id-Nummer Meerwoordslemma en Volgnummer van de leden binnen de meerwoordsuitdrukking.

Aantal unieke meerwoordsuitdrukkingen	23.567
Aantal unieke meerwoordslemmata	18.593
Totaal aantal meerwoordsingangen	53.704

Inhoud van de lexiconvelden

CGN_MLEXICON.Orthografie Meerwoord ::= ([0-9][A-Z][a-z][ &'*-;])+

Orthografische representatie van de meerwoordsuitdrukking. Het flexieparadigma behorend bij het meerwoordslemma is hier opgenomen, voor zover die flexies voorkomen in het CGN-Corpus. Diakritische tekens worden weergegeven in SGML-formaat, in de volgende standaardsequentie:

"&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"

In concreto:

"&" + "a" + "grave" + ";"

"c" "acute" (= aigu)

"e" "circ" (= circonflexe)

"i" "uml" (= trema)

"n" "cedil" (= cedille)

"o" "tilde"

"u" "ring"

"A"

"C"

"E"

"I"

"N"

"O"

"U"

b.v. 'à la carte' voor 'à la carte'

en

'Gustaf Åkermans' voor 'Gustaf Åkermans'

Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&'.

CGN_MLEXICON.Volgnummer ::= [1-9]+

CGN_MLEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+

CGN_MLEXICON.Woordsoort Woordvorm ::=

"ADJ(" waarde ("," waarde)* ")" |

"BW("")" |

"LID(" waarde ("," waarde)* ") |

"N(" waarde ("," waarde)* ")" |

"SPEC(deeleigen)" |

"SPEC(meta)" |

"SPEC(onverst)" |

"SPEC(vreemd)" |

"TSW()" |

"TW(" waarde ("," waarde)* ")" |

"VG(" waarde ")" |

"VNW(" waarde ("," waarde)* ")" |

"VZ(" waarde ")" |

"WW(" waarde ("," waarde)* ")"

Part of Speech Tagging en Lemmatisering

ADJ

adjectief

BW

bijwoord

LID

lidwoord

N

substantief

SPEC(deeleigen)

code voor deel van een meerledige eigennaam

SPEC(meta)

code voor woord in zelfnoemfunctie

SPEC(onverst)

code voor onverstaanbare uiting

SPEC(vreemd)

code voor uiting in vreemde taal of niet ingeburgerd leenwoord

TSW

tussenwerpsel

TW

telwoord

VG

voegwoord

VNW

voornaamwoord

VZ

voorzetsel

WW

werkwoord

CGN_MLEXICON.Woordsoort Meerwoord ::=

COMB(eigen)

code voor meerledige eigennaam of meerledige titel

Waarschuwing

CGN_LEXICON.Id-Nummer Meerwoordslemma: ::= [0-9]+

Definitie Meerwoordslemma

CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])*

pro forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\

Kim Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\
Kim Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J

CGN_LEXICON.Morfologie Meerwoordslemma

Overzicht van de woordsoortcodes:

N = substantief
A = adjectief
Q = telwoord
V = werkwoord
D = lidwoord
O = voornaamwoord
B = bijwoord
P = voorzetsel
C = voegwoord
I = tussenwerpsel
X = restcategorie
. = affix
x = deel van discontinu affix

voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V]

dichtmaken:

((dicht)[A],(maak)[V])[V]

navertellen:

((na)[P],((ver)[V|.V],(tel)[V])[V])[V]

achteruitdeinzen:

(((achter)[B],(uit)[B])[B],(deins)[V])[V]

CGN_LEXICON.Definitie Meerwoordslemma

met dezelfde woordsoort

binnen

loopt door\WW(pv,tgw,met-t)\501446\doorlopen\((door)[B],(loop)[V])[V]\verder lopen, vermengen van kleuren\J\N\

CGN_MLEXICON.Optioneel lid ::= "J" | "N"

CGN_MLEXICON.Continu meerwoord ::= "J" | "N"

¹ Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek, Nijmegen.

² Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit Utrecht.

³ Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken Nederlands. Utrecht: Oosthoek, Scheltema & Holkema. Elektronische versie beschikbaar als deel van Eindhoven Corpus.

⁴ Geerts, G. & T. den Boon (1999). Van Dale Groot Woordenboek der Nederlandse Taal. Utrecht/Antwerpen: Van Dale Lexicografie.

"&" +	"a" +	"grave"	+ ";"
	"c"	"acute" (= aigu)
	"e"	"circ" (= circonflexe)
	"i"	"uml" (= trema)
	"n"	"cedil" (= cedille)
	"o"	"tilde"
	"u"	"ring"
	"A"
	"C"
	"E"
	"I"
	"N"
	"O"
	"U"
b.v.	'à la carte' voor 'à la carte'
	en
	'Gustaf Åkermans' voor 'Gustaf Åkermans'