Frequentielijsten
Voor de data in het corpus zijn tevens enkele
frequentielijsten afgeleid, met daarin informatie over de frequentie van voorkomen
van woordvormen, tags en lemmata en combinaties hiervan. Ook is er een frequentielijst
beschikbaar van woordvormen en hun fonetische transcripties. De frequentielijsten
bevinden zich in de directory /data/lexicon/ van de annotatie-DVD die deel uitmaakt van versie 1.0; het betreft hier files
met de extensie .frq. Aan de woordvormen kunnen codes zijn verbonden, die de
status van de woordvorm nader bepalen. De woordvorm wordt dan gescheiden van
de code door een 'slash forward', zoals in wonderful/foreign. De volgende
codes kunnen voorkomen:
- 'dialect' voor dialectwoorden;
- 'foreign' voor vreemdtalige woorden;
- 'incomplete' voor afgebroken woorden;
- 'mispr' voor al dan niet opzettelijke versprekingen;
- 'regionalpr' voor zwaar dialectisch uitgesproken woorden;
- 'uncertain' voor moeilijk verstaanbare woorden.
De verschillende typen frequentielijsten zijn de volgende:
- totalph
een alfabetische woordfrequentielijst met daarin
de frequentie van voorkomen van woordvormen over alle data in deze release,
met hierin de volgende kolommen:
- de rangorde van voorkomen van de woordvorm;
- de totale frequentie van de woordvorm
in het gehele corpus;
- de woordvorm.
- totrank
een woordfrequentielijst als 'rank order list',
eveneens over alle data, met hierin de volgende kolommen:
- de rangorde van voorkomen van de woordvorm,
geordend van hoog- naar laagfrequent;
- de totale frequentie van de woordvorm
in het gehele corpus;
- de woordvorm.
- areaalph
een alfabetische woordfrequentielijst waarbij
onderscheid gemaakt wordt tussen de Vlaamse data en de Nederlandse data, met
hierin de volgende kolommen:
- de rangorde van voorkomen van de woordvorm;
- de totale frequentie van de woordvorm
in de Nederlandse data;
- de totale frequentie van de woordvorm
in de Vlaamse data;
- de totale frequentie van de woordvorm
in het gehele corpus;
- de woordvorm.
- arearank
een woordfrequentielijst als 'rank order list'
waarbij onderscheid gemaakt wordt tussen de Vlaamse data en de Nederlandse data,
met hierin de volgende kolommen:
- de rangorde van voorkomen van de woordvorm,
geordend van hoog- naar laagfrequent;
- de totale frequentie van de woordvorm
in de Nederlandse data;
- de totale frequentie van de woordvorm
in de Vlaamse data;
- de totale frequentie van de woordvorm
in het gehele corpus;
- de woordvorm.
- typealph
een alfabetische woordfrequentielijst waarbij
een uitsplitsing wordt gemaakt naar de 15 componenten die in het corpus worden
onderscheiden, met hierin de volgende kolommen:
- de rangorde van voorkomen van de woordvorm;
- de totale frequentie van de woordvorm
per component (component a-o);
- (...)
- de totale frequentie van de
woordvorm in het gehele corpus;
- de woordvorm.
- typerank
een woordfrequentielijst als 'rank order list'
waarbij een onderscheid gemaakt wordt naar de 15 componenten die in het corpus
worden onderscheiden, met hierin de volgende kolommen:
- de rangorde van voorkomen van de woordvorm,
geordend van hoog- naar laagfrequent;
- de totale frequentie van de woordvorm
per component (component a-o);
- (...)
- de totale frequentie van de
woordvorm in het gehele corpus;
- de woordvorm.
- tagalph
een alfabetische frequentielijst van POS-tags,
gestructureerd als volgt:
- [woordsoortfrequentie]
[woordsoort]
- [tagfrequentie per woordsoort]
[tag]
- lemalph
een frequentielijst van lemmata met bijbehorende
woordvormen en POS-tags, gestructureerd als volgt:
- [NL-freq. lemma] [VL-freq.
lemma] [tot. freq. lemma] [lemma]
- [NL-freq. woordv.-tag]
[VL-freq. woordv.-tag] [tot. freq. woordv.-tag]
[tag] [woordv.]
- fonalph
een frequentielijst van tokens (woordvormen)
met bijbehorende fonetische transcripties, gestructureerd als volgt:
- [NL-freq. woordv.] [VL-freq.
woordv.] [tot. freq. woordv.] [woordv.]
- [NL-freq. uitspr.] [VL-freq.
uitspr.] [tot. freq. uitspr.] [uitspr.]
Merk op dat deze frequentielijst enkel op dat deel
van de data gebaseerd is waarvoor een manueel geverifieerde fonetische transcriptie
beschikbaar is.