Het .wrd-formaat
Bestanden van het type .wrd (te vinden in /data/annot/text/wrd/ van de annotatie-DVD die deel uitmaakt van versie 1.0)
bevatten een manueel geverifieerde woordoplijning waarbij de woorden van het orthografisch
transcript zijn gekoppeld aan het geluidssignaal. De bestanden zijn in ShortTextGrid-formaat
en kunnen worden gemaakt, gewijzigd of bekeken met behulp van het programma PRAAT.
Voor een beschrijving van het ShortTextGrid-formaat, zie beschrijving van het
.ort-formaat. Voor iedere spreker zijn twee tiers
voorzien. De eerste tier heeft de sprekercode als tiernaam en is identiek aan
de gelijknamige tier in het .ort-bestand. De daaropvolgende tier krijgt
dezelfde naam met suffix _FON (resp. N98765 en N98765_FON) en bevat het
fonetisch transcript uit het .fon-bestand. De tijdmarkeringen op beide
tiers zijn gelijk.
Een interval in de tier met orthografisch transcript is gevuld met ofwel precies
één woord (al dan niet met underscores), ofwel een enkele underscore
("_") ofwel een pauze (leeg interval).
In de tier met het fonetisch transcript kunnen de volgende verschijnselen zich
voordoen:
- In het geval dat in het .fon-bestand een foneem is aangeduid als
zijnde gedeeld door twee woorden, dan kunnen zich de volgende twee situaties
voordoen:
- het gedeelde foneem is geen plosief (zie voor verzameling van plosieven
de beschrijving van het .fon-formaat). Aan
beide zijden van de grens die de twee woorden scheidt, wordt een "="
weergegeven, wat aanduidt dat de twee woorden respectievelijk het laatste
en het eerste foneem delen.
- het gedeelde foneem is een plosief, en dus akoestisch gezien ondeelbaar.
Een apart segment is gedefinieerd dat precies de gedeelde plosief bevat
en wordt gelabeld met "_", in zowel de tier met het fonetisch
transcript als de tier met de orthografisch weergave. Indien de gedeelde
plosief tevens precies een transcriptie is van een woord, waardoor de
plosief gedeeld wordt met zichzelf en het daaropvolgende of voorafgaande
woord, dan wordt in het segment tevens het fonetisch label van deze plosief
geschreven met daarbij de "_" aan de zijde waaraan de
plosief gedeeld wordt.
- In het geval dat omwille van de uitspraak twee woorden worden verbonden
middels een tussenklank, wordt dit weergegeven in de tier met het fonetisch
transcript middels aan beide zijden van de grens de tussenklank te verbinden
aan het woord met een koppelteken ("-").
Voor een overzicht van de gebruikte fonetische symbolen, zie beschrijving van
het .fon-formaat. Analoog aan het .fon-formaat
bevat een .wrd-bestand geen BACKGOUND- en/of COMMENT-tier.