Het .awd-formaat
Bestanden van het type .awd (te vinden in /data/annot/text/awd van de annotatie-DVD die deel uitmaakt van versie 1.0)
bevatten een automatisch gegenereerde woordoplijning, waarbij de woorden van het
orthografisch transcript zijn gekoppeld aan het geluidssignaal. Daarnaast bevatten
de bestanden een automatisch gegeneerde foneemoplijning, waarbij tevens de afzonderlijke
fonemen uit de automatische fonetische transcripties zijn gekoppeld aan het geluidssignaal.
De bestanden zijn in ShortTextGrid-formaat en kunnen worden gemaakt, gewijzigd
of bekeken met behulp van het programma PRAAT.
Voor een beschrijving van het ShortTextGrid-formaat, zie beschrijving van het
.ort-formaat. Voor iedere spreker zijn drie tiers
voorzien. De eerste tier heeft de sprekercode als tiernaam en is identiek aan
de gelijknamige tier in het .ort-bestand. De daaropvolgende tier krijgt
dezelfde naam met suffix _FON (resp. N98765 en N98765_FON) en bevat een
automatische fonetische transcriptie. De tijdmarkeringen op deze beide tiers zijn
gelijk. Tot slot is er nog een derde tier met dezelfde naam en met suffix _SEG
(N98765_SEG). Hierin zijn de onderliggende foneemsegmentaties weergegeven
die overeen komen met de woorden in de twee andere tiers.
Een interval in de tier met orthografisch transcript is gevuld met ofwel precies
één woord (al dan niet met underscores), ofwel een enkele underscore
("_"), ofwel een pauze (leeg interval), ofwel een tekst (meerdere
woorden) zoals die voorkomt in precies dat interval in het .ort bestand. In
dit laatste geval is de tier met de fonetische transcriptie en de tier met de
foneemsegmentatie gevuld met de automatisch gegeneerde fonetische transcriptie
dus zonder segmentatie informatie. Tevens zijn intervallen van dit type in alledrie
de tiers altijd voorzien van een "!" voor de tekst, wat aangeeft dat
de gevonden segmentatie (die er niet is) niet betrouwbaar is. Een "!"
kan ook geplaatst zijn als er wel een segmentatie gevonden kon worden, maar
waarvoor gold dat deze onbetrouwbaar was gegeven een bepaalde betrouwbaarheidswaarde.
In de tier met het fonetisch transcript kunnen de volgende verschijnselen zich
voordoen:
- In het geval dat in het .fon-bestand een foneem is aangeduid als
zijnde gedeeld door twee woorden, dan kunnen zich de volgende twee situaties
voordoen:
- het gedeelde foneem is geen plosief (zie voor verzameling van plosieven
de beschrijving van het .fon-formaat).
Aan beide zijden van de grens die de twee woorden scheidt, wordt een "="
weergegeven, wat aanduidt dat de twee woorden respectievelijk het laatste
en het eerste foneem delen.
- het gedeelde foneem is een plosief, en dus akoestisch gezien ondeelbaar.
Een apart segment is gedefinieerd dat precies de gedeelde plosief bevat
en wordt gelabeld met "_", in zowel de tier
met het fonetisch transcript als de tier met de orthografisch weergave.
Indien de gedeelde plosief tevens precies een transcriptie is van een
woord, waardoor de plosief gedeeld wordt met zichzelf en het daaropvolgende
of voorafgaande woord, dan wordt in het segment tevens het fonetisch label
van deze plosief geschreven met daarbij de "_"
aan de zijde waaraan de plosief gedeeld wordt.
- In het geval dat omwille van de uitspraak twee woorden worden verbonden
middels een tussenklank, wordt dit weergegeven in de tier met het fonetisch
transcript middels aan beide zijden van de grens de tussenklank te verbinden
aan het woord met een koppelteken ("-").
In de tier met de foneemsegmentaties komen alleen lege intervallen of intervallen
met daarin één foneemsymbool voor, waarbij een "_"-segment
uit de orthografische en fonetische tier hier is gelabeld met het foneem (een
plosief) dat gedeeld werd. Overeenkomstig is een gedeeld foneem dat geen plosief
is in deze tier weergeven in één interval waarbij de woordgrenzen
in de orthografische en de fonetische tier midden in dit interval liggen.
Voor een overzicht van de gebruikte fonetische symbolen, zie beschrijving van
het .fon-formaat. Analoog aan het .wrd-formaat
bevat een .awd-bestand geen BACKGOUND- en/of COMMENT-tier.