Bestanden van het type .prx (prosodische annotatie) bevatten een chronologische weergave van de prosodische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door prtext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. De prx-bestanden zijn te vinden in /data/annot/xml/prx1 en /data/annot/xml/prx2 van de annotatie-DVD.
<prtext> | tekst met prosodische annotatie. | ||||||||||||
<prau> | een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. | ||||||||||||
<prw> | een woord binnen een annotatie-eenheid (<prau>). | ||||||||||||
<prl> | het leesteken binnen een annotatie-eenheid (<prau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". | ||||||||||||
<prmu> | een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten. | ||||||||||||
<prm> | een marker binnen de mark-up-eenheid (<prmu>). | ||||||||||||
ref | De identificatie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> | ||||||||||||
s | spreker-identificatie. In de context van het <prau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer. | ||||||||||||
w | woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden) | ||||||||||||
annot | prosodische annotatie die aan de woordvorm is toegekend. | ||||||||||||
nprom | aantal prominente lettergrepen in de woordvorm. | ||||||||||||
nlength | aantal verlengde klanken in de woordvorm. | ||||||||||||
nweakb | aantal zwakke grenzen in de woordvorm. | ||||||||||||
nstrongb | aantal sterke grenzen in de woordvorm. | ||||||||||||
tbeg | tijdsmarkering van begin van <prau>. | ||||||||||||
tend | tijdsmarkering van eind van <prau>. | ||||||||||||
leftb/rightb | karakter van linker/rechter grens. De volgende waarden zijn mogelijk:
|
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.