Bestanden van het type .prx (prosodische annotatie) bevatten een chronologische weergave van de prosodische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door prtext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. De prx-bestanden zijn te vinden in /data/annot/xml/prx1 en /data/annot/xml/prx2 van de annotatie-DVD.
| <prtext> | tekst met prosodische annotatie. | ||||||||||||
| <prau> | een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. | ||||||||||||
| <prw> | een woord binnen een annotatie-eenheid (<prau>). | ||||||||||||
| <prl> | het leesteken binnen een annotatie-eenheid (<prau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". | ||||||||||||
| <prmu> | een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten. | ||||||||||||
| <prm> | een marker binnen de mark-up-eenheid (<prmu>). | ||||||||||||
| ref | De identificatie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> | ||||||||||||
| s | spreker-identificatie. In de context van het <prau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer. | ||||||||||||
| w | woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden) | ||||||||||||
| annot | prosodische annotatie die aan de woordvorm is toegekend. | ||||||||||||
| nprom | aantal prominente lettergrepen in de woordvorm. | ||||||||||||
| nlength | aantal verlengde klanken in de woordvorm. | ||||||||||||
| nweakb | aantal zwakke grenzen in de woordvorm. | ||||||||||||
| nstrongb | aantal sterke grenzen in de woordvorm. | ||||||||||||
| tbeg | tijdsmarkering van begin van <prau>. | ||||||||||||
| tend | tijdsmarkering van eind van <prau>. | ||||||||||||
| leftb/rightb | karakter van linker/rechter grens. De volgende waarden zijn mogelijk:
|
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.