Bestanden van het type .pri (primaire data) zijn afgeleid van het bestandtype .ort. Het is een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door text.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.
<text> | tekst. |
<au> | een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. |
<w> | een woord binnen een annotatie-eenheid (<au>). |
<l> | het leesteken binnen een annotatie-eenheid (<au>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". |
<mu> | een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten. |
<m> | een marker binnen de mark-up-eenheid (<mu>). |
s | spreker-identificatie. In de context van het <au>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer. In de context van het <mu>-element zijn er twee waarden mogelijk voor het s-attribuut: COMMENT of BACKGROUND. |
id | De identificatie-code is opgebouwd uit één, twee
of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden
worden door een punt. De betekenis is alsvolgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> |
marked | vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <w>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain (corresponderend met resp. *v, *d, *a, *u, *z en *x). |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in text.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.