Bestanden van het type .skp (signaalkoppelingsdata) zijn een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door ttext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. Dit formaat bevat behalve het transcript ook tijdsinformatie. De skp-bestanden uit de map /data/annot/xml/skp-ort van de annotatie-DVD zijn afgeleid van het bestandtype .ort. Daarnaast zijn er skp-wrd-bestanden (/data/annot/xml/skp-wrd van de annotatie-DVD) die zijn afgeleid van de handmatige woordoplijning (het .wrd-bestandstype), en skp-auto-bestanden (/data/annot/xml/skp-auto van de annotatie-DVD) die zijn afgeleid van de automatische woordoplijning (het .awd-bestandstype).
<ttext> | een tijdgekoppelde tekst. |
<tau> | een tijdgekoppelde annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken dat in dit formaat niet is opgenomen. |
<tw> | een tijdgekoppeld woord binnen een tijdgekoppelde annotatie-eenheid (<tau>). |
<tmu> | een tijdgekoppelde mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten. |
<tm> | een tijdgekoppelde marker binnen de tijdgekoppelde mark-up-eenheid (<tmu>). |
ref | De referentie-code is opgebouwd uit één, twee of
drie delen (afhankelijk van het element waartoe het behoort) die gescheiden
worden door een punt. De betekenis is alsvolgt: <fragmentnummer>.<t[am]u-rangnummer>.<t[wm]-rangnummer> |
s | spreker-identificatie. In de context van het <tau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <tmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". |
w | het orthografisch transcript van een woord. |
m | het orthografisch transcript van een marker. |
tb | begintijd (in seconden) van een tijdgekoppelde annotatie-eenheid. |
te | eindtijd (in seconden) van een tijdgekoppelde annotatie-eenheid. |
tt | type van tijdspanne. Bij "eq" (equaliteit) valt de annotatie-eenheid samen met de tijdspanne die wordt begrensd door tb en te. Bij "in" (inclusie) valt de eenheid binnen de tijdspanne. |
tq | kwaliteit van tijdspanne heeft één van de volgende
drie waarden: "man" (manueel): tijdgrenzen zijn door de mens aangebracht. "auto" (automatisch): tijdgrenzen zijn door de machine aangebracht en niet gecontroleerd. "auto_unrel" (automatisch onbetrouwbaar): door de machine aangebrachte grenzen waarvan bekend is dat deze onbetrouwbaar zijn. |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd te vinden op de annotatie-DVD. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.