Bestanden van het type .bpt (broad phonetic transcription) bevatten een chronologische weergave van de woordsegmentatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door ftext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. De bpt-bestanden uit de map /data/annot/xml/bpt-auto van de annotatie-DVD zijn afgeleid van de automatische woordsegmentatie (het bestandstype .awd). In deze bestanden zijn ook de duren van de afzonderlijke fonen beschikbaar. Daarnaast zijn er bpt-fon-bestanden (/data/annot/xml/bpt-fon van de annotatie-DVD die deel uitmaakt van versie 1.0) die zijn afgeleid van de handmatige woordoplijning (het .wrd-bestandstype).
<ftext> | tekst met een brede fonetische transcriptie, woordsegmentatie en foonsegmentatie | |||||||||||||||
<fau> | een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. | |||||||||||||||
<fw> | een woord binnen de annotatie-eenheid (<fau>). | |||||||||||||||
<fmu> | een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten. | |||||||||||||||
<tm> | een marker binnen de mark-up-eenheid (<fmu>). | |||||||||||||||
<fl> | een leesteken binnen de annotatie-eenheid (<fau>). | |||||||||||||||
ref | De referentie-code is opgebouwd uit één, twee of
drie delen (afhankelijk van het element waartoe het behoort) die gescheiden
worden door een punt. De betekenis is alsvolgt: <fragmentnummer>.<f[am]u-rangnummer>.<f[wm]-rangnummer> |
|||||||||||||||
s | spreker-identificatie. In de context van het <fau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <fmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". | |||||||||||||||
w | het orthografisch transcript van het woord in de context van <fw> of een leesteken (".", "..." of "?") in de context van <fl>. | |||||||||||||||
fon | het fonetisch transcript van het woord. Naast de tekens uit de fonetische symbolenset die wordt opgesomd in de beschrijving van het .fon-formaat wordt het procentteken '%' gebruikt om een woordinterne pauze aan te duiden. | |||||||||||||||
left/right | de aard van de linker/rechter grens van het woord. Dit attribuut kent
5 type waarden:
|
|||||||||||||||
marked | vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <fw>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain. | |||||||||||||||
fq | kwaliteit van tijdspanne heeft één van de volgende
drie waarden: "man" (manueel): tijdgrenzen zijn door de mens aangebracht. "auto" (automatisch): tijdgrenzen zijn door de machine aangebracht en niet gecontroleerd. "auto_unrel" (automatisch onbetrouwbaar): door de machine aangebrachte grenzen waarvan bekend is dat deze onbetrouwbaar zijn. |
|||||||||||||||
times | bevat de tijdstippen van de foongrenzen. Het attribuut bevat altijd N+1 tijdstippen waarbij N = aantal fonemen + eventuele woordinterne pauzes ('%'). Het eerste tijdstip duidt het begin van het eerste foneem aan, het twee het begin van het foneem, enz. Het laatste tijdstip duidt de eindgrens aan van het laatste foneem. |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.