Bestanden van het type .tag (Part-of-Speech-tagging, lemmatisering en lexicologische koppeling) zijn afgeleid van het bestandtype .plk. Het is een chronologische weergave van dit annotatietype in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door ptext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.
<ptext> | tekst met Part-of-Speech-tagging, lemmatisering en lexicologische koppeling. |
<pau> | een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken. |
<pw> | een woord binnen een annotatie-eenheid (<pau>). |
<pl> | het leesteken binnen een annotatie-eenheid (<pau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?". |
<pmu> | een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten. |
<pm> | een marker binnen de mark-up-eenheid (<pmu>). |
ref | De identificatie-code is opgebouwd uit één, twee of drie
delen (afhankelijk van het element waartoe het behoort) die gescheiden worden
door een punt. De betekenis is alsvolgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> |
s | spreker-identificatie. In de context van het <pau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer. In de context van het <pmu>-element zijn er twee waarden mogelijk voor het s-attribuut: COMMENT of BACKGROUND. |
w | woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden) |
pos | Part-of-Speech-tag die aan de woordvorm is toegekend. |
lem | Lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma. |
wid | Lexicon-ID van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). wid="0" wanneer er geen overeenkomstige woordvorm in het lexicon voorkomt. Wanneer een woordvorm meer dan één verwijzing kent naar het lexicon, en daarmee geldt als ambigu, dan worden de lexicon-ID's gescheiden door een horizontale streep "|". (bijv. wid="54520|54521"). |
lid | Lexicon-ID van het lemma van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). lid="0" wanneer er geen overeenkomstig lemma in het het lexicon voorkomt. Wanneer een lemma meer dan één verwijzing kent naar het lexicon, en daarmee geldt als ambigu, dan worden de lexicon-ID's gescheiden door een horizontale streep "|". (bijv. lid="16763|16764"). |
nlid | Lexicon-ID van het meerwoordslemma, gevolgd door een hekje ("#"), gevolgd door het aantal delen van de meerwoordsuitdrukking. Het ID verwijst naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). Wanneer het géén meerwoordsuitdrukking betreft, dan is het getal achter het hekje "1" (bijv. nlid="122511#1"). Meerdere mogelijke meerwoordslemma-verwijzingen naar het lexicon worden gescheiden door een horizontale streep "|" (bijv. nlid="16763|16764#1). nlid="0" wanneer er geen overeenkomstig meerwoordslemma in het lexicon voorkomt. |
pq | kwaliteit van de Part-of-Speech-tag (pos) heeft twee mogelijke waarden: man (manueel): POS-tag is door de mens aangebracht en/of gecontroleerd. auto (automatisch): POS-tag is door de machine aangebracht en niet gecontroleerd. |
marked | vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <pw>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain (corresponderend met resp. *v, *d, *a, *u, *z en *x). |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ptext.dtd te vinden op de annotatie-DVD. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.