Het .tag-formaat

Bestanden van het type .tag (Part-of-Speech-tagging, lemmatisering en lexicologische koppeling) zijn afgeleid van het bestandtype .plk. Het is een chronologische weergave van dit annotatietype in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door ptext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.

<?xml version="1.0"?>
<!DOCTYPE ptext SYSTEM "ptext.dtd">
<ptext ref="fn123456">
<pau ref="fn123456.1" s="N01036">
  <pw ref="fn123456.1.1"  w="ga"          pos="WW(pv,tgw,ev)" lem="gaan"
    wid="93037" lid="30559" nlid="30559#1" pq="man"/>
  <pw ref="fn123456.1.2"  w="je"          pos="VNW(pers,pron,nomin,red,2v,ev)" lem="je"
    wid="620014" lid="135108" nlid="135108#1" pq="man"/>
  <pw ref="fn123456.1.3"  w="nou"         pos="BW()" lem="nou"
    wid="620167" lid="135232" nlid="135232#1" pq="man"/>
  <pw ref="fn123456.1.4"  w="met"         pos="VZ(init)" lem="met"
    wid="620087" lid="135170" nlid="135170#1" pq="man"/>
  <pw ref="fn123456.1.5"  w="de"          pos="LID(bep,stan,rest)" lem="de"
    wid="619612" lid="134796" nlid="134796#1" pq="man"/>
  <pw ref="fn123456.1.6"  w="trein"       pos="N(soort,ev,basis,zijd,stan)" lem="trein"
    wid="317006" lid="104897" nlid="104897#1" pq="man"/>
  <pw ref="fn123456.1.7"  w="naar"        pos="VZ(init)" lem="naar"
    wid="620133" lid="135200" nlid="135200#1" pq="man"/>
  <pw ref="fn123456.1.8"  w="Loon"        pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="608839#3" pq="man"/>
  <pw ref="fn123456.1.9"  w="Op"          pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="608839#3" pq="man"/>
  <pw ref="fn123456.1.10" w="Zand"        pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="608839#3" pq="man"/>
  <pw ref="fn123456.1.11" w="of"          pos="VG(neven)" lem="of"
    wid="620170" lid="135234" nlid="135234#1" pq="man"/>
  <pw ref="fn123456.1.12" w="met"         pos="VZ(init)" lem="met"
    wid="620087" lid="135170" nlid="135170#1" pq="man"/>
  <pw ref="fn123456.1.13" w="de"          pos="LID(bep,stan,rest)" lem="de"
    wid="619612" lid="134796" nlid="134796#1" pq="man"/>
  <pw ref="fn123456.1.14" w="bus"         pos="N(soort,ev,basis,zijd,stan)" lem="bus"
    wid="54520|54521" lid="16763|16764" nlid="16763|16764#1" pq="man"/>
  <pl ref="fn123456.1.15" w="?"           pos="LET()" lem="?"
    wid="0" lid="0" nlid="0#1" pq="man"/>
</pau>
<pau ref="fn123456.2" s="N01265">
  <pw ref="fn123456.2.1"   w="ja"         pos="TSW()" lem="ja"
    wid="141336" lid="45366" nlid="45366#1" pq="man"/>
  <pw ref="fn123456.2.2"   w="Partij"     pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="610975#4" pq="man"/>
  <pw ref="fn123456.2.3"   w="Van"        pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="610975#4" pq="man"/>
  <pw ref="fn123456.2.4"   w="De"         pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="610975#4" pq="man"/>
  <pw ref="fn123456.2.5"   w="Arbeid"     pos="SPEC(deeleigen)" lem="_"
    wid="0" lid="0" nlid="610975#4" pq="man"/>
  <pw ref="fn123456.2.6"   w="is"         pos="WW(pv,tgw,ev)" lem="zijn"
    wid="141101" lid="122511" nlid="122511#1" pq="man"/>
  <pw ref="fn123456.2.7"   w="iets"       pos="VNW(onbep,pron,stan,vol,3o,ev)" lem="iets"
    wid="619991" lid="135089" nlid="135089#1" pq="man"/>
  <pw ref="fn123456.2.8"   w="vooruit"    pos="BW()" lem="vooruit"
    wid="620510" lid="135518" nlid="504346#2" pq="man"/>
  <pw ref="fn123456.2.9"   w="gegaan"     pos="WW(vd,vrij,zonder)" lem="gaan"
    wid="98566" lid="30559" nlid="500431#2" pq="man"/>
  <pw ref="fn123456.2.10"  w="'t"         pos="LID(bep,stan,evon)" lem="het"
    wid="619904" lid="135669" nlid="135669#1" pq="man"/>
  <pw ref="fn123456.2.11"  w="CDA"        pos="N(eigen,ev,basis,onz,stan)" lem="CDA"
    wid="381902" lid="125724" nlid="125724#1" pq="man"/>
  <pw ref="fn123456.2.12"  w="iets"       pos="VNW(onbep,pron,stan,vol,3o,ev)" lem="iets"
    wid="619991" lid="135089" nlid="135089#1" pq="man"/>
  <pw ref="fn123456.2.13"  w="achteruit"  pos="BW()" lem="achteruit"
    wid="619374" lid="134626" nlid="500431#2" pq="man"/>
  <pw ref="fn123456.2.14"  w="SP"         pos="N(eigen,ev,basis,zijd,stan)" lem="SP"
    wid="393723" lid="132419" nlid="132419#1" pq="man"/>
  <pw ref="fn123456.2.15"  w="verdubbeld" pos="WW(vd,vrij,zonder)" lem="verdubbelen"
    wid="333336" lid="109296" nlid="109296#1" pq="man"/>
  <pl ref="fn123456.2.16"  w="."          pos="LET()" lem="."
    wid="0" lid="0" nlid="0#1" pq="man"/>
</pau>
</ptext>

<ptext>	tekst met Part-of-Speech-tagging, lemmatisering en lexicologische koppeling.
<pau>	een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.
<pw>	een woord binnen een annotatie-eenheid (<pau>).
<pl>	het leesteken binnen een annotatie-eenheid (<pau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?".
<pmu>	een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
<pm>	een marker binnen de mark-up-eenheid (<pmu>).
ref	De identificatie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>
s	spreker-identificatie. In de context van het <pau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer. In de context van het <pmu>-element zijn er twee waarden mogelijk voor het s-attribuut: COMMENT of BACKGROUND.
w	woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden)
pos	Part-of-Speech-tag die aan de woordvorm is toegekend.
lem	Lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma.
wid	Lexicon-ID van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). wid="0" wanneer er geen overeenkomstige woordvorm in het lexicon voorkomt. Wanneer een woordvorm meer dan één verwijzing kent naar het lexicon, en daarmee geldt als ambigu, dan worden de lexicon-ID's gescheiden door een horizontale streep "\|". (bijv. wid="54520\|54521").
lid	Lexicon-ID van het lemma van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). lid="0" wanneer er geen overeenkomstig lemma in het het lexicon voorkomt. Wanneer een lemma meer dan één verwijzing kent naar het lexicon, en daarmee geldt als ambigu, dan worden de lexicon-ID's gescheiden door een horizontale streep "\|". (bijv. lid="16763\|16764").
nlid	Lexicon-ID van het meerwoordslemma, gevolgd door een hekje ("#"), gevolgd door het aantal delen van de meerwoordsuitdrukking. Het ID verwijst naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). Wanneer het géén meerwoordsuitdrukking betreft, dan is het getal achter het hekje "1" (bijv. nlid="122511#1"). Meerdere mogelijke meerwoordslemma-verwijzingen naar het lexicon worden gescheiden door een horizontale streep "\|" (bijv. nlid="16763\|16764#1). nlid="0" wanneer er geen overeenkomstig meerwoordslemma in het lexicon voorkomt.
pq	kwaliteit van de Part-of-Speech-tag (pos) heeft twee mogelijke waarden: man (manueel): POS-tag is door de mens aangebracht en/of gecontroleerd. auto (automatisch): POS-tag is door de machine aangebracht en niet gecontroleerd.
marked	vertaalt de -codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <pw>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain (corresponderend met resp. v, d, a, u, z en *x).

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ptext.dtd te vinden op de annotatie-DVD. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.