Bestanden van het type .tig (syntactische annotatie) bevatten een chronologische weergave van de syntactische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door stext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. De tig-bestanden zijn te vinden in /data/annot/xml/tig van de annotatie-DVD. en kunnen worden bekeken met COREX. Het formaat is gebaseerd op het Tiger-formaat waarmee het programma TigerSearch werkt. Zie stext.dtd (te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) voor informatie m.b.t. de compatibiliteit.
<subcorpus> | fragment met een syntactische annotatie. |
<s> | zin met een syntactische annotatie. |
<graph> | grafische voorstelling van de syntactische annotatie. |
<terminals> | lijst van terminale knopen, eindknopen <t>. |
<nonterminals> | lijst van non-terminale knopen <nt>. |
<edge> | syntactische functie. |
<secedge> | syntactische functie. |
<nt> | non-terminale knoop. |
<t> | terminale knoop. |
root | ID van de moederknoop van zin <s>. |
id | unieke knoopidentificatie, met <fragmentnummer>.<zinsrangnummer>.<knoopnummer>, waarbij <knoopnummer> voor zowel terminale als non-terminale knopen geldt. |
word | woordvorm zoals die voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden) |
pos | Part-of-Speech-tag (woordsoort) van de terminale knoop. Deze POS-tag is een vereenvoudigde/afgeleide versie van de POS-tag in morph (zie hierna). Zie corpus.header te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. (XML) of negra.header (tekst; eveneens te vinden op de annotatie-DVD) voor een opsomming van de gebruikte tagset. |
morhp | Part-of-Speech-tag corresponderend met de POS-tag uit attribuut pos. Zie corpus.header (XML) of negra.header (tekst) te vinden op de annotatie-DVD voor een mapping tussen de verkorte labelnotatie en de volledige POS-tags (vlg. data in de .plk-bestanden) |
cat | knooplabel, de syntactische categorie van een non-terminale knoop. |
label | syntactische functie. Zie corpus.header (XML) of negra.header (tekst) op de annotatie-DVD voor een verklarende lijst van de gebruikte labels. |
idref | verwijzing naar de id van de dochterknoop. |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in stext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.