Bestanden van het type .lxk (Lexicologische Koppeling) zijn een chronologische weergave van dit annotatietype in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door ltext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.
<ltext> | tekst met lexicologische koppeling. |
<lau> | een annotatie eenheid. De grenzen van dit element worden bepaald door het leesteken. |
<lw> | een woord binnen de annotatie eenheid <lau>. |
<lmu> | een mark-up eenheid die COMMENT– of BACKGROUND-informatie kan bevatten. |
<lm> | een marker binnen de mark-up eenheid <lmu>. |
<lkop> | een koppelingseenheid binnen een woord <lw>. |
ref | de identificatie-code is opgebouwd uit één, twee of drie
delen (afhankelijk van het element waartoe het behoort) die gescheiden worden
door een punt. De betekenis is alsvolgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> |
s | spreker-identificatie. In de context van het <pau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <pmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". |
w | woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden) |
klem | lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma. |
nlid | lexicon-ID van het enkel- of meerwoordslemma. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) tenzij het een een meerwoordsuitdrukking betreft. In dat geval verwijst het ID naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). Meerdere mogelijke verwijzingen naar het lexicon worden gescheiden door een horizontale streep "|" (bijv. nlid="16763|16764). nlid="0" wanneer geen overeenkomstig lemma in het lexicon voorkomt. |
ksize | het aantal delen van de meerwoordsuitdrukking. In geval van een enkelwoordsuitdrukking is ksize="1". |
kparts | referenties naar de afzonderlijke delen van de meerwoordsuitdrukking: <annotatie-eenheidrangnummer>.<woordrangnummer> |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ltext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.