Bestanden van het type .lxk (Lexicologische Koppeling) zijn een chronologische weergave van dit annotatietype in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door ltext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.
| <ltext> | tekst met lexicologische koppeling. |
| <lau> | een annotatie eenheid. De grenzen van dit element worden bepaald door het leesteken. |
| <lw> | een woord binnen de annotatie eenheid <lau>. |
| <lmu> | een mark-up eenheid die COMMENT– of BACKGROUND-informatie kan bevatten. |
| <lm> | een marker binnen de mark-up eenheid <lmu>. |
| <lkop> | een koppelingseenheid binnen een woord <lw>. |
| ref | de identificatie-code is opgebouwd uit één, twee of drie
delen (afhankelijk van het element waartoe het behoort) die gescheiden worden
door een punt. De betekenis is alsvolgt: <fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer> |
| s | spreker-identificatie. In de context van het <pau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <pmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND". |
| w | woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden) |
| klem | lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma. |
| nlid | lexicon-ID van het enkel- of meerwoordslemma. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) tenzij het een een meerwoordsuitdrukking betreft. In dat geval verwijst het ID naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). Meerdere mogelijke verwijzingen naar het lexicon worden gescheiden door een horizontale streep "|" (bijv. nlid="16763|16764). nlid="0" wanneer geen overeenkomstig lemma in het lexicon voorkomt. |
| ksize | het aantal delen van de meerwoordsuitdrukking. In geval van een enkelwoordsuitdrukking is ksize="1". |
| kparts | referenties naar de afzonderlijke delen van de meerwoordsuitdrukking: <annotatie-eenheidrangnummer>.<woordrangnummer> |
Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ltext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.