La TEI Lite : encoder pour échanger : une introduction à la TEI
Edition finale révisée pour la TEI P5
traduction française de Sophie David

15. L’interprétation et l’analyse

On dit souvent que tout balisage est une forme d’interprétation ou d’analyse. S’il est certainement difficile, et parfois impossible, de distinguer clairement entre des informations ‘objectives’ et des informations ‘subjectives’, et ce de manière universelle, il s’avère cependant que les jugements portant sur les secondes sont typiquement considérés comme beaucoup plus susceptibles d’alimenter des controverses que ceux portés sur les premières. Aussi, beaucoup de chercheurs notent de telles interprétations uniquement s’il est possible d’avertir le lecteur qu’elles font plus débat que d’autres parties du texte balisé. Cette section décrit quelques-uns des éléments fournis par le schéma TEI pour traiter ces différents besoins.

15.1. Les phrases « orthographiques »

Typiquement, l’interprétation parcourt l’ensemble du texte, sans respecter particulièrement telle ou telle unité structurelle. Une première étape utile consiste à segmenter le texte en unités discrètes et identifiables, chacune d’entre elles portant une étiquette servant en quelque sorte de ‘référence canonique’. Pour faciliter leur utilisation, ces unités ne doivent pas se croiser ou être emboîtées les unes dans les autres. On peut les représenter facilement en utilisant l’élément suivant :

  • s (phrase) contient une division textuelle de type phrase
Comme son nom l’indique, l’élément s est l’élément le plus couramment utilisé (dans les applications linguistiques du moins) pour indiquer les phrases « orthographiques », i.e. définies par des traits orthographiques, tels que la ponctuation. Par exemple, le début du passage de Jane Eyre, présenté plus haut, peut être divisé en de telles unités :
<pb n="474"/>
<div type="chaptern="38">
 <p>
  <s n="001">J’ai enfin épousé M. Rochester.</s>
  <s n="002">Notre mariage se fit
     sans bruit; </s>
  <s n="003">lui, moi, le ministre et le clerc, étions seuls présents.</s>
  <s n="004">Quand nous revînmes de l’église, j’entrai dans la cuisine, où Marie
     pré- parait le dîner, tandis que John nettoyait les couteaux.</s>
 </p>
 <p>
  <s n="003"> «Marie, dis-je, j’ai été mariée ce matin à M.
     Rochester. »</s>
 </p>
</div>

Notons que les éléments s ne peuvent être emboîtés : le début d’un s implique que le précédent est terminé. Quand des unités de type s sont balisées comme ci-dessus, il est conseillé de baliser la totalité du texte, de telle sorte que chaque mot du texte analysé appartiendra à un seul élément s, dont l’identifiant peut alors servir à spécifier les référence uniques à chacun de ces mots. Si les identifiants sont uniques dans le document, alors il est préférable d’utiliser l’attribut xml:id plutôt que l’attribut n (cf. exemple ci-dessus).

15.2. Les mots et la ponctuation

La segmentation du texte en mots lexicaux et non lexicaux est une opération très courante dans tous les types d’analyse textuelle, mais pas complètement triviale. Par exemple, la décision de traiter can’t en anglais ou du en français comme un ou deux mots n’est pas simple. En conséquence, il est souvent utile de rendre explicite la segmentation souhaitée. On utilise alors les éléments suivants :

  • w (mot) représente un mot grammatical (pas nécessairement orthographique)
  • pc (punctuation character) contient un caractère ou une chaîne de caractères considérés comme un signe de ponctuation unique.
Par exemple, la sortie d’un catégoriseur pourrait être encodé en TEI Lite comme suit :
<s>
 <w ana="#NAM">TreeTagger</w>
 <w ana="#VER_pres">permet</w>
 <w ana="#PRP">d'</w>
 <w ana="#VER_infi">annoter</w>
 <w ana="#PRO_IND">plusieurs</w>
 <w ana="#NOM">langues</w>
 <pc>. </pc>
</s>
Dans cet exemple, chaque mot a été pourvu automatiquement d’une catégorie, en utilisant l’attribut ana (cf. section ci-dessus). L’élément w permet aussi de noter pour chaque mot sa racine ou son lemme, soit de manière explicite, en utilisant l’attribut lemma, soit par référence, en utilisant l’attribut lemmaRef, comme dans l’exemple qui suit :
...<w ana="#VER_preslemma="permettre"
 lemmaRef="http://www.myLexicon.com/permettre">
permet</w> ...

15.3. Les éléments généraux d’interprétation

L’élément w est une spécialisation de l’élément seg, dont l’utilisation a déjà été présentée pour identifier des cibles non marquées de références croisées et des hyperliens (cf. section 8. Les références croisées et les liens) ; il spécifie une certaine portion de texte, à laquelle l’encodeur peut assigner un type utilisateur particulier, ou un identifiant unique ; il peut alors être utilisé pour marquer des caractéristiques textuelles, qui n’ont pas été prévues dans les Recommandations.

Par exemple, les Recommandations ne proposent pas d’élément ‘apostrophe’ pour marquer les parties d’un texte littéraire dans lesquelles le narrateur s’adresse directement au lecteur (ou à l’auditeur). Un traitement possible serait de considérer ces apostrophes comme des instances de l’élément q, que l’on distinguerait des autres en choisissant une valeur appropriée pour l’attribut who. Une autre solution, plus simple, et certainement plus générale, consiste à utiliser l’élément seg comme suit :
<l>Tu le connais, lecteur, ce monstre délicat,</l>
<l>
 <seg type="apostrophe">— Hypocrite lecteur, — mon semblable, — mon frère!</seg>
</l>

L’attribut type de l’élément seg peut prendre n’importe quelle valeur, et peut donc servir à marquer des phénomènes de toutes sortes ; il est de bonne pratique que d’enregistrer les valeurs utilisées et leur signification dans l’en-tête.

Un élément seg d’un type donné (à la différence de l’élément s, qui lui ressemble superficiellement) peut être enchâssé dans un élément seg de même type ou de type différent. Cela permet de représenter des structures assez complexes ; des exemples ont été proposés plus haut (8.3. Les types spéciaux de liens). Cependant, comme les éléments doivent être correctement enchâssés et ne pas se chevaucher, seg ne peut pas gérer l’association d’une interprétation avec des segments arbitraires du texte, qui ignoreraient complètement la hiérarchie du document. Il nécessite également que l’interprétation elle-même soit représentée par une valeur unique codée dans l’attribut type.

Aucune de ces contraintes ne s’applique à l’élément interp, qui offre des caractéristiques puissantes pour encoder de manière relativement directe une interprétation assez complexe.

  • interp (interprétation) interprétation sous la forme d'une annotation concise, pouvant être liée à un passage dans un texte
  • interpGrp (groupe d'interprétations) regroupe un ensemble d'interprétations ayant en commun une mention de responsabilité ou un type

Ces éléments permettent à l’encodeur de spécifier à la fois la classe de l’interprétation et une interprétation spécifique, relevant de cette classe, et que l’interprétation implique. De ce fait, tandis qu’avec seg, on peut dire simplement que quelque chose est une apostrophe, avec interp, on peut dire qu’il s’agit d’une instance (d’une apostrophe dans l’exemple) d’une classe plus grande (celle des figures de rhétorique).

En outre, interp est un élément vide, qui doit être lié au passage auquel il s’applique, au moyen de l’attribut ana, présenté ci-dessus (8.3. Les types spéciaux de liens), ou bien en utilisant son propre attribut inst. Cela signifie que n’importe quel type d’analyse peut être représenté, sans que l’on ait besoin de respecter la hiérarchie du document. Le regroupement des analyses de même type est également aisé, et ce grâce à l’élément spécifique <interGrp>.

Par exemple, supposons que l’on souhaite marquer différents aspects d’un texte, tels que des thèmes, des figures de rhétorique, et des emplacements de scènes. Différentes parties de notre extrait de Jane Eyre, par exemple, pourraient être ainsi associées.

Ces interprétations pourraient être placées n’importe où dans une partie identifiée par l’élément text. Cependant, il est de bonne pratique de les noter au même endroit (par exemple, dans une section séparée des Parties liminaires et des Annexes), comme dans l’exemple suivant :
<back>
 <div type="Interpretations">
  <p>
   <interp xml:id="set-church-1"
    resp="#LB-MSMtype="emplacement">
église</interp>
   <interp xml:id="set-kitch-1"
    resp="#LB-MSMtype="emplacement">
cuisine</interp>
   <interp xml:id="set-unspec-1"
    resp="#LB-MSMtype="emplacement">
ailleurs</interp>
  </p>
 </div>
</back>
La redondance manifeste de cet encodage peut être largement réduite en utilisant l’élément <interGrp> pour regrouper tous les éléments interp qui ont des valeurs d’attribut identiques :
<back>
 <div type="Interpretations">
  <interpGrp type="emplacement"
   resp="#LB-MSM">

   <interp xml:id="set-church">église</interp>
   <interp xml:id="set-kitch">cuisine</interp>
   <interp xml:id="set-unspec">ailleurs</interp>
  </interpGrp>
<!-- d'autres analyses -->
 </div>
</back>
Une fois ces éléments d’interprétation définis, ils peuvent être liés aux parties auxquelles ils s’appliquent, et ce de deux manières différentes : ils peuvent servir comme cibles de l’attribut ana attaché aux instances, ou bien ils peuvent eux-mêmes pointer sur les instances. Par exemple, en se servant de l'attribut global ana, on pointe du texte vers son analyse :
<div type="chapitren="38">
 <p xml:id="P38.1"
  ana="#set-church #set-kitch">
J’ai enfin épousé M. Rochester.
   Notre mariage se fit sans bruit; lui, moi, le ministre et le clerc, étions seuls
   présents. Quand nous revînmes de l’église, j’entrai dans la cuisine, où Marie pré-
   parait le dîner, tandis que John néttoyait les couteaux.</p>
</div>
Notons, dans cet exemple, que, comme le paragraphe comporte deux lieux (l’église et la cuisine), les deux identifiants ont été fournis.
Ou, pour pointer dans l'autre sens, de l'analyse vers le texte, on peut utiliser l’attribut inst de l'éléments interp ainsi :
<interpGrp type="emplacement"
 resp="#LB-MSM">

 <interp inst="#P38.1">église</interp>
 <interp inst="#P38.1resp="#LB-MSM">cuisine</interp>
</interpGrp>
L’élément interp n’est pas limité à un certain type d’analyse. L’analyse littéraire ci-dessus en est une parmi d’autres ; on pourrait également utiliser interp pour représenter une analyse linguistique en termes de parties du discours. Par exemple, la phrase proposée dans la section 8.3. Les types spéciaux de liens suppose une analyse linguistique qui pourrait être représentée comme suit :
<interp xml:id="NP1type="pos">noun phrase,
singular</interp>
<interp xml:id="VV1type="pos">inflected verb, present-tense
singular</interp> ...

TEI Guidelines . This page generated on 2015-10-15T20:00:39Z.