La TEI Lite : encoder pour échanger : une introduction à la TEI
Edition finale révisée pour la TEI P5
traduction française de Sophie David

10. Les noms, les dates, et les nombres

Le schéma TEI permet de distinguer et d'identifier toutes sortes d'entités nommées, comme les noms de personnes et les noms de lieux, de marques, d'organisations, mais aussi des nombres ou des dates, autant d'informations précises qui produisent ou accrochent le texte à un contexte. Ces infomations factuelles rendent le text utile à de nombreuses disciplines, par exemple l'histoire ou la sociologie. Elles interessent aussi les applications linguistiques, en permettant par exemple d'isoler tous les mots qui ne figurent pas dans un dictionnaire de langue. Les éléments décrits ici, en rendant ces caractéristiques explicites, réduisent la complexité des traitements automatiques des textes.

10.1. Les dénominations et les expressions référentielles

Une expression référentielle est une expression qui réfère à une personne, un lieu, un objet. Deux éléments permettent de caractériser une telle expression :

  • rs (chaîne de référence) contient un nom générique ou une chaîne permettant de s'y référer.
  • name (nom, nom propre) contient un nom propre ou un syntagme nominal.
On utilise l’attribut type pour distinguer les noms de personnes, de lieux, d’organisations, quand cela est possible. Voici un exemple14 :
Le premier dîner que <rs type="person">M. de
Norpois</rs> fit à la maison, une année où je jouais encore aux <rs type="place">Champs-Élysées</rs>, est resté dans ma mémoire, parce que l’après-midi de ce même
jour fut celui où j’allai enfin entendre <rs type="person">la Berma</rs>, en « matinée
», dans
<title>Phèdre</title>
Dans ce deuxieme exemple15, on traite le nom d'un ministère, pareillement aux autres agences, comme "organization" :
Comme le <rs type="organization">ministère
des Circonlocutions</rs> avait pour principe de ne jamais donner une réponse
catégorique, sous quelque prétexte que ce fût, <rs type="person">M. Mollusque</rs> se
contenta de répondre :
<q>C’est possible.</q>
Comme l’exemple suivant le montre, l’élément rs peut être utilisé pour faire référence à une personne, un lieu, etc., qui n’est pas nécessairement exprimé sous la forme d’un nom propre ou d’un groupe nominal.
<rs type="person">M. de Norpois</rs> avait
changé, sur un point bien plus important pour moi, les intentions de <rs type="person">mon père</rs>. ...

L’élément name par contraste est utilisé avec des noms propres. Il est alors synonyme de l’élément rs, ou enchâssé dans cet élément si l’expression référentielle comporte un mixte de noms propres et de noms communs (par exemple « Dédé l’embrouille »).

Etiqueter simplement une expression comme une dénomination permet rarement de traiter automatiquement les noms de personnes dans les formes habituellement attendues par les cadres d’analyse qui s’intéressent aux expressions référentielles. Le nom tel qu’il apparaît dans le texte peut être orthographié de manière erronée, partielle ou vague. En outre, il peut y avoir des particules telles que « van », « de la », etc., qui peuvent ou non être traitées comme faisant partie du nom, et qui dépendent de la langue et du pays d’origine du porteur.

L’attribut key propose un identifiant alternatif standard pour les objets nommés, analogue à une clé dans une base de données. C’est alors un moyen pratique pour rassembler toutes les références dispersées dans le texte, qui renvoient au même individu, au même lieu :
Le premier
dîner que <rs type="personkey="NORP1">M. de Norpois</rs> fit à la maison, une année
où je jouais encore aux <rs type="placekey="CE">Champs-Élysées</rs>, est resté dans
ma mémoire, parce que l’après-midi de ce même jour fut celui où j’allai enfin entendre
<rs type="personkey="LABM">la Berma</rs>, en « matinée », dans

<title>Phèdre</title>
Cette utilisation doit être distinguée de celle qui fait usage de l’élément reg (regularization - régularisation), qui permet de marquer la forme normalisée d’une expression référentielle :
<name type="personkey="DANT1">
 <choice>
  <reg>Georges Jacques Danton</reg>
  <sic>Danton</sic>
 </choice>
</name> est
né le 26 octobre 1759 à <name key="AsA"> Arcis-sur-Aube</name> et mort le 5 avril 1794
(16 germinal an II) à Paris.
L’élément index, discuté dans la section indexation, peut être plus approprié si le rôle de la régularisation est de fournir un index cohérent :
<p>Emmanuel Le Roy Ladurie
s'appuie sur les registres d'inquisition de <name type="person">Jacques
   Fournier</name>
 <index>
  <term>Benoit XII, Pape d'Avignon (Jacques
     Fournier)</term>
 </index> afin de retracer la vie des habitants de Montaillou en
Haute-Ariège « infesté » par le catharisme. </p>

Bien qu’elles soient pertinentes pour des applications simples, ces méthodes présentent deux inconvénients : il faut répéter la régularisation pour chaque occurrence du même nom ; et le poids de l’encodage supplémentaire XML dans le corps du texte peut devenir difficile à maintenir et compliqué à traiter. En onomastique ou en histoire par exemple, on est concerné par les personnes ou les lieux nommés, plutôt que par les noms eux-mêmes. En ce cas ou bien si l’on souhaite faire une analyse détaillée des constituants du nom, on se reportera aux Recommandations, qui fournissent un large éventail de solutions.

10.2. Les dates et les heures

Voici des balises permettant d’encoder les heures et les dates de manière plus précise :

  • date (date) contient une date exprimée dans n'importe quel format.
  • time (temps) contient une expression qui précise un moment de la journée sous n'importe quelle forme.
Ces éléments ont un nombre d’attributs, dont les valeurs sont exprimées selon des formats standardisés.
  • att.datable fournit des attributs pour la normalisation d'éléments qui contiennent des mentions d'événements datés ou susceptibles de l'être
    calendarindique le système ou le calendrier auquel appartient la date exprimée dans le contenu de l'élément.
    periodfournit un pointeur vers un emplacement donné définissant une période de temps nommée durant laquelle l'item concerné s'inscrit.
    when [att.datable.w3c]spécifie une date exacte pour un événement sous une forme normalisée, par ex. aaaa-mm-jj.
L’attribut when sert à spécifier la forme de la date ou de l’heure ; il repose sur l’un des formats normalisés ISO 8601. Des dates partielles ou des heures (par exemple, « 1990 », « septembre 1990 », « douzaine ») peuvent être représentées en omettant une partie de la valeur fournie :
<date when="1980-02-21">21 fevrier
1980</date>
<date when="1990">1990</date>
<date when="1990-09">septembre
mcmxc</date>
<date when="--09">septembre</date>
<date when="2001-09-11T12:48:00">11
septembre, neuf heures moins douze GMT</date>
Notons, dans le dernier exemple, l’utilisation d’une représentation normalisée pour une date, qui inclut une heure : cet exemple aurait pu aussi être encodé en utilisant l’élément time.
Décret de la
Convention <date when="1794-10-30">9 Brumaire An III</date>
<l>specially when it's nine below zero</l>
<l>and <time when="15:00:00">three o'clock in the afternoon</time>
</l>

10.3. Les nombres

Les nombres peuvent être écrits en lettres ou en chiffres (vingt et un, xxi et 21), et leur représentation dépend de la langue (par exemple, en anglais 5th est équivalent à 5 en grec ; 123,456.78 en anglais est équivalent à 123.456,78 ou 123 456,78 en français). Dans des applications TAL, il est souvent utile de les distinguer des parties plus proprement « lexicales » du texte. Dans d’autres applications, la possibilité d’enregistrer la valeur d’un nombre dans un format normalisé est importante. L’élément num le permet :

  • num (numéral) contient un nombre écrit sous une forme quelconque.
Par exemple:
<num value="33">xxxiii</num>
<num type="cardinalvalue="21">vingt et un</num>
<num type="percentagevalue="10">dix pourcent</num>
<num type="percentagevalue="10">10%</num>
<num type="ordinalvalue="5">5eme</num>
Notes
14
Extrait de À l'ombre des jeunes filles en fleurs de Marcel Proust
15
Extrait de La petite Dorrit de Charles Dickens

TEI Guidelines . This page generated on 2015-04-06T13:16:28Z.