La TEI Lite : encoder pour échanger : une introduction à la TEI
Edition finale révisée pour la TEI P5
traduction française de Sophie David

19. La page titre électronique

Chaque texte TEI a un en-tête qui fournit une information analogue à celle qui est fournie dans la page titre d’un texte imprimé. L’en-tête est indiqué par l’élément teiHeader et est constitué de quatre parties :

Un corpus, ou un recueil de textes, qui partagent beaucoup de caractéristiques, peuvent avoir un en-tête pour le corpus, et des en-têtes individuels pour chacun des composants. Dans ce cas, l’attribut type indique le type de l’en-tête. Et l’élément <teiHeader type="corpus"> présente les informations relatives au corpus.

Certains des éléments de l’en-tête contiennent du texte libre, encodé sous la forme d’un ou plusieurs p. D’autres sont regroupés :

19.1. La description du fichier

L’élément fileDesc est obligatoire. Il contient la description bibliographique complète du fichier, et utilise les éléments suivants :

  • titleStmt (mention de titre) regroupe les informations sur le titre d’une œuvre et les personnes ou institutions responsables de son contenu intellectuel.
  • editionStmt (mention d'édition) regroupe les informations relatives à l’édition d’un texte.
  • extent (étendue) décrit la taille approximative d’un texte stocké sur son support, numérique ou non numérique, exprimé dans une unité quelconque appropriée.
  • publicationStmt (mention de publication) regroupe des informations concernant la publication ou la diffusion d’un texte électronique ou d’un autre type de texte.
  • seriesStmt (mention de collection) regroupe toute information relative à la collection (si elle existe) à laquelle appartient une publication.
  • notesStmt (mention de notes) rassemble toutes les notes fournissant des informations sur un texte, en plus des informations mentionnées dans d'autres parties de la description bibliographique.
  • sourceDesc (description de la source) décrit la source à partir de laquelle un texte électronique a été dérivé ou produit, habituellement une description bibliographique pour un texte numérisé, ou une expression comme "document numérique natif " pour un texte qui n'a aucune existence précédente.
Un en-tête minimal a la structure suivante :
<teiHeader>
 <fileDesc>
  <titleStmt>
<!-- description bibliographique de la ressource -->
  </titleStmt>
  <publicationStmt>
<!-- informations sur la distribution de la ressource -->
  </publicationStmt>
  <sourceDesc>
<!-- informations sur la ou les sources d'où la ressource a été dérivé -->
  </sourceDesc>
 </fileDesc>
</teiHeader>

19.1.1. La mention du titre

Les éléments suivants peuvent être utilisés dans le titleStmt :

  • title (titre) contient le titre complet d'une oeuvre quelconque
  • author (auteur) dans une référence bibliographique contient le nom de la (des) personne(s) physique(s) ou du collectif, auteur(s) d'une oeuvre ; par exemple dans la même forme que celle utilisée par une référence bibliographique reconnue.
  • sponsor (commanditaire) indique le nom d’une institution ou d’un organisme partenaires.
  • funder (financeur) désigne le nom d’une personne ou d’un organisme responsable du financement d’un projet ou d’un texte.
  • principal (chercheur principal) contient le nom du chercheur qui est principalement responsable de la création d’un texte électronique.
  • respStmt (mention de responsabilité) indique la responsabilité quant au contenu intellectuel d'un texte, d'une édition, d'un enregistrement ou d'une publication en série, lorsque les éléments spécifiques relatifs aux auteurs, éditeurs, etc. ne suffisent pas ou ne s'appliquent pas.
Le nom d’une ressource numérique dérivée de son nom non numérique sera évidemment très proche. Cependant, il est important de distinguer le nom du fichier informatique de celui du texte de la source. Par exemple :
<titleStmt>
 <title>Artamène ou le Grand Cyrus : édition numérique</title>
 <author>Scudéry, Madeleine (1608-1701)</author>
 <respStmt>
  <resp>numérisation</resp>
  <name>Claude Bourqui</name>
  <name>Alexandre Gefen</name>
 </respStmt>
</titleStmt>

19.1.2. La mention de l’édition

Le editionStmt rassemble les informations relatives à une seule édition de la ressource numérique (« édition » étant employé dans le sens qu’il a dans une bibliographie). Il peut inclure les éléments suivants :

  • edition (édition) décrit les particularités de l’édition d’un texte.
  • respStmt (mention de responsabilité) indique la responsabilité quant au contenu intellectuel d'un texte, d'une édition, d'un enregistrement ou d'une publication en série, lorsque les éléments spécifiques relatifs aux auteurs, éditeurs, etc. ne suffisent pas ou ne s'appliquent pas.
Par exemple:
<editionStmt>
 <edition n="U2">Troisième version, avec des révisions substantielles <date>1987</date>
 </edition>
</editionStmt>

La détermination de ce qui implique l'existence d'une nouvelle édition reste de la responsabilité de l'encodeur.

19.1.3. La mention relative à la taille

La mention extent note la taille approximative de la ressource numérique.

Par exemple :
<extent>4532
octets</extent>

19.1.4. La mention de la publication

Le publicationStmt est obligatoire. Il contient soit une simple description sous la forme d’un texte libre, soit au moins l’un des trois éléments décrits ci-dessous :

  • publisher (éditeur) donne le nom de l'organisme responsable de la publication ou de la distribution d'un élément de la bibliographie.
  • distributor (diffuseur) donne le nom d’une personne ou d’un organisme responsable de la diffusion d’un texte.
  • authority (responsable de la publication.) donne le nom de la personne ou de l'organisme responsable de la publication d’un fichier électronique, autre qu’un éditeur ou un distributeur.

Chacun de ces trois éléments peuvent contenir les éléments suivants:

  • pubPlace (lieu de publication) contient le nom du lieu d'une publication.
  • address contient une adresse postale ou d'un autre type, par exemple l'adresse d'un éditeur, d'un organisme ou d'une personne.
  • idno (identifiant) donne un numéro normalisé ou non qui peut être utilisé pour identifier une référence bibliographique.
  • availability (disponibilité) renseigne sur la disponibilité du texte, par exemple sur toutes restrictions quant à son usage ou sa diffusion, son copyright, etc.
  • licence contient des informations légales applicables au texte, notamment le contrat de licence définissant les droits d'utilisation.
  • date (date) contient une date exprimée dans n'importe quel format.
Par exemple:
<publicationStmt>
 <authority>Université François-Rabelais</authority>
 <address>
  <addrLine>3 rue des Tanneurs</addrLine>
  <addrLine>37041 TOURS Cedex 1 France</addrLine>
 </address>
 <idno type="BVH">B360446201_B343_1</idno>
 <availability status="restricted">
  <licence target="http://creativecommons.org/licenses/by-sa/2.0/"> Ce document
     est publié librement sur le web à destination de la communauté scientifique
     dans le cadre de la licence Creative Commons « Paternité-Pas d’Utilisation
     Commerciale-Partage des Conditions Initiales à l’Identique 2.0 France ».
  </licence>
 </availability>
</publicationStmt>

19.1.5. La mention des séries et des notes

L’élément seriesStmt rassemble des informations concernant la collection ou la série, si elle existe, à laquelle la publication appartient. Il peut contenir les éléments title, idno ou des éléments respStmt.

19.1.6. La description de la source

L’élément sourceDesc est un élément obligatoire, qui enregistre toutes les spécifications de la source ou des sources, à partir desquelles le fichier informatique a été construit. Il peut contenir du texte libre, une référence bibliographique, et rassemble un ou plusieurs des éléments suivants :

  • bibl (référence bibliographique.) contient une référence bibliographique faiblement structurée dans laquelle les sous-composants peuvent ou non être explicitement balisés.
  • listBibl (liste de références bibliographiques) contient une liste de références bibliographiques de toute nature.
Par exemple :
<sourceDesc>
 <p>Texte original : le texte a été créé sous sa forme électronique.</p>
</sourceDesc>
<sourceDesc>
 <bibl>Mazelier, Roger : Gérard de Nerval et l’Humour divin, Le Mesnil Saint-Denis,
   1995.</bibl>
</sourceDesc>
<sourceDesc>
 <bibl>
  <title level="a">L'Enracinement</title>
  <author>Simone Weil</author>, <title>Prélude à une déclaration des devoirs
     envers l'être humain </title>. <publisher>Gallimard</publisher>
  <date>1968</date>. </bibl>
</sourceDesc>

19.2. La description de l’encodage

L’élément encodingDesc spécifie les méthodes et les principes éditoriaux qui ont présidé à la transcription du texte. Il est fortement recommandé de l’utiliser. Il peut contenir du texte libre ou bien des éléments de la liste suivante :

  • projectDesc (description du projet) décrit en détail le but ou l’objectif visé dans l’encodage d’un fichier électronique, ainsi que toute autre information pertinente sur la manière dont il a été construit ou recueilli.
  • samplingDecl (déclaration d'échantillonnage) contient une description en texte libre du raisonnement et des méthodes utilisés pour l'échantillonnage des textes dans la création d’un corpus ou d’une collection.
  • editorialDecl (déclaration des pratiques éditoriales) donne des précisions sur les pratiques et les principes éditoriaux appliqués au cours de l’encodage du texte.
  • refsDecl (Déclaration du système de références) précise la manière dont les références canoniques ont été construites pour ce texte.
  • classDecl (déclaration de classification) contient une ou plusieurs taxinomies définissant les codes de classification utilisés n’importe où dans le texte.

19.2.1. Les descriptions du projet et des échantillons

Illustrons les éléments projectDesc et <samplingDesc> :
<encodingDesc>
 <projectDesc>
  <p>Corpus de
     textes sélectionnés pour la formation Claremont Shakespeare Clinic, June 1990.
  </p>
 </projectDesc>
</encodingDesc>
<encodingDesc>
 <samplingDecl>
  <p>Corpus
     d'échantillons de 2000 mots pris au début de chaque texte. </p>
 </samplingDecl>
</encodingDesc>

19.2.2. Les déclarations éditoriales

L’élément editorialDecl permet de décrire (texte libre) les pratiques mises en œuvre lors de l’encodage du texte. Typiquement, cette description doit couvrir les aspects suivants, chacun faisant l’objet d’un paragraphe séparé :

correction
comment et dans quelles circonstances, on a corrigé le texte.
normalization
les types de régularisations et standardisations, qui ont été opérés.
quotation
les décisions prises en matière de guillemets. Est-ce qu’ils ont été conservés ou remplacés par des références d’entité, les guillemets ouvrants et fermants sont-ils différenciés, etc. ?
hyphenation
ce que l’on a décidé en matière de césure (notamment les césures de fins de ligne). Est-ce qu’elles ont été conservées, remplacées par des références d’entité, etc. ?
segmentation
comment le texte a été segmenté, par exemple en phrases, en unités de ton, en strates graphémiques, etc. ?
interpretation
quelles informations analytiques, interprétatives ont été associées au texte ?
Exemple :
<editorialDecl>
 <p>L'analyse
   morpho-syntaxique trouvée dans la section 4 a été ajoutée manuellement, et n'a
   pas encore été contrôllée.</p>
 <p>Contrôle des erreurs d'orthographe effectué par
   le systeme WordPerfect. </p>
 <p>Orthographe normalisée et modernisée selon
   dictionnaire Le Grand Robert.</p>
</editorialDecl>

19.2.3. Les déclarations relatives au système de référence et à la classification

On utilise l’élément refsDecl pour documenter la manière dont les schémas de référencement standard ont été construits. Dans sa forme la plus simple, l’élément contient du texte libre.

Exemple :
<refsDecl>
 <p>L'attribut
 <att>n</att> sur chaque <gi>div</gi> porte la référence canonique de cette
   division sous la forme XX.yyy : XX fournissant la numérotation du livre en
   chiffres romains, et yyy celle de la section en chiffres arabes, par ex
   II.234.</p>
</refsDecl>

L’élément classDecl regroupe les définitions ou les sources de n’importe quel schéma de classification descriptive, qui sont utilisées par les autres parties de l’en-tête. On doit fournir au moins un schéma, encodé en utilisant les éléments suivants :

  • taxonomy (taxinomie) définit une typologie soit implicitement au moyen d’une référence bibliographique, soit explicitement au moyen d’une taxinomie structurée.
  • bibl (référence bibliographique.) contient une référence bibliographique faiblement structurée dans laquelle les sous-composants peuvent ou non être explicitement balisés.
  • category (catégorie) contient une catégorie descriptive particulière, éventuellement intégrée dans une catégorie de niveau supérieur, à l’intérieur d’une taxinomie définie par l’utilisateur.
  • catDesc (Description de la catégorie) décrit une catégorie particulière à l’intérieur d’une taxinomie ou d’une typologie de texte, sous forme d’un court texte descriptif suivi ou dans les termes des paramètres contextuels utilisés dans l’élément Description du texte <textDesc>.
Dans le cas le plus simple, la taxinomie peut être définie par une référence bibliographique, comme dans l’exemple suivant :
<classDecl>
 <taxonomy xml:id="RAMEAU">
  <bibl>Répertoire d'autorité-matière encyclopédique et alphabétique unifié
     (RAMEAU) de la Bibliothèque nationale de France. <ptr target="http://rameau.bnf.fr/"/>
  </bibl>
 </taxonomy>
</classDecl>
L’encodeur peut procéder d’une autre manière, ou bien compléter ce qui précède, en définissant un schéma de classification spécifique et personel, comme dans l’exemple suivant :
<taxonomy xml:id="taxinomiePerso">
 <category xml:id="a.a">
  <catDesc>littérature</catDesc>
 </category>
 <category xml:id="a.a.1">
  <catDesc>Drame bourgeois</catDesc>
 </category>
 <category xml:id="a.a.1.α">
  <catDesc>Comédie larmoyante</catDesc>
 </category>
 <category xml:id="a.b">
  <catDesc>Correspondance</catDesc>
 </category>
 <category xml:id="a.b.1.a">
  <catDesc>Dernières lettres</catDesc>
 </category>
 <category xml:id="a.c.">
  <catDesc>Littérature européenne -- 16e siècle</catDesc>
 </category>
 <category xml:id="a.c.1">
  <catDesc>Satire de la Renaissance </catDesc>
 </category>
 <category xml:id="a.d">
  <catDesc>Récits de voyage</catDesc>
 </category>
 <category xml:id="a.d.1">
  <catDesc>Récits de la mer </catDesc>
 </category>
</taxonomy>>

Relier un texte particulier et une catégorie dans une taxinomie est réalisé grâce à l’élément catRef, inséré dans l’élément textClass. Cf. section ci-dessous.

19.3. La description du profil

L’élément profileDesc permet de caractériser la diversité des dimensions d’un texte. Il doit être enregistré dans un seul cadre et comporte trois constituants optionnels :

  • creation (création) contient des informations concernant la création d’un texte.
  • langUsage (langue utilisée) décrit les langues, variétés de langues, registres, dialectes, etc. présents à l’intérieur d’un texte.
  • textClass (classification du texte) regroupe des informations décrivant la nature ou le sujet d’un texte selon des termes issus d’un système de classification standardisé, d’un thésaurus, etc.

L’élément creation permet de documenter le lieu de la création du travail, même si celui-ci n’a pas été publié, ou bien s’il n’a pas été explicitement noté dans la source.

Exemple :
<creation>
 <date when="1992-08">August 1992</date>
 <name type="place">Taos, New
   Mexico</name>
</creation>
Quand le texte est écrit dans différentes langues, on se sert de l’élément langUsage. Celui-ci contient des éléments permettent de documenter chaque langue en particulier :
  • language (langue) caractérise une langue ou une variété de langue utilisée dans un texte.
Par exemple, un texte comportant de manière prédominante du français tel qu’il est parlé au Québec, mais aussi de plus petits passages en anglais britannique et en anglais du Canada pourrait être documenté comme suit :
<langUsage>
 <language ident="fr-CAusage="60">Québecois</language>
 <language ident="en-CAusage="20">Anglais canadien</language>
 <language ident="en-GBusage="20">Anglais britannique</language>
</langUsage>

L’élément textClass permet de classer le texte. On établit une référence vers un système de classification, localement défini par l’élément classDecl, ou bien on réfère à un schéma établi de manière externe, par exemple la Classification Décimale Universelle. Les textes peuvent être aussi classés à l’aide de listes de mots clés, qui peuvent eux-mêmes venir de listes contrôlées, définies localement, ou bien de manière externe. On utilise les éléments suivants pour établir de telles classifications :

  • classCode (code de classification) contient le code de classification attribué à ce texte en référence à un système standard de classification.
  • catRef/ (référence à la catégorie) spécifie une ou plusieurs catégories définies dans une taxinomie ou une typologie textuelle.
  • keywords (mot clé) contient une liste de mots clés ou d’expressions décrivant la nature ou le sujet d’un texte.
La manière la plus simple de classer un texte est d’utiliser l’élément classCode. Par exemple, un texte avec la classification 410 de la Classification Décimale Universelle pourrait être documenté comme suit :
<classCode scheme="http://www.udc.org">410</classCode>
Quand un schéma de classification a été défini localement en utilisant l’élément taxonomy, présenté dans la section précédente, l’élément <carRef> peut être utilisé pour y faire référence. Poursuivons avec un exemple proposé plus tôt, un travail répertorié dans ce corpus comme Drame bourgeois et Récits de la mer. Il pourrait être documenté comme suit :
<catRef target="#a.a.1 #a.d.1"/>
L’élément keywords contient la liste des mots clés ou des expressions qui identifient les thèmes ou la nature du texte. Comme précédemment, l’attribut scheme identifie la source de laquelle ces termes ont été extraits, par exemple du système RAMEAU, ou ailleurs. Les mots clés utilisés peuvent également être répertorié dans élément taxonomy, tel que cela été présenté ci-dessus :
<textClass>
 <keywords scheme="#fr_RAMEAU">
  <term>Littérature française -- 20ème siècle -- Histoire et critique</term>
  <term>Littérature française -- Histoire et critique -- Théorie, etc.</term>
  <term>Français (langue) -- Style -- Bases de données.</term>
 </keywords>
</textClass>

Les classifications multiples sont possibles ; elles utilisent les mécanismes décrits dans cette section.

19.4. La description des modifications

L’élément revisionDesc permet de tenir le journal des modifications. Le journal peut être conservé sous la forme d’une suite d’éléments change, chacun contenant une courte description de la modification. On utilise les attributs when et who pour spécifier quand le changement a eu lieu et qui en est responsable.

Exemple :
<revisionDesc>
 <change when="1991-03-06who="#EMB">fichier validé</change>
 <change when="1990-05-25who="#EMB">version corrigée</change>
</revisionDesc>

Dans un environnement de production, il est souvent préférable d’utiliser un système automatisé pour conserver la trace des modifications. Beaucoup de systèmes de gestion de versions peuvent être également configurés pour mettre à jour automatiquement l’en-tête TEI d’un fichier.


TEI Guidelines . This page generated on 2015-10-09T18:24:45Z.