Encoder pour échanger : une introduction à la TEI

19. La page titre électronique

Chaque texte TEI a un en-tête qui fournit une information analogue à celle qui est fournie dans la page titre d’un texte imprimé. L’en-tête est indiqué par l’élément teiHeader et est constitué de quatre parties :

Un corpus, ou un recueil de textes, qui partagent beaucoup de caractéristiques, peuvent avoir un en-tête pour le corpus, et des en-têtes individuels pour chacun des composants. Dans ce cas, l’attribut type indique le type de l’en-tête. Et l’élément <teiHeader type="corpus"> présente les informations relatives au corpus.

Certains des éléments de l’en-tête contiennent du texte libre, encodé sous la forme d’un ou plusieurs p. D’autres sont regroupés :

19.1. La description du fichier

L’élément fileDesc est obligatoire. Il contient la description bibliographique complète du fichier, et utilise les éléments suivants :

  • titleStmt (title statement) groups information about the title of a work and those responsible for its content.
  • editionStmt (edition statement) groups information relating to one edition of a text.
  • extent describes the approximate size of a text stored on some carrier medium or of some other object, digital or non-digital, specified in any convenient units.
  • publicationStmt (publication statement) groups information concerning the publication or distribution of an electronic or other text.
  • seriesStmt (series statement) groups information about the series, if any, to which a publication belongs.
  • notesStmt (notes statement) collects together any notes providing information about a text additional to that recorded in other parts of the bibliographic description.
  • sourceDesc (source description) describes the source from which an electronic text was derived or generated, typically a bibliographic description in the case of a digitized text, or a phrase such as "born digital" for a text which has no previous existence.
Un en-tête minimal a la structure suivante :
<teiHeader>
 <fileDesc>
  <titleStmt>
<!-- description bibliographique de la ressource -->
  </titleStmt>
  <publicationStmt>
<!-- informations sur la distribution de la ressource -->
  </publicationStmt>
  <sourceDesc>
<!-- informations sur la ou les sources d'où la ressource a été dérivé -->
  </sourceDesc>
 </fileDesc>
</teiHeader>

19.1.1. La mention du titre

Les éléments suivants peuvent être utilisés dans le titleStmt :

  • title contains a title for any kind of work.
  • author in a bibliographic reference, contains the name(s) of an author, personal or corporate, of a work; for example in the same form as that provided by a recognized bibliographic name authority.
  • sponsor specifies the name of a sponsoring organization or institution.
  • funder (funding body) specifies the name of an individual, institution, or organization responsible for the funding of a project or text.
  • principal (principal researcher) supplies the name of the principal researcher responsible for the creation of an electronic text.
  • respStmt (statement of responsibility) supplies a statement of responsibility for the intellectual content of a text, edition, recording, or series, where the specialized elements for authors, editors, etc. do not suffice or do not apply. May also be used to encode information about individuals or organizations which have played a role in the production or distribution of a bibliographic work.
Le nom d’une ressource numérique dérivée de son nom non numérique sera évidemment très proche. Cependant, il est important de distinguer le nom du fichier informatique de celui du texte de la source. Par exemple :
<titleStmt>
 <title>Artamène ou le Grand Cyrus : édition numérique</title>
 <author>Scudéry, Madeleine (1608-1701)</author>
 <respStmt>
  <resp>numérisation</resp>
  <name>Claude Bourqui</name>
  <name>Alexandre Gefen</name>
 </respStmt>
</titleStmt>

19.1.2. La mention de l’édition

Le editionStmt rassemble les informations relatives à une seule édition de la ressource numérique (« édition » étant employé dans le sens qu’il a dans une bibliographie). Il peut inclure les éléments suivants :

  • edition (edition) describes the particularities of one edition of a text.
  • respStmt (statement of responsibility) supplies a statement of responsibility for the intellectual content of a text, edition, recording, or series, where the specialized elements for authors, editors, etc. do not suffice or do not apply. May also be used to encode information about individuals or organizations which have played a role in the production or distribution of a bibliographic work.
Par exemple:
<editionStmt>
 <edition n="U2">Troisième version, avec des révisions substantielles <date>1987</date>
 </edition>
</editionStmt>

La détermination de ce qui implique l'existence d'une nouvelle édition reste de la responsabilité de l'encodeur.

19.1.3. La mention relative à la taille

La mention extent note la taille approximative de la ressource numérique.

Par exemple :
<extent>4532
octets</extent>

19.1.4. La mention de la publication

Le publicationStmt est obligatoire. Il contient soit une simple description sous la forme d’un texte libre, soit au moins l’un des trois éléments décrits ci-dessous :

  • publisher provides the name of the organization responsible for the publication or distribution of a bibliographic item.
  • distributor supplies the name of a person or other agency responsible for the distribution of a text.
  • authority (release authority) supplies the name of a person or other agency responsible for making a work available, other than a publisher or distributor.

Chacun de ces trois éléments peuvent contenir les éléments suivants:

  • pubPlace (publication place) contains the name of the place where a bibliographic item was published.
  • address contains a postal address, for example of a publisher, an organization, or an individual.
  • idno (identifier) supplies any form of identifier used to identify some object, such as a bibliographic item, a person, a title, an organization, etc. in a standardized way.
  • availability supplies information about the availability of a text, for example any restrictions on its use or distribution, its copyright status, any licence applying to it, etc.
  • licence contains information about a licence or other legal agreement applicable to the text.
  • date contains a date in any format.
Par exemple:
<publicationStmt>
 <authority>Université François-Rabelais</authority>
 <address>
  <addrLine>3 rue des Tanneurs</addrLine>
  <addrLine>37041 TOURS Cedex 1 France</addrLine>
 </address>
 <idno type="BVH">B360446201_B343_1</idno>
 <availability status="restricted">
  <licence
    target="http://creativecommons.org/licenses/by-sa/2.0/">
Ce document
     est publié librement sur le web à destination de la communauté scientifique
     dans le cadre de la licence Creative Commons « Paternité-Pas d’Utilisation
     Commerciale-Partage des Conditions Initiales à l’Identique 2.0 France ».
  </licence>
 </availability>
</publicationStmt>

19.1.5. La mention des séries et des notes

L’élément seriesStmt rassemble des informations concernant la collection ou la série, si elle existe, à laquelle la publication appartient. Il peut contenir les éléments title, idno ou des éléments respStmt.

19.1.6. La description de la source

L’élément sourceDesc est un élément obligatoire, qui enregistre toutes les spécifications de la source ou des sources, à partir desquelles le fichier informatique a été construit. Il peut contenir du texte libre, une référence bibliographique, et rassemble un ou plusieurs des éléments suivants :

  • bibl (bibliographic citation) contains a loosely-structured bibliographic citation of which the sub-components may or may not be explicitly tagged.
  • listBibl (citation list) contains a list of bibliographic citations of any kind.
Par exemple :
<sourceDesc>
 <p>Texte original : le texte a été créé sous sa forme électronique.</p>
</sourceDesc>
<sourceDesc>
 <bibl>Mazelier, Roger : Gérard de Nerval et l’Humour divin, Le Mesnil Saint-Denis,
   1995.</bibl>
</sourceDesc>
<sourceDesc>
 <bibl>
  <title level="a">L'Enracinement</title>
  <author>Simone Weil</author>, <title>Prélude à une déclaration des devoirs
     envers l'être humain </title>. <publisher>Gallimard</publisher>
  <date>1968</date>. </bibl>
</sourceDesc>

19.2. La description de l’encodage

L’élément encodingDesc spécifie les méthodes et les principes éditoriaux qui ont présidé à la transcription du texte. Il est fortement recommandé de l’utiliser. Il peut contenir du texte libre ou bien des éléments de la liste suivante :

  • projectDesc (project description) describes in detail the aim or purpose for which an electronic file was encoded, together with any other relevant information concerning the process by which it was assembled or collected.
  • samplingDecl (sampling declaration) contains a prose description of the rationale and methods used in sampling texts in the creation of a corpus or collection.
  • editorialDecl (editorial practice declaration) provides details of editorial principles and practices applied during the encoding of a text.
  • refsDecl (references declaration) specifies how canonical references are constructed for this text.
  • classDecl (classification declarations) contains one or more taxonomies defining any classificatory codes used elsewhere in the text.

19.2.1. Les descriptions du projet et des échantillons

Illustrons les éléments projectDesc et <samplingDesc> :
<encodingDesc>
 <projectDesc>
  <p>Corpus de
     textes sélectionnés pour la formation Claremont Shakespeare Clinic, June 1990.
  </p>
 </projectDesc>
</encodingDesc>
<encodingDesc>
 <samplingDecl>
  <p>Corpus
     d'échantillons de 2000 mots pris au début de chaque texte. </p>
 </samplingDecl>
</encodingDesc>

19.2.2. Les déclarations éditoriales

L’élément editorialDecl permet de décrire (texte libre) les pratiques mises en œuvre lors de l’encodage du texte. Typiquement, cette description doit couvrir les aspects suivants, chacun faisant l’objet d’un paragraphe séparé :

correction
comment et dans quelles circonstances, on a corrigé le texte.
normalization
les types de régularisations et standardisations, qui ont été opérés.
quotation
les décisions prises en matière de guillemets. Est-ce qu’ils ont été conservés ou remplacés par des références d’entité, les guillemets ouvrants et fermants sont-ils différenciés, etc. ?
hyphenation
ce que l’on a décidé en matière de césure (notamment les césures de fins de ligne). Est-ce qu’elles ont été conservées, remplacées par des références d’entité, etc. ?
segmentation
comment le texte a été segmenté, par exemple en phrases, en unités de ton, en strates graphémiques, etc. ?
interpretation
quelles informations analytiques, interprétatives ont été associées au texte ?
Exemple :
<editorialDecl>
 <p>L'analyse
   morpho-syntaxique trouvée dans la section 4 a été ajoutée manuellement, et n'a
   pas encore été contrôllée.</p>
 <p>Contrôle des erreurs d'orthographe effectué par
   le systeme WordPerfect. </p>
 <p>Orthographe normalisée et modernisée selon
   dictionnaire Le Grand Robert.</p>
</editorialDecl>

19.2.3. Les déclarations relatives au système de référence et à la classification

On utilise l’élément refsDecl pour documenter la manière dont les schémas de référencement standard ont été construits. Dans sa forme la plus simple, l’élément contient du texte libre.

Exemple :
<refsDecl>
 <p>L'attribut
 <att>n</att> sur chaque <gi>div</gi> porte la référence canonique de cette
   division sous la forme XX.yyy : XX fournissant la numérotation du livre en
   chiffres romains, et yyy celle de la section en chiffres arabes, par ex
   II.234.</p>
</refsDecl>

L’élément classDecl regroupe les définitions ou les sources de n’importe quel schéma de classification descriptive, qui sont utilisées par les autres parties de l’en-tête. On doit fournir au moins un schéma, encodé en utilisant les éléments suivants :

  • taxonomy defines a typology either implicitly, by means of a bibliographic citation, or explicitly by a structured taxonomy.
  • bibl (bibliographic citation) contains a loosely-structured bibliographic citation of which the sub-components may or may not be explicitly tagged.
  • category contains an individual descriptive category, possibly nested within a superordinate category, within a user-defined taxonomy.
  • catDesc (category description) describes some category within a taxonomy or text typology, either in the form of a brief prose description or in terms of the situational parameters used by the TEI formal textDesc.
Dans le cas le plus simple, la taxinomie peut être définie par une référence bibliographique, comme dans l’exemple suivant :
<classDecl>
 <taxonomy xml:id="RAMEAU">
  <bibl>Répertoire d'autorité-matière encyclopédique et alphabétique unifié
     (RAMEAU) de la Bibliothèque nationale de France. <ptr target="http://rameau.bnf.fr/"/>
  </bibl>
 </taxonomy>
</classDecl>
L’encodeur peut procéder d’une autre manière, ou bien compléter ce qui précède, en définissant un schéma de classification spécifique et personel, comme dans l’exemple suivant :
<taxonomy xml:id="taxinomiePerso">
 <category xml:id="a.a">
  <catDesc>littérature</catDesc>
 </category>
 <category xml:id="a.a.1">
  <catDesc>Drame bourgeois</catDesc>
 </category>
 <category xml:id="a.a.1.α">
  <catDesc>Comédie larmoyante</catDesc>
 </category>
 <category xml:id="a.b">
  <catDesc>Correspondance</catDesc>
 </category>
 <category xml:id="a.b.1.a">
  <catDesc>Dernières lettres</catDesc>
 </category>
 <category xml:id="a.c.">
  <catDesc>Littérature européenne -- 16e siècle</catDesc>
 </category>
 <category xml:id="a.c.1">
  <catDesc>Satire de la Renaissance </catDesc>
 </category>
 <category xml:id="a.d">
  <catDesc>Récits de voyage</catDesc>
 </category>
 <category xml:id="a.d.1">
  <catDesc>Récits de la mer </catDesc>
 </category>
</taxonomy>>

Relier un texte particulier et une catégorie dans une taxinomie est réalisé grâce à l’élément catRef, inséré dans l’élément textClass. Cf. section ci-dessous.

19.3. La description du profil

L’élément profileDesc permet de caractériser la diversité des dimensions d’un texte. Il doit être enregistré dans un seul cadre et comporte trois constituants optionnels :

  • creation contains information about the creation of a text.
  • langUsage (language usage) describes the languages, sublanguages, registers, dialects, etc. represented within a text.
  • textClass (text classification) groups information which describes the nature or topic of a text in terms of a standard classification scheme, thesaurus, etc.

L’élément creation permet de documenter le lieu de la création du travail, même si celui-ci n’a pas été publié, ou bien s’il n’a pas été explicitement noté dans la source.

Exemple :
<creation>
 <date when="1992-08">August 1992</date>
 <name type="place">Taos, New
   Mexico</name>
</creation>
Quand le texte est écrit dans différentes langues, on se sert de l’élément langUsage. Celui-ci contient des éléments permettent de documenter chaque langue en particulier :
  • language characterizes a single language or sublanguage used within a text.
Par exemple, un texte comportant de manière prédominante du français tel qu’il est parlé au Québec, mais aussi de plus petits passages en anglais britannique et en anglais du Canada pourrait être documenté comme suit :
<langUsage>
 <language ident="fr-CAusage="60">Québecois</language>
 <language ident="en-CAusage="20">Anglais canadien</language>
 <language ident="en-GBusage="20">Anglais britannique</language>
</langUsage>

L’élément textClass permet de classer le texte. On établit une référence vers un système de classification, localement défini par l’élément classDecl, ou bien on réfère à un schéma établi de manière externe, par exemple la Classification Décimale Universelle. Les textes peuvent être aussi classés à l’aide de listes de mots clés, qui peuvent eux-mêmes venir de listes contrôlées, définies localement, ou bien de manière externe. On utilise les éléments suivants pour établir de telles classifications :

  • classCode (classification code) contains the classification code used for this text in some standard classification system.
  • catRef/ (category reference) specifies one or more defined categories within some taxonomy or text typology.
  • keywords contains a list of keywords or phrases identifying the topic or nature of a text.
La manière la plus simple de classer un texte est d’utiliser l’élément classCode. Par exemple, un texte avec la classification 410 de la Classification Décimale Universelle pourrait être documenté comme suit :
<classCode scheme="http://www.udc.org">410</classCode>
Quand un schéma de classification a été défini localement en utilisant l’élément taxonomy, présenté dans la section précédente, l’élément <carRef> peut être utilisé pour y faire référence. Poursuivons avec un exemple proposé plus tôt, un travail répertorié dans ce corpus comme Drame bourgeois et Récits de la mer. Il pourrait être documenté comme suit :
<catRef target="#a.a.1 #a.d.1"/>
L’élément keywords contient la liste des mots clés ou des expressions qui identifient les thèmes ou la nature du texte. Comme précédemment, l’attribut scheme identifie la source de laquelle ces termes ont été extraits, par exemple du système RAMEAU, ou ailleurs. Les mots clés utilisés peuvent également être répertorié dans élément taxonomy, tel que cela été présenté ci-dessus :
<textClass>
 <keywords scheme="#fr_RAMEAU">
  <term>Littérature française -- 20ème siècle -- Histoire et critique</term>
  <term>Littérature française -- Histoire et critique -- Théorie, etc.</term>
  <term>Français (langue) -- Style -- Bases de données.</term>
 </keywords>
</textClass>

Les classifications multiples sont possibles ; elles utilisent les mécanismes décrits dans cette section.

19.4. La description des modifications

L’élément revisionDesc permet de tenir le journal des modifications. Le journal peut être conservé sous la forme d’une suite d’éléments change, chacun contenant une courte description de la modification. On utilise les attributs when et who pour spécifier quand le changement a eu lieu et qui en est responsable.

Exemple :
<revisionDesc>
 <change when="1991-03-06who="#EMB">fichier validé</change>
 <change when="1990-05-25who="#EMB">version corrigée</change>
</revisionDesc>

Dans un environnement de production, il est souvent préférable d’utiliser un système automatisé pour conserver la trace des modifications. Beaucoup de systèmes de gestion de versions peuvent être également configurés pour mettre à jour automatiquement l’en-tête TEI d’un fichier.


TEI Guidelines Version This page generated on 2013-07-05T18:34:34Z