Encoder pour échanger : une introduction à la TEI

9. Les interventions éditoriales

L’encodage d’un texte électronique a beaucoup à voir avec l’édition d’un manuscrit ou celle d’un texte destiné à être publié. Dans les deux cas, un éditeur consciencieux peut vouloir conserver l’état original de la source et la trace des corrections ou des changements qu’il a opérés. Pour ce faire, on utilisera les éléments décrits dans cette section et dans la section suivante,

9.1. La correction et la normalisation

On utilise les éléments suivants pour indiquer une correction, soit des changements éditoriaux introduits par l’éditeur, qui pense que l’original présente des erreurs :

  • corr (correction) contains the correct form of a passage apparently erroneous in the copy text.
  • sic (Latin for thus or so) contains text reproduced although apparently incorrect or inaccurate.

On utilise les éléments suivants pour indiquer une standardisation, soit des changements éditoriaux introduits pour des raisons de cohérence ou de modernisation d’un texte :

  • orig (original form) contains a reading which is marked as following the original, rather than being normalized or corrected.
  • reg (regularization) contains a reading which has been regularized or normalized in some sense.
Par exemple, considérons cette fable de La Fontaine, qui, dans sa première version imprimée, commence ainsi:
Maistre Corbeau sur un arbre perché
Tenoit en son bec un fromage.
Maistre Renard par l'odeur alléché
Luy tint à peu près ce langage:
Et bonjour, Monsieur du Corbeau :
Que vous estes joly! que vous me semblez beau:
Un éditeur moderne pourrait vouloir apporter un nombre de modifications, notamment pour moderniser (ou normaliser) l’orthographe. L’encodage serait alors le suivant :
<l>
 <reg>Maître</reg> Corbeau sur un arbre
perché,
</l>
<l>
 <reg>Tenait</reg> en son bec un fromage.
</l>
<l>
 <reg>Maître</reg>
Renard par l'odeur alléché
</l>
<l>
 <reg>Lui</reg> tint à peu près ce langage:
</l>
<l>Et
bonjour, Monsieur du Corbeau</l>
<l>Que vous <reg>êtes</reg>
 <reg>joli</reg>! que vous me semblez beau!</l>
Un éditeur plus conservateur, ou très soucieux des sources, voudrait sans doute s’en tenir à l’original, mais, dans le même temps, signaler que certaines lectures peuvent être anomales.
<l>
 <orig>Maistre</orig>
Corbeau sur un arbre perché,
</l>
<l>
 <orig>Tenoit</orig> en son bec un fromage.
</l>...
Finalement, un éditeur numérique moderne peut décider de combiner ces deux possibilités dans un seul texte composite, en utilisant l’élément choice.
  • choice groups a number of alternative encodings for the same point in a text.
Celui-ci permet à l’éditeur d’indiquer que des lectures alternatives sont possibles
<l>
 <choice>
  <orig>Maistre</orig>
  <reg>Maître</reg>
 </choice>Corbeau sur un arbre
perché,
</l>
<l>
 <choice>
  <orig>Tenoit</orig>
  <reg>Tenait</reg>
 </choice> en son bec un
fromage.
</l>
<l>
 <choice>
  <orig>Maistre</orig>
  <reg>Maître</reg>
 </choice> Renard par
l'odeur alléché
</l>
<l>
 <choice>
  <orig>Luy</orig>
  <reg>Lui</reg>
 </choice> tint à peu
près ce langage:
</l>
<l>Et bonjour, Monsieur du Corbeau :</l>
<l>Que vous
<choice>
  <orig>estes</orig>
  <reg>êtes</reg>
 </choice>
 <choice>
  <orig>joly</orig>
  <reg>joli</reg>
 </choice> ! que vous me semblez
beau!</l>

9.2. Les omissions, les suppressions et les ajouts

Outre la correction et la standardisation des mots et des expressions, les éditeurs ou les transcripteurs peuvent également indiquer du matériel manquant, omettre du matériel ou transcrire du matériel qui a été supprimé ou rayé. Des matériaux peuvent également se révéler particulièrement difficiles à transcrire, par exemple quand ils sont difficilement déchiffrables. Pour ces différents cas, on utilise les éléments suivants :

  • add (addition) contains letters, words, or phrases inserted in the source text by an author, scribe, annotator, or corrector.
  • gap (gap) indicates a point where material has been omitted in a transcription, whether for editorial reasons described in the TEI header, as part of sampling practice, or because the material is illegible, invisible, or inaudible.
  • del (deletion) contains a letter, word, or passage deleted, marked as deleted, or otherwise indicated as superfluous or spurious in the copy text by an author, scribe, annotator, or corrector.
  • unclear contains a word, phrase, or passage which cannot be transcribed with certainty because it is illegible or inaudible in the source.

On utilise ces éléments pour marquer les changements opérés par l’éditeur, le transcripteur, l’auteur ou le copiste (pour ces deux derniers, dans le manuscrit même). Par exemple, soit la source suivante :

Ces éléments servent à indiquer les changements opérés par par un éditeur
On voudrait corriger l’erreur manifeste, mais dans le même temps, conserver la trace de la suppression du deuxième « par » :
Ces
éléments servent à indiquer les changements opérés par <del resp="#LDB">par</del> un
éditeur.
La valeur #LDB de l’attribut resp est alors utilisée pour pointer sur l’identification de ceux qui sont responsables de la correction (typiquement dans un élément respStmt).
Soit la source suivante :
Ces éléments servent à indiquer changements opérés par un éditeur.
L'article a été supprimé par inadvertance. Le texte corrigé pourrait alors être encodé de la manière suivante :
Ces éléments servent à indiquer <add resp="#LB">les</add> changements opérés par un éditeur.
Ces éléments ne se limitent pas à indiquer les changements opérés par un éditeur. Ils peuvent être aussi utilisés pour conserver des changements opérés par l’auteur. Un manuscrit dans lequel un auteur a d’abord écrit « How it galls me, what a galling shadow », puis remplacé le mot « galls » par « dogs », pourrait être encodé comme suit :
How it <del hand="#DHLtype="overstrike">galls</del>
<add hand="#DHLplace="supralinear">dogs</add> me, what a galling shadow
A nouveau, le code #DHL pointe sur un autre endroit du texte, où l’on dispose de plus d’informations. De manière similaire, on utilise les éléments unclear et gap pour indiquer l’omission d’un matériel illisible ; l’exemple suivant montre également l’utilisation de add pour un ajout fait d'une autre main :
<add hand="#EPRplace="inspace">Envoyez-moi une épreuve <unclear cert="medium">W</unclear>
 <gap reason="inDéchiffrable"/>
</add>
L’élément del indique que le matériel transcrit est, sur l’original, marqué comme supprimé, tandis que l’élément gap indique l’endroit où se trouve le matériel omis, que cette décision soit considérée comme opportune ou pas. Un corpus linguistique, par exemple, pourrait omettre les longues citations en langue étrangère, ou bien omettre systématiquement les figures, et les formules mathématiques. Voici un exemple12 :
<p>Dans de tels
puzzles les pièces se divisent en quelques grandes classes dont les plus connues
sont : les bonshommes <gap>
  <desc>figure représentant plusieurs pièces de puzzle de
     ce type</desc>
 </gap>; les croix de Lorraine <gap>
  <desc>figure représentant
     plusieurs pièces de puzzle de ce type</desc>
 </gap>; et les croix
<gap>
  <desc>figure représentant plusieurs pièces de puzzle de ce
     type</desc>
 </gap>
</p>

9.3. Les abréviations et leurs formes développées

Tout comme les noms, les dates et les nombres, les abréviations peuvent être transcrites telles qu’elles sont écrites ou bien développées. Elles peuvent rester non marquées, ou bien encodées en utilisant les éléments suivants :

  • abbr (abbreviation) contains an abbreviation of any sort.
  • expan (expansion) contains the expansion of an abbreviation.
L’élément abbr est utile pour distinguer des items semi-lexicaux tels que des acronymes, ou du jargon. Voici un exemple13  :
<head>Lutte contre le nepotisme : le
<abbr>PS</abbr> entrave
<abbr>EE-LV</abbr>
</head>
On utilise l’attribut type pour distinguer les types d’abréviation en fonction de leur rôle. On utilise l’élément expan pour indiquer que la forme développée de l’expression a été fournie par l’encodeur. Cet élément est particulièrement utile dans la transcription de manuscrits. Par exemple, dans les manuscrits de l’époque médiévale, on trouve très couramment le caractère p avec une hampe barrée, qui est la représentation conventionnelle du mot « per ». Un encodeur peut choisit de le développer de la manière suivante :
<expan>per</expan>
La forme développée de l’abréviation ne contient pas toujours les mêmes lettres que celles qui ont été utilisées dans l’abréviation. Quand cela arrive, cependant, la pratique éditoriale courante est d’utiliser les italiques, ou sinon de signaler quelles lettres ont été ajoutées. L’élément expan ne doit pas être utilisé dans ce cas, car sa fonction est d’indiquer la forme développée et non une partie de celle-ci. Par exemple, considérons l’abréviation c (pour cum), que l’on trouve souvent dans les textes médiévaux. Dans une édition moderne, un éditeur pourrait vouloir représenter ceci par ‘cum’, en mettant en italiques les lettres ajoutées. Un moyen simple d’y arriver serait de l’encoder comme suit :
<expan>c<hi rend="it">um</hi>
</expan>
Pour enregistrer à la fois une abréviation et sa forme développée, on peut utiliser l’élément choice, mentionné plus haut, pour rassembler la forme abrégée et la forme développée :
<choice>
 <abbr>c</abbr>
 <expan>cum</expan>
</choice>
Notes
12
Extrait de La vie mode d'emploi de Georges Perec (1978)
13
Titre dans Libération du 7 fev 2012

TEI Guidelines Version This page generated on 2013-07-05T18:34:34Z