L’encodage d’un texte électronique a beaucoup à voir avec l’édition d’un manuscrit ou celle d’un texte destiné à être publié. Dans les deux cas, un éditeur consciencieux peut vouloir conserver l’état original de la source et la trace des corrections ou des changements qu’il a opérés. Pour ce faire, on utilisera les éléments décrits dans cette section et dans la section suivante,
On utilise les éléments suivants pour indiquer une correction, soit des changements éditoriaux introduits par l’éditeur, qui pense que l’original présente des erreurs :
- corr (correction) contient la forme correcte d'un passage qui est considéré erroné dans la copie du texte.
- sic (du latin, ainsi
) contient du texte reproduit quoiqu'il est apparemment incorrect ou inexact
On utilise les éléments suivants pour indiquer une standardisation, soit des changements éditoriaux introduits pour des raisons de cohérence ou de modernisation d’un texte :
- orig (forme originale) contient une partie notée comme étant fidèle à l'original et non pas normalisée ou corrigée.
- reg (régularisation) contient une partie qui a été régularisée ou normalisée de façon quelconque
Par exemple, considérons cette fable de La Fontaine, qui, dans sa première version imprimée, commence ainsi:
Maistre Corbeau sur un arbre perché
Tenoit en son bec un fromage.
Maistre Renard par l'odeur alléché
Luy tint à peu près ce langage:
Et bonjour, Monsieur du Corbeau :
Que vous estes joly! que vous me semblez beau:
Un éditeur moderne pourrait vouloir apporter un nombre de modifications, notamment pour moderniser (ou normaliser) l’orthographe. L’encodage serait alors le suivant :
<l>
<reg>Maître</reg> Corbeau sur un arbre
perché,
</l>
<l>
<reg>Tenait</reg> en son bec un fromage.
</l>
<l>
<reg>Maître</reg>
Renard par l'odeur alléché
</l>
<l>
<reg>Lui</reg> tint à peu près ce langage:
</l>
<l>Et
bonjour, Monsieur du Corbeau</l>
<l>Que vous <reg>êtes</reg>
<reg>joli</reg>! que vous me semblez beau!</l>
Un éditeur plus conservateur, ou très soucieux des sources, voudrait sans doute s’en tenir à l’original, mais, dans le même temps, signaler que certaines lectures peuvent être anomales.
<l>
<orig>Maistre</orig>
Corbeau sur un arbre perché,
</l>
<l>
<orig>Tenoit</orig> en son bec un fromage.
</l>...
Finalement, un éditeur numérique moderne peut décider de combiner ces deux possibilités dans un seul texte composite, en utilisant l’élément
choice.
- choice (choix) regroupe un certain nombre de balisages alternatifs possibles pour un même endroit dans un texte.
Celui-ci permet à l’éditeur d’indiquer que des lectures alternatives sont possibles
<l>
<choice>
<orig>Maistre</orig>
<reg>Maître</reg>
</choice>Corbeau sur un arbre
perché,
</l>
<l>
<choice>
<orig>Tenoit</orig>
<reg>Tenait</reg>
</choice> en son bec un
fromage.
</l>
<l>
<choice>
<orig>Maistre</orig>
<reg>Maître</reg>
</choice> Renard par
l'odeur alléché
</l>
<l>
<choice>
<orig>Luy</orig>
<reg>Lui</reg>
</choice> tint à peu
près ce langage:
</l>
<l>Et bonjour, Monsieur du Corbeau :</l>
<l>Que vous
<choice>
<orig>estes</orig>
<reg>êtes</reg>
</choice>
<choice>
<orig>joly</orig>
<reg>joli</reg>
</choice> ! que vous me semblez
beau!</l>
Outre la correction et la standardisation des mots et des expressions, les éditeurs ou les transcripteurs peuvent également indiquer du matériel manquant, omettre du matériel ou transcrire du matériel qui a été supprimé ou rayé. Des matériaux peuvent également se révéler particulièrement difficiles à transcrire, par exemple quand ils sont difficilement déchiffrables. Pour ces différents cas, on utilise les éléments suivants :
- add ( ajout) contient des lettres, des mots ou des phrases insérés dans le texte par un auteur, un copiste, un annotateur ou un correcteur.
- gap (omission) indique une omission dans une transcription, soit pour des raisons éditoriales décrites dans l'en-tête TEI au cours d’un échantillonnage, soit parce que le matériau est illisible ou inaudible.
- del (suppression) contient une lettre, un mot ou un passage supprimé, marqué comme supprimé, sinon indiqué comme superflu ou erroné dans le texte par un auteur, un copiste, un annotateur ou un correcteur.
- unclear (incertain) contient un mot, une expression ou bien un passage qui ne peut être transcrit avec certitude parce qu'il est illisible ou inaudible dans la source.
On utilise ces éléments pour marquer les changements opérés par l’éditeur, le transcripteur, l’auteur ou le copiste (pour ces deux derniers, dans le manuscrit même). Par exemple, soit la source suivante :
Ces éléments servent à indiquer les changements opérés par par un éditeur
On voudrait corriger l’erreur manifeste, mais dans le même temps, conserver la trace de la suppression du deuxième « par » :
Ces
éléments servent à indiquer les changements opérés par <del resp="#LDB">par</del> un
éditeur.
La valeur
#LDB de l’attribut
resp est alors utilisée pour pointer sur l’identification de ceux qui sont responsables de la correction (typiquement dans un élément
respStmt).
Soit la source suivante :
Ces éléments servent à indiquer changements opérés par un éditeur.
L'article a été supprimé par inadvertance. Le texte corrigé pourrait alors être encodé de la manière suivante :
Ces éléments servent à indiquer <add resp="#LB">les</add> changements opérés par un éditeur.
Ces éléments ne se limitent pas à indiquer les changements opérés par un éditeur. Ils peuvent être aussi utilisés pour conserver des changements opérés par l’auteur. Un manuscrit dans lequel un auteur a d’abord écrit « How it galls me, what a galling shadow », puis remplacé le mot « galls » par « dogs », pourrait être encodé comme suit :
How it <del hand="#DHL" type="overstrike">galls</del>
<add hand="#DHL" place="supralinear">dogs</add> me, what a galling shadow
A nouveau, le code #DHL pointe sur un autre endroit du texte, où l’on dispose de plus d’informations. De manière similaire, on utilise les éléments
unclear et
gap pour indiquer l’omission d’un matériel illisible ; l’exemple suivant montre également l’utilisation de
add pour un ajout fait d'une autre main :
<add hand="#EPR" place="inspace">Envoyez-moi une épreuve <unclear cert="medium">W</unclear>
<gap reason="inDéchiffrable"/>
</add>
L’élément
del indique que le matériel transcrit est, sur l’original, marqué comme supprimé, tandis que l’élément
gap indique l’endroit où se trouve le matériel omis, que cette décision soit considérée comme opportune ou pas. Un corpus linguistique, par exemple, pourrait omettre les longues citations en langue étrangère, ou bien omettre systématiquement les figures, et les formules mathématiques. Voici un exemple
12 :
<p>Dans de tels
puzzles les pièces se divisent en quelques grandes classes dont les plus connues
sont : les bonshommes <gap>
<desc xml:lang="en"
versionDate="2014-01-12">figure représentant plusieurs pièces de puzzle de
ce type</desc>
</gap>; les croix de Lorraine <gap>
<desc xml:lang="en"
versionDate="2014-01-12">figure représentant
plusieurs pièces de puzzle de ce type</desc>
</gap>; et les croix
<gap>
<desc xml:lang="en"
versionDate="2014-01-12">figure représentant plusieurs pièces de puzzle de ce
type</desc>
</gap>
</p>
Tout comme les noms, les dates et les nombres, les abréviations peuvent être transcrites telles qu’elles sont écrites ou bien développées. Elles peuvent rester non marquées, ou bien encodées en utilisant les éléments suivants :
- abbr (abréviation) contient une abréviation quelconque.
- expan (expansion) contient l'expansion d'une abréviation.
L’élément
abbr est utile pour distinguer des items semi-lexicaux tels que des acronymes, ou du jargon. Voici un exemple
13 :
<head>Lutte contre le nepotisme : le
<abbr>PS</abbr> entrave
<abbr>EE-LV</abbr>
</head>
On utilise l’attribut
type pour distinguer les types d’abréviation en fonction de leur rôle. On utilise l’élément
expan pour indiquer que la forme développée de l’expression a été fournie par l’encodeur. Cet élément est particulièrement utile dans la transcription de manuscrits. Par exemple, dans les manuscrits de l’époque médiévale, on trouve très couramment le caractère p avec une hampe barrée, qui est la représentation conventionnelle du mot « per ». Un encodeur peut choisit de le développer de la manière suivante :
<expan>per</expan>
La forme développée de l’abréviation ne contient pas toujours les mêmes lettres que celles qui ont été utilisées dans l’abréviation. Quand cela arrive, cependant, la pratique éditoriale courante est d’utiliser les italiques, ou sinon de signaler quelles lettres ont été ajoutées. L’élément
expan ne doit pas être utilisé dans ce cas, car sa fonction est d’indiquer la forme développée et non une partie de celle-ci. Par exemple, considérons l’abréviation
c (pour
cum), que l’on trouve souvent dans les textes médiévaux. Dans une édition moderne, un éditeur pourrait vouloir représenter ceci par ‘c
um’, en mettant en italiques les lettres ajoutées. Un moyen simple d’y arriver serait de l’encoder comme suit :
<expan>c<hi rend="it">um</hi>
</expan>
Pour enregistrer à la fois une abréviation et sa forme développée, on peut utiliser l’élément
choice, mentionné plus haut, pour rassembler la forme abrégée et la forme développée :
<choice>
<abbr>c</abbr>
<expan>cum</expan>
</choice>