2. Un court exemple
Nous commençons par un bref exemple1 Son but est d’illustrer ce qui se passe quand un passage en prose est saisi sur ordinateur par une personne qui n’est pas au fait du balisage ou du potentiel des textes électroniques. Dans un monde idéal, un tel résultat pourrait être généré par un scanner optique très précis. Il tente de rester fidèle à l’apparence du texte imprimé, en retenant les mêmes fins de lignes que l’original, en insérant des blancs pour représenter la disposition des titres originaux et les fins de page, et ainsi de suite, et en gardant la ponctuation originelle.
Cette transcription présente quelques défauts :
- les numéros de pages et les titres se mêlent au texte de manière telle qu’un logiciel aurait beaucoup de difficultés à les « démêler » ;
- avec le maintien des césures, toute procédure de recherche peu élaborée ne pourra pas trouver les mots coupés ;
- la division en paragraphes est indiquée seulement par des espaces, et des retours à la ligne ont été insérés à la fin de chaque ligne. Tout changement dans la taille de la police, entrainera de facto des problèmes de mise en page ;
- les guillemets ont été retenus, mais ils n’identifient pas précisément les passages au discours direct. Par exemple la mention « John était un vieux serviteur etc. » n'est pas prononcé par John, bien qu'entouré de guillemets.
Nous présentons maintenant le même passage, avec un encodage conforme aux Recommandations. Comme nous allons le voir, cet encodage pourrait être étendu de bien des façons, mais la TEI nous permet, au minimum, de représenter les distinctions suivantes :
- la division en paragraphes et en chapitre est maintenant indiquée explicitement ;
- les débuts de page ont été balisées par l’élément vide pb ;
- les lignes du document original n’ont pas été retenues et les césures ont été supprimées, sans qu’il y ait de commentaire ;
- pour faciliter la correction, une nouvelle ligne a été insérée au début de chaque paragraphe, et l’alinéa a été supprimé ;
- les mots faisant partie d'un discours direct sont balisés explicitement ;
- l'usage d'une police différente pour le titre du chapitre est indiqué; par contre, les titres courants ont été supprimés.
<pb n="239"/>
<div n="XXXVIII" type="chapitre">
<head rend="petitMajuscules">conclusion.</head>
<p>J’ai enfin épousé M. Rochester. Notre mariage se fit sans bruit; lui, moi, le
ministre et le clerc, étions seuls présents. Quand nous revînmes de l’église, j’entrai
dans la cuisine, où Marie préparait le dîner, tandis que John nettoyait les couteaux. </p>
<p> «<q>Marie</q>, dis-je, <q>j’ai été mariée ce matin à M. Rochester.</q> » </p>
<p>La femme de charge et son mari appartenaient à cette classe de gens discrets et
réservés auxquels on peut toujours communiquer une nouvelle importante sans crainte
d’avoir les oreilles percées par des exclamations aiguës, ni d’avoir à supporter un
torrent de surprises. Marie leva les yeux et me regarda. Pendant quelques minutes elle
tint suspendue en l’air la cuiller dont elle se servait pour arroser deux poulets qui
cuisaient devant le feu, et John cessa de polir ses couteaux. Enfin Marie, se penchant
vers son rôti, me dit simplement : </p>
<p>« <q>En vérité, mademoiselle ? Eh bien, tant mieux, certainement.</q> » </p>
<p>Au bout de quelque temps elle ajouta : « <q>Je vous ai bien vue sortir avec mon
maître ; mais je ne savais pas que vous alliez à l’église pour vous marier.</q> » </p>
<p>Et elle continua d’arroser son rôti. </p>
<p>Quand je me tournai vers John, je vis qu’il ouvrait la bouche si grande qu’elle
menaçait d’aller rejoindre ses oreilles. </p>
<p> « <q>J’avais bien averti Marie que cela arriverait,</q> dit-il. <q>Je savais que M.
Édouard</q> (John était un vieux serviteur et avait connu son maître alors qu’il
était encore cadet de famille ; c’est pourquoi il l’appelait souvent par son nom de
baptême), <q>je savais que M. Édouard le ferait, et j’étais persuadé qu’il
n’attendrait pas longtemps ; je suis sûr qu’il a bien fait.</q> » </p>
<p>En disant ces mots, John tira poliment ses cheveux de devant. </p>
<p> « <q>Merci, John,</q> répondis-je. <q>Tenez, M. Rochester m’a dit de vous donner
ceci, à vous et à Marie.</q> » Et je lui remis un billet de cinq livres. </p>
<p> Sans plus attendre je quittai la cuisine. Quelque temps après, en repassant devant
la porte, j’entendis les mots suivants : </p>
<p> « <q>Elle lui conviendra mieux qu’une grande dame.</q> » Puis : « <q>Il <pb n="240"/> y en a de plus jolies, mais elle est bonne et n’a pas de défauts. Du reste, il
est facile de voir qu’elle lui semble bien belle.</q> » </p>
<p> J’écrivis immédiatement à Moor-House, pour annoncer ce que j’avais fait. Je donnai
toutes les explications nécessaires dans ma lettre. Diana et Marie m’approuvèrent
entièrement. Diana m’annonça qu’elle viendrait me voir après la lune de miel. </p>
<p> « <q>Elle ferait mieux de ne pas attendre jusque-là, Jane,</q> me dit M. Rochester,
lorsque je lui lus la lettre ; <q>car la lune de miel brillera sur toute notre vie, et
ses rayons ne s’éteindront que sur votre tombe ou sur la mienne.</q> » </p>
<p>...</p>
</div>
L’encodage ci-dessus a été construit sur un ensemble de choix et de priorités : nous avons ici considéré que le texte de Brontë en tant que tel était plus important que son édition. Nous avons ainsi supprimé le tiret de césure, sans pour autant l’avoir marqué (cf. par exemple « de de-vant » dans l’édition, « de devant » dans l’encodage). Encoder c’est donc toujours faire des choix. Un encodage explicite seulement les caractéristiques textuelles qui importent à l’encodeur. Et il est facile d’imaginer différentes manières d’étendre l’encodage d’un passage même aussi court. Par exemple :
- des gloses ou des commentaires en notes de bas de page pourraient être ajoutés ;
- des liens associant des parties de ce texte à d’autres pourraient être ajoutés ;
- on pourrait faire ressortir du contexte des noms propres de différentes sortes ;
- des données bibliographiques détaillées sur la provenance du texte et son contexte pourraient être ajoutées dans l’en-tête ;
- une analyse linguistique en phrases, en propositions, en mots, etc. pourrait être fournie, où chaque unité serait pourvue de sa catégorie ;
- le texte pourrait être segmenté en unités narratives ou en unités discursives ;
- on pourrait annoter chaque passage de discours pour comparer le discours des personnages de différentes classes ou de différents sexes ;
- on pourrait inclure dans l’encodage l’analyse systématique ou l’interprétation du texte, et ce avec des alignements et des associations potentiellement complexes entre le texte et l’analyse, ou entre le texte et une ou plusieurs de ses traductions ;
- des passages pourraient être liés à des images ou à du son, stockés sur d'autres supports.
L’encodage de la plupart de ces extensions est décrit dans la suite du document. Le schéma TEI dans sa totalité fournit également un large éventail d’autres possibilités. Nous en citerons uniquement quelques-unes :
- analyse détaillée des constituants d’un nom ;
- méta-informations détaillées sur les origines du texte et sur ses thèmes ;
- informations sur l’histoire de son impression, ou sur ses variantes manuscrites, telles qu’on pourrait les observer dans les différentes versions du même texte.
Pour savoir comment procéder dans ces différents cas, mais aussi pour connaître beaucoup d’autres possibilités, on se reportera aux Recommandations.