3. Premiers bilans

Dans une perspective synthétique, il paraît désormais important de rappeler les principes fondamentaux du balisage minimal pour en exprimer les limites et pouvoir dresser, à la lumière de l'expérience Académie 1694, un premier bilan concernant aussi bien les résultats obtenus pour une certaine catégorie d'interrogations avec ce balisage minimal, objectif puisque formel, que les adunata des informations difficiles à baliser, ce qui me conduit à confirmer l'intérêt d'autres procédures d'exploitation des bases de données pour les recherches communes à nos dictionnaires de référence et à définir, selon les objectifs choisis, trois phases différentes de balisage.

3.1. Le balisage formel minimal : ses résultats et ses limites

Le balisage minimal réalisé sous le logiciel Word Cruncher, qui permet de respecter les moindres spécificités formelles de l'imprimé, donne accès à tous les mots de texte et permet d'isoler toutes les formes typographiques (ponctuation, majuscules, italique, alinéas) susceptibles de faire l'objet d'une interrogation. De fait, le balisage formel minimal permet d'accéder à un maximum de données pertinentes même si le chercheur est ensuite conduit à faire des tris, à tenir compte du bruit ou du flou propres à ce genre de recherches. Ainsi, grâce au balisage formel minimal avons-nous pu, T. R. Wooldridge et moi-même, rechercher toutes les séquences en petites capitales ou en italique placées en début d'alinéa pour vérifier quelles sont les fonctionnalités précises des deux systèmes, en particulier pour le statut de sous-vedette ou de reprise d'adresse en italique; en effet, nous nous heurtions au problème de statut de certaines "sous-vedettes" non marquées par les petites capitales mais par l'italique; de même avons-nous extrait des fichiers de toutes les séquences d'adresses multiples; de même encore, a-t-il été possible d'extraire, grâce à le seule recherche des formes, pour chaque marque de catégorie grammaticale toutes les variantes formelles d'abréviations par opposition aux formes pleines, d'en apprécier la distribution pour pouvoir ensuite dégager les deux systèmes dominants malgré quelques exceptions de la forme abrégée en position codée, dès le début de l'alinéa juste après l'adresse ou de la forme pleine non codée car discursive; par la même recherche des mots de texte, avons-nous pu faire des listes des emplois de terme et de mot pour en isoler les emplois métalinguistiques et en analyser les conditions distributionnelles, en particulier par le jeu des co-occurrences (synth�se en cours). [25]

Mais le DAF étant un dictionnaire ancien sans systématicité absolue, se pose le problème du repérage systématique des informations qu'il s'agisse du marquage aléatoire des catégories du discours, des marques d'usage, des informations non marquées par principe ou plus ou moins volontairement cachées.

La définition d'outils associés comme les listes de mots-clés, métalinguistiques ou thématiques, même si elle s'impose du point de vue méthodologique du seul fait des exigences qu'elle implique et de l'intérêt pragmatique qu'elle offre pour une meilleure connaissance des textes traités, ne résoud pas toutes les difficultés dans le cas de recherches ciblées, de recensements exhaustifs, on l'a vu avec plusieurs exemples différents, même si l'on accepte de travailler avec du bruit, sachant de toute façon que le flou ne saurait être acceptable pour toute recherche scientifique.

Enfin, il est des cas plus spécifiques liés au jeu même des ambiguïtés discursives, impossibles à baliser : ainsi, l'implicite informationnel ou le statut particulier de certains exemples qui sont le lieu de discours cachés sur la grammaire, sur l'étymologie, sur des acceptions terminologiques, sans négliger toutes les informations à portée socio-culturelle. Dans ce cas, seules les notes d'expert ou notes de synthèses associées dans un hypertexte sont envisageables.

3.2. Un balisage pré-analytique

Pour donner accès aux informations que le balisage formel minimal ne délivre pas, même avec le soutien des mots-clés métalinguistiques, notamment pour ce qui est impossible à baliser : une partie du non-dit (marques de domaine et marques techniques omises), l'implicite de certaines marques en position discursive (cf. les faits significatifs des formes pleines proverbialement et figurément), sachant que ce genre de balisage pré-analytique concernera moins le DAF que les autres dictionnaires (Furetière, Ménage, Corneille, Trévoux). Pour le seul DAF, le balisage des indices révélateurs de la micro-diachronie des marques modifiées, abolies, rajoutées d'une édition à l'autre se fera davantage dans la perspective de liens hypertextuels que d'un réel pré-balisage analytique (cf. la trilogie 1687/1694/1718 avec forcément l'apport des notes d'expert dans des bases hypertextuelles associées).

3.3. Balisage fin ?

Le balisage fin, en dépit de sa séduction sur le plan de l'exigence d'un absolu intellectuel, d'un idéal éditorial propre aux anciennes éditions critiques, d'un idéal métalexicographique expérimenté sur des échantillons, est en réalité trop lourd à mettre en �uvre sur des corpus aussi importants que ceux de nos dictionnaires; le balisage fin, du seul fait de son caractère relativement artisanal ouvert aux aléas de l'imperfection humaine et des oublis, n'offre alors pas plus de garantie ni même d'absolue efficacité, au moins pour les dictionnaires généraux de langue, tout en introduisant toujours le risque lié à la subjectivité des interprétations textuelles d'un auteur.

Mais, comme on l'a vu, la discussion, la réflexion opposant les deux premières sortes de balisage formel minimal ou pré-analytique plus élaboré, implique cependant d'introduire des nuances en fonction du genre de dictionnaire considéré, du statut du texte dictionnairique constitué en base de données, ce qui nous conduit à distinguer deux groupes avec d'un côté le discours relativement simple du DAF et du DArS pour lesquels un balisage formel reste quand même satisfaisant dès lors qu'il est enrichi par les outils associés, de l'autre le discours plus élaboré du DEOLF et du DUFLT pour lesquels on peut envisager la complémentarité d'un balisage formel minimal prioritaire, aisé à mettre en oeuvre dès lors que les textes sont saisis et convertis en bases de données, d'un balisage pré-analytique qui enrichit progressivement le premier état; les deux formules restent évidemment toujours ouvertes aux outils complémentaires.

S'impose donc encore le même bilan qu'à l'issue de réflexions précédentes [26] non seulement sur les apparences trompeuses d'un automatisme exploité à la hâte sans garde-fou, mais surtout sur l'exigence du retour systématique au texte, du respect absolu aux textes imprimés, aux originaux, aux exemplaires de référence.

De l'exigence à l'éthique, il n'y a qu'un pas et un des intérêts de notre colloque n'est-il pas aussi de susciter une réflexion qui va à l'encontre des exploitations marchandes de textes anciens : il invite à sa façon à rétablir, même avec d'autres outils que la plume et le parchemin ou les milliers de fiches manuscrites, la conscience nécessaire du travail mené au rythme d'un temps ouvert à l'infini, nécessaire à la maturation de grandes oeuvres enracinées dans l'histoire de leur genèse. Toute création d'hypertexte de dictionnaires anciens échappe ainsi au temps compressé des créateurs-vendeurs de CD-ROM trop facilement réalisés au mépris de l'identité réelle des textes de référence et des lecteurs-consultants pris sous le charme de certaines illusions.

[Table]


Notes

25. La question est d�taill�e dans Leroy-Turcan 1998c.

26. Cf. Leroy-Turcan 1999.