Corneille Molière
Controverse sur l'utilisation d'algorithmes pour déterminer la paternité d'une oeuvre

Etienne Brunet

Éléments biographiques

Ex-directeur du laboratoire de statistique linguistique de l’Institut national de la langue, il y est également chercheur.  Professeur émérite à l’Université de Nice et Docteur ès lettres (Nice, 1976). Étienne Brunet participe au renouveau des recherches littéraires. Il est connu pour s’être consacré à l’étude lexicométrique de trois siècles de littérature française, s’étendant de Du Bellay à Gracq, et de Rabelais à Le Clézio

 


Position et évolution dans la controverse

C’est lors d’une conférence tenue à la Sorbonne dans le cadre d’un cycle intitulé « Tous ceux qui comptent » qu’Etienne Brunet fait son entrée dans la polémique.

Celui-ci soutient qu’il  a été amené à s’intéresser, bien avant les Labbé, aux rapports entre Molière et Corneille. Il indique avoir consulté et traité les données du théâtre classique, qui étaient disponibles dans le Trésor de la Langue Française et que Labbé allait reprendre en les complétant.

M. Brunet entreprend dans un premier temps de mettre à l’épreuve les algorithmes, faisant intervenir la formule de Labbé.  Ces expériences l’ont conduit à améliorer ces algorithmes pour se libérer des contraintes qui masquent ou entachent la validité des résultats.

Tout ceci le conduit au final à évaluer la pertinence de l’algorithme des Labbé et à en dégager les limites.

Arguments

  • D’un point de vue procédural : Brunet reproche aux Labbé cette démonstration à charge .En effet, selon lui, mettre en place un algorithme pour établir la parenté des œuvres de Molière, tout en ayant une présomption sur cette parenté, discrédite l’expérience. De plus, selon M. Brunet la représentativité des  textes n’est pas suffisante. Il s’agit en somme d’une expérience où l’interprétation erronée peut conduire à des conclusions tout aussi fausses.
  • De la non falsifiabilité  de l’algorithme de Labbé :
    • L’échelle utilisée pour la mesure est rigide en ce sens qu’elle est absolue et fermée, ce qui n’est absolument  pas justifié selon Brunet. D’autre part celle-ci n’est appliquée qu’au côté lexical des textes alors qu’elle aurait dû être exploitée pour analyser d’autres objets linguistiques que le lemme : aux graphies, aux codes grammaticaux, aux structures syntaxiques ou aux réseaux sémantiques.
    • L’algorithme conçu par Labbé est en quelque sorte verrouillé par lui-même et toute modification de ses paramètres nécessite un détour par l’intéressé, en effet c’est lui qui fixe les critères pour valider ou non une mesure.
  • « [dans la mesure de Labbé], ce qui est gagné en synthèse est perdu en analyse »: Selon Brunet, mesurer une distance lorsque plusieurs facteurs rentrent en jeu est difficile, parmi ceux-ci on trouve l’auteur, le genre, le sujet et l’époque. Mais dans une mesure donnée, rien ne permet de distinguer ces influences variables sur la mesure de distance globale. D’autant plus que le dosage des influences respectives échappe au calcul. 

  • Proximité plutôt que distance : Parler de distance est maladroit car ce terme désigne une mesure absolue qui ne fait intervenir que deux points (par analogie à la géographie). La distance dont il s’agit dans la statistique linguistique est d’un autre type, elle est soumise à la relativité.
    De plus Brunet déplore le fait que la proximité ne soit mesurée qu’au moyen des éléments présents dans les deux textes comparés et qu’elle ne fasse pas intervenir aussi les mots absents des deux textes ce qui traduirait un « dégoût commun ».  Ceci impose aussi l’utilisation d’un corpus afin de détecter les mots manquants.

Intéraction avec d’autres acteurs

E. Brunet fait évidemment suite aux travaux des Labbé en tachant de reprendre et améliorer leurs formules et leur algorithme.

 

Interventions significatives

  • A propos de l’affaire Corneille-Molière. Communication présentée au colloque Troisièmes journées de linguistique de corpus, Lorient (2003)
  • Peut-on compter sur la statistique ? Communication présentée au colloque La place des méthodes quantitatives dans le travail du linguiste, Toulouse (2004)
  • La distance intertextuelle. Communication présentée au colloque « Mathématiques et Littératures », ENST Bretagne (2004)
  • Où l’on mesure la distance entre les distances. Conférence tenue à la Sorbonne (2004)
  • Le logiciel Hyperbase. Communication présentée au colloque Informatique et statistique appliquées à l’étude des textes, Alger (2007)
  • Entre linguistique et littérature: un tunnel sous les mots. Communication présentée au colloque Linguistique et Littérature, Cluny, 40 ans après (2008)
  • L’exploitation statistique des bases lexicographiques. Communication présentée au colloque Lexicographie et informatique (2008)
  • Tous des « copiateurs ». Communication présentée au colloque Le style et sa modélisation (2009)