Corneille Molière
Controverse sur l'utilisation d'algorithmes pour déterminer la paternité d'une oeuvre

Algorithme

Des algorithmes fiables ?

S'il vous est déjà arrivé de vous pencher sur la controverse Corneille Molière, vous avez du entendre parler d'algorithmes permettant de déterminer la paternité d'une œuvre.
Si ces algorithmes quantifient la proximité d'œuvres, il serait d'exagéré de leur prêter la capacité d'identifier leur écrivain de façon certaine.
Mais pour en revenir à la question initiale, il nous faut :

  • d'abord expliquer leur origine et leur principe
  • puis expliciter ce que l'on appelle "distance intertextuelle"
  • enfin vous donner un exemple pour vous permettre de vous en faire une idée concrète

Leur Origine

Pour faire simple, ces algorithmes de détermination de distances intertextuelles sont l'aboutissement d'études stylométriques. Leur principe est de comparer des facteurs clés tels que :

  • la fréquence d'apparition des mots et/ou de certains mots
  • la rythmique et/ou la position de formules dans un phrase
  • la reconnaissance de formes par réseaux neuronaux synthétiques

Distance Intertextuelle

Une distance entre deux textes est un nombre compris entre 0 et 1. Plus les textes sont semblables plus la distance les séparant est faible. Aussi dans l'exemple qui suit nous avons comparé les fréquences d'apparitions des mots.

Exemple