Trouver le terme de « conscience contrefaite » pour parler d’intelligence artificielle dans une publication scientifique semble absurde. Pourtant, c’est le principe des « phrases torturées » : remplacer un mot par un synonyme pour copier un article sans se faire démasquer par un logiciel anti-plagiat. Que nous dit cette fraude du fonctionnement du monde de la recherche ?
La barrière hémato-encéphalique est une barrière physiologique qui protège le cerveau de beaucoup de vertébrés, dont l’homme. C’est une sorte de filtre qui permet au cerveau d’être nourri en nutriments sans être intoxiqué. En anglais, elle est généralement nommée la Blood-Brain Barrier (la barrière sang-cerveau), facilement acronymisé en « BBB ». Quelle surprise, donc, de lire dans des publications scientifiques des expressions déviantes telles que blood mind boundary (limite sang-esprit), blood-cerebrum hindrance (l’entrave sang-encephale) ou encore blood-brain obstruction (l’obstruction sang-cerveau). Vous pouvez vous-mêmes trouver deux de ces expressions dans cet article publié par le Journal of Environmental Chemical Engineering.
La raison suspectée est simple : tout comme les écoliers qui tentent de tricher en rendant leurs devoirs, certains scientifiques essaient d’augmenter le nombre de leurs publications en soumettant des articles dont des portions ont été directement copiées d’autres articles. Ces manuscrits ne peuvent cependant pas être soumis tels quels : les éditeurs scientifiques se sont armés de systèmes anti-plagiat qui analysent les documents qui leur sont soumis. Pour éviter que les paragraphes copiés ne soient immédiatement détectés par ces systèmes, les auteurs utilisent des algorithmes qui changent le texte copié en piochant des synonymes dans un thésaurus. C’est comme cela que la « barrière » hémato-encéphalique devient une « entrave » dans le texte. Malheureusement pour eux, ces programmes peuvent déraper et aller parfois jusqu’à remplacer des expressions bien établies dans le jargon scientifique.
Les chercheurs Cyril Labbé et Guillaume Cabanac ont étudié ce phénomène en profondeur. Ils proposent de nommer les résultats de ces substitutions des « tortured phrases », des « phrases torturées ». Parmi leurs exemples célèbres, on compte par exemple « counterfeit consciousness » (conscience contrefaite) pour « artificial intelligence » (intelligence artificielle) ou encore « bosom peril » (péril poitrinaire) pour « breast cancer » (cancer du sein).
Pour systématiser la détection des phrases torturées, ainsi que d’autres signes de mauvaise qualité d’une publication, Guillaume Cabanac a construit une plate-forme, le Problematique Paper Screener. Cette base de données alimentée par des volontaires qui font remonter leurs découvertes au fil de leurs lectures compte aujourd’hui plus de 6 000 expressions reconnues comme phrases torturées. Sur plus de 17 000 articles qui ont été détectés comme étant probablement porteurs de phrases torturées, moins de 3 000 ont été rétractés. Ces chiffres sont relativement modestes, quand on sait que plusieurs millions d’articles scientifiques sont publiés chaque année. Mais cela pourrait n’être que la partie émergée de l’iceberg. Si le biomédical et l’informatique forment le gros des articles visés, on trouve certains articles qui sont en périphérie des sciences sociales.
Un jargon scientifique anglophone à double tranchant
La stratégie de substitution qui aboutit aux phrases torturées a aujourd’hui largement touché sa limite. Il est devenu beaucoup plus facile de générer des paragraphes en demandant à un « grand modèle de langage », tel ChatGPT, de paraphraser un article existant. Pour autant, on continue toujours de découvrir de nouvelles phrases torturées, notamment par la déformation de concepts ou d’objets bien établis dans la littérature. Finalement, c’est par la casse du jargon que l’on détecte les problèmes.
Ce jargon scientifique a toujours été un outil à double tranchant. D’un côté, l’usage de noms précis, bien que parfois abscons, pour qualifier des objets ou des concepts remplit un rôle épistémologique essentiel. En utilisant un lexique spécialisé, on s’affranchit de la nécessité de redéfinir à chaque fois les axiomes sur lesquels se base la recherche qui est présentée. Il participe au « travail de démarcation » en donnant au texte un registre discursif « scientifique », qui passe souvent par le déploiement d’une technicité du texte au service d’un objectif de description ou d’interprétation du réel. De l’autre, le jargon peut devenir tellement opaque que le lecteur profane peut ne pas se rendre compte à sa lecture qu’elle est parsemée d’expressions qui n’ont aucun sens pour personne, y compris pour les spécialistes de la discipline.
Cette opacité se conjugue aux enjeux de l’appropriation et de l’usage de l’anglais « scientifique » par différentes communautés. Beaucoup des chercheurs qui publient en anglais ont une autre langue maternelle, et peuvent parfois chercher à traduire de façon plus ou moins littérale des tournures et des idiomes de leur propre langue d’origine. D’autres ont pu apprendre une langue anglaise très située, qui a normalisé des usages qui peuvent paraître inintelligibles à des anglophones d’autres origines.
Une question morale insoluble
Que faire lorsque ces situations sont découvertes ? Qui faut-il vouer au Gémonies ? C’est une situation difficile pour tous les acteurs en présence. En pratique, le comité éditorial de la revue scientifique est souverain : c’est lui qui décide quels articles sont publiés dans ses pages, et ce qui doit advenir du passif dont il hérite. Mais il est aussi généralement « coupable » d’avoir laissé son produit être corrompu. Comment se prétendre être le garant de l’intégrité des connaissances scientifiques si on échoue dans son rôle premier de filtrer les propositions d’articles dont les contenus sont fantaisistes dès la première lecture ?
Face à ce conflit d’intérêts, on pourrait être tenté de se muer en Javert de la recherche et de devenir un archange féroce sanctionnant la trahison d’une vérité vraie. Pour se permettre ce type de jugement très tranché, il faudrait en savoir plus sur ce qui motive les auteurs à soumettre ce type de manuscrits. On imagine bien qu’ils ne s’attendent pas à recevoir un prix Nobel pour des articles dont des paragraphes entiers n’ont pas de sens. Plusieurs hypothèses s’offrent à nous : peut-être leur niveau d’anglais est insuffisant pour rédiger la partie de l’article qui leur a été dévolue ? Peut-être le paragraphe en question est-il tellement « standard » dans leur littérature, par exemple la description d’un protocole de manipulation, qu’ils ont trop rapidement cru pouvoir passer un paragraphe à la moulinette du thésaurus pour pouvoir passer à autre chose ? Peut-être sont-ils de jeunes chercheurs de pays instables, et l’obtention rapide de publications scientifiques, même fragiles, serait un moyen pour eux d’obtenir un visa vers un pays qui leur permettrait de poursuivre leurs recherches ? Il faudrait étudier cette population plus en profondeur et reconstruire le paysage des attentes qui ont pu motiver ces choix.
Une fuite en avant qui doit réinterroger sur le statut de l’attribution et du plagiat
Ces techniques de substitution sont manifestement destinées à éviter les logiciels anti-plagiat. Cela devrait nous interroger sur le statut du plagiat dans le monde scientifique, et plus largement dans la société. Le professeur de droit américain Bryan Frye défend une position originale qui mérite d’être prise au sérieux. Selon lui, les scientifiques et les artistes n’ont pas à occuper une position de propriétaire ou de rentier de concepts. En publiant en masse brevets et articles, ils organisent le versement futur de royalties, de façon pécuniaire avec des redevances ou de façon symbolique avec des citations. Le reste du monde devrait « payer » à chaque fois qu’on utilise une de « leurs » idées.
Pour autant, il n’est pas si évident que lesdites idées ou concepts doivent être ainsi protégés. Faut-il continuer à transposer aux discours scientifiques un cadre légal et symbolique inspiré de logiques industrielles, c’est-à-dire de processus produisant des résultats tangibles sortis du laboratoire et entrés dans le monde social ? Doit-on systématiquement rendre hommage à la première personne à avoir l’opportunité de publier dans telle ou telle publication la formulation d’une idée ? Faut-il se résoudre à ne voir dans le chercheur qu’un être vaniteux, avide d’une reconnaissance qui passera par la citation présente et future de ses travaux ? En un sens, on pourrait interpréter l’existence des phrases torturées comme le résultat final et absurde d’un dévoiement d’une recherche scientifique qui, par ses règles et ses modes d’organisation, conduit à privilégier la gloire plutôt que le savoir.
Reconstruire les sciences qui partagent des récits plutôt que des produits
La faillite principale dont les phrases torturées sont le symptôme est peut-être celle de la relecture par les pairs, un système qui juge de la plausibilité des récits qui sont proposés aux revues scientifiques plutôt que de la validité des résultats. Il faut rappeler ici que cette relecture est effectuée à titre gratuit par les chercheurs sur des articles qu’ils n’ont pas écrits et dont les auteurs ont été rendus anonymes. Lorsque la maison d’édition d’une revue scientifique facture un article, il garde l’argent pour lui : ni les auteurs ni les relecteurs ne touchent de revenu.
Les chercheurs ont de moins en moins le temps de relire leurs pairs, et n’ont certainement pas les ressources pour reproduire les expériences qui leur sont présentées. Les données issues des résultats expérimentaux par les auteurs originaux ne sont généralement pas non plus mises à leur disposition. La relecture par les pairs est donc le jugement de la plausibilité ou de la crédibilité d’un récit proposé dans un manuscrit plutôt que de la validité d’une découverte.
Cette problématique soulève des enjeux majeurs de reconstruction par le haut et par le bas de la façon dont les sciences sont aujourd’hui organisées. La reconstruction « par le haut » passe par des initiatives, déjà engagées, qui visent à donner moins de poids aux métriques quantitatives de nombre d’articles publiés ou de citations engrangées. La reconstruction « par le bas » devra passer par un changement de comportement des scientifiques eux-mêmes, c’est-à-dire leur façon de calibrer le partage de ce qu’ils considèrent être leur contribution épistémologique.
Certaines disciplines sont paradoxalement à la fois les plus coupables et les mieux armées. Les phrases torturées sont très présentes en informatique. Pour autant, le partage du produit des recherches par le biais de la publication de code en open-source permet généralement de tester le produit obtenu. In fine, c’est ce produit et sa réutilisation plus que le nombre de citations qui deviennent le véritable étalon de l’importance de la découverte. Cette dynamique est aussi en jeu dans le monde biomédical. Plus que l’histoire racontée dans l’article ou dans le brevet, c’est la capacité à organiser un essai clinique dont les résultats sont convaincants qui marque le réel succès. Il y a cependant un gouffre entre ces deux étapes : passer de l’article à l’industrie peut demander des millions de dollars et parfois plusieurs dizaines d’années.
Certaines initiatives ont été créées pour combler ce vide. C’est le cas de la société AddGene, qui joue le rôle de banque de plasmides, ces morceaux d’ADN circulaires qui permettent aux chercheurs de faire acquérir des traits à des bactéries. Les laboratoires de recherche peuvent accompagner leurs publications d’un envoi à cette banque, laquelle mettra à disposition de tous les autres laboratoires du monde le matériel génétique procédant de leurs résultats.
In fine, chaque communauté de recherche devra trouver la capacité d’initiative leur permettant de sortir de l’ornière. Cela ne signifie pas qu’il faille sonner le glas de l’article comme mode d’échange d’idées entre chercheurs, ou de la revue comme lieu de formalisation de ces échanges. Mais peut-être faut-il réfléchir à leur donner une place moins centrale, et à redéployer la façon dont ils partagent le processus, le produit, et le récit de leurs recherches.