Skip to content

Instantly share code, notes, and snippets.

@bbaranoff
Created March 7, 2026 22:27
Show Gist options
  • Select an option

  • Save bbaranoff/fcf572f5fa7882f94e46f204b2112615 to your computer and use it in GitHub Desktop.

Select an option

Save bbaranoff/fcf572f5fa7882f94e46f204b2112615 to your computer and use it in GitHub Desktop.

Note préalable

Le titre fourni — « La désinformation dans les systèmes d'IA : une analyse de la mémoire à court terme et ses implications pour le développement des algorithmes d'apprentissage automatique » — ne correspond pas à un article scientifique vérifiable dans les bases consultables, et aucun DOI/date n’étaient renseignés. J’ai donc remplacé cet exemple par un corpus de travaux réels, récents et publiés en revue, dont le plus proche du sujet demandé est : Ma et al., “Linguistic features of AI mis/disinformation and the detection limits of LLMs”, Nature Communications (2025). (Nature)

Article principal retenu

Référence centrale

Ma, Y. et al. — “Linguistic features of AI mis/disinformation and the detection limits of LLMs” (Nature Communications, 2025). DOI : 10.1038/s41467-025-67145-1. Cet article est particulièrement pertinent parce qu’il étudie directement la désinformation générée par IA, les limites de détection des LLM, et montre que les performances dépendent de la qualité du texte, de sa longueur et du degré de post-édition humaine — ce qui colle assez bien à ton angle “mémoire courte / imprécision cognitive”, même si ce vocabulaire n’est pas celui des auteurs. (Nature)


1. Introduction

L’idée générale du papier de Ma et al. est simple, et assez brutale : les LLM ne sont pas seulement capables de produire de la désinformation ; ils sont aussi peu fiables pour la reconnaître en zéro-shot, surtout quand le faux texte est bien rédigé ou réécrit par des humains. Les auteurs posent deux questions : quelles caractéristiques linguistiques distinguent la désinformation générée par IA des contenus humains, et jusqu’où des LLM modernes peuvent-ils la détecter sans entraînement spécifique. (Nature)

Cette question s’inscrit dans un cadre plus large déjà documenté par la littérature récente : les LLM posent des défis de factualité, peuvent produire des contenus faux ou trompeurs à grande échelle, et leur intégration dans des chaînes de vérification ou d’information publique soulève des risques de confiance, d’automatisation abusive et de propagation d’erreurs. C’est exactement le diagnostic de la perspective d’Augenstein et al. dans Nature Machine Intelligence et de la revue de Barman et al. sur le rôle des LLM dans la génération et la diffusion de désinformation multimédia. (Nature)

Sous l’angle “mémoire à court terme” et “imprécision cognitive”, il faut être précis pour éviter le brouillard rhétorique. Les articles récents parlent rarement de “mémoire courte” au sens humain, mais ils documentent des phénomènes très proches : perte de cohérence contextuelle, confabulation, sensibilité à la formulation, surconfiance, et incapacité à distinguer le vrai du faux dans des contextes peu structurés. La grande casserole conceptuelle ici, c’est la différence entre connaissance paramétrique, contexte actif dans la fenêtre de prompt, et incertitude sémantique. (Nature)


2. Méthode

2.1. Méthode de l’article principal (Ma et al., 2025)

Ma et al. construisent deux corpus chinois de désinformation générée par IA : un corpus de type cheapfake et un corpus de type deep-rewritten/deepfake textuel. Ils combinent ensuite trois blocs méthodologiques :

  1. une analyse psycholinguistique (LIWC),
  2. une analyse linguistique computationnelle (erreurs, toxicité, dépendances syntaxiques, POS bigrams),
  3. une évaluation zéro-shot de plusieurs LLMs pour détecter les contenus AI, fake, et AI+fake. (Nature)

Leur protocole zéro-shot compare huit modèles : GPT-4o-Latest, Gemini-2.0-Exp, LLaMA-3.3-70B, GLM-4-Flash, Qwen-2.5-72B, DeepSeek-V3, Grok-3 et Claude-3.7-Sonnet. Les auteurs ne cherchent donc pas seulement “qui gagne”, mais où sont les limites structurelles : quels types de faux textes restent détectables, lesquels deviennent quasi indiscernables, et comment la qualité rédactionnelle ou la longueur modifient la performance. (Nature)

2.2. Travaux complémentaires mobilisés

Pour relier la désinformation à la “mémoire courte” et à l’imprécision cognitive, il faut compléter Ma et al. par des travaux plus mécanistes. Le plus important ici est Farquhar et al., Nature (2024), qui proposent la semantic entropy pour détecter une classe particulière d’hallucinations, appelées confabulations : des réponses arbitraires, plausibles, mais fausses, qui varient selon des détails non pertinents comme le seed ou la reformulation. Leur méthode évalue l’incertitude au niveau du sens, pas seulement des tokens. (Nature)

Deux autres briques sont utiles. D’une part, Qazi et al., Scientific Reports (2026), qui évaluent neuf LLMs sur 5 000 affirmations en 47 langues et trouvent un effet “Dunning-Kruger-like” : les petits modèles sont souvent plus confiants alors qu’ils sont moins exacts. D’autre part, Buchanan & Hickman, Journal of Behavioral and Experimental Economics (2024), qui montrent que la confiance des utilisateurs dans du texte généré par ChatGPT est contextuelle, et que l’information sur l’auteur augmente le recours au fact-checking. (Nature)

Enfin, pour inclure BERT dans la comparaison demandée, j’ajoute deux papiers de détection : ABERT (2025), qui adapte BERT pour détecter des fake news humaines et IA avec 67,7 % de paramètres entraînables en moins tout en gardant des performances comparables au fine-tuning complet, et CredBERT (2025), qui combine embeddings BERT et signaux de crédibilité utilisateur/source pour améliorer l’accuracy par rapport à FakeBERT et BiLSTM. Ici, la logique change : on n’est plus dans un générateur qui peut halluciner, mais dans un classifieur spécialisé. (ScienceDirect)


3. Résultats

3.1. Résultats principaux de Ma et al. (2025)

Le résultat le plus important est qu’aucun LLM évalué ne domine simultanément toutes les catégories (détection de contenu IA, détection de faux contenu, détection de contenu IA faux). Gemini-2.0-Exp est le meilleur sur certaines métriques et certains corpus, mais les auteurs concluent qu’aucun modèle offline zéro-shot ne sait gérer de manière fiable l’ensemble du problème. Ce n’est pas un petit défaut ; c’est un avertissement méthodologique : la capacité générale en langage ne se convertit pas magiquement en compétence robuste de détection de désinformation. (Nature)

Deuxième résultat très fort : la qualité du texte change tout. Les LLM détectent mieux certains contenus AI de haute qualité et certains faux de faible qualité, mais peinent dès que l’IA imite des habitudes stylistiques humaines ou qu’un humain post-édite le texte généré pour le rendre plus naturel, plus informel ou plus “économe cognitivement”. Autrement dit : dès que le texte s’éloigne du style un peu standardisé de l’IA brute, la détection s’effondre. (Nature)

Troisième résultat : la longueur du texte agit comme une frontière de performance. Les auteurs notent un défi persistant pour les textes courts, où les signaux linguistiques disponibles sont trop faibles ou trop ambigus. C’est très cohérent avec l’idée d’“imprécision cognitive” : moins il y a de contexte, plus les modèles flottent dans une soupe de probabilités joliment habillées. La machine garde le costume, mais perd la boussole. (Nature)

3.2. Résultats sur confabulation, mémoire contextuelle et incertitude

Farquhar et al. montrent qu’une part importante des erreurs des LLM vient de confabulations liées à un manque de connaissance ou à une incertitude mal calibrée. Leur méthode de semantic entropy améliore la détection de réponses incorrectes et peut améliorer la précision globale d’un système si celui-ci s’abstient de répondre lorsque l’incertitude sémantique est élevée. Ils montrent aussi que cette approche fonctionne sur plusieurs familles de modèles et plusieurs domaines, y compris LLaMA 2, Falcon, Mistral et GPT-4 sur des biographies générées. (Nature)

Ce point est crucial pour ton angle “mémoire à court terme”. Le papier ne dit pas que le LLM “oublie” comme un humain, mais il montre qu’il peut produire des sorties arbitraires quand sa représentation active du problème est insuffisante ou mal ancrée. C’est une sorte d’imprécision cognitive computationnelle : le modèle a assez de fluidité pour parler, pas assez de stabilité sémantique pour rester vrai. Oui, c’est élégant ; non, ce n’est pas rassurant. (Nature)

3.3. Résultats sur biais cognitifs et confiance

Qazi et al. observent un effet proche du Dunning-Kruger : les petits modèles ont tendance à être très confiants malgré une exactitude plus faible, tandis que les grands modèles sont en moyenne plus exacts mais moins confiants. Les écarts sont plus marqués pour les langues non anglaises et les contenus du Global South, ce qui pose un problème de justice informationnelle : les organisations qui n’ont accès qu’à des petits modèles risquent d’obtenir un système qui a l’air sûr de lui tout en racontant des bêtises avec aplomb. La machine pavane ; la vérité boit du bouillon froid. (Nature)

Du côté humain, Buchanan & Hickman montrent que la confiance des lecteurs dépend du contexte d’attribution. Quand les participants ne savent pas clairement qui a écrit le texte, ils tendent à faire davantage confiance à ce qu’ils croient humain ; quand l’auteur est explicitement indiqué, ils deviennent plus sceptiques envers les deux sources et augmentent le fact-checking coûteux. Cela signifie que la confiance utilisateur n’est pas un simple produit de la qualité textuelle ; elle dépend aussi de la mise en scène socio-technique de l’IA. (ScienceDirect)

Un résultat particulièrement gênant vient aussi du travail PNAS de DeVerna et al. : utiliser des LLMs pour fact-checker peut, dans certains contextes expérimentaux, réduire le discernement vis-à-vis des titres d’actualité. Donc même un outil conçu pour corriger le faux peut, selon son intégration, dégrader le jugement humain. Le petit démon ici n’est pas seulement la fausseté du contenu, mais la délégation cognitive mal calibrée. (PNAS)


4. Discussion

4.1. Ce que ces travaux disent vraiment sur la “mémoire à court terme”

Aucun des articles centraux ne parle de “mémoire à court terme” au sens neuropsychologique strict. En revanche, ils convergent vers une idée fonctionnelle : la fiabilité d’un système d’IA dépend de ce qui reste effectivement actif, cohérent et discriminant dans le contexte courant. Quand le signal linguistique est court, ambigu ou trop bien poli, les indices de vérification s’amenuisent. Quand plusieurs paraphrases expriment des sens divergents, la semantic entropy grimpe. Quand le modèle doit juger un énoncé hors de son ancrage robuste, il confabule ou surjoue sa confiance. (Nature)

Dans ce cadre, “imprécision cognitive” peut être reformulée proprement comme un mélange de :

  1. mauvaise calibration de l’incertitude,
  2. insensibilité à certaines différences sémantiques,
  3. fragilité au contexte,
  4. surconfiance,
  5. incapacité à séparer style convaincant et véracité. (Nature)

4.2. Conséquences pour la confiance utilisateur

Les conséquences pour la confiance sont doubles. Premièrement, l’utilisateur est exposé à des systèmes qui génèrent des textes hautement plausibles, parfois indiscernables du style humain, alors même que la factualité n’est pas garantie. Deuxièmement, l’utilisateur peut développer une automatisation du jugement : plus le système paraît fluide, plus on lui délègue de travail critique. Les travaux de Buchanan & Hickman et de DeVerna et al. montrent justement que la confiance et le discernement peuvent être perturbés par la manière dont l’IA est présentée et utilisée. (ScienceDirect)

Pour les concepteurs, la conclusion pratique n’est pas “interdire les LLM”, mais instrumenter l’incertitude : abstention, score de risque, traçabilité des sources, RAG vérifiable, et séparation claire entre génération et vérification. Les travaux d’Augenstein et de Farquhar convergent sur ce point : la factualité doit être traitée comme un problème d’ingénierie et d’évaluation, pas comme une propriété spontanée du modèle. (Nature)

4.3. Comparaison GPT vs LLaMA vs BERT

GPT / GPT-4o

Les modèles GPT sont très forts pour la génération, l’explication et parfois le raisonnement apparent, mais ils restent vulnérables aux confabulations et à la mauvaise calibration. Dans Ma et al., GPT-4o fait partie des modèles testés pour la détection zéro-shot, mais la conclusion générale est que les LLM généralistes, GPT compris, ne reconnaissent pas de façon fiable l’AI mis/disinformation en offline zéro-shot. Dans Farquhar et al., GPT-4 sur des biographies longues bénéficie de la détection par semantic entropy, ce qui confirme qu’un excellent générateur peut rester un vérificateur nerveux. (Nature)

LLaMA

LLaMA apparaît comme représentatif des LLM open-source génératifs. Dans Ma et al., LLaMA-3.3-70B fait partie du benchmark de détection ; dans Farquhar et al., LLaMA 2 Chat est explicitement utilisé pour les tests de confabulation. Le portrait qui ressort est celui d’un modèle utile pour recherche et déploiement contrôlé, mais exposé aux mêmes limites structurelles que les autres LLMs : incertitude mal calibrée, dépendance au contexte et difficulté à distinguer vrai/faux dans les cas raffinés. (Nature)

BERT

BERT joue dans une autre ligue : ce n’est pas un grand générateur conversationnel mais un encodeur excellent pour la classification spécialisée. Les papiers ABERT et CredBERT montrent que, sur des tâches dédiées de fake news detection, des variantes BERT peuvent être efficaces, plus économes, et renforcées par des signaux de crédibilité. Autrement dit, si l’objectif est de classer ou filtrer plutôt que de dialoguer, BERT-like peut être plus sobre et plus contrôlable. Le prix à payer : moins de généralité, plus de dépendance au dataset et à l’ingénierie de caractéristiques. (ScienceDirect)

Synthèse comparative

En simplifiant sans trahir :

  1. GPT/LLaMA sont meilleurs pour produire et reformuler, mais donc aussi plus exposés à produire du faux convaincant.
  2. BERT est moins “magique”, mais souvent plus approprié pour des pipelines fermés de détection/classification.
  3. Pour la désinformation, le bon design n’est pas “un seul modèle roi”, mais une architecture en couches : génération éventuelle, récupération de preuves, classifieur spécialisé, estimation d’incertitude, puis interface utilisateur qui n’encourage pas la confiance aveugle. (Nature)

5. Conclusion

Le meilleur résumé technique est le suivant : les travaux récents ne montrent pas que les IA “mentent” comme des humains ; ils montrent qu’elles combinent fluidité linguistique, incertitude mal calibrée, fragilité contextuelle et parfois surconfiance, ce qui suffit largement à produire ou amplifier de la désinformation. Ma et al. montrent que même les meilleurs LLMs échouent en zéro-shot sur la détection robuste de l’AI mis/disinformation, surtout quand le texte est court, soigné ou post-édité. Farquhar et al. montrent qu’une partie de ces erreurs peut être mieux captée par une mesure d’incertitude sémantique. Qazi et al. ajoutent que certains modèles se comportent comme des étudiants médiocres très sûrs d’eux, ce qui est un mauvais cocktail pour la vérification des faits. (Nature)

Du point de vue de la confiance utilisateur, la conséquence n’est pas seulement “les modèles se trompent”. C’est plus subtil et plus dangereux : ils peuvent se tromper avec style, et l’utilisateur peut s’appuyer sur cette assurance apparente pour relâcher sa vigilance. La réponse technique sérieuse n’est donc ni la panique, ni le culte du benchmark, mais une combinaison de détection d’incertitude, fact-checking externe, spécialisation de modèles, et design d’interface qui expose les limites au lieu de les maquiller. La machine doit parfois dire “je ne sais pas” ; sinon elle finit par transformer l’ignorance en prose premium. (ScienceDirect)


Références bibliographiques

  1. Ma, Y. et al. Linguistic features of AI mis/disinformation and the detection limits of LLMs. Nature Communications (2025). DOI: 10.1038/s41467-025-67145-1. (Nature)
  2. Augenstein, I. et al. Factuality challenges in the era of large language models and opportunities for fact-checking. Nature Machine Intelligence 6, 852–863 (2024). DOI: 10.1038/s42256-024-00881-z. (Nature)
  3. Farquhar, S. et al. Detecting hallucinations in large language models using semantic entropy. Nature 630, 625–630 (2024). DOI: 10.1038/s41586-024-07421-0. (Nature)
  4. Qazi, I.A. et al. Large language models show Dunning-Kruger-like effects in multilingual fact-checking. Scientific Reports 16, 7594 (2026). DOI: 10.1038/s41598-026-39046-w. (Nature)
  5. Buchanan, J. & Hickman, W. Do people trust humans more than ChatGPT? Journal of Behavioral and Experimental Economics 112, 102239 (2024). DOI: 10.1016/j.socec.2024.102239. (ScienceDirect)
  6. Barman, D., Guo, Z. & Conlan, O. The Dark Side of Language Models: Exploring the Potential of LLMs in Multimedia Disinformation Generation and Dissemination. Machine Learning with Applications 16, 100545 (2024). DOI: 10.1016/j.mlwa.2024.100545. (ScienceDirect)
  7. Alghamdi, J., Lin, Y. & Luo, S. ABERT: Adapting BERT model for efficient detection of human and AI-generated fake news. International Journal of Information Management Data Insights 5(2), 100353 (2025). DOI: 10.1016/j.jjimei.2025.100353. (ScienceDirect)
  8. Anju, R. et al. CredBERT: Credibility-aware BERT model for fake news detection. Displays (2025). DOI visible via éditeur / article ScienceDirect. Le résumé accessible rapporte un gain de 6,45 % d’accuracy sur FakeBERT et 4,21 % sur BiLSTM. (ScienceDirect)
  9. Szczepański, M. et al. New explainability method for BERT-based model in fake news detection. Scientific Reports 11, 23705 (2021). DOI: 10.1038/s41598-021-03100-6. (Nature)
  10. DeVerna, M.R. et al. Fact-checking information from large language models can decrease headline discernment. Proceedings of the National Academy of Sciences 121(50) (2024). DOI: 10.1073/pnas.2322823121. (PNAS)

Je peux aussi transformer ça en fiche de lecture académique prête à intégrer dans un mémoire avec tableau comparatif des papiers, des datasets, des métriques et des limites.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment