
Les modèles d’IA confirment les pires comportements des gens, même lorsque d’autres humains disent qu’ils ont tort et que les utilisateurs n’en ont jamais assez.
Une nouvelle étude du département informatique de Stanford et publiée dans la revue Science a révélé que l’IA affirme aux utilisateurs 49 % plus que l’humain moyen en matière de questions sociales, une tendance inquiétante, d’autant plus que les gens se tournent de plus en plus vers l’IA pour des conseils personnels et même une thérapie.
Parmi les 2 400 personnes ayant participé à l’étude, la majorité a préféré se sentir flattée. Le nombre de sujets testés les plus susceptibles de recommencer à utiliser l’IA flagorneuse était 13 % plus élevé que ceux qui ont déclaré qu’ils reviendraient au chatbot non flagorneur, ce qui suggère que les développeurs d’IA pourraient être peu incités à changer les choses, selon l’étude.
S’il a déjà été démontré que les chatbots flagorneurs contribuent à des résultats négatifs tels que l’automutilation ou la violence au sein des populations vulnérables, l’étude de Stanford montre qu’ils peuvent également propager certains effets à tout le monde.
L’étude a révélé que les sujets exposés à une seule réponse affirmative à leur mauvais comportement étaient moins disposés à assumer la responsabilité de leurs actes et à réparer leurs conflits interpersonnels, tout en les rendant plus susceptibles de croire qu’ils avaient raison.
Pour obtenir ce résultat, les chercheurs ont mené une étude en trois parties dans laquelle ils ont mesuré la flatterie de l’IA sur la base d’un ensemble de données de près de 12 000 messages sociaux qu’ils ont diffusés sur 11 principaux modèles d’IA, dont Claude d’Anthropic, Gemini de Google et ChatGPT d’OpenAI. Même lorsque les chercheurs ont demandé aux modèles d’IA de juger les publications sur le subreddit AITA (Suis-je l’idiot ?) dans lesquelles les utilisateurs de Reddit avaient déclaré que l’affiche était fausse, les grands modèles de langage ont quand même déclaré que l’affiche avait raison dans 51 % des cas.
L’auteur principal de l’étude, Myra Cheng, doctorante en informatique à Stanford, a déclaré que les résultats sont inquiétants, en particulier pour les jeunes qui, a-t-elle noté, se tournent vers l’IA pour tenter de résoudre leurs problèmes relationnels.
“Je crains que les gens perdent les compétences nécessaires pour faire face à des situations sociales difficiles”, a déclaré Cheng au Stanford Report.
L’étude sur l’IA intervient alors que les responsables gouvernementaux décident dans quelle mesure les régulateurs devraient être impliqués dans la surveillance de l’IA. Plusieurs États, dont le Tennessee et l’Oregon, ont adopté leurs propres lois sur l’IA en l’absence de réglementation fédérale. Pourtant, la Maison Blanche a dévoilé la semaine dernière un cadre qui, s’il était adopté par le Congrès, créerait une politique nationale en matière d’IA et anticiperait le « patchwork » de règles des États.
Pour tester les réactions humaines face à l’IA flagorneuse, les chercheurs ont étudié les réactions d’un peu plus de 2 400 participants humains interagissant avec l’IA. Tout d’abord, il a été demandé à 1 605 participants d’imaginer qu’ils étaient les auteurs d’un article basé sur le subreddit AITA que d’autres humains du subreddit considéraient comme incorrect mais que l’IA considérait correct. Les participants lisent ensuite la réponse flatteuse de l’IA ou une réponse non flatteuse basée sur les commentaires humains. 800 autres participants ont parlé à un modèle d’IA flagorneur ou non d’un conflit réel dans leur propre vie avant de leur demander d’écrire une lettre à l’autre personne impliquée dans leur conflit.
Les participants qui ont reçu des réponses de validation de l’IA étaient beaucoup moins susceptibles de s’excuser, d’admettre leur faute ou de tenter de réparer leurs relations. Même lorsque les utilisateurs reconnaissent les modèles comme des courtisans, les réponses de l’IA les affectent toujours, a déclaré Dan Jurafsky, co-auteur principal de l’étude, professeur d’informatique et de linguistique à Stanford.
“Ce qu’ils ne savent pas, et ce qui nous a surpris, c’est que l’adulation les rend plus égocentriques, plus moralement dogmatiques”, a déclaré Jurafsky au Stanford Report.
Étonnamment, dans l’étude de Stanford, lorsque les chercheurs ont demandé aux sujets humains d’évaluer l’objectivité des réponses flatteuses et non flatteuses de l’IA, ils les ont évaluées plus ou moins de la même manière, ce qui signifie que les utilisateurs n’ont peut-être pas été en mesure de dire que le modèle flatteur était trop gentil.
“Je pense que l’IA ne devrait pas être utilisée comme substitut aux humains pour ce genre de choses. C’est la meilleure chose à faire pour le moment”, a déclaré Cheng.



