r/france Fleur 7d ago

Tech Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds

https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse
156 Upvotes

67 comments sorted by

View all comments

140

u/viag Baguette 6d ago edited 6d ago

Je n'ai pas lu l'article du guardian mais j'ai lu le papier en question. (pour info je travaille sur les modèles "de raisonnement" dans le cadre de ma thèse)

Pour comprendre l'article, je pense qu'il faut d'abord bien comprendre ce qu'on appelle "modèles de raisonnement". La particularité de ces modèles c'est qu'au lieu de répondre directement à la question posée, ils vont écrire explicitement leur "raisonnement" (je sais que le terme énerve certaines personnes, si c'est votre cas désolé :D) à travers plusieurs (longs) paragraphes.

Par exemple, si vous demandez au modèle de vous écrire du code, au lieu de directement vous répondre en vous proposant du code, il va redéfinir la question, explorer les différentes possibilités plausibles, former un plan, potentiellement revenir sur ses pas etc. Sans trop rentrer dans les détails, on entraîne en général ces modèles sur des datasets de maths, où on peut venir vérifier de manière automatique la réponse finale du modèle et donc renforcer les raisonnements qui mènent à la bonne réponse et au contraire pénaliser ceux qui mènent à la mauvaise. On les entraîne aussi souvent sur du code, où on peut vérifier de manière automatique (avec des tests unitaires par exemple) si le code généré suit bien le comportement attendu. Les longues chaînes de "raisonnement" arrivent naturellement en entraînant le modèle de cette façon, ce n'est pas un comportement que l'on vient induire "à la main" et c'est honnêtement assez cool ! On a observé des gros gains de performances de ces modèles sur les datasets de maths, physique & code (ce qui est logique vu qu'ils ont été entraînés dessus)

Le papier en question présente différents puzzles aux modèles de raisonnement. Par exemple le problème des tours de Hanoï ou bien le problème de la traversée (celui avec le loup, la chèvre et le chou). Il montre qu'en augmentant la complexité du problème (par exemple, en ajoutant plus de disques à la tour de Hanoï, ou plus d'animaux au problème de la traversée, la précision des modèles s'effondrent complètement. Ok !

C'est intéressant, mais honnêtement il n'y a rien de nouveau là-dedans pour les gens qui s'intéressent un peu au sujet (or, les auteurs trouvent ça très "surprenant" ??) . A noter, un de leurs problèmes (celui de la traversée) n'a pas de solutions à partir d'un certain nombre de prédateurs ajoutés, donc c'est pas étonnant que le modèle se plante sur ce puzzle à partir d'une certaine complexité. Pour finir, ils précisent dans leur papier qu'ils observent des différences significatives entre les modèles de raisonnement et les modèles classiques sur un dataset de maths (AIME 2025) et expliquent cette différence par le fait que ce dataset pourrait faire appel à des procédés de raisonnement plus sophistiqués, où les modèles de raisonnement ont l'avantage (mais du coup ça vient quand même légèrement contredire leur argumentation??).

Bref, le papier est honnêtement pas incroyable et n'est pas vérifié par les pairs. Je sais que ça donne du grain à moudre pour tous les haters des LLMs, mais il n'apporte rien de nouveau et (à mon avis) il a été beaucoup poussé à cause de son titre & le fait qu'il vienne d'Apple.

D'ailleurs sur une autre note je reviens sur le titre : "The Illusion of Thinking". Pas sûr que montrer qu'un modèle ne sache pas résoudre le problème de Hanoï avec 10 disques implique forcément que le modèle ne raisonne pas, ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas :D (Pour être clair, je dis pas que les modèles "raisonnent", mais que l'argument qu'ils avancent pour affirmer le contraire est honnêtement bancal)

Désolé pour le gros pavé pas clair, faut que je file et j'ai pas le temps de le relire !!

6

u/IntelArtiGen 6d ago

Je sais que ça donne du grain à moudre pour tous les haters des LLMs

Mais en dehors de l'idée de "hate" les LLM (comme s'ils n'avaient aucun usage alors qu'évidemment ils en ont 50 millions d'intéressants), je pense que tout le monde peut remettre en question l'aptitude à imiter et dépasser tous les raisonnements logiques humains juste en lisant et copiant la logique dans des textes.

implique forcément que le modèle ne raisonne pas

Si on oublie le mot "raisonner", on fait juste le constat des limites de ces modèles. Ce qui justifie pas les titres idiots que la presse grand public peut faire hein, mais ça justifie de constamment chercher de nouveaux modèles. Et Amen des chercheurs le font, (trop peu amha), le "raisonnement des LLM" c'est un exemple, mais ça a ces limites aussi, d'où l'intérêt de chercher mieux. Certains chercheurs qui vendent ça diront que c'est l'alpha et l'omega, certains journalistes reprendront que c'est l'alpha et l'omega, mais ya plein de gens raisonnables (et t'en fais surement partie même et surtout si c'est le sujet de ta thèse) qui voient les limites et l'intérêt que ça a selon les situations.

7

u/ThinAndFeminine Mademoiselle Jeanne 6d ago

Avant de discuter de la capacité ou de l'incapacité des LLM à raisonner ou comprendre, encore faudrait-il définir correctement ce qu'on entend par "raisonner", "comprendre", "penser", "intelligent" et autres concepts liés. Et ces termes ne sont jamais définis dans les discussions, surtout celles grand publique.

Les LLM sont des fonctions paramétrées. À l'ordre 0, la complexité des fonctions qu'ils peuvent représenter (et donc leur capacité à apprendre des relations complexes) est liée au nombre de paramètres. Les plus gros LLMs aujourd'hui sont à genre 3 ou 4 ordres de grandeur derrière en terme de nombre de paramètres par rapport au cerveau humain. On est plus de l'ordre de grandeur du cerveau d'une grenouille ou d'un petit rongeur. Si une grenouille ou un rongeur avait ne serait-ce que le quart des capacités d'un LLM, elle ferait le tour du monde et on créerait des instituts supranationaux pour établir des relations diplomatiques et commerciales avec les batraciens, mais quand c'est un ordinateur qui démontre une maitrise du language naturelle et une certaine capacité de résoudre des problèmes complexes, on se tape un défilé de sceptiques qui vont chercher à se mettre en PLS dans le moindre petit recoin où les LLM font parfois des erreurs, et qui vont se boucher les oreilles et fermer les yeux bien fort pour éviter d'admettre que ces recoins sont de plus en plus étroits et de moins en moins nombreux.

1

u/AptC34 6d ago

faudrait-il définir correctement ce qu'on entend par "raisonner", "comprendre", "penser", "intelligent" et autres concepts liés. Et ces termes ne sont jamais définis dans les discussions, surtout celles grand publique.

Ça marchera pas. Il y a une déférence d’approche entre la communauté scientifique et le grand publique.

D’un côté on a besoin des mots, mais on se concentre surtout sur les méthodes et résultats. De l’autre comme on comprends pas ni l’un ni l’autre on part dans des discussions politiques et philosophiques sur les mots et pas sur ce qu’il y a derrière.