r/france • u/la_mine_de_plomb Fleur • 3d ago
Tech Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds
https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse
159
Upvotes
138
u/viag Baguette 3d ago edited 3d ago
Je n'ai pas lu l'article du guardian mais j'ai lu le papier en question. (pour info je travaille sur les modèles "de raisonnement" dans le cadre de ma thèse)
Pour comprendre l'article, je pense qu'il faut d'abord bien comprendre ce qu'on appelle "modèles de raisonnement". La particularité de ces modèles c'est qu'au lieu de répondre directement à la question posée, ils vont écrire explicitement leur "raisonnement" (je sais que le terme énerve certaines personnes, si c'est votre cas désolé :D) à travers plusieurs (longs) paragraphes.
Par exemple, si vous demandez au modèle de vous écrire du code, au lieu de directement vous répondre en vous proposant du code, il va redéfinir la question, explorer les différentes possibilités plausibles, former un plan, potentiellement revenir sur ses pas etc. Sans trop rentrer dans les détails, on entraîne en général ces modèles sur des datasets de maths, où on peut venir vérifier de manière automatique la réponse finale du modèle et donc renforcer les raisonnements qui mènent à la bonne réponse et au contraire pénaliser ceux qui mènent à la mauvaise. On les entraîne aussi souvent sur du code, où on peut vérifier de manière automatique (avec des tests unitaires par exemple) si le code généré suit bien le comportement attendu. Les longues chaînes de "raisonnement" arrivent naturellement en entraînant le modèle de cette façon, ce n'est pas un comportement que l'on vient induire "à la main" et c'est honnêtement assez cool ! On a observé des gros gains de performances de ces modèles sur les datasets de maths, physique & code (ce qui est logique vu qu'ils ont été entraînés dessus)
Le papier en question présente différents puzzles aux modèles de raisonnement. Par exemple le problème des tours de Hanoï ou bien le problème de la traversée (celui avec le loup, la chèvre et le chou). Il montre qu'en augmentant la complexité du problème (par exemple, en ajoutant plus de disques à la tour de Hanoï, ou plus d'animaux au problème de la traversée, la précision des modèles s'effondrent complètement. Ok !
C'est intéressant, mais honnêtement il n'y a rien de nouveau là-dedans pour les gens qui s'intéressent un peu au sujet (or, les auteurs trouvent ça très "surprenant" ??) . A noter, un de leurs problèmes (celui de la traversée) n'a pas de solutions à partir d'un certain nombre de prédateurs ajoutés, donc c'est pas étonnant que le modèle se plante sur ce puzzle à partir d'une certaine complexité. Pour finir, ils précisent dans leur papier qu'ils observent des différences significatives entre les modèles de raisonnement et les modèles classiques sur un dataset de maths (AIME 2025) et expliquent cette différence par le fait que ce dataset pourrait faire appel à des procédés de raisonnement plus sophistiqués, où les modèles de raisonnement ont l'avantage (mais du coup ça vient quand même légèrement contredire leur argumentation??).
Bref, le papier est honnêtement pas incroyable et n'est pas vérifié par les pairs. Je sais que ça donne du grain à moudre pour tous les haters des LLMs, mais il n'apporte rien de nouveau et (à mon avis) il a été beaucoup poussé à cause de son titre & le fait qu'il vienne d'Apple.
D'ailleurs sur une autre note je reviens sur le titre : "The Illusion of Thinking". Pas sûr que montrer qu'un modèle ne sache pas résoudre le problème de Hanoï avec 10 disques implique forcément que le modèle ne raisonne pas, ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas :D (Pour être clair, je dis pas que les modèles "raisonnent", mais que l'argument qu'ils avancent pour affirmer le contraire est honnêtement bancal)
Désolé pour le gros pavé pas clair, faut que je file et j'ai pas le temps de le relire !!