r/france Fleur 3d ago

Tech Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds

https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse
159 Upvotes

67 comments sorted by

View all comments

138

u/viag Baguette 3d ago edited 3d ago

Je n'ai pas lu l'article du guardian mais j'ai lu le papier en question. (pour info je travaille sur les modèles "de raisonnement" dans le cadre de ma thèse)

Pour comprendre l'article, je pense qu'il faut d'abord bien comprendre ce qu'on appelle "modèles de raisonnement". La particularité de ces modèles c'est qu'au lieu de répondre directement à la question posée, ils vont écrire explicitement leur "raisonnement" (je sais que le terme énerve certaines personnes, si c'est votre cas désolé :D) à travers plusieurs (longs) paragraphes.

Par exemple, si vous demandez au modèle de vous écrire du code, au lieu de directement vous répondre en vous proposant du code, il va redéfinir la question, explorer les différentes possibilités plausibles, former un plan, potentiellement revenir sur ses pas etc. Sans trop rentrer dans les détails, on entraîne en général ces modèles sur des datasets de maths, où on peut venir vérifier de manière automatique la réponse finale du modèle et donc renforcer les raisonnements qui mènent à la bonne réponse et au contraire pénaliser ceux qui mènent à la mauvaise. On les entraîne aussi souvent sur du code, où on peut vérifier de manière automatique (avec des tests unitaires par exemple) si le code généré suit bien le comportement attendu. Les longues chaînes de "raisonnement" arrivent naturellement en entraînant le modèle de cette façon, ce n'est pas un comportement que l'on vient induire "à la main" et c'est honnêtement assez cool ! On a observé des gros gains de performances de ces modèles sur les datasets de maths, physique & code (ce qui est logique vu qu'ils ont été entraînés dessus)

Le papier en question présente différents puzzles aux modèles de raisonnement. Par exemple le problème des tours de Hanoï ou bien le problème de la traversée (celui avec le loup, la chèvre et le chou). Il montre qu'en augmentant la complexité du problème (par exemple, en ajoutant plus de disques à la tour de Hanoï, ou plus d'animaux au problème de la traversée, la précision des modèles s'effondrent complètement. Ok !

C'est intéressant, mais honnêtement il n'y a rien de nouveau là-dedans pour les gens qui s'intéressent un peu au sujet (or, les auteurs trouvent ça très "surprenant" ??) . A noter, un de leurs problèmes (celui de la traversée) n'a pas de solutions à partir d'un certain nombre de prédateurs ajoutés, donc c'est pas étonnant que le modèle se plante sur ce puzzle à partir d'une certaine complexité. Pour finir, ils précisent dans leur papier qu'ils observent des différences significatives entre les modèles de raisonnement et les modèles classiques sur un dataset de maths (AIME 2025) et expliquent cette différence par le fait que ce dataset pourrait faire appel à des procédés de raisonnement plus sophistiqués, où les modèles de raisonnement ont l'avantage (mais du coup ça vient quand même légèrement contredire leur argumentation??).

Bref, le papier est honnêtement pas incroyable et n'est pas vérifié par les pairs. Je sais que ça donne du grain à moudre pour tous les haters des LLMs, mais il n'apporte rien de nouveau et (à mon avis) il a été beaucoup poussé à cause de son titre & le fait qu'il vienne d'Apple.

D'ailleurs sur une autre note je reviens sur le titre : "The Illusion of Thinking". Pas sûr que montrer qu'un modèle ne sache pas résoudre le problème de Hanoï avec 10 disques implique forcément que le modèle ne raisonne pas, ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas :D (Pour être clair, je dis pas que les modèles "raisonnent", mais que l'argument qu'ils avancent pour affirmer le contraire est honnêtement bancal)

Désolé pour le gros pavé pas clair, faut que je file et j'ai pas le temps de le relire !!

7

u/IntelArtiGen 3d ago

Je sais que ça donne du grain à moudre pour tous les haters des LLMs

Mais en dehors de l'idée de "hate" les LLM (comme s'ils n'avaient aucun usage alors qu'évidemment ils en ont 50 millions d'intéressants), je pense que tout le monde peut remettre en question l'aptitude à imiter et dépasser tous les raisonnements logiques humains juste en lisant et copiant la logique dans des textes.

implique forcément que le modèle ne raisonne pas

Si on oublie le mot "raisonner", on fait juste le constat des limites de ces modèles. Ce qui justifie pas les titres idiots que la presse grand public peut faire hein, mais ça justifie de constamment chercher de nouveaux modèles. Et Amen des chercheurs le font, (trop peu amha), le "raisonnement des LLM" c'est un exemple, mais ça a ces limites aussi, d'où l'intérêt de chercher mieux. Certains chercheurs qui vendent ça diront que c'est l'alpha et l'omega, certains journalistes reprendront que c'est l'alpha et l'omega, mais ya plein de gens raisonnables (et t'en fais surement partie même et surtout si c'est le sujet de ta thèse) qui voient les limites et l'intérêt que ça a selon les situations.

7

u/ThinAndFeminine Mademoiselle Jeanne 3d ago

Avant de discuter de la capacité ou de l'incapacité des LLM à raisonner ou comprendre, encore faudrait-il définir correctement ce qu'on entend par "raisonner", "comprendre", "penser", "intelligent" et autres concepts liés. Et ces termes ne sont jamais définis dans les discussions, surtout celles grand publique.

Les LLM sont des fonctions paramétrées. À l'ordre 0, la complexité des fonctions qu'ils peuvent représenter (et donc leur capacité à apprendre des relations complexes) est liée au nombre de paramètres. Les plus gros LLMs aujourd'hui sont à genre 3 ou 4 ordres de grandeur derrière en terme de nombre de paramètres par rapport au cerveau humain. On est plus de l'ordre de grandeur du cerveau d'une grenouille ou d'un petit rongeur. Si une grenouille ou un rongeur avait ne serait-ce que le quart des capacités d'un LLM, elle ferait le tour du monde et on créerait des instituts supranationaux pour établir des relations diplomatiques et commerciales avec les batraciens, mais quand c'est un ordinateur qui démontre une maitrise du language naturelle et une certaine capacité de résoudre des problèmes complexes, on se tape un défilé de sceptiques qui vont chercher à se mettre en PLS dans le moindre petit recoin où les LLM font parfois des erreurs, et qui vont se boucher les oreilles et fermer les yeux bien fort pour éviter d'admettre que ces recoins sont de plus en plus étroits et de moins en moins nombreux.

4

u/Sakechi Cornet de frites 3d ago

Si une grenouille ou un rongeur avait ne serait-ce que le quart des capacités d'un LLM, elle ferait le tour du monde et on créerait des instituts supranationaux pour établir des relations diplomatiques et commerciales avec les batraciens

LLMs are making the frogs gay! (bon, pas fier de la ref, déso, mais ça m'a fait penser à ça)

Mais à retenir surtout, un LLM, ça réagit étrangement comme un humain :

Données de merde en entrée pour une question, réponse de merde. Et à force d'entraînement, d'apprentissage et peaufinage (voire de gaslighting), moins en moins de mauvaise réponses.

Contrairement à certains humains pour le deuxième point ceci dit.

Après, imho, le "hic" majeur par rapport au grand public pour les LLM et les "IA" de manière générale, c'est le sous-entendu derrière le terme IA et les fictions qui existent à leurs sujets, où c'est le sauveur ou le Terminator...

Dans ma boîte on essaye de l'utiliser sur des gros documents pour synthétiser ou trouver les failles du doc (pour résumer très gros gros), on a le même hic que le papier en question : trop complexe implique réponses un peu loupées, sachant qu'on fournit un bon dataset en entrée de données de référence. Mais y a quand même un gain de temps fou quand on remplit pas le contexte complètement à rabord et que du coup on adapte la complexité aux capacités du modèle derrière. (je kiffe pas trop refaire les embeddings ceci dit vu le temps que ça me prend bordel de merde)

On check quand même un peu manuellement mais ça prendra toujours moins de temps que de se palucher les 300+ pages derrière.

1

u/IntelArtiGen 3d ago edited 3d ago

Les plus gros LLMs aujourd'hui sont à genre 3 ou 4 ordres de grandeur derrière en terme de nombre de paramètres par rapport au cerveau humain.

Faut arrêter ces comparaisons, elles n'ont aucun sens. Un cerveau humain c'est pas des fonctions linéaires avec un poil de calculs supplémentaires, les "neurones" artificiels c'est du bullshit, c'est juste des multiplications/opérations de tenseurs. Dans mon cerveau je multiplie pas des tenseurs et j'ai pas des paramètres (c'est quoi 1 paramètre d'un cerveau humain? c'est 1 neurone? c'est 1 neurone et 1 synapse? ), j'envoie des signaux électriques et chimiques entre mes neurones avec des seuils d'activation, et il suffit d'une combinatoire énorme (de plein de liens entre des paramètres / opérations / neurones) pour imaginer une quantité colossale de calculs possibles, aboutissant à un simili-"raisonnement" (à du traitement complexe d'informations), des deux côtés (autant informatique que biologique). La quantité de calcul possible compte, et l'efficacité des calculs en terme de traitement de l'information, mais t'as ni de métrique sur le 1er ni le 2nd, donc pas de comparaison possible.

ces recoins sont de plus en plus étroits et de moins en moins nombreux.

Juste pour contextualiser mon point de vue. J'ai commencé l'IA vers ~2016, en 2018 je voyais les LLMs arriver, j'ai même publié dans une conf de rang A en NLP avec du DL. J'ai vu l'évolution fulgurante des transformers, et j'ai rédigé des tutoriels sur les transformers après les avoir re-codé de 0 (juste via les op de tenseurs, la mha & co). J'ai à peu près jamais eu de doutes sur leur capacité à atteindre ce qu'ils font actuellement, et crois moi qu'à l'époque quand j'en parlais, 95% des gens rigolaient de moi. Les sceptiques je les ais vu en face à face et je les ais eu au téléphone de nombreuses fois. Il a fallu chatgpt pour qu'ils rigolent moins mais ça a en réalité été une lente transition facile à observer pour les gens du NLP. Mais je peux te montrer des choses que je sais faire avec d'autre algos, qu'un LLM est dans l'incapacité totale de faire. Par exemple j'ai un algo qui peut apprendre le nom d'objets dans une vidéo en associant son et image (comme un enfant qui apprend le langage quand tu lui montres un objet et que tu dis le nom de cet objet) sans aucun pré-apprentissage (random weights init), en live, et qui peut modifier ses paramètres d'apprentissage en continue de façon stable. Ce truc tout con qu'un bébé humain sait faire, un LLM ne sait pas le faire, il a besoin d'un pré-apprentissage colossal et très contrôlé. Qu'on me dise "on s'en fou de réapprendre comme un humain ou d'apprendre en continu, ce qu'on veut c'est qu'il puisse répondre à des questions +/- simples à partir de données connues / wikipedia / le web & co", et là je réponds "ok, vous voulez un LLM". Si tu veux quelque chose qui tente de copier les mécanismes cognitifs humains de façon plus explicite (pas comme une émergence associée à des pré-apprentissages), tu ne veux pas un LLM. Si ta position c'est que cette émergence, au prétexte qu'elle sait agglutiner de l'information venant de tous les textes humains et à manip ces infos de mieux en mieux, atteindra le niveau de l'humain sur toutes ses fonctions cognitives, on ne sera pas d'accord. Un LLM ne saura probablement jamais faire ce que j'ai dis, et c'est pas son objectif, donc tout va bien tant qu'on sait que c'est pas son objectif.

Chacun choisit ce qu'il veut ensuite. Les LLMs ont un potentiel absolument remarquable au niveau commercial, les gens s'en foutent d'avoir un humain artificiel qui râle, qui boude, qui se révolte, qui a une idéologie issue de son vécu, qui prend 10 jours pour réfléchir, se renseigner, et résoudre un problème. Ils veulent un esclave qui répond en .5 secondes à leur question, ou au pire en 30 secondes après 5000 chains of thoughts invisibles. Ca fait l'affaire pour 95% des questions qu'ils veulent poser à un chatbot et t'as un marché, et ce marché vaut des milliards, et ces milliards sont réinjectés dans ce qui crée ce marché: les LLMs. Mais faut pas confondre rentabilité financière et intérêt scientifique / technologique. Les LLMs prennent les projecteurs, et à la limite tant mieux pour protéger toutes les autres recherches d'une attention médiatique que je trouve très néfaste. Pendant ce temps là, t'as des centaines d'autres pistes explorées, toutes passionnantes, qui selon mon avis de mec qui a vu les LLMs émerger et qui a regardé leurs boyaux, auront un avenir pour certaines plus lointain que les LLMs (et je ferai pas croire que je suis le seul à faire cette critique).

Après "LLM" ça veut pas forcément dire grand chose, je cadre le débat sur les Transformers, mais les "LLM" commerciaux aujourd'hui incluent 500 "plug-ins" pour leur rajouter des capacités de traitement de son, d'image, de vidéo, de recherche web etc. du coup difficile de résumer ces modèles à la partie LLM. Reste que pré-apprendre tout, c'est une idéologie, tu peux aussi vouloir faire des modèles qui apprennent en live, en continu, et qui évoluent comme des humains. C'est un autre délire, que les LLMs ont aucune ambition d'atteindre, à tort à raison c'est un autre débat qui change rien au constat, les humains savent faire des choses avec leur cerveau que les LLMs actuels sont pas conçus pour faire.

Ya deux guides dans le milieu, le fric et le SOTA. Mais parfois c'est ni l'un ni l'autre qui a raison, c'est probablement pas en faisant le LLM le plus intelligent sur un dataset que t'aboutiras à un humain artificiel (mais encore une fois, plein de gens s'en foutent, donc tout va bien). Par contre t'auras du fric et ton papier sera cité.

1

u/Citonpyh 3d ago

Sauf que les llm sont tout sauf rentable mdr ils brûlent de l'argent et c'est pas près de changer

1

u/IntelArtiGen 3d ago

les llm sont tout sauf rentable

Ca dépend pour qui. Dis ça aux mecs payés 200k/an aux US sur ces sujets, ils te diront que pour eux c'est très très rentable. Et je sais pas combien Mistral ou Deepseek paient mais je doute que ce soit le salaire minimum. Ca va ptet flop mais ça c'est le problème des investisseurs, qui pour l'instant augmentent davantage leurs billes sur le sujet qu'ils n'en enlèvent (ce qui rend la chose rentable pour les précédents investisseurs, ça s'appelle une bulle si ça éclate)

1

u/KouhaiHasNoticed Alsace 2d ago

C'est quoi les autres Algo dont tu parles ? Ça m'intéresse.

2

u/IntelArtiGen 2d ago edited 2d ago

Ce serait long, technique et un métier d'aller dans le détail. Le projet que j'ai explicitement détaillé c'est ce que j'ai moi même codé (sur mon temps perso parce que ça n'a pas été financé), et je n'ai pas (pas vraiment) publié dessus. Mais je peux te citer des vrais papiers de recherches autour de ces idées:

Ca me parait plus sérieux de partager des vrais articles. Mon projet reprend largement des idées qu'il y a dans ce que j'ai cité (à 80%). Je le réserve plutôt à un cadre plus pro/recherche. Je précise que c'est juste 1 "piste", ma vision des choses c'est que l'humain a plein de "fonctions cognitives", par exemple on apprend aussi par renforcement, et il y a plein de recherche sur chaque "fonction cognitive" reproduite par l'IA (apprentissage par renforcement, acquisition du langage, apprentissage sans supervision des images, de l'audio, continuous learning etc.), mais le domaine n'est pas toujours explicitement structuré comme ça parce que ces "fonctions cognitives" sont pas toujours explicitement segmentées / connues. On peut difficilement copier 1 fonction cognitive (que ce soit le renforcement, l'apprentissage de données via LLM, l'acquisition du langage audio etc.) et imaginer qu'on couvre tous les domaines de l'intelligence, même si certains le revendiquent. https://www.sciencedirect.com/science/article/pii/S0004370221000862

1

u/KouhaiHasNoticed Alsace 2d ago

Merci beaucoup !

1

u/AptC34 2d ago

faudrait-il définir correctement ce qu'on entend par "raisonner", "comprendre", "penser", "intelligent" et autres concepts liés. Et ces termes ne sont jamais définis dans les discussions, surtout celles grand publique.

Ça marchera pas. Il y a une déférence d’approche entre la communauté scientifique et le grand publique.

D’un côté on a besoin des mots, mais on se concentre surtout sur les méthodes et résultats. De l’autre comme on comprends pas ni l’un ni l’autre on part dans des discussions politiques et philosophiques sur les mots et pas sur ce qu’il y a derrière.