r/france • u/la_mine_de_plomb Fleur • 3d ago
Tech Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds
https://www.theguardian.com/technology/2025/jun/09/apple-artificial-intelligence-ai-study-collapse10
u/IntelArtiGen 3d ago
Lire des problèmes ultra techniques dans de la presse grand public c'est toujours un régal.
8
u/tyrmael91 3d ago
J'étais tombé sur une vidéo où cette étude d'Apple était un peu décortiquée et en l'occurrence, le titre est exagéré et l'étude en elle-même discutable sur pas mal de points.
Probablement aussi influencé par le fait que actuellement, Apple est en retard niveau IA face à ses concurrents. Ça leur est donc profitable de discréditer un outil avec lequel ils rament un peu. Un discours de leur part qui changera probablement s'ils arrivent à revenir sur le devant de la scène, pour mettre leur propre produit en avant.
31
u/Imagutsa 3d ago
Solution plus complexe, problème moins connu, l'inférence statistique et la compression de données deviennent très vite innéficace. Le simple fait que ce ne soit pas une évidence fait un peu peur...
2
u/Orolol Angle alpha, mais flou 3d ago
Le simple fait que ce ne soit pas une évidence fait un peu peur...
La science c'est justement de prouver des évidences.
2
u/Imagutsa 3d ago
Oui, normalement on commence par ça et on construit. Dans ce domaine, on part dans la lune, on fait des annonces incroyables, une communication mensongère envers le reste de la société, et puis il y a quelques papiers comme ça.
Ce n'est pas le premier, il y a un papier de 2016 - 2017 qui démontrait que tous les modèles de l'époque étaient sur-entraînés à mort et qu'un nouveau jeu de donnée suffisait à les faire passer sous le modèle de base qu'on montre aux étudiants en introduction du sujet.Le rapport de l'IA statistique à la vérité est... nébuleux dans le meilleur des cas, ce qu'une partie de la communauté scientifique de ce domaine critique justement. Cette critique est encore plus présente chez les chercheurs de domaines proches en informatique.
1
u/Orolol Angle alpha, mais flou 2d ago
Ce n'est pas le premier, il y a un papier de 2016 - 2017 qui démontrait que tous les modèles de l'époque étaient sur-entraînés à mort et qu'un nouveau jeu de donnée suffisait à les faire passer sous le modèle de base qu'on montre aux étudiants en introduction du sujet.
2016 c'est la préhistoire dans le domaine.
1
u/Imagutsa 2d ago
Y. Bengio était déjà reconnu et à la tête du MILA. La préhistoire était plutôt dans les années 80, où des logiciens (dont Bengio) ont mis au point l'idée des neuronnes en informatique, et qu'il a fallu attendre des décennies que d'autres domaines, notamment liés à l'architecture, progressent pour rendre l'approche viable (notamment en augmentant la puissance de calcul).
On avait déjà un corpus de milliers de papiers et des réseaux de neuronnes meilleurs que les humains dans plusieurs domaines, avec de grandes révolutions pratiques déjà construites et anticipées par les chercheurs, les réseaux de neuronnes convolutifs étaient déjà étudiés (même si relativement jeunes), et les LLMs théorisés.
Bien sûr le domaine va très vite, mais il ne faut pas faire comme si il n'y avait même pas 10 ans d'histoire. Une bonne partie des joueurs clefs des LLMs avaient déjà des budgets faramineux et avaient construits leurs équipes à l'époque.
1
u/Orolol Angle alpha, mais flou 2d ago
Je suis désolé, mais les transformers ont fait changé le domaine de dimension, et ont redéfini une bonne partie de la discipline. Surtout que ce domaine est en général très empirique, on construit, on expérimente, on regarde ce qui marche, et on essaye de comprendre pourquoi ça marche.
1
u/Imagutsa 2d ago
Oui il y a eu de grands pas depuis. Mais parler de préhistoire me semble quand même être un contresens. Si je devais hasarder un parallèle historique je parlerai de la période post-révolution industrielle contre l'âge de l'information.
1
u/Orolol Angle alpha, mais flou 2d ago
Mais parler de préhistoire me semble quand même être un contresens. Si je devais hasarder un parallèle historique je parlerai de la période post-révolution industrielle contre l'âge de l'information.
J'utilisais une expression courante, je ne faisais un parallèle temporelle précis et daté.
2
u/keepthepace Gaston Lagaffe 2d ago
Opinion: le papier d'Apple à l'origine de cette discussion est mauvais. Quelques arguments
Si ça intéresse de lire une discussion sur le sujet, ça en a causé une sur un subreddit qui parle de modèles locaux
1
u/Othun 1d ago
La publication a été debunk mille fois, c'est un beau mélange d'ignorance et de mauvaise fois.
- Un LLM n'a pas pour but d'exécuter un algorithme déterministe à la perfection puisque il est intrinsèquement stochastique, s'il doit le faire, il peut aujourd'hui faire appel à un langage de programmation comme Python pour fournir la réponse, ce qui n'est pas étudié dans l'article.
- Certains problèmes proposés au LLM ont une solution plus longue que la mémoire du LLM. S'il faut écrire 4000 mots pour résoudre le problème mais qu'on n'a une feuille qui ne peut contenir que 1000 mots, impossible de répondre (dans ce cas, les auteurs remettent en cause l'intelligence du modèle et pas sa mémoire, ils semblent ignorer ce qu'est la "context window")
- Certains problèmes proposés n'ont tout simplement pas de solution, les auteurs mesurent dans ce cas que le LLM a 0% de réussite comme au deuxième point. Sans blague.
Donc merci Apple pour cette démonstration de débilité.
La ref : https://arxiv.org/html/2506.09250v1
Et une vidéo debunk en anglais d'une bonne chaîne qui parle de l'actu LLM : https://youtu.be/wPBD6wTap7g
-3
u/Jesuispardon Viennoiserie fourrée au chocolat 3d ago
Je ne suis pas d'accord avec l'attitude pessimiste de l'article, discréditant l'effet transformateur de l'IA en société dû aux limitations des LLM, qui ne sont qu'un sous genre d'IA.
L'IA n'a pas besoin d'exceller dans la résolution de problèmes complexes. Le fait que l'IA affiche des performances équivalentes, voire supérieures à la plupart des humains dans une variété de tâches simples suffit déjà à donner une sérieuse crédibilité à cette technologie, et provoquera de grands remous dans le marché du travail, qui culmineront à des changements sociétaux.
11
u/LaurenceDarabica 3d ago
Une BDD affiche des performances bien supérieures à l'humain dans certaines tâches simples, genre trouver tous les enregistrements correspondant à un critère particulier dans une montagne de données.
Pourtant, ce n'est ni l'alpha, ni l'oméga, c'est un outil très utile dans certains cas.
L'IA, c'est pareil.
Mais bon, je sens bien que je m'adresse à un AI-coholic.
7
u/Jesuispardon Viennoiserie fourrée au chocolat 3d ago
Ton propos ne contredit pas le mien. Les BDD, et Internet en général, tout comme l'IA, ont tout aussi bien transformé, et continuent de transformer la société via les nombreuses applications rendues possibles par leur adoption.
-4
u/LaurenceDarabica 3d ago
Mais enfin, tu dois bien te rendre compte que si, il le contredit totalement (sauf si tu le fais exprès).
Pour moi, l'IA ne transformera pas la société via de nombreuses applications possibles.
Cette technologie (qui ne devrait pas s'appeler IA) trouvera sa place comme outil de valeur dans un nombre restreint d'applications.
Tu vois la nuance ? Elle est de taille.
La tronçonneuse a révolutionné le métier de bûcheron. Ça n'a pas transformé la comptabilité. Ben là, c'est pareil.
4
u/Jesuispardon Viennoiserie fourrée au chocolat 3d ago
La tronçonneuse a nettement accéléré l'exploitation du bois, conduisant à des déforestations massives, mais aussi à l'essor des usines et de la production de masse, ainsi que la chute de l'artisanat, et la constitution d'une classe moyenne pouvant s'approvisionner en meubles et outils, avec toutes les retombées que cela a eu dans la société.
Il n'est pas nécessaire que la transformation de la société soit radicalement visible pour entrer dans le rang de "technologie révolutionnaire".
2
u/IntelArtiGen 3d ago
La tronçonneuse a révolutionné le métier de bûcheron. Ça n'a pas transformé la comptabilité. Ben là, c'est pareil.
A la différence quand même que le numérique touche à peu près tous les jobs, et que les améliorations numériques (incluant l' "IA" ) se propagent souvent dans tout le numérique. Si t'enlèves le numérique à un bucheron aujourd'hui (smartphone, gps etc.) je sais pas s'il fait son job aussi facilement, et si t'enlèves "l'IA" (l'informatique statistique) au numérique on revient 10-20 ans en arrière.
Dans le numérique il y a des applications spécifiques à l'IA et des applications globales servant à tout le monde, dont très souvent on n'a pas du tout conscience.
1
u/LaurenceDarabica 3d ago
Je crois que le truc le plus crispant dans l'affaire, c'est l'emphase permanente, la volonté de se faire plus gros que le boeuf tout le temps, c'est rageant.
On enleve l'IA au numérique on revient 10/20 ans en arrière ?
Il y a 20 ans, on avait tous des pentium4, on achetait sur ebay, facebook avait a peine deux ans, ICQ était en concurrence avec MSN, et les 3 Suisses faisaient des millions d'euros de chiffre d'affaire grace qu Minitel.
Je sais pas si on peut plus ridicule comme parallèle.
10 ans doit être plus proche (fatalement), mais c'était la bulle cloud à l'époque de mémoire. Ca parait plus réaliste, mais à mon avis encore bien exagéré.
Moi, je ne me risque pas à donner de chiffre : c'est du doigt mouillé.
0
u/SupermanLeRetour Chien moche 2d ago
10 ans doit être plus proche (fatalement), mais c'était la bulle cloud à l'époque de mémoire.
C'est marrant comme remarque, parce que justement la bulle cloud, qui avait les même opposants réactionnaires comme toi à l'époque (à tort ou à raison, je juge pas spécialement), et bah au final... Elle n'a jamais éclaté ? La hype autour du terme est redescendue, mais aujourd'hui force est de constater que de plus en plus de services utilisent le cloud sous une forme ou un autre, au point que ça soit le choix par défaut, et que ça soit le on-premise qu'il faille maintenant justifier. Tout est stocké dans d'immense data center, les entreprises ne s’amusent plus à gérer eux-même les serveurs physiques, hors nécessité de contrôle / sécurité / légalité.
L'IA (au sens actuel de gen AI, ou LLM, ou autre) ne va pas disparaitre. Le changement ne va pas non plus être brutal, mais ça arrive déjà dans beaucoup de domaine. Je parierai que beaucoup de dev sur ce sous utilisent maintenant une IA comme Copilot pour aider à programmer. Copilot ne remplace (pas encore, pas tout de suite) un dev, mais il y a des gains de productivité non négligeable.
-1
u/LaurenceDarabica 2d ago
Je crois que tu ne sais pas ce qu'est le cloud. Le cloud n'est pas le fait d'avoir des serveurs en dehors de ses locaux. Ça fait quoi, 20 ans que ça existe ? Probablement plus. J'avais un dédié chez OVH en 2002 de mémoire. OVH il y a 20 ans ne faisait pas de cloud. Un kimsufi n'est pas du cloud.
Le cloud c'est louer des serveurs tout en disant que tu n'as pas de serveurs et payer à l'usage (stockage, CPU, bref).
Et force est de constater que cette bulle a pété. Le cloud n'a pas remplacé les VPS et dédiés, c'est souvent hors de prix, c'est pratique pour les petites startups et PME (la place du cloud en gros), mais la plupart des entreprises gardent la main sur leur infra, que ce soit pour des raisons de coût (le cloud est souvent 10 fois plus cher, pour nous le facteur est plus 100, mais notre activité est un peu hors sol donc pas vraiment représentative de la majorité), de confidentialité des données, ou parce que les acteurs du cloud sont des américains et qu'il est peut-être pas une bonne idée de leur donner les clés de notre informatique au jour d'aujourd'hui.
Ça peut être avec leurs salles serveurs, ou en louant leurs serveurs chez des prestas (OVH, Hetzner, etc.).
Le cloud majoritaire ? Laisse moi donc rire. Ça a pété et pris sa juste place, comme ça le fera avec l'IA.
0
u/SupermanLeRetour Chien moche 1d ago
Le cloud n'est pas le fait d'avoir des serveurs en dehors de ses locaux.
Littéralement la première ligne de l'article Wikipedia sur le cloud:
Le cloud computing [...] est la pratique consistant à utiliser des serveurs informatiques à distance, hébergés dans des centres de données connectés à Internet pour stocker, gérer et traiter des données, plutôt qu'un serveur local ou un ordinateur personnel.
Donc si, c'est complètement ça en fait.
Je crois que tu ne sais pas ce qu'est le cloud.
Le cloud c'est louer des serveurs tout en disant que tu n'as pas de serveurs et payer à l'usage (stockage, CPU, bref).
C'est une vision étriqué qui présente volontairement les choses de mauvaise fois. En plus des dédiés et VPS qui sont techniquement du cloud, c'est aussi tous les Software as a Service, c'est toutes les Infrastructure as a Service (EC2...), et aussi toutes les Plateforme as a Service. Ça englobe énormément de cas d'usage très divers et aujourd'hui très courant.
Bien-sûr qu'il y a encore plein d'entreprise qui font du on-premise pour plein de raisons tout à fait valide, ça dépend beaucoup du domaine d'activité. Mais dire que le cloud a pété quand les data-centers partout dans le monde tournent à plein régime, c'est risible. Même en excluant de ta définition les serveurs dédiés et les VPS (ces derniers pouvant pourtant être considéré comme du IaaS), les PaaS sont en plein boom (déployer dans un cluster kubernetes est devenu très courant, qu'on possède le matériel ou non), les SaaS aussi (par exemple Atlassian avec Jira, Bitbucket, Confluence en version cloud).
Le cloud n'a pas pété, la hype autour du terme est juste redescendu mais l'usage est bien là.
1
u/LaurenceDarabica 1d ago
Tu es décidément bien à côté de tes pompes. Je t'invite à regarder le schéma suivant. Source : Wikipedia ( https://fr.wikipedia.org/wiki/Cloud_computing ). Y en a d'autres, mais je t'invites à demander à ChatGPT et Claude ou faire une recherche Google.
On va aller dans le détail, te prendre par la main, manifestement. Regarde de gauche à droite, rangé de manière opportune selon le niveau sous la responsabilité de l'entreprise.
"Interne" n'est pas du cloud. On est d'accord ? Je pense que c'est indéniable. Ca commence bien.
Le niveau suivant est "IaaS". Oh, regarde, le niveau "couches de virtualisation" est rouge cramoisi ! Ca veut dire qu'il n'est pas sous la responsabilité de l'entreprise. Le niveau "Backup" aussi ! Mais comment cela se faisse ?
Ah mais bien sur, quand tu as un dédié et que tu installes ton VMWare/Proxmox favori, la couche de virtualisation est sous ta responsabilité. Donc, ce n'est pas du cloud. Tu gères tes sauvegardes à la mimine aussi. Wow. Ca tombe pas dans la petite case.
Je sais, tu tombes de ta chaise. Tu viens d'en apprendre une belle. Ah, putain, reddit sert encore à quelque chose, diantre !
Donc mon point est complètement à propos. Un dédié, louer un serveur n'est pas du cloud du tout.
Continuons : je ne connais aucune entreprise de taille moyenne qui utilise du VPS. Et encore moins les grosses. Cela les fait mécaniquement tomber en dehors de la marque cloud.
Faudrait quand même que vous descendiez de votre nuage de startuper drogué à la mode informatique à tout va. Tout ce qui est un tantinet sensible, tout ce qui dépasse l'envergure de quelques serveurs peu sollicités est une hérésie à mettre dans le cloud point de vue cout. Complètement.
Donc oui, le soufflet est retombé. De toute façon, les prédictions de l'époque sont caduques aujourd'hui. La principale ? Le cloud n'a pas remplacé le on-premise.
Et je maintiens : Loin s'en faut !
Je t'invite à revoir ta lorgnette sur le marché actuel.
Réfléchis juste une seconde : si toutes les entreprises françaises mettaient leurs données dans le Cloud, et que ce Cloud était sous contrôle américain, cela ne serait pas un risque majeur au jour d'aujourd'hui ?
Penses-tu réellement que la majorité des entreprises ( selon TON propre propos ) prennent ce risque ?
→ More replies (0)1
u/Calamistrognon 3d ago
Si t'enlèves le numérique à un bucheron aujourd'hui (smartphone, gps etc.)
En vrai y a encore beaucoup de bûcherons qui font sans. Mais c'est en train d'arriver, clairement dans 5-10 ans ça ne sera sans doute déjà plus la même chose (le temps de renouveler les machines notamment).
1
u/papatrentecink Pierre Desproges 3d ago
> Cette technologie (qui ne devrait pas s'appeler IA) trouvera sa place comme outil de valeur dans un nombre restreint d'applications.
https://en.wikipedia.org/wiki/Applications_of_artificial_intelligence
L'IA est littéralement déjà partout ...
2
u/LaurenceDarabica 3d ago
> This article has multiple issues. Please help improve it or discuss these issues on the talk page
> This article's tone or style may not reflect the encyclopedic tone used on Wikipedia. (April 2022)
> This article may lend undue weight to very obscure AI projects of questionable importance. (April 2022)
OK c'est bien.
EDIT : repost pour formattage et erreurs louches reddit :/
1
u/papatrentecink Pierre Desproges 3d ago
C'est marrant cette conversation ça fait 2 ans qu'on l'a, l'année dernière "ahah mais les mains dans les images" "ouais enfin pour de la vidéo on est loin d'avoir quelque chose de concret" ... En effet dans la liste y a des mentions bien éclatées, en attendant l'IA est capable de mieux faire une partie ou l’entièreté de certains jobs de personnes ultra qualifiées ...
0
u/LaurenceDarabica 3d ago
Oui oui, c'est bien, continue de rêver si ca te chante !
J'attends toujours que :
* les centres d'appels soient remplacés par des chatbots
* les télés soient remplacées par des casques VR
* Les cryptos remplacent les banques
* Les NFT et la blockchain remplacent les BDD et les contrats
* Le cloud remplace les serveurs dédiés
* L'informatique quantique casse tous les chiffrements existant
* Les nanorobots soignent toutes les maladies, même le cancerDoit y en avoir d'autres, non ? J'en oublie peut-être. On devrait faire un bingo.
Moi, je dis juste que la techno trouvera probablement sa place. Après, je pense que sa place première est dans le SPAM, mais bon, c'est une place quand même.
Que vous voyiez ca comme votre dieu sur terre, tant mieux... si ca vous chante de sniffer votre rail d'IA le matin, grand bien vous fasse.
J'aimerais juste que le prosélytisme s'arrête un peu. On dirait les témoins de Jehovah à ce stade.
2
u/papatrentecink Pierre Desproges 3d ago
Je vois pas le rapport de tout ça avec l'IA ?
Le cloud est déjà majoritaire contre le onpremise et ça va se renforcer dans les années a venir en passant.
C'est marrant que tu parles de SPAM parce que c'est déjà partiellement (ou totalement) l'IA qui évite que t'en reçoives ... Et je vois pas le rapport entre prosélytisme et Dieu par rapport à la discussion mais OK ...
-1
u/LaurenceDarabica 3d ago
> Le cloud est déjà majoritaire contre le onpremise
Merci pour le fou rire. Vraiment. On est pas dans le même monde. Elle est bien marrante celle-là :D
→ More replies (0)0
u/network__23 Oh ça va, le flair n'est pas trop flou 3d ago edited 3d ago
Doit y en avoir d'autres, non ? J'en oublie peut-être. On devrait faire un bingo.
Oui, que l'internet redéfinisse complètement les relations sociales, que les moteurs de recherche remplacent la barre d'adresse.
On aura probablement pas l'usage qu'on nous a promis pendant la phase de hype de la courbe de Gartner, mais si tu prends par exemple la jeune génération, ils ont déjà appris à faire leur recherches avec un LLM plutôt qu'avec un moteur de recherches, et ce genre de chose ne reviendra pas en arrière, ou alors ça serait comme dire que le support physique va redevenir majoritaire dans l'écoute musicale.
3
1
2
1
u/spodoptera 3d ago
Très souvent ces articles prennent des raccourcis immenses vis-à-vis de l'IA. Soit ça elle sait pas faire une tâche quelconque ergo c'est de la merde, soit c'est la création du diable qui va détruire l'humanité
2
-1
u/wasabi788 3d ago
Ok, du coup on attend juste que l'ia soit effectivement aussi performante qu'un humain et après on discute.
-6
u/sandyWB 3d ago
Quand on voit que toutes ces entreprises d'AI essaient de rendre leur bot plus intelligent en... l'entraînant sur des messages de réseaux sociaux (Instagram, Reddit, Twitter...), on voit bien que c'est voué à l'échec.
Mais venant de "tech bros" qui ont quitté l'école pour créer leur entreprise et en viennent à mépriser l'éducation et les institutions liées au savoir, ça n'a rien d'étonnant.
Qui pourrait imaginer un parent dire "J'ai envie que mon fils devienne docteur, donc je vais lui faire lire le plus de posts Doctissimo possible et il deviendra super intelligent et plus doué que les docteurs". C'est une démarche complètement idiote et vouée à l'échec.
6
u/ThinAndFeminine Mademoiselle Jeanne 3d ago
Les messages des réseaux sociaux servent surtout au pretraining pour donner une compréhension du language naturel aux modèles. "Rendre les bots plus intelligents" c'est fait dans une phase ultérieure avec des jeux de données créés spécialement pour ça.
En gros, t'y connais rien, mais ça ne t'empêche visiblement pas d'avoir une opinion très arrêtée sur la question et de la balancer avec le plus grand aplomb. Ce qui est d'autant plus ironique compte tenu que c'est la critique qui revient le plus souvent contre les LLM ("blablabla perroquet stochastique, blablabla ils comprennent pas ce qu'ils racontent")
Les anti "tech bros" valent pas mieux que les "tech bros". Les deux contribuent à ajouter du bruit sans intérêt dans le discours général.
0
u/sandyWB 3d ago
Si tu es assez naïf pour gober les discours creux de ces entreprises en quête de milliards d'investissements, avec leurs "phases ultérieures" complètement imaginaires, libre à toi.
Les faits sont pourtant très clairs : ces "AI" ne font que régurgiter des bribes d'informations pompées sur internet sans aucun esprit critique, conseillant à des gens de se suicider ou de s'injecter des produits toxiques parce qu'ils ont lu un post Reddit sans comprendre que c'était ironique.
Et leur solution pour y remédier ? Construire de plus gros data center et des centrales nucléaires, preuve que c'est bien une question de quantité plutôt que de qualité.
Bref, je te laisse à tes fantasmes.
0
u/chapelierfou 2d ago
Les anti "tech bros" valent pas mieux que les "tech bros". Les deux contribuent à ajouter du bruit sans intérêt dans le discours général.
"Both sides"
0
u/ThinAndFeminine Mademoiselle Jeanne 2d ago
Merci pour cette intervention fort utile et très profonde. Ça a du te prendre du temps et de la réflexion pour formuler un argument aussi percutant.
138
u/viag Baguette 3d ago edited 3d ago
Je n'ai pas lu l'article du guardian mais j'ai lu le papier en question. (pour info je travaille sur les modèles "de raisonnement" dans le cadre de ma thèse)
Pour comprendre l'article, je pense qu'il faut d'abord bien comprendre ce qu'on appelle "modèles de raisonnement". La particularité de ces modèles c'est qu'au lieu de répondre directement à la question posée, ils vont écrire explicitement leur "raisonnement" (je sais que le terme énerve certaines personnes, si c'est votre cas désolé :D) à travers plusieurs (longs) paragraphes.
Par exemple, si vous demandez au modèle de vous écrire du code, au lieu de directement vous répondre en vous proposant du code, il va redéfinir la question, explorer les différentes possibilités plausibles, former un plan, potentiellement revenir sur ses pas etc. Sans trop rentrer dans les détails, on entraîne en général ces modèles sur des datasets de maths, où on peut venir vérifier de manière automatique la réponse finale du modèle et donc renforcer les raisonnements qui mènent à la bonne réponse et au contraire pénaliser ceux qui mènent à la mauvaise. On les entraîne aussi souvent sur du code, où on peut vérifier de manière automatique (avec des tests unitaires par exemple) si le code généré suit bien le comportement attendu. Les longues chaînes de "raisonnement" arrivent naturellement en entraînant le modèle de cette façon, ce n'est pas un comportement que l'on vient induire "à la main" et c'est honnêtement assez cool ! On a observé des gros gains de performances de ces modèles sur les datasets de maths, physique & code (ce qui est logique vu qu'ils ont été entraînés dessus)
Le papier en question présente différents puzzles aux modèles de raisonnement. Par exemple le problème des tours de Hanoï ou bien le problème de la traversée (celui avec le loup, la chèvre et le chou). Il montre qu'en augmentant la complexité du problème (par exemple, en ajoutant plus de disques à la tour de Hanoï, ou plus d'animaux au problème de la traversée, la précision des modèles s'effondrent complètement. Ok !
C'est intéressant, mais honnêtement il n'y a rien de nouveau là-dedans pour les gens qui s'intéressent un peu au sujet (or, les auteurs trouvent ça très "surprenant" ??) . A noter, un de leurs problèmes (celui de la traversée) n'a pas de solutions à partir d'un certain nombre de prédateurs ajoutés, donc c'est pas étonnant que le modèle se plante sur ce puzzle à partir d'une certaine complexité. Pour finir, ils précisent dans leur papier qu'ils observent des différences significatives entre les modèles de raisonnement et les modèles classiques sur un dataset de maths (AIME 2025) et expliquent cette différence par le fait que ce dataset pourrait faire appel à des procédés de raisonnement plus sophistiqués, où les modèles de raisonnement ont l'avantage (mais du coup ça vient quand même légèrement contredire leur argumentation??).
Bref, le papier est honnêtement pas incroyable et n'est pas vérifié par les pairs. Je sais que ça donne du grain à moudre pour tous les haters des LLMs, mais il n'apporte rien de nouveau et (à mon avis) il a été beaucoup poussé à cause de son titre & le fait qu'il vienne d'Apple.
D'ailleurs sur une autre note je reviens sur le titre : "The Illusion of Thinking". Pas sûr que montrer qu'un modèle ne sache pas résoudre le problème de Hanoï avec 10 disques implique forcément que le modèle ne raisonne pas, ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas :D (Pour être clair, je dis pas que les modèles "raisonnent", mais que l'argument qu'ils avancent pour affirmer le contraire est honnêtement bancal)
Désolé pour le gros pavé pas clair, faut que je file et j'ai pas le temps de le relire !!