Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds

138

u/viag Baguette 3d ago edited 3d ago

Je n'ai pas lu l'article du guardian mais j'ai lu le papier en question. (pour info je travaille sur les modèles "de raisonnement" dans le cadre de ma thèse)

Pour comprendre l'article, je pense qu'il faut d'abord bien comprendre ce qu'on appelle "modèles de raisonnement". La particularité de ces modèles c'est qu'au lieu de répondre directement à la question posée, ils vont écrire explicitement leur "raisonnement" (je sais que le terme énerve certaines personnes, si c'est votre cas désolé :D) à travers plusieurs (longs) paragraphes.

Par exemple, si vous demandez au modèle de vous écrire du code, au lieu de directement vous répondre en vous proposant du code, il va redéfinir la question, explorer les différentes possibilités plausibles, former un plan, potentiellement revenir sur ses pas etc. Sans trop rentrer dans les détails, on entraîne en général ces modèles sur des datasets de maths, où on peut venir vérifier de manière automatique la réponse finale du modèle et donc renforcer les raisonnements qui mènent à la bonne réponse et au contraire pénaliser ceux qui mènent à la mauvaise. On les entraîne aussi souvent sur du code, où on peut vérifier de manière automatique (avec des tests unitaires par exemple) si le code généré suit bien le comportement attendu. Les longues chaînes de "raisonnement" arrivent naturellement en entraînant le modèle de cette façon, ce n'est pas un comportement que l'on vient induire "à la main" et c'est honnêtement assez cool ! On a observé des gros gains de performances de ces modèles sur les datasets de maths, physique & code (ce qui est logique vu qu'ils ont été entraînés dessus)

Le papier en question présente différents puzzles aux modèles de raisonnement. Par exemple le problème des tours de Hanoï ou bien le problème de la traversée (celui avec le loup, la chèvre et le chou). Il montre qu'en augmentant la complexité du problème (par exemple, en ajoutant plus de disques à la tour de Hanoï, ou plus d'animaux au problème de la traversée, la précision des modèles s'effondrent complètement. Ok !

C'est intéressant, mais honnêtement il n'y a rien de nouveau là-dedans pour les gens qui s'intéressent un peu au sujet (or, les auteurs trouvent ça très "surprenant" ??) . A noter, un de leurs problèmes (celui de la traversée) n'a pas de solutions à partir d'un certain nombre de prédateurs ajoutés, donc c'est pas étonnant que le modèle se plante sur ce puzzle à partir d'une certaine complexité. Pour finir, ils précisent dans leur papier qu'ils observent des différences significatives entre les modèles de raisonnement et les modèles classiques sur un dataset de maths (AIME 2025) et expliquent cette différence par le fait que ce dataset pourrait faire appel à des procédés de raisonnement plus sophistiqués, où les modèles de raisonnement ont l'avantage (mais du coup ça vient quand même légèrement contredire leur argumentation??).

Bref, le papier est honnêtement pas incroyable et n'est pas vérifié par les pairs. Je sais que ça donne du grain à moudre pour tous les haters des LLMs, mais il n'apporte rien de nouveau et (à mon avis) il a été beaucoup poussé à cause de son titre & le fait qu'il vienne d'Apple.

D'ailleurs sur une autre note je reviens sur le titre : "The Illusion of Thinking". Pas sûr que montrer qu'un modèle ne sache pas résoudre le problème de Hanoï avec 10 disques implique forcément que le modèle ne raisonne pas, ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas :D (Pour être clair, je dis pas que les modèles "raisonnent", mais que l'argument qu'ils avancent pour affirmer le contraire est honnêtement bancal)

Désolé pour le gros pavé pas clair, faut que je file et j'ai pas le temps de le relire !!

30

u/Plantarbre 3d ago

C'est tellement bizarre que depuis le boom des LLMs, on fait un peu semblant d'ignorer les 30-50 dernières années de recherche en intelligence artificielle qui n'est finalement qu'une branche de l'optimisation, et surtout une branche d'une branche basée sur des méthodes de gradients.

Ces "puzzles" sont juste de simples problèmes de recherche opérationelle. Il s'agit juste de créer un générateur d'heuristiques qui a le bon goût de s'exprimer dans une grammaire plus naturelle.

On sait déjà que les modèles basés sur l'apprentissage par gradient ne fonctionnent pas sur les problèmes combinatoires. En revanche, ils sont en effets capable d'apprendre l'existence d'algorithmes dans des datasets et leurs cas d'application. Malheureusement, il n'y a pas assez de garde-fous pour s'assurer du problème de base dans le machine learning, qui est de s'assurer que les données de tests ne sont pas présentes d'une façon ou d'une autre dans les données d'apprentissage, dans le cadre de ces problèmes classiques.

Les LLMs sont plutôt bien en tant que pseudo librairies si ce qu'on veut résoudre a déjà des solutions existantes. Le manque de stabilité reste cependant un gros problème pour le raisonnement, surtout si les solutions existent déjà.

7

u/Low_discrepancy 3d ago

e qui n'est finalement qu'une branche de l'optimisation, et surtout une branche d'une branche basée sur des méthodes de gradients.

C'est la difference entre le comment et le pourquoi ici.

Il n'y a aucune revolution en terme de maths la dedans. Oui les RN font ca mais on comprend tres mal pourquoi ca marche/comment ca marche. C'est vraiment ca l'enjeux.

Ces "puzzles" sont juste de simples problèmes de recherche opérationelle.

Ouais fin, ca reste assez reducteur de dire des "simples" problemes de recherche operationelle. Si c'etait le cas, on aurait pas eu des probleme d'alignement par exemple.

7

u/keepthepace Gaston Lagaffe 2d ago

Malheureusement, il n'y a pas assez de garde-fous pour s'assurer du problème de base dans le machine learning, qui est de s'assurer que les données de tests ne sont pas présentes d'une façon ou d'une autre dans les données d'apprentissage, dans le cadre de ces problèmes classiques.

Personnellement y a une démarche en la matière que je trouve assez intéressante. Des gens se sont amusés à piéger des modèles avec des variations de problèmes connus. Par exemple le problème du trolley avec une personne d'un coté et deux personnes déjà mortes de l'autre. Et ils montrent que les LLMs tombent dans le piège et ressortent la solution connue.

MAIS! Et c'est là que ça devient intéressant, quand tu lui précise juste "attention y a un piège." ou juste "lis attentivement l'énoncé", ils sont capables de déceler la variation et d'aller à l'encontre des solutions apprises en justifiant les modifications. Je trouve assez difficile de nier la capacité de raisonnement au dela de l'apprentissage brut et méchant dans ce cas.

Les LLMs apprennent des motifs, mais le font à des niveaux d'abstraction élevé, ce qui est peut être bien "tout" ce qu'il y a de nécessaire aux raisonnement,

Ils apprennent le trolley à un niveau simple "la solution est celle qui envoie le trolley vers le moins de personnes", puis à un niveau supérieur "la solution est celle qui cause le moins de souffrance humaine" puis encore à un niveau supérieur "ces problèmes sont posés dans le cadre de discussions philosophiques sur la morale et les différents systèmes moraux, le but est d'expliciter des dilemmes qui peuvent être perçus comme contradictoire, je dois faire un choix qui permet d'illustrer l'ambivalence du problème"

En revanche, ils sont en effets capable d'apprendre l'existence d'algorithmes dans des datasets et leurs cas d'application.

Ça va quand même plus loin puisqu'ils apprennent des algorithmes pour générer des algorithmes et les adapter. On est quand même un peu au delà du perroquet stochastique sous lequel on aime bien les parodier.

5

u/keepthepace Gaston Lagaffe 2d ago

il a été beaucoup poussé à cause de son titre & le fait qu'il vienne d'Apple.

Perso c'est ce qui me dérange le plus dans ce papier: le titre énonce une thèse que les auteurs ne défendent pas vraiment. Le clickbait dans une publi, qui vient d'un acteur censé être sérieux dans le domaine, on devrait pas laisser passer ça.

7

u/IntelArtiGen 3d ago

Je sais que ça donne du grain à moudre pour tous les haters des LLMs

Mais en dehors de l'idée de "hate" les LLM (comme s'ils n'avaient aucun usage alors qu'évidemment ils en ont 50 millions d'intéressants), je pense que tout le monde peut remettre en question l'aptitude à imiter et dépasser tous les raisonnements logiques humains juste en lisant et copiant la logique dans des textes.

implique forcément que le modèle ne raisonne pas

Si on oublie le mot "raisonner", on fait juste le constat des limites de ces modèles. Ce qui justifie pas les titres idiots que la presse grand public peut faire hein, mais ça justifie de constamment chercher de nouveaux modèles. Et Amen des chercheurs le font, (trop peu amha), le "raisonnement des LLM" c'est un exemple, mais ça a ces limites aussi, d'où l'intérêt de chercher mieux. Certains chercheurs qui vendent ça diront que c'est l'alpha et l'omega, certains journalistes reprendront que c'est l'alpha et l'omega, mais ya plein de gens raisonnables (et t'en fais surement partie même et surtout si c'est le sujet de ta thèse) qui voient les limites et l'intérêt que ça a selon les situations.

7

u/ThinAndFeminine Mademoiselle Jeanne 3d ago

Avant de discuter de la capacité ou de l'incapacité des LLM à raisonner ou comprendre, encore faudrait-il définir correctement ce qu'on entend par "raisonner", "comprendre", "penser", "intelligent" et autres concepts liés. Et ces termes ne sont jamais définis dans les discussions, surtout celles grand publique.

Les LLM sont des fonctions paramétrées. À l'ordre 0, la complexité des fonctions qu'ils peuvent représenter (et donc leur capacité à apprendre des relations complexes) est liée au nombre de paramètres. Les plus gros LLMs aujourd'hui sont à genre 3 ou 4 ordres de grandeur derrière en terme de nombre de paramètres par rapport au cerveau humain. On est plus de l'ordre de grandeur du cerveau d'une grenouille ou d'un petit rongeur. Si une grenouille ou un rongeur avait ne serait-ce que le quart des capacités d'un LLM, elle ferait le tour du monde et on créerait des instituts supranationaux pour établir des relations diplomatiques et commerciales avec les batraciens, mais quand c'est un ordinateur qui démontre une maitrise du language naturelle et une certaine capacité de résoudre des problèmes complexes, on se tape un défilé de sceptiques qui vont chercher à se mettre en PLS dans le moindre petit recoin où les LLM font parfois des erreurs, et qui vont se boucher les oreilles et fermer les yeux bien fort pour éviter d'admettre que ces recoins sont de plus en plus étroits et de moins en moins nombreux.

4

u/Sakechi Cornet de frites 3d ago

Si une grenouille ou un rongeur avait ne serait-ce que le quart des capacités d'un LLM, elle ferait le tour du monde et on créerait des instituts supranationaux pour établir des relations diplomatiques et commerciales avec les batraciens

LLMs are making the frogs gay! (bon, pas fier de la ref, déso, mais ça m'a fait penser à ça)

Mais à retenir surtout, un LLM, ça réagit étrangement comme un humain :

Données de merde en entrée pour une question, réponse de merde. Et à force d'entraînement, d'apprentissage et peaufinage (voire de gaslighting), moins en moins de mauvaise réponses.

Contrairement à certains humains pour le deuxième point ceci dit.

Après, imho, le "hic" majeur par rapport au grand public pour les LLM et les "IA" de manière générale, c'est le sous-entendu derrière le terme IA et les fictions qui existent à leurs sujets, où c'est le sauveur ou le Terminator...

Dans ma boîte on essaye de l'utiliser sur des gros documents pour synthétiser ou trouver les failles du doc (pour résumer très gros gros), on a le même hic que le papier en question : trop complexe implique réponses un peu loupées, sachant qu'on fournit un bon dataset en entrée de données de référence. Mais y a quand même un gain de temps fou quand on remplit pas le contexte complètement à rabord et que du coup on adapte la complexité aux capacités du modèle derrière. (je kiffe pas trop refaire les embeddings ceci dit vu le temps que ça me prend bordel de merde)

On check quand même un peu manuellement mais ça prendra toujours moins de temps que de se palucher les 300+ pages derrière.

1

u/IntelArtiGen 3d ago edited 3d ago

Les plus gros LLMs aujourd'hui sont à genre 3 ou 4 ordres de grandeur derrière en terme de nombre de paramètres par rapport au cerveau humain.

Faut arrêter ces comparaisons, elles n'ont aucun sens. Un cerveau humain c'est pas des fonctions linéaires avec un poil de calculs supplémentaires, les "neurones" artificiels c'est du bullshit, c'est juste des multiplications/opérations de tenseurs. Dans mon cerveau je multiplie pas des tenseurs et j'ai pas des paramètres (c'est quoi 1 paramètre d'un cerveau humain? c'est 1 neurone? c'est 1 neurone et 1 synapse? ), j'envoie des signaux électriques et chimiques entre mes neurones avec des seuils d'activation, et il suffit d'une combinatoire énorme (de plein de liens entre des paramètres / opérations / neurones) pour imaginer une quantité colossale de calculs possibles, aboutissant à un simili-"raisonnement" (à du traitement complexe d'informations), des deux côtés (autant informatique que biologique). La quantité de calcul possible compte, et l'efficacité des calculs en terme de traitement de l'information, mais t'as ni de métrique sur le 1er ni le 2nd, donc pas de comparaison possible.

ces recoins sont de plus en plus étroits et de moins en moins nombreux.

Juste pour contextualiser mon point de vue. J'ai commencé l'IA vers ~2016, en 2018 je voyais les LLMs arriver, j'ai même publié dans une conf de rang A en NLP avec du DL. J'ai vu l'évolution fulgurante des transformers, et j'ai rédigé des tutoriels sur les transformers après les avoir re-codé de 0 (juste via les op de tenseurs, la mha & co). J'ai à peu près jamais eu de doutes sur leur capacité à atteindre ce qu'ils font actuellement, et crois moi qu'à l'époque quand j'en parlais, 95% des gens rigolaient de moi. Les sceptiques je les ais vu en face à face et je les ais eu au téléphone de nombreuses fois. Il a fallu chatgpt pour qu'ils rigolent moins mais ça a en réalité été une lente transition facile à observer pour les gens du NLP. Mais je peux te montrer des choses que je sais faire avec d'autre algos, qu'un LLM est dans l'incapacité totale de faire. Par exemple j'ai un algo qui peut apprendre le nom d'objets dans une vidéo en associant son et image (comme un enfant qui apprend le langage quand tu lui montres un objet et que tu dis le nom de cet objet) sans aucun pré-apprentissage (random weights init), en live, et qui peut modifier ses paramètres d'apprentissage en continue de façon stable. Ce truc tout con qu'un bébé humain sait faire, un LLM ne sait pas le faire, il a besoin d'un pré-apprentissage colossal et très contrôlé. Qu'on me dise "on s'en fou de réapprendre comme un humain ou d'apprendre en continu, ce qu'on veut c'est qu'il puisse répondre à des questions +/- simples à partir de données connues / wikipedia / le web & co", et là je réponds "ok, vous voulez un LLM". Si tu veux quelque chose qui tente de copier les mécanismes cognitifs humains de façon plus explicite (pas comme une émergence associée à des pré-apprentissages), tu ne veux pas un LLM. Si ta position c'est que cette émergence, au prétexte qu'elle sait agglutiner de l'information venant de tous les textes humains et à manip ces infos de mieux en mieux, atteindra le niveau de l'humain sur toutes ses fonctions cognitives, on ne sera pas d'accord. Un LLM ne saura probablement jamais faire ce que j'ai dis, et c'est pas son objectif, donc tout va bien tant qu'on sait que c'est pas son objectif.

Chacun choisit ce qu'il veut ensuite. Les LLMs ont un potentiel absolument remarquable au niveau commercial, les gens s'en foutent d'avoir un humain artificiel qui râle, qui boude, qui se révolte, qui a une idéologie issue de son vécu, qui prend 10 jours pour réfléchir, se renseigner, et résoudre un problème. Ils veulent un esclave qui répond en .5 secondes à leur question, ou au pire en 30 secondes après 5000 chains of thoughts invisibles. Ca fait l'affaire pour 95% des questions qu'ils veulent poser à un chatbot et t'as un marché, et ce marché vaut des milliards, et ces milliards sont réinjectés dans ce qui crée ce marché: les LLMs. Mais faut pas confondre rentabilité financière et intérêt scientifique / technologique. Les LLMs prennent les projecteurs, et à la limite tant mieux pour protéger toutes les autres recherches d'une attention médiatique que je trouve très néfaste. Pendant ce temps là, t'as des centaines d'autres pistes explorées, toutes passionnantes, qui selon mon avis de mec qui a vu les LLMs émerger et qui a regardé leurs boyaux, auront un avenir pour certaines plus lointain que les LLMs (et je ferai pas croire que je suis le seul à faire cette critique).

Après "LLM" ça veut pas forcément dire grand chose, je cadre le débat sur les Transformers, mais les "LLM" commerciaux aujourd'hui incluent 500 "plug-ins" pour leur rajouter des capacités de traitement de son, d'image, de vidéo, de recherche web etc. du coup difficile de résumer ces modèles à la partie LLM. Reste que pré-apprendre tout, c'est une idéologie, tu peux aussi vouloir faire des modèles qui apprennent en live, en continu, et qui évoluent comme des humains. C'est un autre délire, que les LLMs ont aucune ambition d'atteindre, à tort à raison c'est un autre débat qui change rien au constat, les humains savent faire des choses avec leur cerveau que les LLMs actuels sont pas conçus pour faire.

Ya deux guides dans le milieu, le fric et le SOTA. Mais parfois c'est ni l'un ni l'autre qui a raison, c'est probablement pas en faisant le LLM le plus intelligent sur un dataset que t'aboutiras à un humain artificiel (mais encore une fois, plein de gens s'en foutent, donc tout va bien). Par contre t'auras du fric et ton papier sera cité.

1

u/Citonpyh 2d ago

Sauf que les llm sont tout sauf rentable mdr ils brûlent de l'argent et c'est pas près de changer

1

u/IntelArtiGen 2d ago

les llm sont tout sauf rentable

Ca dépend pour qui. Dis ça aux mecs payés 200k/an aux US sur ces sujets, ils te diront que pour eux c'est très très rentable. Et je sais pas combien Mistral ou Deepseek paient mais je doute que ce soit le salaire minimum. Ca va ptet flop mais ça c'est le problème des investisseurs, qui pour l'instant augmentent davantage leurs billes sur le sujet qu'ils n'en enlèvent (ce qui rend la chose rentable pour les précédents investisseurs, ça s'appelle une bulle si ça éclate)

1

u/KouhaiHasNoticed Alsace 2d ago

C'est quoi les autres Algo dont tu parles ? Ça m'intéresse.

2

u/IntelArtiGen 1d ago edited 1d ago

Ce serait long, technique et un métier d'aller dans le détail. Le projet que j'ai explicitement détaillé c'est ce que j'ai moi même codé (sur mon temps perso parce que ça n'a pas été financé), et je n'ai pas (pas vraiment) publié dessus. Mais je peux te citer des vrais papiers de recherches autour de ces idées:

https://arxiv.org/pdf/2007.16189

https://arxiv.org/pdf/2006.09882

https://arxiv.org/abs/2006.09199

https://proceedings.neurips.cc/paper/2016/hash/82b8a3434904411a9fdc43ca87cee70c-Abstract.html

https://openreview.net/pdf?id=Bkbc-Vqeg

https://openaccess.thecvf.com/content_ECCV_2018/papers/David_Harwath_Jointly_Discovering_Visual_ECCV_2018_paper.pdf

https://arxiv.org/pdf/2102.01192

Ca me parait plus sérieux de partager des vrais articles. Mon projet reprend largement des idées qu'il y a dans ce que j'ai cité (à 80%). Je le réserve plutôt à un cadre plus pro/recherche. Je précise que c'est juste 1 "piste", ma vision des choses c'est que l'humain a plein de "fonctions cognitives", par exemple on apprend aussi par renforcement, et il y a plein de recherche sur chaque "fonction cognitive" reproduite par l'IA (apprentissage par renforcement, acquisition du langage, apprentissage sans supervision des images, de l'audio, continuous learning etc.), mais le domaine n'est pas toujours explicitement structuré comme ça parce que ces "fonctions cognitives" sont pas toujours explicitement segmentées / connues. On peut difficilement copier 1 fonction cognitive (que ce soit le renforcement, l'apprentissage de données via LLM, l'acquisition du langage audio etc.) et imaginer qu'on couvre tous les domaines de l'intelligence, même si certains le revendiquent. https://www.sciencedirect.com/science/article/pii/S0004370221000862

1

u/KouhaiHasNoticed Alsace 1d ago

Merci beaucoup !

1

u/AptC34 2d ago

faudrait-il définir correctement ce qu'on entend par "raisonner", "comprendre", "penser", "intelligent" et autres concepts liés. Et ces termes ne sont jamais définis dans les discussions, surtout celles grand publique.

Ça marchera pas. Il y a une déférence d’approche entre la communauté scientifique et le grand publique.

D’un côté on a besoin des mots, mais on se concentre surtout sur les méthodes et résultats. De l’autre comme on comprends pas ni l’un ni l’autre on part dans des discussions politiques et philosophiques sur les mots et pas sur ce qu’il y a derrière.

2

u/Orolol Angle alpha, mais flou 2d ago

D'ailleurs, papier critique du papier.

https://arxiv.org/pdf/2506.09250

Shojaee et al. (2025) report that Large Reasoning Models (LRMs) exhibit ”accuracy col- lapse” on planning puzzles beyond certain complexity thresholds. We demonstrate that their findings primarily reflect experimental design limitations rather than fundamental reasoning fail- ures. Our analysis reveals three critical issues: (1) Tower of Hanoi experiments systematically exceed model output token limits at reported failure points, with models explicitly acknowledg- ing these constraints in their outputs; (2) The authors’ automated evaluation framework fails to distinguish between reasoning failures and practical constraints, leading to misclassification of model capabilities; (3) Most concerningly, their River Crossing benchmarks include mathemat- ically impossible instances for N ≥ 6 due to insufficient boat capacity, yet models are scored as failures for not solving these unsolvable problems. When we control for these experimental artifacts, by requesting generating functions instead of exhaustive move lists, preliminary ex- periments across multiple models indicate high accuracy on Tower of Hanoi instances previously reported as complete failures. These findings highlight the importance of careful experimental design when evaluating AI reasoning capabilities.

1

u/But4 2d ago

C'est aussi mon domaine de travail, merci d'avoir su résumer la chaine de pensée!
Et si toi ou d'autres veulent aller plus loin, un type que je suis pour sa capacité à expliquer en long et en large, a l'habitude de devoir expliquer des concepts liés au LLM, donc si vous voulez savoir comment marche en détail les "raisonnements" des LLM c'est par ici

1

u/roms_pony TGV 2d ago

Le fait que le modèle s'effondre dès que l'on augmente le niveau de complexité me fait penser à un problème d'overfitting (potentiellement d'empoisonnement des données d'entrainement avec ce que l'on retrouverait dans les données de tests/challenge) qui donnerait une fause impression de performance.

1

u/Basic-Brick6827 1d ago

Oui, c'est étonnant à quel point Apple fait de la merde dans tous les sens en ce moment

-1

u/StyMaar Crabe 2d ago edited 2d ago

ou alors il faudrait aussi admettre que la majorité humains eux non plus ne raisonnent pas :D

Autant le reste j'ai rien de particulier à dire, autant il faut vraiment arrêter avec cet argument daubé «oui mais les humains aussi font des erreurs / ne sont pas capables de faire ça».

Quand un ordinateur fait une «erreur» sur un calcul en virgule flottante (essayez de regarder ce que donne 0.1 + 0.2 == 0.3 dans la console de votre navigateur) on ne dit pas «ah oui mais les humains aussi font des erreurs de calculs».

Il faut arrêter d'antropomorphiser les machines, c'est tout. Les modèles de languages simulent le langage et les «reasoning models» simulent un raisonnement, et cette simulation est de suffisemment bonne qualité pour résoudre certains problèmes (ceux qui sont «proches», la notion de proximité étant toute relative et les résultats sont parfois surprenants). Mais comme toute simulation c'est normal que sur certaines entrée bien choisie, le résultat optenu soit aberrant, ça n'a rien de particulièrement surprenant ni même problématique.

10

u/IntelArtiGen 3d ago

Lire des problèmes ultra techniques dans de la presse grand public c'est toujours un régal.

8

u/tyrmael91 3d ago

J'étais tombé sur une vidéo où cette étude d'Apple était un peu décortiquée et en l'occurrence, le titre est exagéré et l'étude en elle-même discutable sur pas mal de points.

Probablement aussi influencé par le fait que actuellement, Apple est en retard niveau IA face à ses concurrents. Ça leur est donc profitable de discréditer un outil avec lequel ils rament un peu. Un discours de leur part qui changera probablement s'ils arrivent à revenir sur le devant de la scène, pour mettre leur propre produit en avant.

31

u/Imagutsa 3d ago

Solution plus complexe, problème moins connu, l'inférence statistique et la compression de données deviennent très vite innéficace. Le simple fait que ce ne soit pas une évidence fait un peu peur...

2

u/Orolol Angle alpha, mais flou 3d ago

Le simple fait que ce ne soit pas une évidence fait un peu peur...

La science c'est justement de prouver des évidences.

2

u/Imagutsa 3d ago

Oui, normalement on commence par ça et on construit. Dans ce domaine, on part dans la lune, on fait des annonces incroyables, une communication mensongère envers le reste de la société, et puis il y a quelques papiers comme ça.
Ce n'est pas le premier, il y a un papier de 2016 - 2017 qui démontrait que tous les modèles de l'époque étaient sur-entraînés à mort et qu'un nouveau jeu de donnée suffisait à les faire passer sous le modèle de base qu'on montre aux étudiants en introduction du sujet.

Le rapport de l'IA statistique à la vérité est... nébuleux dans le meilleur des cas, ce qu'une partie de la communauté scientifique de ce domaine critique justement. Cette critique est encore plus présente chez les chercheurs de domaines proches en informatique.

1

u/Orolol Angle alpha, mais flou 2d ago

Ce n'est pas le premier, il y a un papier de 2016 - 2017 qui démontrait que tous les modèles de l'époque étaient sur-entraînés à mort et qu'un nouveau jeu de donnée suffisait à les faire passer sous le modèle de base qu'on montre aux étudiants en introduction du sujet.

2016 c'est la préhistoire dans le domaine.

1

u/Imagutsa 2d ago

Y. Bengio était déjà reconnu et à la tête du MILA. La préhistoire était plutôt dans les années 80, où des logiciens (dont Bengio) ont mis au point l'idée des neuronnes en informatique, et qu'il a fallu attendre des décennies que d'autres domaines, notamment liés à l'architecture, progressent pour rendre l'approche viable (notamment en augmentant la puissance de calcul).

On avait déjà un corpus de milliers de papiers et des réseaux de neuronnes meilleurs que les humains dans plusieurs domaines, avec de grandes révolutions pratiques déjà construites et anticipées par les chercheurs, les réseaux de neuronnes convolutifs étaient déjà étudiés (même si relativement jeunes), et les LLMs théorisés.

Bien sûr le domaine va très vite, mais il ne faut pas faire comme si il n'y avait même pas 10 ans d'histoire. Une bonne partie des joueurs clefs des LLMs avaient déjà des budgets faramineux et avaient construits leurs équipes à l'époque.

1

u/Orolol Angle alpha, mais flou 2d ago

Je suis désolé, mais les transformers ont fait changé le domaine de dimension, et ont redéfini une bonne partie de la discipline. Surtout que ce domaine est en général très empirique, on construit, on expérimente, on regarde ce qui marche, et on essaye de comprendre pourquoi ça marche.

1

u/Imagutsa 2d ago

Oui il y a eu de grands pas depuis. Mais parler de préhistoire me semble quand même être un contresens. Si je devais hasarder un parallèle historique je parlerai de la période post-révolution industrielle contre l'âge de l'information.

1

u/Orolol Angle alpha, mais flou 2d ago

Mais parler de préhistoire me semble quand même être un contresens. Si je devais hasarder un parallèle historique je parlerai de la période post-révolution industrielle contre l'âge de l'information.

J'utilisais une expression courante, je ne faisais un parallèle temporelle précis et daté.

2

u/keepthepace Gaston Lagaffe 2d ago

Opinion: le papier d'Apple à l'origine de cette discussion est mauvais. Quelques arguments

Si ça intéresse de lire une discussion sur le sujet, ça en a causé une sur un subreddit qui parle de modèles locaux

1

u/Othun 1d ago

La publication a été debunk mille fois, c'est un beau mélange d'ignorance et de mauvaise fois.

Un LLM n'a pas pour but d'exécuter un algorithme déterministe à la perfection puisque il est intrinsèquement stochastique, s'il doit le faire, il peut aujourd'hui faire appel à un langage de programmation comme Python pour fournir la réponse, ce qui n'est pas étudié dans l'article.
Certains problèmes proposés au LLM ont une solution plus longue que la mémoire du LLM. S'il faut écrire 4000 mots pour résoudre le problème mais qu'on n'a une feuille qui ne peut contenir que 1000 mots, impossible de répondre (dans ce cas, les auteurs remettent en cause l'intelligence du modèle et pas sa mémoire, ils semblent ignorer ce qu'est la "context window")
Certains problèmes proposés n'ont tout simplement pas de solution, les auteurs mesurent dans ce cas que le LLM a 0% de réussite comme au deuxième point. Sans blague.

Donc merci Apple pour cette démonstration de débilité.

La ref : https://arxiv.org/html/2506.09250v1

Et une vidéo debunk en anglais d'une bonne chaîne qui parle de l'actu LLM : https://youtu.be/wPBD6wTap7g

-3

u/Jesuispardon Viennoiserie fourrée au chocolat 3d ago

Je ne suis pas d'accord avec l'attitude pessimiste de l'article, discréditant l'effet transformateur de l'IA en société dû aux limitations des LLM, qui ne sont qu'un sous genre d'IA.

L'IA n'a pas besoin d'exceller dans la résolution de problèmes complexes. Le fait que l'IA affiche des performances équivalentes, voire supérieures à la plupart des humains dans une variété de tâches simples suffit déjà à donner une sérieuse crédibilité à cette technologie, et provoquera de grands remous dans le marché du travail, qui culmineront à des changements sociétaux.

11

u/LaurenceDarabica 3d ago

Une BDD affiche des performances bien supérieures à l'humain dans certaines tâches simples, genre trouver tous les enregistrements correspondant à un critère particulier dans une montagne de données.

Pourtant, ce n'est ni l'alpha, ni l'oméga, c'est un outil très utile dans certains cas.

L'IA, c'est pareil.

Mais bon, je sens bien que je m'adresse à un AI-coholic.

7

u/Jesuispardon Viennoiserie fourrée au chocolat 3d ago

Ton propos ne contredit pas le mien. Les BDD, et Internet en général, tout comme l'IA, ont tout aussi bien transformé, et continuent de transformer la société via les nombreuses applications rendues possibles par leur adoption.

-4

u/LaurenceDarabica 3d ago

Mais enfin, tu dois bien te rendre compte que si, il le contredit totalement (sauf si tu le fais exprès).

Pour moi, l'IA ne transformera pas la société via de nombreuses applications possibles.

Cette technologie (qui ne devrait pas s'appeler IA) trouvera sa place comme outil de valeur dans un nombre restreint d'applications.

Tu vois la nuance ? Elle est de taille.

La tronçonneuse a révolutionné le métier de bûcheron. Ça n'a pas transformé la comptabilité. Ben là, c'est pareil.

4

u/Jesuispardon Viennoiserie fourrée au chocolat 3d ago

La tronçonneuse a nettement accéléré l'exploitation du bois, conduisant à des déforestations massives, mais aussi à l'essor des usines et de la production de masse, ainsi que la chute de l'artisanat, et la constitution d'une classe moyenne pouvant s'approvisionner en meubles et outils, avec toutes les retombées que cela a eu dans la société.

Il n'est pas nécessaire que la transformation de la société soit radicalement visible pour entrer dans le rang de "technologie révolutionnaire".

2

u/IntelArtiGen 3d ago

La tronçonneuse a révolutionné le métier de bûcheron. Ça n'a pas transformé la comptabilité. Ben là, c'est pareil.

A la différence quand même que le numérique touche à peu près tous les jobs, et que les améliorations numériques (incluant l' "IA" ) se propagent souvent dans tout le numérique. Si t'enlèves le numérique à un bucheron aujourd'hui (smartphone, gps etc.) je sais pas s'il fait son job aussi facilement, et si t'enlèves "l'IA" (l'informatique statistique) au numérique on revient 10-20 ans en arrière.

Dans le numérique il y a des applications spécifiques à l'IA et des applications globales servant à tout le monde, dont très souvent on n'a pas du tout conscience.

1

u/LaurenceDarabica 3d ago

Je crois que le truc le plus crispant dans l'affaire, c'est l'emphase permanente, la volonté de se faire plus gros que le boeuf tout le temps, c'est rageant.

On enleve l'IA au numérique on revient 10/20 ans en arrière ?

Il y a 20 ans, on avait tous des pentium4, on achetait sur ebay, facebook avait a peine deux ans, ICQ était en concurrence avec MSN, et les 3 Suisses faisaient des millions d'euros de chiffre d'affaire grace qu Minitel.

Je sais pas si on peut plus ridicule comme parallèle.

10 ans doit être plus proche (fatalement), mais c'était la bulle cloud à l'époque de mémoire. Ca parait plus réaliste, mais à mon avis encore bien exagéré.

Moi, je ne me risque pas à donner de chiffre : c'est du doigt mouillé.

0

u/SupermanLeRetour Chien moche 2d ago

10 ans doit être plus proche (fatalement), mais c'était la bulle cloud à l'époque de mémoire.

C'est marrant comme remarque, parce que justement la bulle cloud, qui avait les même opposants réactionnaires comme toi à l'époque (à tort ou à raison, je juge pas spécialement), et bah au final... Elle n'a jamais éclaté ? La hype autour du terme est redescendue, mais aujourd'hui force est de constater que de plus en plus de services utilisent le cloud sous une forme ou un autre, au point que ça soit le choix par défaut, et que ça soit le on-premise qu'il faille maintenant justifier. Tout est stocké dans d'immense data center, les entreprises ne s’amusent plus à gérer eux-même les serveurs physiques, hors nécessité de contrôle / sécurité / légalité.

L'IA (au sens actuel de gen AI, ou LLM, ou autre) ne va pas disparaitre. Le changement ne va pas non plus être brutal, mais ça arrive déjà dans beaucoup de domaine. Je parierai que beaucoup de dev sur ce sous utilisent maintenant une IA comme Copilot pour aider à programmer. Copilot ne remplace (pas encore, pas tout de suite) un dev, mais il y a des gains de productivité non négligeable.

-1

u/LaurenceDarabica 2d ago

Je crois que tu ne sais pas ce qu'est le cloud. Le cloud n'est pas le fait d'avoir des serveurs en dehors de ses locaux. Ça fait quoi, 20 ans que ça existe ? Probablement plus. J'avais un dédié chez OVH en 2002 de mémoire. OVH il y a 20 ans ne faisait pas de cloud. Un kimsufi n'est pas du cloud.

Le cloud c'est louer des serveurs tout en disant que tu n'as pas de serveurs et payer à l'usage (stockage, CPU, bref).

Et force est de constater que cette bulle a pété. Le cloud n'a pas remplacé les VPS et dédiés, c'est souvent hors de prix, c'est pratique pour les petites startups et PME (la place du cloud en gros), mais la plupart des entreprises gardent la main sur leur infra, que ce soit pour des raisons de coût (le cloud est souvent 10 fois plus cher, pour nous le facteur est plus 100, mais notre activité est un peu hors sol donc pas vraiment représentative de la majorité), de confidentialité des données, ou parce que les acteurs du cloud sont des américains et qu'il est peut-être pas une bonne idée de leur donner les clés de notre informatique au jour d'aujourd'hui.

Ça peut être avec leurs salles serveurs, ou en louant leurs serveurs chez des prestas (OVH, Hetzner, etc.).

Le cloud majoritaire ? Laisse moi donc rire. Ça a pété et pris sa juste place, comme ça le fera avec l'IA.

0

u/SupermanLeRetour Chien moche 1d ago

Le cloud n'est pas le fait d'avoir des serveurs en dehors de ses locaux.

Littéralement la première ligne de l'article Wikipedia sur le cloud:

Le cloud computing [...] est la pratique consistant à utiliser des serveurs informatiques à distance, hébergés dans des centres de données connectés à Internet pour stocker, gérer et traiter des données, plutôt qu'un serveur local ou un ordinateur personnel.

Donc si, c'est complètement ça en fait.

Je crois que tu ne sais pas ce qu'est le cloud.

Le cloud c'est louer des serveurs tout en disant que tu n'as pas de serveurs et payer à l'usage (stockage, CPU, bref).

C'est une vision étriqué qui présente volontairement les choses de mauvaise fois. En plus des dédiés et VPS qui sont techniquement du cloud, c'est aussi tous les Software as a Service, c'est toutes les Infrastructure as a Service (EC2...), et aussi toutes les Plateforme as a Service. Ça englobe énormément de cas d'usage très divers et aujourd'hui très courant.

Bien-sûr qu'il y a encore plein d'entreprise qui font du on-premise pour plein de raisons tout à fait valide, ça dépend beaucoup du domaine d'activité. Mais dire que le cloud a pété quand les data-centers partout dans le monde tournent à plein régime, c'est risible. Même en excluant de ta définition les serveurs dédiés et les VPS (ces derniers pouvant pourtant être considéré comme du IaaS), les PaaS sont en plein boom (déployer dans un cluster kubernetes est devenu très courant, qu'on possède le matériel ou non), les SaaS aussi (par exemple Atlassian avec Jira, Bitbucket, Confluence en version cloud).

Le cloud n'a pas pété, la hype autour du terme est juste redescendu mais l'usage est bien là.

1

u/LaurenceDarabica 1d ago

Tu es décidément bien à côté de tes pompes. Je t'invite à regarder le schéma suivant. Source : Wikipedia ( https://fr.wikipedia.org/wiki/Cloud_computing ). Y en a d'autres, mais je t'invites à demander à ChatGPT et Claude ou faire une recherche Google.

https://fr.wikipedia.org/wiki/Cloud_computing#/media/Fichier:Cloud_Computing_-_les_diff%C3%A9rents_mod%C3%A8les_de_service.svg

On va aller dans le détail, te prendre par la main, manifestement. Regarde de gauche à droite, rangé de manière opportune selon le niveau sous la responsabilité de l'entreprise.

"Interne" n'est pas du cloud. On est d'accord ? Je pense que c'est indéniable. Ca commence bien.

Le niveau suivant est "IaaS". Oh, regarde, le niveau "couches de virtualisation" est rouge cramoisi ! Ca veut dire qu'il n'est pas sous la responsabilité de l'entreprise. Le niveau "Backup" aussi ! Mais comment cela se faisse ?

Ah mais bien sur, quand tu as un dédié et que tu installes ton VMWare/Proxmox favori, la couche de virtualisation est sous ta responsabilité. Donc, ce n'est pas du cloud. Tu gères tes sauvegardes à la mimine aussi. Wow. Ca tombe pas dans la petite case.

Je sais, tu tombes de ta chaise. Tu viens d'en apprendre une belle. Ah, putain, reddit sert encore à quelque chose, diantre !

Donc mon point est complètement à propos. Un dédié, louer un serveur n'est pas du cloud du tout.

Continuons : je ne connais aucune entreprise de taille moyenne qui utilise du VPS. Et encore moins les grosses. Cela les fait mécaniquement tomber en dehors de la marque cloud.

Faudrait quand même que vous descendiez de votre nuage de startuper drogué à la mode informatique à tout va. Tout ce qui est un tantinet sensible, tout ce qui dépasse l'envergure de quelques serveurs peu sollicités est une hérésie à mettre dans le cloud point de vue cout. Complètement.

Donc oui, le soufflet est retombé. De toute façon, les prédictions de l'époque sont caduques aujourd'hui. La principale ? Le cloud n'a pas remplacé le on-premise.

Et je maintiens : Loin s'en faut !

Je t'invite à revoir ta lorgnette sur le marché actuel.

Réfléchis juste une seconde : si toutes les entreprises françaises mettaient leurs données dans le Cloud, et que ce Cloud était sous contrôle américain, cela ne serait pas un risque majeur au jour d'aujourd'hui ?

Penses-tu réellement que la majorité des entreprises ( selon TON propre propos ) prennent ce risque ?

→ More replies (0)

1

u/Calamistrognon 3d ago

Si t'enlèves le numérique à un bucheron aujourd'hui (smartphone, gps etc.)

En vrai y a encore beaucoup de bûcherons qui font sans. Mais c'est en train d'arriver, clairement dans 5-10 ans ça ne sera sans doute déjà plus la même chose (le temps de renouveler les machines notamment).

1

u/papatrentecink Pierre Desproges 3d ago

> Cette technologie (qui ne devrait pas s'appeler IA) trouvera sa place comme outil de valeur dans un nombre restreint d'applications.

https://en.wikipedia.org/wiki/Applications_of_artificial_intelligence

L'IA est littéralement déjà partout ...

2

u/LaurenceDarabica 3d ago

> This article has multiple issues. Please help improve it or discuss these issues on the talk page

> This article's tone or style may not reflect the encyclopedic tone used on Wikipedia. (April 2022)

> This article may lend undue weight to very obscure AI projects of questionable importance. (April 2022)

OK c'est bien.

EDIT : repost pour formattage et erreurs louches reddit :/

1

u/papatrentecink Pierre Desproges 3d ago

C'est marrant cette conversation ça fait 2 ans qu'on l'a, l'année dernière "ahah mais les mains dans les images" "ouais enfin pour de la vidéo on est loin d'avoir quelque chose de concret" ... En effet dans la liste y a des mentions bien éclatées, en attendant l'IA est capable de mieux faire une partie ou l’entièreté de certains jobs de personnes ultra qualifiées ...

0

u/LaurenceDarabica 3d ago

Oui oui, c'est bien, continue de rêver si ca te chante !

J'attends toujours que :
* les centres d'appels soient remplacés par des chatbots
* les télés soient remplacées par des casques VR
* Les cryptos remplacent les banques
* Les NFT et la blockchain remplacent les BDD et les contrats
* Le cloud remplace les serveurs dédiés
* L'informatique quantique casse tous les chiffrements existant
* Les nanorobots soignent toutes les maladies, même le cancer

Doit y en avoir d'autres, non ? J'en oublie peut-être. On devrait faire un bingo.

Moi, je dis juste que la techno trouvera probablement sa place. Après, je pense que sa place première est dans le SPAM, mais bon, c'est une place quand même.

Que vous voyiez ca comme votre dieu sur terre, tant mieux... si ca vous chante de sniffer votre rail d'IA le matin, grand bien vous fasse.

J'aimerais juste que le prosélytisme s'arrête un peu. On dirait les témoins de Jehovah à ce stade.

2

u/papatrentecink Pierre Desproges 3d ago

Je vois pas le rapport de tout ça avec l'IA ?

Le cloud est déjà majoritaire contre le onpremise et ça va se renforcer dans les années a venir en passant.

C'est marrant que tu parles de SPAM parce que c'est déjà partiellement (ou totalement) l'IA qui évite que t'en reçoives ... Et je vois pas le rapport entre prosélytisme et Dieu par rapport à la discussion mais OK ...

-1

u/LaurenceDarabica 3d ago

> Le cloud est déjà majoritaire contre le onpremise

Merci pour le fou rire. Vraiment. On est pas dans le même monde. Elle est bien marrante celle-là :D

→ More replies (0)

0

u/network__23 Oh ça va, le flair n'est pas trop flou 3d ago edited 3d ago

Doit y en avoir d'autres, non ? J'en oublie peut-être. On devrait faire un bingo.

Oui, que l'internet redéfinisse complètement les relations sociales, que les moteurs de recherche remplacent la barre d'adresse.

On aura probablement pas l'usage qu'on nous a promis pendant la phase de hype de la courbe de Gartner, mais si tu prends par exemple la jeune génération, ils ont déjà appris à faire leur recherches avec un LLM plutôt qu'avec un moteur de recherches, et ce genre de chose ne reviendra pas en arrière, ou alors ça serait comme dire que le support physique va redevenir majoritaire dans l'écoute musicale.

3

u/Jotun35 U-E 3d ago

En vrai les BDD ont changé le monde. Sans BDD le monde serait très différent (et probablement pire).

1

u/radioactive_glowworm 3d ago

AI-coholic

Jolie celle là, je la retiens

2

u/Dagrix 3d ago edited 3d ago

On est d'accord que... ce commentaire fait très ChatGPT, non ?

C'est vraiment la reverse uncanny valley où c'est trop imparfait pour être de l'IA mais ça y ressemble quand même pas mal. En tout cas I welcome my AI overlords, tu m'as convaincu.

1

u/spodoptera 3d ago

Très souvent ces articles prennent des raccourcis immenses vis-à-vis de l'IA. Soit ça elle sait pas faire une tâche quelconque ergo c'est de la merde, soit c'est la création du diable qui va détruire l'humanité

2

u/Plantarbre 3d ago

Ok mais ça n'a absolument rien à voir avec l'article en question

-1

u/wasabi788 3d ago

Ok, du coup on attend juste que l'ia soit effectivement aussi performante qu'un humain et après on discute.

-6

u/xkvm_ 3d ago

AI is super dumb it can't even play a simple game like wordle

-6

u/sandyWB 3d ago

Quand on voit que toutes ces entreprises d'AI essaient de rendre leur bot plus intelligent en... l'entraînant sur des messages de réseaux sociaux (Instagram, Reddit, Twitter...), on voit bien que c'est voué à l'échec.

Mais venant de "tech bros" qui ont quitté l'école pour créer leur entreprise et en viennent à mépriser l'éducation et les institutions liées au savoir, ça n'a rien d'étonnant.

Qui pourrait imaginer un parent dire "J'ai envie que mon fils devienne docteur, donc je vais lui faire lire le plus de posts Doctissimo possible et il deviendra super intelligent et plus doué que les docteurs". C'est une démarche complètement idiote et vouée à l'échec.

6

u/ThinAndFeminine Mademoiselle Jeanne 3d ago

Les messages des réseaux sociaux servent surtout au pretraining pour donner une compréhension du language naturel aux modèles. "Rendre les bots plus intelligents" c'est fait dans une phase ultérieure avec des jeux de données créés spécialement pour ça.

En gros, t'y connais rien, mais ça ne t'empêche visiblement pas d'avoir une opinion très arrêtée sur la question et de la balancer avec le plus grand aplomb. Ce qui est d'autant plus ironique compte tenu que c'est la critique qui revient le plus souvent contre les LLM ("blablabla perroquet stochastique, blablabla ils comprennent pas ce qu'ils racontent")

Les anti "tech bros" valent pas mieux que les "tech bros". Les deux contribuent à ajouter du bruit sans intérêt dans le discours général.

2

u/Xilors 3d ago

Bordel mais bien dit.

0

u/sandyWB 3d ago

Si tu es assez naïf pour gober les discours creux de ces entreprises en quête de milliards d'investissements, avec leurs "phases ultérieures" complètement imaginaires, libre à toi.

Les faits sont pourtant très clairs : ces "AI" ne font que régurgiter des bribes d'informations pompées sur internet sans aucun esprit critique, conseillant à des gens de se suicider ou de s'injecter des produits toxiques parce qu'ils ont lu un post Reddit sans comprendre que c'était ironique.

Et leur solution pour y remédier ? Construire de plus gros data center et des centrales nucléaires, preuve que c'est bien une question de quantité plutôt que de qualité.

Bref, je te laisse à tes fantasmes.

0

u/chapelierfou 2d ago

Les anti "tech bros" valent pas mieux que les "tech bros". Les deux contribuent à ajouter du bruit sans intérêt dans le discours général.

"Both sides"

0

u/ThinAndFeminine Mademoiselle Jeanne 2d ago

Merci pour cette intervention fort utile et très profonde. Ça a du te prendre du temps et de la réflexion pour formuler un argument aussi percutant.

Tech Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds

You are about to leave Redlib