Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Chatbots sont vraiment impressionnants lorsque vous les regardez Des choses dans lesquelles ils sont bons danscomme écrire un Adresse de base ou Créer des images étranges à l’avenir. Mais demandez à une IA générative de résoudre l’un de ces puzzles à l’arrière du journal, et les choses peuvent rapidement disparaître des rails.
Ces chercheurs de l’Université du Colorado à Boull ont découvert lorsqu’ils ont provoqué la résolution des modèles de grande langue Sudoku. Et même pas des puzzles standard 9×9. Le puzzle 6×6 plus facile était souvent en dehors de la caractéristique de LLM sans assistance externe (dans ce cas, des outils de puzzle spécifiques).
La découverte la plus importante est venue quand on leur a demandé de montrer leur travail. Fondamentalement, ils ne pouvaient pas. Ils ont parfois menti. Parfois, ils ont expliqué les choses d’une manière qui n’a pas de sens. Parfois ils halluciné et a commencé à parler de la météo.
Si le gène et les outils ne peuvent pas expliquer précisément nos décisions, ce que nous ferions attention à ces choses, a déclaré Ashutosh Trivedi, a déclaré: Ashutosh Trivedi, il a dit que nous faisions attention à faire attention à faire attention. papier Publié en juillet dans les résultats de la Computer Linguistics Association.
“Nous aimerions vraiment que ces explications soient transparentes et reflètent pourquoi et ne donnaient pas cette décision, n’essayant pas de manipuler l’homme en fournissant une explication qu’un homme pourrait aimer”, a déclaré Trivedi.
Ne manquez aucun de notre contenu technologique impartial et nos critiques de laboratoire. Ajouter le CNET comme une source Google préférée.
L’article fait partie de l’ensemble de la recherche sur le comportement des modèles de grandes langues. D’autres études récentes, par exemple, ont révélé que les modèles hallucinent en partie parce que leurs procédures de formation les encouragent à les produire Les résultats de l’utilisateur aimerontpas ce qui est vrai ou que les personnes qui utilisent LLM les aident à écrire des essais sont sont moins susceptibles de se souvenir de ce qu’ils ont écrit. Alors que l’IA post devient de plus en plus de notre vie quotidienne, implique que cette technologie fonctionne et comment nous agissons lorsque nous l’utilisons, elle devient douloureuse.
Lorsque vous prenez une décision, vous pouvez essayer de justifier ou du moins d’expliquer comment vous y êtes arrivé. Et le modèle peut ne pas être en mesure de faire exactement ou de manière transparente. Croiriez-vous cela?
Regardez ceci: J’ai construit un PC AI à partir de zéro
Nous avons vu que l’IA échouait auparavant dans les jeux et les puzzles de base. Chatgpt Openai (entre autres) était complètement écrasé dans les échecs par un adversaire informatique dans l’Atari de 1979. Années. Des travaux de recherche récents d’Apple ont révélé que les modèles peuvent se battre avec D’autres puzzles, comme la tour Hanoy.
Cela a à voir avec la façon de travailler et de remplir le vide dans l’information. Ces modèles essaient de rencontrer ces blancs en fonction de ce qui se passe dans des cas similaires dans leurs données de formation ou d’autres choses qui ont vues dans le passé. Avec Sudok, la question est l’une des logiques. Et il pourrait essayer de combler chaque lacune de l’ordre, en fonction de ce qui semble être une réponse raisonnable, mais de le résoudre correctement, il doit plutôt regarder l’image entière et trouver un ordre logique qui change du puzzle au puzzle.
En savoir plus: 29 façons de faire de Gene AI pour vous, selon nos experts
Les chatbots sont mauvais dans les échecs pour une raison similaire. Les mouvements suivants trouvent des mouvements logiques, mais ne pensez pas nécessairement à trois, quatre ou cinq mouvements à l’avance – la compétence de base était de bien jouer aux échecs. Les chatbots traversent parfois et parfois des pièces d’échecs d’une manière qui ne respecte pas vraiment les règles ou ne mettent pas des morceaux de danger sans signification.
Vous pouvez vous attendre à ce que les LLM soient en mesure de résoudre Sudoku, car les ordinateurs et le puzzle se compose de nombres, mais les puzzles ne sont pas vraiment mathématiques; Ils sont symboliques. “Sudoku est connu pour être un puzzle avec des chiffres qui pourraient être faits avec tout ce qui n’est pas des chiffres”, a déclaré Fabio Somenesi, professeur à Cu et l’un des auteurs de groupes de recherche.
J’ai utilisé un échantillon du journal du chercheur et je l’ai donné au chatgtpt. L’outil a montré son travail et m’a dit à plusieurs reprises qu’il avait la réponse avant qu’il ne montre une énigme qui avait échoué, puis est revenu et corrigé. C’était comme une présentation de bot de présentations qui a continué à apporter des modifications à la dernière seconde: c’est la réponse finale. Non, en fait, cela n’a pas d’importance, ce est la réponse finale. Elle a reçu la réponse à la fin, au procès et aux erreurs. Mais le procès et l’erreur n’est pas un moyen pratique pour une personne de résoudre le Sudoku dans le journal. C’est trop essuyer et détruit le plaisir.
L’IA et les robots peuvent être bons dans les jeux s’ils sont conçus pour les jouer, mais les outils à usage général comme les modèles de grands langues peuvent se battre avec des puzzles logiques.
Les chercheurs du Colorado ne voulaient pas simplement voir si les bots pouvaient résoudre les puzzles. Ils ont demandé des explications que les robots les ont traversés. Les choses ne se sont pas bien passées.
Testant du modèle religive Openai O1-Review, les chercheurs ont vu que les explications – même pour les énigmes correctement résolues – n’ont pas expliqué exactement ni justifié leurs mouvements et sont devenus les conditions de base mal.
“Une chose est bonne pour fournir des explications qui semblent raisonnables”, a déclaré Maria Pacheco, professeur adjoint professeur informatique sur CU. “Ils sont alignés avec les gens, alors ils apprennent à parler comme nous l’aimons, mais s’ils sont fidèles à ce qu’ils ont de vraies étapes pour résoudre la chose, c’est où nous nous battons un peu.”
Parfois, les explications étaient complètement hors de propos. Étant donné que les travaux de travail sont terminés, les chercheurs ont continué de tester les nouveaux modèles publiés. Somenes a déclaré que lorsque lui et Trivedi, le modèle raisonnable Openai O4 avait été initié par les mêmes tests, à un moment donné, il semble être complètement renoncé.
“La question suivante que nous recherchions, la réponse était une prévision météorologique pour Denver”, a-t-il déclaré.
(Découvert par: Ziff Davis, CNETA Registry Company, en avril, a déposé une plainte contre OpenAI, déclarant que Ziff Davis Copyright en formation et géré son IA et ses systèmes.)
Lorsque vous résolvez le puzzle, vous êtes presque certain de promener quelqu’un d’autre à travers votre opinion. Le fait que ces LLM ont échoué si spectaculaires sur ce travail de base n’est pas un problème trivial. Avec et les entreprises parlent constamment de “Agents d’IA“Il peut agir en votre nom, pour pouvoir l’expliquer est essentiel.
Considérez les types d’emplois qui ont maintenant donné l’IA ou prévu pour l’avenir proche: conduite, ImpôtDécider des stratégies commerciales et traduire des documents importants. Imaginez ce qui se passerait si vous le faisiez, une personne, faites une de ces choses et quelque chose s’est mal passé.
“Lorsque les gens doivent mettre un visage devant leurs décisions, ils expliquent mieux ce que la décision a conduit”, a déclaré Somenes.
Il ne s’agit pas seulement d’obtenir un son raisonnable. Devrait être correct. Un jour, l’explication de l’IA elle-même pourrait avoir à durer devant le tribunal, mais comment peut-on prendre au sérieux son témoignage s’il est connu pour mentir? Vous ne croiriez pas à une personne qui n’a pas réussi à vous expliquer, et vous ne croiriez pas qui vous avez trouvé ce que vous voulez entendre au lieu de la vérité.
“Avoir une explication est très proche de la manipulation si cela est fait pour une mauvaise raison”, a déclaré Trivedi. “Nous devons faire très attention à la transparence de ces explications.”