Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Il y a de fortes chances que vous ayez entendu parler du terme «modèles de grande langue» ou LBM, lorsque les gens parlent AI génératif. Mais ils ne sont pas exactement synonymes de chatbots chatbots Chatte, Twins Google, Microsoft Copylot, Meta Ai et Claude d’Antropic.
Ces chatbots IA peuvent produire des résultats impressionnants, mais ils ne comprennent pas vraiment le sens du mot comme nous. Au lieu de cela, ils sont une interface que nous utilisons pour interagir avec des modèles de grands langues. Ces technologies de base sont formées pour reconnaître comment les mots sont utilisés et quels mots apparaissent souvent ensemble, afin qu’ils puissent prédire les mots, les phrases ou les extraits futurs. Comprendre le mode LLMS est crucial pour comprendre le fonctionnement de l’IA. Et comme l’IA se fait plus souvent dans notre quotidien en ligne, c’est quelque chose que vous devriez savoir.
C’est tout ce que vous devez savoir sur les LLM et ce qu’ils ont à faire avec l’IA.
Vous pouvez considérer un modèle de langue comme Soothsaier pour les mots.
“Le modèle linguistique est quelque chose qui essaie de prédire à quoi ressemble la langue que les gens produisent, Mark Riedl, professeur en technologie de la technologie de Géorgie, directeur de l’ordinateur interactif et associé de la Georgia Tech.” Ce qui fait quelque chose qui est un modèle de langue, qu’il puisse prédire les mots futurs donnés par les mots précédents. “
Ceci est la base de la fonctionnalité de trame automatique lorsque vous êtes d’accord, comme de l’IA Chatbot.
Grande langue Le modèle contient d’énormes quantités de mots provenant d’un large éventail de sources. Ces modèles sont mesurés dans ce que l’on appelle des “paramètres”.
Alors, quel est le paramètre?
Eh bien, LLMS utilise des réseaux de neurones, qui sont des modèles pour les machines d’apprentissage qui prennent l’entrée et effectuent des calculs mathématiques pour la production de résultats. Le nombre de variables dans ces comptes est des paramètres. Grande langue Le modèle peut avoir un milliard de milliards de paramètres ou plus.
“Nous savons qu’ils sont grands lorsqu’ils produisent un passage complet d’un texte cohérent de liquide”, a déclaré Riedl.
Les LLM apprennent sur le processus d’IA de base appelé Deep Learning.
“C’est un peu comme lorsque vous enseignez à un enfant – vous montrez beaucoup d’exemples”, a déclaré Jason Alan Snider, les agences mondiales des AD dans le monde.
En d’autres termes, vous allez nourrir la bibliothèque de contenu LLM (ce que l’on appelle les données de formation) telles que les livres, les articles, le codec et les médias sociaux, ce qui vous aidera à comprendre comment les mots sont utilisés dans différents contextes, et des nuances de langage encore plus subtiles. La collecte de données et de formation des entreprises et des entreprises est soumise à des actions non liées et à certaines poursuites. Des éditeurs comme la route de New York, des artistes et d’autres propriétaires de catalogues de contenu sont des sociétés techniques présumées Ils ont utilisé leur matériel protégé par le droit d’auteur sans les permis requis.
(Découvert par: Ziff Davis, la société mère de CNET, en avril, a déposé une plainte contre Openai, déclarant qu’elle avait violé le droit d’auteur de Ziff Davis dans la formation et la gestion de son IA et de ses systèmes.)
Les modèles d’IA digèrent bien plus qu’une personne ne pouvait jamais lire dans sa vie – quelque chose de l’ordre du Trillion Token. L’aide des jetons et les modèles décomposent et traitent le texte. Vous pouvez considérer le modèle d’IA comme un lecteur qui a besoin d’aide. Le modèle interrompt la pénalité en pièces plus petites, ou jetons – qui sont équivalents aux quatre caractères en anglais, ou environ les trois quarts de mots – afin qu’il puisse comprendre chaque pièce, puis le sens entier.
De là, le LLM peut analyser comment les mots se connectent et déterminent quels mots apparaissent souvent ensemble.
“C’est comme construire cette carte de mots de mots géants”, a déclaré Snider. “Et puis cela commence à le faire vraiment amusant et cool et prédit quel est le mot suivant … et il compare la prédiction du mot réel dans les données et ajuste la carte interne en fonction de sa précision.”
Cette prédiction et cette ajustement vont être des milliards de fois, donc LLM dissout continuellement sa compréhension du langage et devient meilleur pour reconnaître les modèles et prédire les mots futurs. Il peut même apprendre des concepts et des faits à partir de données pour répondre aux questions, générer des formats de texte créatifs et traduire les langues. Mais ils ne comprennent pas le sens des mots comme nous le faisons – tout ce qu’ils savent sont des connexions statistiques.
Les LLM apprennent également à améliorer leurs réponses grâce à l’apprentissage du renforcement des commentaires humains.
“Vous obtenez un jugement ou une préférence aux gens où il vaut mieux considérer qu’il est donné à l’entrée qu’il est donné”, a déclaré Maarten Sap dans la langue de l’Institut technologique de l’Université Carnegie Mellon. “Et puis vous pouvez apprendre le modèle pour améliorer vos réponses.”
Les LLM sont douées pour gérer certaines tâches, mais pas pour d’autres.
Compte tenu d’une série de mots d’entrée, LLM prédirera le mot suivant dans une ligne.
Par exemple, considérez la phrase: “Je suis allé en voilier sur une couleur bleu profond …”
La plupart des gens frapperaient probablement la «mer», car ils naviguent, profondément et bleus tous les mots que nous traînons avec la mer. En d’autres termes, chaque mot définit le contexte de ce qui devrait suivre les éléments suivants.
“Ces grands modèles de langue, car ils ont beaucoup de paramètres, peuvent stocker beaucoup de formes”, a déclaré Riedl. “Ils sont très bons en mesure de choisir ces marques et font vraiment, de très bonnes suppositions sur ce qui suit.”
Il existe plusieurs types de sous-catégories que vous avez peut-être entendues, comme un petit raisonnement et un poids ouvert et ouvert / ouvert. Certains de ces modèles sont multimodaux, ce qui signifie qu’ils sont formés non seulement sur le texte, mais aussi sur les images, la vidéo et l’audio. Tous sont des modèles de langage et remplissent les mêmes fonctions, mais vous devez connaître certaines différences clés.
Oui. Les entreprises techniques aiment Microsoft Ils ont introduit des modèles plus petits conçus pour fonctionner “sur l’appareil” et ne nécessitent pas les mêmes ressources informatiques que LLM, mais aident toujours les utilisateurs à toucher la puissance de l’IA générative.
Les modèles de raisonnement sont une sorte de LLM. Ces modèles ont jeté un coup d’œil pour le rideau dans le train de pensée du chatbot tout en répondant à vos questions. Vous avez peut-être vu ce processus si vous avez utilisé En profondeurChatbot AI chinois.
Pourtant, LLMS! Ces modèles sont conçus pour être un peu plus transparents à mesure qu’ils fonctionnent. Ouvrez les modèles de code pour voir comment le modèle est construit et est généralement disponible pour tout le monde pour les ajuster et les construire. Modèles de poids ouvert Donnez-nous un aperçu de la façon dont le modèle pèse les caractéristiques spécifiques lors de la prise de décisions.
Les LLM sont très bonnes pour comprendre le lien entre les mots et la fabrication de texte qui semble naturel.
“Ils prennent une entrée qui peut souvent être un ensemble d’instructions, comme” Faites-le pour moi “, ou” résume cela, et peut tirer ces échantillons de l’entrée “, a déclaré Riedl.
Mais ils ont plusieurs faiblesses.
Premièrement, ils ne sont pas bons dans le discours de la vérité. En fait, parfois juste de vraies choses qui sonnent vraies, comme quand Chatgtpt Cité six fausses affaires Dans la soumission légale ou lorsque Google Bard (prédécesseur jumeau) déformé Télescope spatial James Webb avec le téléchargement des premières peintures de la planète en dehors de notre système solaire. Ils sont appelés hallucinations.
“Ils sont extrêmement peu fiables dans le sens où ils se connectent et font beaucoup les choses”, a déclaré Sap. “Ils ne sont pas formés ou conçus par des moyens pour cracher quelque chose de vrai.”
Ils luttent également sur des enquêtes qui sont fondamentalement différentes de tout ce qu’ils ont rencontré auparavant. En effet, ils se concentrent sur la recherche et la réponse aux modèles.
Un bon exemple est un problème mathématique avec un ensemble unique de nombres.
“Cela peut ne pas faire correctement ce calcul, car il ne résout vraiment pas les mathématiques”, a déclaré Riedl. “Essaye de relier votre question mathématique à des exemples précédents de questions mathématiques qui avaient déjà vu.”
Bien qu’ils soient caractérisés par la prédiction des mots, ils ne sont pas bons pour prédire l’avenir, qui comprend la planification et la prise de décision.
“L’idée de planifier dans la façon dont les gens le font … en pensant à diverses alternatives imprévues et alternatives et à faire des choix, ce n’est pas un barrage routier pour nos modèles de grande langue actuels”, a déclaré Riedl.
Enfin, ils combattent les événements actuels, car leurs données de formation n’augmentent généralement que pendant un certain temps et tout ce qui se passe après cela ne fait pas partie de leur base de connaissances. Puisqu’ils n’ont pas la capacité de différer ce qui est factuellement vrai et ce qui est probable, ils ne peuvent fournir que de manière fiable des informations incorrectes sur les événements actuels.
Ils ne communiquent pas non plus avec le monde sur lequel nous travaillons.
“Il est difficile de comprendre les nuances et les complexités des événements actuels qui nécessitent souvent une compréhension du contexte, de la dynamique sociale et des conséquences des années réelles”, a déclaré Snider.
Nous voyons des opportunités de téléchargement se développer en dehors des modèles formés, y compris des moteurs de recherche tels que Google, afin que les modèles puissent implémenter des recherches Web, puis alimenter ces résultats dans LLM. Cela signifie qu’ils pourraient mieux comprendre les enquêtes et fournir des réponses qui sont temps.
“Cela aide nos modèles relationnels à rester à jour et à jour car ils peuvent réellement consulter de nouvelles informations sur Internet et l’entrer”, a déclaré Riedl.
C’était un objectif, par exemple, un peu de temps avec le retour Ai-ai Bing. Au lieu de rechercher dans des moteurs de recherche pour améliorer vos réponses, Microsoft a semblé améliorer votre propre navigateur, une meilleure compréhension en partie de la vraie signification derrière les consommateurs et de meilleurs résultats de classement pour les requêtes mentionnées. En novembre dernier, Openai a présenté Recherche de chatptavec accès à des informations sur certains éditeurs de nouvelles.
Mais il y a une prise. La recherche sur le Web pourrait aggraver les hallucinations sans mécanismes adéquats pour vérifier les faits. Et les LLM devraient apprendre à évaluer la fiabilité de la source Web avant de les dire. Google a appris une manière difficile avec Error-Somone fait ses débuts Résultats de la recherche. Frais de recherche par la suite Résultats et vues raffinés pour réduire les résumés erronés ou potentiellement dangereux. Mais même des rapports récents ont révélé que vous pouvez même vous dire régulièrement Quelle année est-ce.
Pour plus, déconnectez-vous Liste de nos experts et essentiels et le Les meilleurs chatbots pour 2025.