Le nouveau modèle d’IA GPT-4 d’OpenAI a fait ses grands débuts et alimente déjà tout, d’un volontaire virtuel pour les malvoyants à un robot d’apprentissage des langues amélioré dans Duolingo. Mais qu’est-ce qui distingue GPT-4 des versions précédentes comme ChatGPT et GPT-3.5 ? Voici les cinq plus grandes différences entre ces systèmes populaires.
Mais d’abord, qu’y a-t-il dans un nom? Bien que ChatGPT ait été décrit à l’origine comme étant GPT-3.5 (et donc quelques itérations au-delà de GPT-3), il ne s’agit pas en soi d’une version du grand modèle de langage d’OpenAI, mais plutôt d’une interface basée sur le chat pour le modèle qui l’alimente. Le système ChatGPT qui a explosé en popularité au cours des derniers mois était un moyen d’interagir avec GPT-3.5, et maintenant c’est un moyen d’interagir avec GPT-4.
Cela dit, entrons dans les différences entre le chatbot que vous connaissez et aimez et son successeur nouvellement augmenté.
1. GPT-4 peut voir et comprendre les images
Le changement le plus notable apporté à ce système d’apprentissage automatique polyvalent est qu’il est « multimodal », ce qui signifie qu’il peut comprendre plus d’une « modalité » d’informations. ChatGPT et GPT-3 étaient limités au texte : ils pouvaient lire et écrire, mais c’était à peu près tout (bien que plus que suffisant pour de nombreuses applications).
GPT-4, cependant, peut recevoir des images et il les traitera pour trouver des informations pertinentes. Vous pouvez simplement lui demander de décrire ce qu’il y a dans une image, bien sûr, mais plus important encore, sa compréhension va au-delà de cela. L’exemple fourni par OpenAI explique en fait la blague dans une image d’un connecteur iPhone hilarant surdimensionné, mais le partenariat avec Be My Eyes, une application utilisée par les aveugles et les malvoyants pour permettre aux volontaires de décrire ce que leur téléphone voit, est plus révélateur.
Dans la vidéo de Be My Eyes, GPT-4 décrit le motif d’une robe, identifie une plante, explique comment se rendre à une certaine machine au gymnase, traduit une étiquette (et propose une recette), lit une carte et exécute un certain nombre d’autres tâches qui montrent qu’il obtient vraiment ce qu’il y a dans une image – si on lui pose les bonnes questions. Il sait à quoi ressemble la robe, mais il ne sait peut-être pas si c’est la bonne tenue pour votre entretien.
2. GPT-4 est plus difficile à tromper
Malgré tout ce que les chatbots d’aujourd’hui réussissent, ils ont tendance à être facilement induits en erreur. Un peu de cajolerie peut les persuader qu’ils expliquent simplement ce que ferait une « mauvaise IA », ou une autre petite fiction qui laisse le modèle dire toutes sortes de choses étranges et franchement énervantes. Les gens collaborent même sur des invites de « jailbreak » qui permettent rapidement à ChatGPT et à d’autres de sortir de leur enclos.
GPT-4, d’autre part, a été formé sur de nombreuses invites malveillantes – que les utilisateurs ont utilement donné à OpenAI au cours des deux dernières années. Avec ces éléments à l’esprit, le nouveau modèle est bien meilleur que ses prédécesseurs sur « l’aspect factuel, la maniabilité et le refus de sortir des garde-corps ».
La façon dont OpenAI le décrit, GPT-3.5 (qui alimentait ChatGPT) était un « test » d’une nouvelle architecture de formation, et ils en ont appliqué les leçons à la nouvelle version, qui était « d’une stabilité sans précédent ». Ils étaient également mieux en mesure de prédire ses capacités, ce qui réduit les surprises.
3. GPT-4 a une mémoire plus longue
Ces grands modèles de langage sont formés sur des millions de pages Web, de livres et d’autres données textuelles, mais lorsqu’ils ont réellement une conversation avec un utilisateur, il y a une limite à ce qu’ils peuvent garder « à l’esprit », pour ainsi dire ( on compatit). Cette limite avec GPT-3.5 et l’ancienne version de ChatGPT était de 4 096 « jetons », soit environ 8 000 mots, soit environ quatre à cinq pages d’un livre. Donc, il perdrait en quelque sorte la trace des choses après qu’ils soient passés aussi loin « en arrière » dans sa fonction d’attention.
GPT-4 a un nombre maximum de jetons de 32 768 – c’est 2 ^ 15, si vous vous demandez pourquoi le nombre vous semble familier. Cela se traduit par environ 64 000 mots ou 50 pages de texte, assez pour une pièce entière ou une nouvelle.
Cela signifie qu’en conversation ou en générant du texte, il pourra garder jusqu’à 50 pages à l’esprit. Ainsi, il se souviendra de ce dont vous avez parlé 20 pages de chat en arrière, ou, en écrivant une histoire ou un essai, il peut faire référence à des événements qui se sont produits il y a 35 pages. C’est une description très approximative du fonctionnement du mécanisme d’attention et du nombre de jetons, mais l’idée générale est celle de la mémoire étendue et des capacités qui l’accompagnent.
4. GPT-4 est plus multilingue
Le monde de l’IA est dominé par les anglophones, et tout, des données aux tests en passant par les documents de recherche, est dans cette langue. Mais bien sûr, les capacités des grands modèles de langage sont applicables dans n’importe quelle langue écrite et devraient être rendues disponibles dans celles-ci.
GPT-4 fait un pas dans cette direction en démontrant qu’il est capable de répondre à des milliers de questions à choix multiples avec une grande précision dans 26 langues, de l’italien à l’ukrainien en passant par le coréen. C’est mieux dans les langues romanes et germaniques mais se généralise bien aux autres.
Ce test initial des capacités linguistiques est prometteur, mais loin d’être une étreinte complète des capacités multilingues ; les critères de test ont été traduits de l’anglais pour commencer, et les questions à choix multiples ne représentent pas vraiment un discours ordinaire. Mais il a fait un excellent travail sur quelque chose pour lequel il n’était pas vraiment formé spécifiquement, ce qui laisse entrevoir la possibilité que GPT-4 soit beaucoup plus convivial pour les non-anglophones.
5. GPT-4 a différentes « personnalités »
La « steerability » est un concept intéressant en IA, faisant référence à leur capacité à modifier leur comportement à la demande. Cela peut être utile, par exemple pour jouer le rôle d’un auditeur sympathique, ou dangereux, comme lorsque les gens convainquent le modèle qu’il est mauvais ou déprimé.
GPT-4 intègre la steerability plus nativement que GPT-3.5, et les utilisateurs pourront changer la « personnalité classique de ChatGPT avec une verbosité, un ton et un style fixes » en quelque chose de plus adapté à leurs besoins. « Dans les limites », l’équipe s’empresse de noter, soulignant que c’est le moyen le plus simple d’amener le modèle à casser le personnage.
Cela pourrait être fait d’une certaine manière en amorçant le chatbot avec des messages tels que « Prétendez que vous êtes un DM dans un RPG de table » ou « Répondez comme si vous étiez une personne interviewée pour les nouvelles du câble ». Mais en réalité, vous ne faisiez que suggérer la personnalité GPT-3.5 « par défaut ». Désormais, les développeurs pourront intégrer une perspective, un style de conversation, un ton ou une méthode d’interaction dès le départ.
Il y a beaucoup plus de différences entre GPT-4 et ses prédécesseurs, la plupart plus subtiles ou techniques que celles-ci. Nul doute que nous en apprendrons beaucoup plus au fil des mois et que les utilisateurs mettront le nouveau modèle de langage à l’épreuve.
Vous voulez tester GPT-4 vous-même ? Il arrive sur le service payant ChatGPT Plus d’OpenAI, sera bientôt disponible via l’API pour les développeurs et aura probablement une démo gratuite bientôt.
Source: techcrunch.com