OpenAI lancera GPT-4 la semaine prochaine et le programme d’IA générative permettra aux utilisateurs de transformer du texte en vidéo, selon Andreas Braun, directeur technique de Microsoft Allemagne.
Chat GPT-3 a conquis le monde, mais le modèle de langage d’apprentissage en profondeur n’a généré que du texte. Braun a décrit le GPT-3 comme étant « multimodal » offrant des générations au-delà du simple texte.
« Nous présenterons le GPT-4 la semaine prochaine, nous aurons là des modèles multimodaux qui offriront des possibilités complètement différentes – par exemple, des vidéos », a déclaré Braun lors d’un événement AI en Allemagne le 9 mars, rapporté par le journal allemand Heise.
Génération de contenu multimodal
Le chat GPT-4 générera probablement non seulement de la vidéo, mais également des images et des clips audio. Jusqu’à présent, les générateurs d’images AI étaient séparés des chatbots tels que Chat GPT. Mais l’enthousiasme grandit pour les capacités des modèles de nouvelle génération capables de générer du contenu dans différents formats.
« Nous parlons de modèles d’IA qui peuvent comprendre du texte, des images et du son en même temps et les utiliser pour acquérir des connaissances sur le monde qui les entoure et interagir avec lui », écrit Tristan Wolff sur Medium.
Microsoft a déjà présenté un modèle de langage multimodal qui fonctionne dans différents formats appelé Kosmos-1.
Dans la présentation Kosmos-1, l’IA peut lire des images avec une photo. Par exemple, une image d’une horloge indiquant 10h10 est entrée dans l’IA avec la question « L’heure maintenant? » A quoi l’IA répond, « 10h10 sur une grande horloge. »
Il peut également indiquer au spectateur quel type de coiffure particulier une femme porte ou reconnaître une affiche de film et peut indiquer à l’utilisateur quand ce film sortira.
« Kosmos-1 utilise des informations textuelles et graphiques pour répondre aux questions, ce qui lui confère une « capacité cognitive » sans précédent », ajoute Wolff.
« Moment iPhone »
Lors de l’événement « AI in Focus – Digital Kickoff » en Allemagne, Braun a été rejoint par la PDG de Microsoft Allemagne, Marianne Janik, qui décrit ChatGPT comme « un moment iPhone ».
Elle dit qu’il ne s’agit pas de remplacer des emplois mais de faire des tâches répétitives d’une manière différente qu’avant, rapporte Heise.
« La perturbation ne signifie pas nécessairement des pertes d’emplois », dit-elle. « Il faudra de nombreux experts pour que l’utilisation de l’IA apporte une valeur ajoutée. »
Chat GPT est devenu extrêmement populaire, devenant l’application grand public à la croissance la plus rapide de l’histoire pour atteindre 100 millions d’utilisateurs.
OpenAI, qui exploite également DALL-E, a été critiqué par son co-fondateur Elon Musk qui a quitté l’entreprise en 2018.
« OpenAI a été créé en tant qu’open source (c’est pourquoi je l’ai nommé « Open » AI), une société à but non lucratif pour servir de contrepoids à Google, mais maintenant, il est devenu une société à source fermée et à profit maximum effectivement contrôlée par Microsoft », a-t-il écrit le 17 février.« Ce n’est pas du tout ce que je voulais.
Ni Microsoft ni OpenAI n’ont pour l’instant répondu aux commentaires de leurs confrères allemands.
Source: www.petapixel.com