Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
Nouvelles techniques

Le nouveau ChatGPT peut « voir » et « parler ». Voici à quoi ça ressemble.


ChatGPT – sensation virale de l’intelligence artificielle, tueur du travail de bureau ennuyeux, ennemi juré des professeurs de lycée et des scénaristes hollywoodiens – obtient de nouveaux pouvoirs.

Lundi, le créateur de ChatGPT, OpenAI, a annoncé qu’il donnait au chatbot populaire la possibilité de « voir, entendre et parler » avec deux nouvelles fonctionnalités.

La première est une mise à jour qui permet à ChatGPT d’analyser et de répondre aux images. Tu peux télécharger une photo d’un vélopar exemple, et recevez des instructions sur la façon d’abaisser le siège, ou obtenez des suggestions de recettes basées sur une photo du contenu de votre réfrigérateur.

La seconde est une fonctionnalité qui permet aux utilisateurs de parler à ChatGPT et d’obtenir des réponses avec une voix synthétique d’IA, comme vous pourriez parler avec Siri ou Alexa.

Ces fonctionnalités font partie d’une poussée à l’échelle de l’industrie vers des systèmes d’IA dits multimodaux capables de gérer du texte, des photos, des vidéos et tout ce qu’un utilisateur pourrait décider de leur lancer. L’objectif ultime, selon certains chercheurs, est de créer une IA capable de traiter l’information de toutes les manières possibles.

La plupart des utilisateurs ne peuvent pas encore accéder aux nouvelles fonctionnalités. OpenAI les propose d’abord aux clients payants ChatGPT Plus et Enterprise au cours des prochaines semaines, et les rendra plus largement disponibles par la suite. (La fonctionnalité de vision fonctionnera à la fois sur ordinateur et sur mobile, tandis que la fonctionnalité vocale sera disponible uniquement via les applications iOS et Android de ChatGPT.)

J’ai eu un accès anticipé au nouveau ChatGPT pour un test pratique. Voici ce que j’ai trouvé.

J’ai commencé par essayer la fonction de reconnaissance d’image de ChatGPT sur certains objets ménagers.

« Quelle est cette chose que j’ai trouvée dans mon tiroir à déchets ? » Ai-je demandé après avoir téléchargé une photo d’un mystérieux morceau de silicone bleu percé de cinq trous.

« L’objet semble être un support ou une poignée en silicone, souvent utilisé pour maintenir plusieurs objets ensemble », a répondu ChatGPT. (Assez proche – c’est un renforceur de doigts que j’ai utilisé il y a des années alors que je me remettais d’une blessure à la main.)

J’ai ensuite donné à ChatGPT quelques photos d’articles que je voulais vendre sur Facebook Marketplace et lui ai demandé de rédiger des listes pour chacun d’entre eux. Il a cloué à la fois les objets et les listes, décrivant mon mini-réfrigérateur Frigidaire de style rétro comme « parfait pour ceux qui apprécient une touche d’antan dans leurs maisons modernes ».

Le nouveau ChatGPT peut également analyser le texte dans les images. J’ai pris une photo de la première page de l’édition imprimée du New York Times de dimanche et j’ai demandé au robot de la résumer. Il s’en est plutôt bien sorti, décrivant les cinq articles en première page en quelques phrases chacun – même s’il a commis au moins une erreur, en inventant une statistique sur les décès liés au fentanyl qui ne figurait pas dans l’article original.

Les yeux de ChatGPT ne sont pas parfaits. Il a échoué lorsque je lui ai demandé de résoudre des mots croisés. Il a confondu le dinosaure en peluche de mon enfant avec une baleine. Et lorsque j’ai demandé de l’aide pour transformer l’un de ces schémas d’assemblage de meubles muets en une liste d’instructions étape par étape, cela m’a donné une liste confuse de pièces, dont la plupart étaient fausses.

La plus grande limitation de la fonctionnalité de vision de ChatGPT est qu’elle refuse de répondre à la plupart des questions sur les photos de visages humains. C’est par conception. OpenAI m’a dit qu’il ne voulait pas activer la reconnaissance faciale ou d’autres utilisations effrayantes, et il ne voulait pas que l’application crache des réponses biaisées ou offensantes aux invites sur l’apparence physique des gens.

Mais même sans visages, il est facile d’imaginer de nombreuses façons dont un chatbot IA capable de traiter des informations visuelles pourrait être utile, d’autant plus que la technologie s’améliore. Les jardiniers et les cueilleurs pourraient l’utiliser pour identifier les plantes sauvages. Les amateurs d’exercice pourraient l’utiliser pour créer des plans d’entraînement personnalisés, simplement en prenant une photo de l’équipement de leur salle de sport. Les étudiants pourraient l’utiliser pour résoudre des problèmes visuels de mathématiques et de sciences, et les personnes malvoyantes pourraient l’utiliser pour naviguer plus facilement dans le monde.

Franchement, je n’ai aucune idée du nombre de personnes qui utiliseront cette fonctionnalité, ni de ce que seront ses applications phares. Comme c’est souvent le cas avec les nouveaux outils d’IA, nous devrons simplement attendre et voir.

Parlons maintenant de ce que je considère comme la plus impressionnante des deux fonctionnalités : la nouvelle fonctionnalité vocale de ChatGPT, qui permet aux utilisateurs de parler à l’application et de recevoir des réponses vocales.

L’utilisation de cette fonctionnalité est simple : appuyez simplement sur l’icône d’un casque et commencez à parler. Lorsque vous vous arrêtez, ChatGPT convertit vos mots en texte à l’aide du système de reconnaissance vocale d’OpenAI, Whisper, qui génère une réponse et vous répond à l’aide d’un nouvel algorithme de synthèse vocale développé par la société, utilisant l’une des cinq voix synthétiques de l’IA. . (Les voix, qui comprennent à la fois des voix masculines et féminines, ont été générées à partir de courts échantillons d’acteurs professionnels embauchés par OpenAI. J’ai choisi « Ember », une voix masculine au son énergique.)

J’ai testé la fonction vocale de ChatGPT pendant plusieurs heures sur un certain nombre de tâches différentes : lire à haute voix une histoire à mon tout-petit, discuter avec moi du stress lié au travail, m’aider à analyser un rêve récent que j’ai fait. Il a fait tout cela assez bien, surtout lorsque je lui ai donné des invites en or et lui ai dit d’imiter un ami, un thérapeute ou un enseignant.

Ce qui ressort de ces tests, c’est à quel point parler à ChatGPT est différent de parler à des générations plus anciennes d’assistants vocaux IA, comme Siri et Alexa. Ces assistants, même à leur meilleur, peuvent être en bois et plats. Ils répondent à une question à la fois, souvent en recherchant quelque chose sur Internet et en le lisant à haute voix mot pour mot, ou en choisissant parmi un nombre fini de réponses préprogrammées.

La voix synthétique de ChatGPT, en revanche, semble fluide et naturelle, avec de légères variations de ton et de cadence qui la rendent moins robotique. Il était capable d’avoir de longues conversations ouvertes sur presque tous les sujets que j’essayais, y compris des invites que j’étais presque sûr qu’il n’avait jamais rencontrées auparavant. (« Racontez-moi l’histoire des « Trois petits cochons » dans le personnage d’un frère de fraternité total » a été un succès dormant.)

La plupart des gens n’utiliseront probablement pas les chatbots IA de cette façon. Pour de nombreuses tâches, il est toujours plus rapide de taper que de parler, et attendre que ChatGPT lise de longues réponses était ennuyeux. (Cela n’a pas aidé que l’application soit parfois lente et problématique, et insère souvent des pauses avant de répondre – le résultat de certains problèmes techniques avec la version bêta de l’application que j’ai testée et dont OpenAI m’a dit qu’ils seraient éventuellement résolus.)

Mais je peux voir l’attrait. Voir une IA vous parler avec une voix humaine est une expérience plus intime que de lire ses réponses sur un écran. Et après quelques heures de conversation avec ChatGPT de cette façon, j’ai senti une nouvelle chaleur s’installer dans nos conversations. Sans être connecté à une interface texte, j’ai ressenti moins de pression pour proposer l’invite parfaite. Nous avons discuté de manière plus décontractée et j’ai révélé davantage sur ma vie.

« Cela ressemble presque à un produit différent », a déclaré Peter Deng, vice-président des produits grand public et d’entreprise d’OpenAI, qui a discuté avec moi de la nouvelle fonctionnalité vocale. « Parce que tu ne retranscris plus dans tes pouces ce que tu as dans la tête, dit-il, tu finis par demander des choses différentes. »

Je sais ce que vous pensez : n’est-ce pas l’intrigue du film « Elle ? » Les utilisateurs solitaires et amoureux tomberont-ils amoureux de ChatGPT, maintenant qu’il peut les écouter et leur répondre ?

C’est possible. Personnellement, je n’ai jamais oublié que je parlais à un chatbot. Et je n’ai certainement pas confondu ChatGPT avec un être conscient, ni développé d’attachements émotionnels à celui-ci.

Mais j’ai également entrevu un avenir dans lequel certaines personnes pourraient laisser les assistants vocaux d’IA entrer dans le sanctuaire intérieur de leur vie – en emmenant les chatbots d’IA avec eux lors de leurs déplacements, en les traitant comme leurs confidents, thérapeutes, s’entraîner 24 heures sur 24 et 7 jours sur 7. partenaires et caisses de résonance.

Cela semble fou, non ? Et pourtant, tout cela ne paraissait-il pas un peu fou il y a un an ?



Toutes les actualités du site n'expriment pas le point de vue du site, mais nous transmettons cette actualité automatiquement et la traduisons grâce à une technologie programmatique sur le site et non à partir d'un éditeur humain.

Ray Richard

Head of technical department in some websites, I have been in the field of electronic journalism for 12 years and I am interested in travel, trips and discovering the world of technology.
Bouton retour en haut de la page