[Accès libre] Be My AI : quand GPT-4 décrit fidèlement l'environnement des personnes aveugles

Stéphane Moussie |
Club iGen 👑

Cet article qui aurait normalement dû être réservé aux membres du Club iGen est exceptionnellement en accès libre. Pour découvrir tous les articles exclusifs du Club iGen et d'autres avantages, abonnez-vous !

Lancée en 2015 comme une plateforme d'entraide entre personnes non voyantes ou malvoyantes et volontaires voyants, l'application iPhone Be My Eyes accueille depuis quelques mois un nouveau bénévole disponible à n'importe quelle heure du jour ou de la nuit : GPT-4V. Le dernier modèle d'OpenAI, doté d'une fonction de vision, est mis à profit pour décrire précisément l'environnement des personnes ayant une déficience visuelle.

L'utilisation est simple : après avoir créé un compte dans l'application, on se rend dans le nouvel onglet Be My AI et on prend en photo l'objet ou la scène à décrire. La photo est alors envoyée sur les serveurs d'OpenAI pour être analysée par GPT-4V. Une dizaine de secondes plus tard, la description est affichée dans l'application et elle peut être lue par VoiceOver, le lecteur d'écran intégré à iOS.

Scène décrite par la fonction Be My AI.

« Le résultat de ces analyses est le plus poussé que je n’ai jamais vu dans aucune autre application de détection et de reconnaissance d’image », nous indique Tristan, un développeur aveugle qui nous a signalé l'existence de Be My AI. Depuis son lancement à la rentrée sur iOS (la version Android se fait attendre), la fonction a déjà été utilisée plus d'un million de fois par plusieurs milliers de personnes.

« Depuis que j'ai connaissance de cette nouveauté, je me suis amusé à la mettre à rude épreuve en lui faisant ingurgiter toutes sortes d'images prises en bougeant, depuis la fenêtre d'un TGV, le téléphone à l'envers, de nuit, de jour… Et jusqu'à l'heure, je n'ai pas franchement réussi à la prendre en défaut », note Tristan. Il y a bien de petites erreurs, comme une pile de linge prise pour une couverture pliée, mais pas de grosse confusion comme il pouvait y en avoir avec les premières technologies de reconnaissance d'image, selon lui.

« Les descriptions générées sont vraiment impressionnantes de précision : on a un résumé des éléments et s'il y a des gens, on a leur description ainsi que leur action, explique-t-il. S'il semble que l'IA galère parfois un peu avec les couleurs et les nuances, à cause des conditions d'éclairage par exemple, on est vraiment sur quelque chose de globalement cohérent. »

Demande de précision à GPT (qui aboutit à une erreur).

Il est même possible de demander à GPT des précisions sur la scène capturée pour éclaircir tel ou tel point, comme on le ferait avec un bénévole humain. Lors d'un de nos essais, l'assistant s'est trompé quand il s'agissait de savoir si le stylo capturé avait un bouchon ou non. C'est pour ce genre d'imprécision que By My AI est toujours présentée comme une « bêta ouverte », qu'elle est accompagnée d'un message d'avertissement (il est déconseillé de l'utiliser pour des actions ou des données sensibles) et qu'il reste possible d'appeler facilement un volontaire en chair et en os.

Le temps de traitement relativement long (une dizaine de secondes en moyenne) et la consommation de ressources sur iPhone assez élevée (même si l'analyse est effectuée en ligne) sont deux autres bémols, mais Tristan les pardonne sans peine au vu de l'efficacité de l'analyse. La gestion des données peut être aussi considérée comme un écueil dans certains cas : les photos prises avec Be My AI peuvent être stockées par le fournisseur du service (OpenAI) et exploitées pour entraîner sa technologie d'intelligence artificielle. Be My Eyes n'en fait pas mystère en déconseillant son utilisation pour des informations sensibles.

Depuis iOS 16, Apple propose sa propre solution de reconnaissance de l'environnement qui n'a pas ces défauts. La fonction de description associée à la Loupe est exécutée en local pour une analyse immédiate (pas besoin de prendre de photo, la description s'affiche quasi instantanément) et privée. La contrepartie, c'est que la description est très sommaire : quand la fonction native d'iOS se contente de lister les objets présents, Be My AI détaille à quoi ils ressemblent et comment ils sont répartis dans l'espace. « Les deux solutions sont en fait complémentaires », résume Tristan.

Fonction de description de l'environnement intégrée à iOS / Be My AI

Be My AI est gratuit durant cette phase de bêta et le restera normalement à l'avenir. L'éditeur prévient néanmoins que si le contrat avec son partenaire devait prendre fin, il devrait envisager d'autres options. OpenAI fait habituellement payer GPT-4V, mais les deux acteurs ont sûrement trouvé un accord spécial permettant à Be My Eyes d'en profiter gratuitement en échange des données de ses utilisateurs.

Alors que Microsoft a intégré ce mois-ci Be My AI à son centre d'assistance dédié aux personnes handicapées, Tristan imagine déjà d'autres usages avec GPT-4V, comme la création d'audiodescriptions pour les films qui restent trop rares : « Netflix a commencé à produire des descriptions avec des voix synthétiques qui lui permettent de rédiger le texte puis de le traduire correctement dans chaque langue sans avoir recours à des comédiens, mais tellement reste à faire qu'un petit coup de main de l'IA serait bienvenu. »

avatar Giloup92 | 

Merci GPT-4V !

avatar undien | 

Je confirme tout cela, franchement exceptionnel, une qualité d’analyse, jamais vu jusqu’à ce jour, c’est le cas de le dire

avatar Gotmilker | 

Sans synthèse vocale ça perd un peu d’intérêt pour un malvoyant.

avatar Stéphane Moussie | 
@Gotmilker : j'ai oublié de le préciser tellement ça me semblait évident, mais c'est compatible avec le lecteur d'écran VoiceOver. J'ai ajouté un mot.
avatar Gotmilker | 

@stephmouss

C’est dommage que ce ne soit pas directement intégré à l’appli.

avatar pasc75 | 

Utilisée par ma mère aveugle tous les jours avec grand bonheur. Cette appli est exceptionnelle. J’ai été bleuffée.

avatar dolbyEX | 

Etant aveugle, je suis impressionné depuis que je l’utilise

avatar Goldasurf | 

J’utilise cette fonctionnalité et c’est vraiment bluffant 😀

avatar Cindynamic | 

"les descriptions générées sont vraiment impressionnantes de précision". Je n'aurais pas dit mieux, c'est tout simplement bluffant. Le rendu est plus précis que certaines descriptions humaines. Alors, d'un côté c'est enthousiasmant et plaisant d'avoir toujours plus d'autonomie grâce aux nouvelles technologies, mais d'un autre côté c'est inquiétant pour l'avenir de bien des métiers par exemple. Sans compter que parfois l'IA et les voix de synthèses ne remplacent pas la chaleur d'une voix humaine. Concernant Netflix et ses audiodescriptions avec voix synthétiques, franchement, il n'y a pas d'autres mots que: dégueulasse à écouter! Il vaut peut-être parfois mieux avoir moins de contenus accessibles mais prioriser le qualitatif.
Pour en revenir à BeMyAI, espérons que cela reste gratuit, même si bien sûr nous savons tous que lorsque ça l'est, c'est nous le produit. Il suffit de le savoir pour ne pas lui envoyer de données sensibles. Pour le reste, c'est du donnant-donnant, il sait des choses sur nous, notre entourage, les lieux qu'on visite, et toute autre information envoyées dans les photos, mais en échange il nous facilite la vie. Il est même excellent pour la reconnaissance de l'écriture manuscrite.

avatar hugome | 

Merci pour cet article, intéressant en soi et qui met un contrepoint à tous les hurlements catastrophistes.

avatar Lu Canneberges | 

Nous autres volontaires voyants de Be My Eyes allons bientôt nous retrouver au chômage ahah, mais d’un côté tant mieux !

C’est extraordinaire et apportera encore énormément d’améliorations de qualité de vie, mais je pense qu’il restera pendant encore un moment de nombreuses situations dans lesquelles une aide humaine sera essentielle… ne serait-ce que quand dans un magasin on me demande de l’aide pour trouver un produit en visio, si l’IA a besoin de 10 secondes par photo cela prendrait une éternité… et pour comprendre le fonctionnement d’une nouvelle machine à café pareil !

Bref, j’en suis heureux pour les personnes concernées mais je serai toujours au rendez-vous !

CONNEXION UTILISATEUR