Face à la concurrence, Siri cherche une voie singulière

Mickaël Bazoge |

Ce n’est pas demain la veille que l’on tombera amoureux de Siri comme Joaquin Phoenix tombe raide dingue de Samantha, son assistante virtuelle du film Her. Mais avec iOS 11, Apple va donner à la voix de son intelligence artificielle une tessiture plus humaine, ce qui est un premier pas. D’abord pour les voix en anglais, qui n’ont jamais été aussi proches de « vraies » voix ; pour s’en rendre compte, changez la voix de Siri dans les réglages de l’iPhone et choisissez l’anglais des Etats-Unis. La comparaison n’est clairement pas à l’avantage de la voix française…

Cliquer pour agrandir

Néanmoins, Siri est encore loin de Samantha qui bénéficie de la voix de Scarlett Johansson ! Pour Alex Acero, le directeur d’Apple en charge des technologies qui se cachent derrière Siri, la voix générée par un ordinateur doit marquer « les pauses au bon moment, les bonnes intonations, une voix douce ». Il ajoute à ce cocktail un léger rendu métallique.

Wired revient sur la conception de Siri et en particulier sur un aspect technique que l’on a déjà pu traiter encore récemment (lire : En racontant n’importe quoi, Susan Bennett est devenue la voix originale de Siri). Le site a également obtenu quelques intéressantes informations sur les difficultés rencontrées par l’assistant, en particulier durant ses premières années durant lesquelles Siri a donné l’impression de faire du surplace, après un départ tonitruant.

Avant l’acquisition par Apple, Siri était une application autonome.

Une entreprise fournissait en effet à Apple toute l’architecture indispensable à la reconnaissance vocale. Cette société, que la Pomme n’a jamais voulu identifier clairement (il s’agit sans aucun doute de Nuance), a été un boulet qui a empêché Siri d’avancer à son rythme. « C’était comme faire la course avec quelqu’un qui vous tirait de l’arrière », explique Greg Joswiak, le vice-président du marketing produits. Apple a toujours eu des grands projets pour Siri, « l’idée d’un assistant à qui vous pouviez parler avec votre téléphone, et lui faire faire des choses facilement ». Mais voilà, la technologie n’était pas encore au point.

Il a fallu qu’Apple prenne en main, seule, le destin de Siri. Ce qui a été le cas quelques années après le lancement de l’assistant (en 2011 en même temps que l’iPhone 4S). L’assistant s’appuie désormais sur les travaux d’intelligence artificielle de ses équipes de chercheurs, qu’Apple commence d’ailleurs à publier. L’apprentissage automatique est utile dans deux domaines : la dictée vocale pour laquelle Siri tente de saisir ce que l’utilisateur lui dit (le moteur de reconnaissance vocale identifie désormais correctement 95% des requêtes), et l’inverse, c’est à dire quand Siri prend la parole.

Siri n’est évidemment pas parfaitement au point. L’assistant a beau être le plus répandu sur la planète (il parle et comprend 21 langues et est utilisé par 375 millions d’utilisateurs), Siri est souvent comparé défavorablement à Alexa, qui est plus polyvalent avec ses nombreux développeurs, et à Google Assistant qui est bien plus au fait de l’actualité. Et puis Apple a aussi l’art de se mettre des bâtons dans les roues en ne sachant parfois pas dans quelle direction aller.

Pour Joswiak, les choses sont très claires : depuis le départ, il voulait que Siri remplisse des tâches d’assistant, une « machine à faire les choses » plutôt qu’un fort en thème capable de répondre à n’importe quelles questions, surtout les plus farfelues. « On n’a pas développé Siri pour le Trivial Pursuit », proteste-t-il. Il est vrai que l’assistant sait gérer à peu près bien les tâches un peu pénibles (création de rappels, minuteur, gestion de rendez-vous…). Siri sait aussi faire des blagues et a du répondant, mais il renvoie fréquemment (trop souvent) sur une recherche sur le web.

Apple a pris conscience des limites de Siri. Récemment, l’entreprise a embauché un « Tsar du cool » pour que l’assistant soit mieux connecté à l’écume de l’actualité, lui évitant ainsi de passer à côté d’événements qui paraissent évidents. Et le constructeur a bien l’intention de pousser les utilisateurs de ses produits à faire appel à Siri. « Les gens ont leurs habitudes », explique Acero. « S’ils ont l’habitude de taper du texte, changer ça tout d’un coup, cela demande du temps ».

La récente campagne de pub mettant en scène Dwayne “The Rock” Johnson participe de cette volonté, tout en orientant les utilisateurs vers les usages possibles de Siri (rien de trop farfelu à en croire les réclames avec The Rock). Et puis il y a le HomePod qui arrivera en fin d’année. Comme le Siri de l’Apple TV qui met l’accent sur les contenus TV (il a même remporté un Emmy), l’assistant intégré de la future enceinte devra montrer un goût certain pour la musique, entre autres choses.

L’an dernier, Apple a fini par ouvrir son assistant aux développeurs, via SiriKit. Petit à petit, les capacités du service s’enrichissent, même si ce n’est pas à la même vitesse d’une concurrence beaucoup plus ouverte. Pour Joswiak, ce n’est pas un problème : l’important, c’est que les choses soient bien faites. « Ce que nous ne voulons pas, c’est de devenir “normatif” », c’est à dire forcer l’utilisateur à devoir apprendre une syntaxe spécifique, comme : « Alexa, demande à Daily Horoscope l’horoscope du Taureau ».

Cliquer pour agrandir

Siri cherche au contraire à conceptualiser la requête pour saisir ce dont l’utilisateur a besoin, même s’il l’exprime d’une manière qui n’est pas conventionnelle. Cela demande du temps, et Apple préfère ne rien précipiter plutôt que de faire les choses à moitié. Quitte à paraitre en retrait des autres assistants…

Tags
#Siri
avatar TrollMan06 | 

Qu'est ce que Siri est merdique olalala. Ce matin je lui demande : contre qui joue le PSG ? Elle me retourne la liste des joueurs du PSG...

avatar TrollMan06 | 

@TrollMan06 :
Édit : ca y est Apple a mis à jour les réponses

avatar jazz678 | 

@TrollMan06

Personne ne sait contre qui joue le PSG...hormis les supporters du PSG

avatar TrollMan06 | 

@jazz678 :
Google assistant le sait, ça veut dire que Google est supporter du PSG ?

avatar jazz678 | 

@TrollMan06

On trouve tout et n'importe quoi sur Google ?

avatar p@t72 | 

On trouve même appeuuul!

avatar Smartiiez | 

Non, ça veut dire que Google "est" un moteur de recherche, donc heureusement que Google Assistant est capable de te répondre.

avatar TrollMan06 | 

@Smartiiez :
Tu connais pas le 2nd degrés ?

avatar Smartiiez | 

@TrollMan06
Je réponds un peu tard, mais bon.
Le 2nd degré, je connais, mais j'ai perçu ton message, par la formulation, comme sarcastique. Mea Culpa ✌️

avatar en ballade | 

@TrollMan06

Google assistanT sur iOS te donne le bon résultat

avatar ovea | 

Siri, ainsi que les autres, ne se réduisent pas à l'actualité

avatar C1rc3@0rc | 

En effet ils ne fonctionnent que dans le passé et le connu commun..

apres l'idee d'avoir une interface conversationnelle implique de definir ce qu'est l'espace conversationnelle.
Une voix c'est un contenant pour un discours, discours qui peut avoir un sens, formalisé autour d'une syntaxe, d'une grammaire... mais il y a aussi et surtout une dimension emotionnelle (instable), culturelle(identitaire), un style (identitaire), une typologie de personnalité(fixe mais avec des interférences) et une mode (instable par nature).

La signification d'une meme phrase prononcée dans un etat neutre, un etat d'exaltation ou un etat de colere peut etre totalement opposé. Sa perception emotionnelle depend aussi de l'etat emotionnel prealable de celui qui entend.

La signification emotionnel d'un mot va aussi dependre de son contexte et de l'intention et de l'etat d'esprit et emotionnel des deux communicants.

La voix peut etre perçue comme agreable ou pas selon un amalgame d'elements qui varient du quasi-fixe (biologique) au totalement instable (emotion). La meme Scarlett Johansson pourra faire de sa voix un outil de séduction ou un outil de dissuasion en en changeant l’intonation, la volume, l'accentuation... les langues polytonales(chinois) ont des criteres qui différents totalement des langues monotonales (français) pour se percevoir comme agreables ou pas. On rajoute ensuite la capacité de discrimination du degré tonal qui est culturel(occidental= demi ton, oriental = 1/4 a 1/16 de ton) et physiologique (periode d'empreinte + age)...

avatar C1rc3@0rc | 

En effet ils ne fonctionnent que dans le passé et le connu commun..

apres l'idee d'avoir une interface conversationnelle implique de definir ce qu'est l'espace conversationnelle.
Une voix c'est un contenant pour un discours, discours qui peut avoir un sens, formalisé autour d'une syntaxe, d'une grammaire... mais il y a aussi et surtout une dimension emotionnelle (instable), culturelle(identitaire), un style (identitaire), une typologie de personnalité(fixe mais avec des interférences) et une mode (instable par nature).

La signification d'une meme phrase prononcée dans un etat neutre, un etat d'exaltation ou un etat de colere peut etre totalement opposé. Sa perception emotionnelle depend aussi de l'etat emotionnel prealable de celui qui entend.

La signification emotionnel d'un mot va aussi dependre de son contexte et de l'intention et de l'etat d'esprit et emotionnel des deux communicants.

La voix peut etre perçue comme agreable ou pas selon un amalgame d'elements qui varient du quasi-fixe (biologique) au totalement instable (emotion). La meme Scarlett Johansson pourra faire de sa voix un outil de séduction ou un outil de dissuasion en en changeant l’intonation, la volume, l'accentuation... les langues polytonales(chinois) ont des criteres qui différents totalement des langues monotonales (français) pour se percevoir comme agreables ou pas. On rajoute ensuite la capacité de discrimination du degré tonal qui est culturel(occidental= demi ton, oriental = 1/4 a 1/16 de ton) et physiologique (periode d'empreinte + age)...

avatar Bigdidou | 

@C1rc3@0rc

En tout cas, ce que font les informaticiens à propos de l’étude du langage, dans le double objectif de le faire comprendre puis reproduire par une machine est tout à fait passionnant, et aura, je pense, des retombées collatérales multiples en médecine, (neuro)-psychologie et tous les domaines associés.
Exactement comme ce sont les recherches et les développements autour de « l’intelligence artificielle » qui nous ont permis de modéliser ensuite les processus cognitifs biologiques.

avatar juju1524 | 

Je suis sur iOS 10 et quand je demande à Siri ce qu'il sait faire, dans la section appareil photo, il me dit que je peux lui demander de scanner un code QR. Mais quand je luis demande de le faire, rien ne se passe. Normalement, c'est une nouveauté d'iOS 11, comment ça se fait que Siri soit en avance ?

avatar ovea | 

L'assistant vocal … assiste, d'autant mieux que le système est fait pour chercher des réponses … qui existe :

La recherche sur macOS et iOS avec Spotlight est malheureusement déjà déficiente.

Apple n'a aucune politique de normalisation pour l'accès au lexique des fonctions accessibles dans une application ou un composant du système.

Pour preuve : AppleScript, l'automate de ces fonctions, est incapable de prendre note de toutes les actions banales sur l'interface utilisateur !!!

Apple n'a même pas conscience de l'équivalence entre une interface graphique et le langage qui décrit totalement et explicitement les actions effectué par l'utilisateur afin de les reproduire … et d'en raffiner … la programmation, sans être un langage informatique à proprement parler !

Dans le fond, Apple est si jalouse de sont interface … qu'elle restera incapable de faire un assistant vocale introspectif.

avatar heu | 

Avec l'accenG ToulousainG conG !

avatar tyga tiger | 

Siri c'est bien pourrit je ne l'utilise jamais car trop laborieux " dis Siri " ne fonctionne quasiment jamais chez moi et sur tout mes appareils

Et les fameux : "il faut parler distinctement" arrêter vos conneries svp .

Siri est juste trop aléatoire voir mauvais donc faut vraiment que chez Apple ils commencent à bosser dessus plus sérieusement n'en déplaise à certains

avatar Pffffff | 

@tyga tiger

Tu vas pas me faire croire que tu n'arrives même pas à lancer un miniteur ?

De mon côté aucun soucis pour utiliser toutes les fonctions dévolues à un assistant :
https://www.apple.com/fr/ios/siri/

Je vois pas l'intérêt de faire une recherche "Google " avec ...

avatar tyga tiger | 

@Pffffff

?? LOL je m'en sers jamais

avatar Smartiiez | 

@tyga Tiger
? Je m'en sers tous les jours.

avatar pat3 | 

@tyga tiger

"Siri est juste trop aléatoire voir mauvais"

En français - c'es pas pour dédouaner Siri que je dis ça. En anglais c'est vraiment autre chose.

avatar Mr Bob | 

Essayez en anglais si vous pouvez, ça change pas mal.

avatar mrlupin | 

@Mr Bob

Deja "hey Siri " c'est plus simple comme sesame que "dis Siri " ensuite DETE sla version anglaise est meilleur mais n'atteint pas le niveau de compréhension et contextualisation de Google

avatar IceWizard | 

@Mikaël

"Ce n’est pas demain la veille que l’on tombera amoureux de Siri comme Joaquin Phoenix tombe raide dingue de Samantha, son assistante virtuelle du film Her."

Tu as du rater quelques épisodes de The Big Bang Theory. Raj est raide dingue de Siri .. Il en rêve même la nuit ..

avatar Mickaël Bazoge | 
J'ai regardé deux épisodes, je trouve la série vraiment pas terrible... Et les rires enregistrés, en 2017, c'est plus possible.
avatar Ielvin | 

@MickaëlBazoge

Merci ! Merci !!
Pareil pour les panneaux « applauses ! » mon dieu, quelle horreur.

avatar Fego-007 | 

@MickaëlBazoge

+1000
Pas du tout intéressant je trouve comme série .

avatar mesha76 | 

Je le trouve loin d'être parfait c'est vrai mais qu'est ce que l'on revient de loin car en 2011 à la sortie du 4S il était inutilisable alors que depuis 2 ou 3 ans on peut lui dicter un message ce qui est très bien je trouve.

avatar ovea | 

Si la dictée vocale fonctionnait si bien, elle serait intégrée dans le sytème, à l'aide même d'un composant capable de reproduire cette écoute si spécifique de la voix.

Ce n'est absolument pas le cas.

C'est comme si l'utilisation du clavier demandait une connexion permanente, très pénalisante pour l'autonomie d'un téléphone portable et de son sytème qui minimise en permanence, ou le devrait, la dépense d'énergie … on le comprend très bien ?

Non !

La dictée vocale n'est pas du tout une question d'habitude face au clavier, puisque elle est plus simple et automatique à utiliser … et on peut chuchoter également !

avatar mfams | 

Oui, Google est l'ami de tous! ^^

avatar e2x | 

Siri est en effet excellent en English
mais avoir Bing comme seul moteur de recherche est assez rébarbatif niveau réponses web

avatar ovea | 

Non non non : Siri et les autres ne peuvent pas être «bons» et utilisés «sans soucis» … dans l'absolu, comme assemblée de plusieurs fonctionnalités dont certaines ne sont pas du tout utilisables.

avatar LeGrosJeanLou | 

@tyga tiger

"?? LOL je m'en sers jamais"

Du coup c'est peut-être pour ça que tu le trouves nul ^_^.
.
Pour toutes ces tâches Siri est super efficace. Et c'est pas une question de parler distinctement, parce que Siri comprends même très bien mon Anglais.

La seule chose que j'ai noté avec Siri c'est que pour qu'il comprenne il vaut mieux lui parler comme à un être humain que comme à un robot avec des pauses. Toute la clé de la reconnaissance vocale de Siri repose sur la compréhension de la globalité de la phrase et surtout pas mot à mot.

Si tu veux tester sans te sentir frustré par les réponses de Siri, utilise la reconnaissance vocale du clavier dans l'app Notes (ou n'importe quelle autre app de prise de Notes). Tu verras bien quand ça merde et quand ça marche. En tout cas je suis persuadé qu'une des raisons pour laquelle Siri ne marche pas chez certains utilisateurs c'est qu'ils ne lui font pas assez confiance pour comprendre et se mettent à hacher leur dictée, ce qui foire à tous les coups.

avatar ovea | 

C'est justement parce qu'on ne peut pas dissocier la dictée vocale de l'assistant dans le globish «Siri» qu'on ne peut pas utiliser Siri.

avatar adamB | 

Alors moi qui parle dans ma barbe, Siri comprend tout ce que je lui dis. Ce qui serait vraiment bien c'est qu'elle/il suive un peu mieux la conversation. Google assistant a une voix de naze mais si je lui demande le temps de demain puis que je dis "et ce WE" GA est capable de répondre. Siri me renvoie "c'est tout ce que j'ai trouvé sur "et ce WE" sur internet" ??

avatar ovea | 

Attention !

Un Siri qui fonctionne, c'est un Siri qui comprend ma voix ET qui peut parler comme moi ?

avatar Jonathan16 | 

Si même notre fille de 8 ans y arrive pourquoi pas vous ?... plus sérieusement nous sommes 3 ici, dont moi qui m'en sers tous les jours et pour tout ce qu'il peut faire (la liste est bien longue), et il fonctionne parfaitement (de l'iPhone, l'Apple Watch, l'iPad, l'Apple TV, le mac), et je m'en sers depuis le 4S... mais mon ami qui lui ne s'en sert que très très occasionnellement, il faut avouer que ce n'est pas parfait de son côté (et pourtant nous avons les mêmes appareils)... peut-être que le fait de s'en servir quotidiennement est important...

avatar Domsware | 

@Jonathan16

J'ai remarqué également que Siri s'améliorait à l'usage.

avatar macbook60 | 

@Domsware

Oui j'ai entendu ou vu cela aussi

avatar expertpack | 

@Jonathan16

ahhh il ne connait pas irma !

avatar Eurylaime | 

Accuser une partie tierce c'est un peu court pour expliquer que chez Apple ils sont mauvais sur le sujet.

avatar steph775 | 

@Eurylaime

? bien vu

avatar Mike Mac | 

Siri.... Le faux mage des gastronomes en culotte courte !

avatar DouceProp | 

Dans la série The Big Bang Theory il y a un épisode où Rajesh Koothrappali tombe amoureux de Siri (voix féminine) et sort avec.

avatar expertpack | 

je viens de lui demander des info sur le cyclone irma
il m'envoi les bouticles de cycles et cyclo
et avec ouragan irma, il me dit ne pas comprendre ouvre un gants.
foutage de gueule ce truc.
je tape irmo sur google ( 1/2 seconde ) et j'ai tout
essaye encore popomme

avatar Bigdidou | 

@expertpack

« et avec ouragan irma, il me dit ne pas comprendre ouvre un gants. »
J’ai testé, du coup, il m’envoie sur une boutique de fringue : ouragan.com.
Impressionnant.
Enfin, je sais pas si c’est le bon mot ?

CONNEXION UTILISATEUR