Des ultrasons pour prendre le contrôle de Siri et ses cousins

Florian Innocente |

Les principaux assistants intelligents du marché peuvent être dupés par un système qui leur envoie des commandes vocales sous la forme d'ultrasons inaudibles à l'oreille humaine. Six chercheurs chinois ont publié le résultat de leur expérimentation qui a su déjouer Siri, Alexa d'Amazon, Cortana de Microsoft, Google Now, S Voice de Samsung, HiVoice de Huawei et celui embarqué dans un Q3 d'Audi [pdf].

La méthode, baptisée en forme de clin d'œil "DolphinAttack", consiste à créer et utiliser un enregistrement audio de synthèse (dans le cas présent émis par un Galaxy S6) puis à le moduler pour le transmettre dans une fréquence supérieure aux 20 kHz imperceptibles par l'oreille humaine, mais que la cible électronique percevra.

L'équipe a testé son attaque vers différents iPhone depuis le 4s jusqu'au 7 Plus, des Nexus, Honor, MacBook, iPad, ThinkPad, Apple Watch ou encore Chrome sur un iPhone, l'enceinte intelligente Alexa et cette Audi vendue sur le marché chinois.

Une poignée de commandes ont été évaluées pour successivement réveiller l'assistant (par un "Dis Siri", "Ok Google", "Hi Galaxy", etc) puis lui donner des ordres. Ceux-ci comprenaient un numéro à composer par téléphone (ou par FaceTime sur iOS), l'ouverture d'une adresse web (Open dolphinattack.com), l'activation du mode avion, l'ouverture de la porte d'un domicile connectée avec Alexa et un ordre de conduite pour l'Audi.

L'attirail utilisé pour émettre le signal ultrasons envoyé vers l'appareil cible. Hors smartphone, cela coûte moins de 3 $, écrivent les chercheurs Cliquer pour agrandir

Chacune de ces actions a potentiellement un pouvoir de nuisance si la cible n'est pas consciente de l'attaque en cours ni en train d'utiliser son téléphone : envoyer un terminal sur un site web capable d'exploiter une vulnérabilité inconnue ; provoquer un appel audio/vidéo pour capter l'environnement immédiat de sa victime, créer puis envoyer un faux message par SMS, couper toute communication via le mode avion, etc. Il y a de quoi pimenter un scénario de thriller.

À l'exception de l'iPhone 6 Plus pour le réveil de Siri, tous ces appareils sont tombés dans le panneau. Trois commandes testées en anglais, français, chinois, espagnol et allemand ont donné des résultats homogènes et excellents en termes de fiabilité de la reconnaissance.

Cliquer pour agrandir
Il y a tout de même quelques paramètres à prendre en compte et à sérieusement travailler en amont pour réussir l'opération.

Comme de trouver la distance idéale entre l'émetteur du signal sonore et sa cible. Cela varie d'une génération d'iPhone à l'autre et a fortiori entre un téléphone et une montre. Il faut par exemple 1m 75 maximum de distance pour un iPhone 4s mais 30 centimètres avec un iPhone SE. C'est encore différent sur ce même iPhone SE lorsqu'on veut passer par Google Now via Chrome où il faut diviser la distance par deux.

Ajoutez à cela que toutes les fréquences ne se valent pas, il faut en tester plusieurs, et que la capacité de reconnaissance varie en fonction du bruit environnant et de la longueur de la commande. Envoyer un "Dis Siri" dans l'environnement sonore d'une rue peut marcher à 90 % mais on chute à 30 % avec une phrase plus longue comme celle pour demander d'activer le mode avion.

Il faut tenir compte du retour vocal ou visuel de ces assistants lorsqu'ils ne comprennent pas la requête ou qu'ils l'exécutent. Cela peut attirer l'attention de la victime. Et certains scénario comme celui de forcer Alexa à ouvrir une porte sont par nature difficiles à mettre en oeuvre s'il faut déjà être dans la maison à proximité de l'enceinte…

Les chercheurs ont tout de même démontré qu'ils avaient pu franchir l'obstacle de l'identification de la voix du propriétaire de l'appareil sans quoi l'assistant ne répond pas. Cela peut se faire en testant de multiples combinaisons de voix de synthèse pour générer les commandes (ils ont opté pour un moteur de traduction vocal de texte de Google) ou, si l'on est en possession de fragments audio de sa victime, en étudiant les phonèmes des mots dont on dispose pour reconstituer les termes dont a on a besoin. Un travail de patience et d'orfèvrerie.

Des solutions existent pour les fabricants qui voudraient se prémunir de ces failles, explique l'équipe. D'abord par le matériel, en choisissant des microphones qui seront incapables d'entendre ces ultrasons, ou de les détecter pour mieux les ignorer. Par le logiciel ensuite, les systèmes d'exploitation devraient savoir analyser le signal audio reçu et faire la distinction entre une voix originale et une autre de synthèse.

Pas mal de contraintes au bout du compte pour organiser et mener à bien une telle attaque mais sa faisabilité a pu être démontrée.

avatar armandgz123 | 

Intéressant !

avatar C1rc3@0rc | 

Rahhh oui, on sait maintenant que les hacker peuvent etre aussi des chauve-souris... Bon il reste quand meme une parade mise en place par Apple: la chauve-souris doit parler un anglais parfait et faire des phrases compréhensible par Siri, soit pas de mot de plus de 2 syllabes, et des phrases comprenant un sujet, un verbe et un adjectif ou un adverbe...

Sinon plus sérieusement on peut se poser la question de la raison qui fait que le traitement vocale n'est pas physiquement limité aux fréquences audibles (et prononçables) par l'humain? D'autant que tout l'audio subit un traitement d’écrêtage et de compression sur les fréquences hors audition humaine (et généralement même bien en dessous des seuils communs)

Apres, la question de l'identification de la voix de l'utilisateur... c'est de la biometrie et parmi les moins fiables qui soient et avec les les systemes automatique de 'photoshopisation' de la voix, c'est pas une contrainte ni une securite...

avatar inconyto27 | 

Comme la technologie des kurbies !!!

avatar iPitch93 | 

Dis Siri n'est pas censé ne reconnaître que la voix de son propriétaire ?

avatar Minileul | 

@iPitch93

Si mais la technique utilisé est expliquée dans l'article ;)

avatar MBNH | 

@iPitch93

Mon frère parvient à activer l'assistant avec la commande "Dis Siri" sur mon téléphone. J'ai compris depuis longtemps que c'était pas bien fiable...

avatar BeePotato | 

@ MBNH : « Mon frère parvient à activer l'assistant avec la commande "Dis Siri" sur mon téléphone. J'ai compris depuis longtemps que c'était pas bien fiable... »

Ben le truc, c'est que pour ce système il faut aussi tenir compte du confort d'utilisation.
On pourrait régler le système pour qu'il ne réponde vraiment qu'à la voix de son propriétaire, mais le hic c'est qu'il arriverait alors régulièrement (et trop souvent) qu'il ne réponde pas non plus même quand c'est bien son maître qui s'adresse à lui. Il a donc fallu faire un compromis.

Cette fonction de reconnaissance du locuteur est donc à voir comme servant à apporter un plus grand confort d'utilisation (en évitant que Siri ne réponde trop souvent à n'importe qui), et non comme une fonction de sécurité.

avatar C1rc3@0rc | 

@BeePotato

La reconnaissance d'empreinte vocale est pas fiable du tout. Certifier une voix est quasi impossible et on parle de taux de probabilité. Pour que cela soit utilisable en biometrie faut le compler a une plusieurs autres mesures bien plus fiable (réseau veineux sous cutané ou de l'oeil).

avatar BeePotato | 

@ C1rc3@0rc : « La reconnaissance d'empreinte vocale est pas fiable du tout. »

Pour info : il est recommandé de ne pas utiliser le terme d’empreinte vocale, qui ne décrit pas correctement le principe de la reconnaissance du locuteur.

Comme je l’ai expliqué, on pourrait régler le seuil d’acceptation du système suffisamment haut pour être quasi-sûr de ne répondre qu’au propriétaire de l’iPhone. Mais cette sécurité (illusoire, car restant imparfaite) se ferait au détriment de l’utilité de la fonction. Surtout dans le mode d’utilisation de « Dis, Siri », où la reconnaissance doit se faire sur un temps très court et dans des conditions accoustiques souvent peu favorables. Siri refuserait régulièrement de répondre, en échange d’un gain peu évident.
D’où le réglage plus « laxiste » qui a été retenu.
Et qui se combine avec le fait que le taux de confusion avec d’autres voix est plus ou moins élevé selon les personnes (certains ont une voix très unique, d’autre une voix passe-partout) pour au résultats que certains utilisateurs obtiennent, comme dans le témoignage de MBNH.

avatar tbr | 

@iPitch93

Un podcasteur prononçant cette fameuse phrase a déclenché mon iPad alors non, ce n'est pas toujours tel que l'on voudrait que ce soit.
Je ne compte pas le nombre de fois où Siri s'est mis à délirer en voulant m'aider alors que je ne lui demandais rien, même pas le "Dis Siri". Il aura cru l'entendre, mais non.
> la reconnaissance vocale, quel qu'elle soit, est archaïque, stupide et loin d'être au point.

avatar C1rc3@0rc | 

@tbr

Le systeme employé par Apple est archaique dans l'interpretation, c'est un fait confirmé par Luc Julia, l'architecte de Siri.

Apres, la traitement de la parole permettant de traduire un discours parlé en ecrit (speech) repose sur des processeurs particulierement efficaces. La ou le truc ne fonctionne pas c'est dans la phase ce comprehension du discours (meaning). L'approche d'Apple et des autres c'est de faire simplement du pattern matching en se basant sur une base de données exhaustive de phrases pretraitées. La cuisine se faisant alors sur la variation de la formulation a partir de mot cle identifiés. Dans le cas ou une phrase n'est pas reconnu par le systeme de pattern maching (non precedemment entrée ou dont la prononciation echape aux systemes de traitement electroniques) c'est un humain qui va traiter la phrase et l'inserer dans la base de données pour la prochaine utilisation...

avatar ovea | 

Hey ! Siri c'est moi l'empereur, écoute
— tututu tu tututu tu

avatar 33man | 

Donc en fait on aura le iChien en accessoire bientôt pour nous avertir si on se fait attacker par ultrasons ?

Bref ça fait un poil peur, mais c'est juste à cause des récepteurs qui sont bien meilleurs que notre vieille oreille humaine...???

avatar Eratic | 

Et les raisons de l'échec avec un iPhone 6 Plus?

avatar C1rc3@0rc | 

@Eratic
Batterie a plat?
Passage a iOS 11 le rendant trop lent pour qu'il fonctionne?

avatar Alberto8 | 

"

"

Salut j'ai pris le contrôle de Siri sur votre appareil 😉😂

avatar Fego-007 | 

Précision quand même : dis Siri fonctionne que sur secteur sur les iPhones avant les 6s ( je crois ??).

avatar ovea | 

C'est bizarre quand même que, ce retard sur l'étude et la synthèse plus fine de la voix en soient restées à un stade si primitif, et finalement très robotique pour ne pas froisser l'humain … sans doute, ou tout simplement par crasse ignorance.

La cybernétique, par le truchements de la terrible IA, aura-t-elle raison de réveiller l'étude de la temporalité en psychologie cognitive, alors même qu'elle reste cantonnée, pour certains observateurs aguerris des pratiques sociales … à un art magique et divinatoire ?

Pas besoin d'être un astronaute, ni même un sous-marinier et encore moins un ermite pour qu'une fois de retour sur le plan humain, tout s'éclaire.

Extinction des lumières chez Siri … ainsi que pour tous les autres qui, par trop s'enorgueillir d'occuper le terrain pour la gloire monétaire, en oublie qu'un système opérationnel sur ce plan devra abandonner l'idée même de récupérer et de centraliser … la langue qui n'est que plurielle.

(À SUIVRE)

avatar C1rc3@0rc | 

«C'est bizarre quand même que, ce retard sur l'étude et la synthèse plus fine de la voix en soient restées à un stade si primitif, et finalement très robotique pour ne pas froisser l'humain … sans doute, ou tout simplement par crasse ignorance.»

Un seul animal sur la planete est capable d'utiliser extensivement le langage a double articulation pour communiquer avec ses semblables (et tenter de communiquer avec des animaux voire des objets dans le cas de delires emotionels variés... anthropomorphisation ).

La plupart des etre humains ne sont capables d'utiliser qu'un sous ensemble restreint du langage utilisé par leurs groupe sociale habituel.

Un nombre extremement restreint d'etre humain est capable de s'exprimer dans 2 langages distincts (les vrais polyglotes)

L'humain utilise tres souvent des redondances et des verifications avant d'accepter que ce que lui dit un autres (ou alors il s'agit d'un encodage stereotypés permettant d'eliminer les interpretations - miliaires, navigateur,...): est ce que tu veut dire, si j'ai bien compris, je comprends pas, tu es sure de vouloir dire que, tu voudrais dire, cela signifie que, si j'entends bien,...

deux humain parlant la meme langue peuvent avoir des accents (prononciations) tres differentes qui ralentisses (empechent) la compréhension mutuelle (vas faire communiquer des supportrs de l"OM et du PSG, pourtant leurs vocabulaire est aussi limité que leur (in)culture, centre d'interet et intelligence)

le langage humain se base sur deux flux, verbale et non verbale, simultanés qui represente un champ semantique indiscociable: l'un peut changer le sens de l'autre totalement. En plus de ces 2 flux, le langage humain repose sur l'interpretation semantique, avec un contexte emotionnel qui peut avoir un sens ou enlever tout sens, la signification d'un mot peut etre totalement dependante de l'intonation et l'utilisation de l'intonation est en partie fonction du langage et de l'instabilité émotionnel...

Bref.

avatar oomu | 

"Un travail de patience et d'orfèvrerie."

orf, suffit d'utiliser un ordi.

avatar madzed73 | 

Ça sent l’arnaque quelles sont les fréquences auquel le micro de l’iPhone répond au-dessus des 20KHz ? J’y crois pas une seul seconde ! Un tel micro coûterait une fortune et ne serait sûrement pas installer dans des iPhones !

avatar digitalscreen | 

j adore ces articles genre attention vous allez etre attaque par des mechants chinois du fbi avec seulement 3 dollars !!
bon apres il faut qu il soit dans la meme piece a mons de 30 cm . ect ect ect .. putaclick .......

avatar Bigdidou | 

@digitalscreen

« j adore ces articles genre attention vous allez etre attaque par des mechants chinois du fbi avec seulement 3 dollars !! »
Ben, ici, il y a beaucoup de conditions à réunir et ça doit couter plus de trois dollars. Mais je suis d’accord, je panique pas trop non plus, là.

avatar IceWizard | 

@Bigdidou
"Ben, ici, il y a beaucoup de conditions à réunir et ça doit couter plus de trois dollars. Mais je suis d’accord, je panique pas trop non plus, là. »

Reste prudent quand même, un cutter coûte moins de 3 dollars, et permet de prendre le contrôle d’un iPhone à courte distance.

Dans un autre domaine, as-tu vu ma réponse à ton post dans le topic sur la programmation en Swift ? J’ai laissé trainer quelques jours avant de répondre (4 jours sans connexion internet).

avatar Bigdidou | 

@IceWizard

Ah. Non,, je vais voir, alors.
Pour le cutter, je suis plus inquiet, oui, surtout que c’est un peu chaud, le coin de Paris où je bosse. Et un cutter ça plus plus mal à des oreilles de cinquantenaire que des ultrasons.
Mais personne ne semble avoir jamais eu envie de mon iPhone : D
Je blague…

CONNEXION UTILISATEUR