Siri : des oreilles humaines écoutent des conversations parfois très privées enregistrées par accident

Mickaël Bazoge |

Pour améliorer Siri, Apple fait appel à des sous-traitants chargés d'écouter des extraits audio captés auprès d'utilisateurs. Une pratique qui est celle de toute l'industrie : Amazon et Google emploient aussi ces petites oreilles discrètes… et parfois indiscrètes. Dans le cas d'Apple, c'est bien plus embêtant en raison de la position très ferme de l'entreprise sur la confidentialité des données.

« Votre iPhone en sait beaucoup sur vous. Mais pas nous », assure Apple sur un panneau géant à New York.

Une source de ces sous-traitants a évoqué son travail et ses inquiétudes auprès du Guardian. Il n'est en effet pas rare d'entendre des conversations très privées qui, manifestement, n'étaient pas destinées à Siri. Vente de drogue, discussions autour d'un contrat commercial, et même des couples qui font l'amour, c'est arrivé plus d'une fois.

Siri n'est pas censé écouter aux portes. L'assistant ne se lance qu'après avoir entendu son déclencheur, « Dis Siri ». Or, il est assez fréquent que l'assistant s'active par accident. Sur l'Apple Watch il n'est même plus utile de le convoquer, il suffit de porter la montre à sa bouche puis de parler1. Le sous-traitant explique d'ailleurs que les extraits audio accidentels proviennent souvent de l'Apple Watch et du HomePod.

« La régularité des déclencheurs accidentels avec la montre est incroyablement élevée », détaille cette source. « [L'Apple Watch] peut enregistrer des extraits de 30 secondes. Ce n'est pas si long, mais vous pouvez avoir une bonne idée de ce qui se passe ».

Parfois, on entend un docteur parler de l'historique médical d'un patient. Ou vous pouvez entendre quelqu'un, avec un bruit de moteur au fond, en train de dealer de la drogue. Et vous pouvez aussi écouter des gens en train de faire l'amour, et qui s'enregistrent accidentellement sur le HomePod ou la montre.

S'il est possible à ces employés de signaler à leur direction ce type d'activations non désirées, c'est uniquement en tant que problème technique. Il n'existe aucune procédure pour les enregistrements « sensibles » qui pourraient faire l'objet d'une enquête policière, par exemple. Les extraits audio captés par Siri sont accompagnés d'informations qui pourraient aider à identifier l'utilisateur : localisation, détails de contacts, données d'application.

Ces informations servent à déterminer si Siri a répondu correctement à la requête de l'utilisateur. Les extraits ne comprennent pas d'identifiant ni de nom spécifique ; de plus, il est très difficile de lier un enregistrement à un autre. Malgré tout, « il ne devrait pas être trop compliqué d'identifier la personne que l'on écoute », raconte l'infiltré. « Spécialement avec des déclencheurs accidentels : [on peut entendre] des adresses, des noms, etc. ».

Vraiment ?

Cette situation pourrait être encore plus dommageable si les extraits sont écoutés par de mauvaises personnes : les vérifications lors de l'embauche des personnels chargés de l'écoute sont peu fouillées « et le volume de données auxquelles nous avons librement accès est assez vaste ». Si quelqu'un chez ces sous-traitants avait des intentions néfastes, il n'aurait pas beaucoup de mal à mettre un nom derrière une voix.

Chez Amazon, il est possible de désactiver l'envoi de messages à des fins de contrôle qualité (une option qui ne sert pas à grand chose, de l'aveu même de l'entreprise). Il n'existe rien de tel chez Apple. Le livre blanc sur la sécurité du constructeur précise :

Les enregistrements vocaux de l’utilisateur sont conservés pendant six mois, afin que le système de reconnaissance vocale puisse les utiliser pour mieux comprendre la voix de l’utilisateur. Une autre copie est enregistrée après six mois, sans son identifiant, afin qu’Apple puisse l’utiliser pour améliorer et développer Siri, et ce, pendant deux ans au total. Un petit sous‐ensemble de fiches, transcriptions et données associées sans identifiant sont susceptibles de continuer à être employées par Apple pour l’amélioration continue et le contrôle de qualité de Siri au‐delà de deux ans.

Le constructeur indique au Guardian que « moins d'1% des activations quotidiennes de Siri » sont utilisées pour le service qualité, et que les extraits ne durent généralement que quelques secondes.

Qu'Apple fasse analyser des extraits audio à des sous-traitants dans le but d'améliorer la qualité de compréhension et de réponse de Siri n'a rien de choquant. Les machines n'ont pas notre oreille, après tout, et certaines situations nécessitent la compréhension d'un contexte que seul un humain peut appréhender. C'est le cas pour tous les éditeurs d'assistants connectés.

Ce qui est ici reproché finalement, c'est les cas d'activation accidentelle de Siri qui peut lancer l'enregistrement de l'extrait d'une conversation privée. Cette histoire va peut-être pousser Apple à serrer la vis et surtout à communiquer plus clairement sur ce qui passe dans les coulisses de Siri.


  1. Ça ne fonctionne pas tout le temps. On peut désactiver cette fonction dans les réglages de la montre, Général > Siri > Levez pour parler.  ↩


avatar Paquito06 | 

@marenostrum

“s'ils le veulent ils le peuvent sans problème. et pas seulement eux, mais tout app installé dans ta machine, peut tout faire. comme la boite israélienne, etc. c'est pas un problème en informatique. même l'opérateur français peut savoir tout sur toi. “

Ton banquier et ton employeur en premier lieu. Personne n’a plus d’infos qu’eux.

avatar bibi81 | 

Ton banquier et ton employeur en premier lieu. Personne n’a plus d’infos qu’eux.

Il a quoi comme info l'employeur ?

avatar Paquito06 | 

@bibi81


Il a quoi comme info l'employeur ?”

J’sais pas, au choix: les sites que tu visites, tes emails et leur contenu, ce que tu crees, tes horaires (jours off/on), depuis où tu travailles, ton salaire, ton assurance sante/retraite, etc. Juste au minimum. Croise cela avec ta banque et decuple cela si tu travailles pour un organisme financier. Bon debut, non?

avatar bibi81 | 

J’sais pas, au choix: les sites que tu visites, tes emails et leur contenu, ce que tu crees,

Tu parles de contenu professionnel, ce n'est pas de l'ordre du privé ça...

depuis où tu travailles, ton salaire, ton assurance sante/retraite, etc.

C'est bien faible comme données.

Croise cela avec ta banque

Mon employeur ne peut rien croiser avec ma banque, hein...

et decuple cela si tu travailles pour un organisme financier.

Oui voilà au mieux pour ceux qui travaillent dans la finance ça fait un peu de données.

Bon debut, non?

Ben non, justement. L'employeur ne sait pas grand chose.

avatar Paquito06 | 

@bibi81

“J’sais pas, au choix: les sites que tu visites, tes emails et leur contenu, ce que tu crees,

Tu parles de contenu professionnel, ce n'est pas de l'ordre du privé ça...”

La mauvaise foi. Donc si je suis ton employeur je peux tout connaitre de toi, mais si je suis une boite lambda, non? C’est avec ce manque d’education que commencent les problemes de securite en entreprise. (Dans les locaux Facebook par exemple avant que ne sorte Cambridge A.). L’anonymat ou le respect de la vie privee est a prendre au serieux, que ca soit avec ton entreprise ou ailleurs, meme au sein d’un couple. Ma femme travaille a Facebook, j’ai du signer un Non Disclosure Agreement car elle travaille sur des prototypes. C’est du contenu professionnel alors il n’y a plus aucune barriere sur la confidentialite des donnees et Facebook peut tout savoir de moi? Non je ne crois pas.

“depuis où tu travailles, ton salaire, ton assurance sante/retraite, etc. “

C'est bien faible comme données.

C’est faible? En France peut etre. Aux US, avec ton numero de secu, j’ouvre une carte de credit a ton nom et je me fais plaisir dans les magasins. Je te defonce ton credit score et adieu tes prets, taux bas, etc.

“Croise cela avec ta banque”

Mon employeur ne peut rien croiser avec ma banque, hein...

“et decuple cela si tu travailles pour un organisme financier.”

Oui voilà au mieux pour ceux qui travaillent dans la finance ça fait un peu de données.

On parle de millions de personnes, pas d’une start up en serie A.

Bon debut, non?

“Ben non, justement. L'employeur ne sait pas grand chose.”

D’accord, t’es pas convaincu. Allez, un peu de lecture pour finir, t’as de la chance, l’article a deux jours:
https://www.marketwatch.com/story/your-employer-is-tracking-your-every-move-is-it-too-late-to-do-anything-about-it-2019-07-24

avatar bibi81 | 

La mauvaise foi. Donc si je suis ton employeur je peux tout connaitre de toi, mais si je suis une boite lambda, non?

Mon employeur ne connaît pas les sites que je visite sur mon ordinateur personnel. Sur mon ordinateur professionnel il a l'info mais c'est un usage professionnel...

C’est faible? En France peut etre.

Oui voilà, en France. Ça tombe, je suis en France (et nous sommes sur un site français).

D’accord, t’es pas convaincu. Allez, un peu de lecture pour finir, t’as de la chance, l’article a deux jours:

Si les employés utilisent les ressources de l'employeur pour autre chose que le travail, il ne faut pas qu'ils s'étonnent des conséquences.

Au delà de ça, en France l'employeur ne fait pas ce qu'il veut et RGPD s'applique aussi aux entreprises...

avatar Paquito06 | 

@bibi81

Il n’en demeure pas moins que l’employeur connait beaucoup de ses employés, que les donnees soitent dans un environnement professionnel, ou pas.

https://www.captaincontrat.com/articles-gestion-entreprise/limites-protection-donnees-personnelles-salarie


Mon employeur connaît mon salaire (sans savoir si c'est le seul d'ailleurs) il ne connaît pas mes dépenses et donc mon train de vie...

Il faut arrêter de dire n'importe quoi !”

Ah non? Il sait deja où tu vis (quartier/ville/code postal), donc il connait le type d’habitation et le niveau social. Le salaire est plutot un bon indicateur quand on est employé, sauf s’il ne represente qu’une infime part de tes revenus, ce qui ne soit pas etre le cas de beaucoup. Ton employeur sait si tu viens en metro ou en voiture au boulot, si tu roules en Twingo ou en Ferrari, peut te localiser, connait tes horaires, tes jours off7, etc. Alors non (suivant) ton employeur il n’a pas le detail de tes depenses, mais de là a dire qu’il ne connait rien, que les donnees sont pro uniquement ou qu’on dit n’importe quoi, ton employeur en connait davantage sur toi que quiconque ou presque.

avatar pagaupa | 

@Paquito06

La naïveté des gens est sans limite...😜

avatar pagaupa | 

@bibi81
« Ben non, justement. L'employeur ne sait pas grand chose. »

Il sait entre autres à quelle tranche d’impôt tu appartiens, ton numero de sécu, de compte, tes coordonnées...etc...

avatar bibi81 | 

Il sait entre autres à quelle tranche d’impôt tu appartiens, ton numero de sécu, de compte, tes coordonnées...etc...

Il ne connaît pas la tranche d'impôt (au mieux il peut supposer), pour le reste ce n'est pas grand chose (plus précisément il n'en fera pas grand chose).

avatar pagaupa | 

@bibi81

« Il ne connaît pas la tranche d'impôt (au mieux il peut supposer) »
Ah oui? Alors comment fait-il le prélèvement à la source?

avatar bibi81 | 

Ah oui? Alors comment fait-il le prélèvement à la source?

Il utilise le taux communiqué par l'administration fiscale (et qui peut être le bon ou pas).

avatar pagaupa | 

@bibi81

Ça serait un scoop que l’administration fiscale n’ait pas le bon taux de prélèvement à t’appliquer...

avatar bibi81 | 

Ça serait un scoop que l’administration fiscale n’ait pas le bon taux de prélèvement à t’appliquer...

Tu le fais exprès ? Tu n'as jamais entendu parler du taux personnalisé par l'employé ?

avatar pagaupa | 

@bibi81

« Tu le fais exprès ? Tu n'as jamais entendu parler du taux personnalisé par l'employé »
Vas-y explique! J’ai hâte de lire les détails

avatar bibi81 | 

« Tu le fais exprès ? Tu n'as jamais entendu parler du taux personnalisé par l'employé »
Vas-y explique! J’ai hâte de lire les détails

https://impots.dispofi.fr/prelevement-a-la-source/taux-prelevement/taux-non-personnalise

"Les salariés, qui par souci de confidentialité ne souhaitent pas que leur taux de prélèvement réel soit communiqué à leur employeur, peuvent opter pour l’application d’un taux neutre ou taux par défaut, sur leur salaire."

avatar Bigdidou | 

@bibi81

Je crois que tes efforts servent pas à grand chose... ;)
Pagaupa croit dur comme fer que la réalité des lois sont une conviction que nous avons et que ses représentations paranoïaques du monde sont une réalité intangible...

avatar Nightstalker | 

@bibi81
Ah oui? Alors comment fait-il le prélèvement à la source?
Il utilise le taux communiqué par l'administration fiscale (et qui peut être le bon ou pas).

Justement avec le taux personnalisé communiqué via TOPAze (après dépôt d'une DSN ou en demandant un appel du taux avec à la clef un bilan nominatif CRM), l'employeur connaît la tranche d'imposition du salaire de référence fiscal, donc de l'ensemble des revenus déclarés.
Cette information n'a que peu d'intérêt pour nous employeurs car selon la jurisprudence nous ne pouvons pas utiliser cette information pour négocier une rémunération, ce n'est pas légalement faisable...

avatar bibi81 | 

Justement avec le taux personnalisé communiqué l'employeur connaît la tranche d'imposition du salaire de référence fiscal,

Encore faut-il que le taux communiqué soit le bon (on peut choisir le taux neutre, hein) !

avatar marenostrum | 

non, par le phone on connait tout le côté caché, ou privé de toi. les autres (patron, banquier, docteur, avocat, etc), ne connaissent que ce que tu veux bien leur montrer, ton côté publique.

c'est pas pour rien que le smartphone c'est le premier outil que intéresse la police. ça leur facilite la chose tellement. même par les commentaires qu'on laisse dans les sites en ligne (comme ici) ils peuvent nous connaitre beaucoup plus que ce on montre dans la vie de tous les jours publiquement.

avatar Paquito06 | 

@marenostrum

“non, par le phone on connait tout le côté caché, ou privé de toi. les autres (patron, banquier, docteur, avocat, etc), ne connaissent que ce que tu veux bien leur montrer, ton côté publique.

c'est pas pour rien que le smartphone c'est le premier outil que intéresse la police. ça leur facilite la chose tellement. même par les commentaires qu'on laisse dans les sites en ligne (comme ici) ils peuvent nous connaitre beaucoup plus que ce on montre dans la vie de tous les jours publiquement. “

Par le telephone, un acteur n’a que des donnees limitees.
Tu le dis egalement, “la police”. Oui, faut que la police y ait acces, sur decision de justice, etc. Un banquier n’a pas besoin de la police pour taper ton nom sur un PC et connaitre ta vie. Ton employeur n’a pas besoin de la police non plus pour connaitre ton train de vie. Le telephone n’est qu’un outil, suivant sa version (le mec qui a un 3310 ca va beaucoup aider).

avatar bibi81 | 

Ton employeur n’a pas besoin de la police non plus pour connaitre ton train de vie.

Mon employeur connaît mon salaire (sans savoir si c'est le seul d'ailleurs) il ne connaît pas mes dépenses et donc mon train de vie...

Il faut arrêter de dire n'importe quoi !

avatar eleodie | 

@marenostrum

Un peu de lecture te fera du bien tout est expliqué sur leur site à la rubrique confidentialité.
Après si tu es adepte de la théorie du complot libre à toi.

avatar Mickaël Bazoge | 
Ah, pas pour Siri non.
avatar bibi81 | 

Parce que tu pensais vraiment que la réponse à toutes les questions possible sont dans ton iPhone ?

avatar pillouti | 

@bibi81

Je pensais que ça faisait une recherche sur safari et que le calcul de la retranscription se faisait en local. Et pas sur serveur à distance.

avatar marenostrum | 

impossible que un iPhone ou ordinateur tout seul, est capable de te répondre, sans aide d'humains qui bossent derrière la machine. faut pas croire au père Noel, vous êtes grands maintenant.

avatar pillouti | 

@marenostrum

Le retard de Siri sur ses autres concurrents est donc injustifiable.

avatar shaba | 

@pillouti

Le retard est justifiable par la volonté d’Apple de préserver la confidentialité des utilisateurs. S’ils faisaient comme Google par exemple et reliaient plus concrètement les demandes aux donnés des utilisateurs le retard serait moindre. Les profils sont bien moins complets ce qui rend difficile leur exploitation.

avatar bibi81 | 

Le retard est justifiable par la volonté d’Apple de préserver la confidentialité des utilisateurs. S’ils faisaient comme Google par exemple et reliaient plus concrètement les demandes aux donnés des utilisateurs le retard serait moindre.

Oui il serait moindre, mais ta première phrase n'entre pas en contradiction avec la seconde. Du coup ça ne justifie pas le retard...

Ton médecin connaît tout de ta santé et ce n'est pas pour autant que la confidentialité est rompue. La confidentialité serait rompue si ton médecin vendait (ou donnait) ton dossier médical. Mais ce n'est pas le cas, comme Google d'ailleurs qui ne vends pas les données confidentielles mais affiche de la publicité ciblée (encore faut-il avoir la bonne case décochée et afficher les publicités provenant de Google). Un peu comme si ton médecin proposait aux labos pharmaceutiques de prescrire leur médicament contre le rhume à ses patients qui ont un rhume (permettant aux labos d'avoir une action ciblée sans pour autant avoir les noms des patients ou même leur antécédents médicaux)...

avatar Bigdidou | 

@bibi81

« Un peu comme si ton médecin proposait aux labos pharmaceutiques de prescrire leur médicament contre le rhume à ses patients qui ont un rhume (permettant aux labos d'avoir une action ciblée sans pour autant avoir les noms des patients ou même leur antécédents médicaux)... »

Pas vraiment, non.
Un peu comme si les hôpitaux utilisaient tes données médicales en se faisant rétribuer par les labos pour t’’envoyer de la pub ciblées pour tes troubles de l’érection, ton rhume ou ton cancer.
Boum, on te diagnostique un truc, deux heures plus tard, tu es envahi de pub Bayer.
Je pense que tu leur ferais pas très longtemps confiance...

avatar pagaupa | 

@Bigdidou

Dans le milieu médical, et paramédical, c’est déjà le cas...
Rien que ton âge est une cible pour les pubs...

avatar Bigdidou | 

@pagaupa

« Dans le milieu médical, et paramédical, c’est déjà le cas... »

Bien sûr que non.

avatar pagaupa | 

@Bigdidou

Bien sur que si. Tu verras lorsque tu vieilliras, tu recevras des pubs pour les residences séniors, le viagra, les complémentaires et j’en passe...

avatar Bigdidou | 

@pagaupa

Ça ne vient évidemment pas de tes dossiers médicaux.

avatar pagaupa | 

@Bigdidou

Comment peux-tu affirmer cela?

avatar Bigdidou | 

@pagaupa

« Comment peux-tu affirmer cela? »
Parce que tes dossiers médicaux sont soumis au secret médical qui est inscrit dans la loi.
Parce que je sais comment cette information est stockée et protégée.
Parce que je sais que c’est accessoirement un gros bordel qui rend son extraction assez difficile quand on veut en faire une exploitation anonymisée à fin de recherche, après moultes procédures dont un accord du CCP (ex CCPPRB).
Et qu’à moins d’un gigantesque complot qui m’aurait échappé depuis 30 ans que je suis dans le métier, la loi et la confidentialité qui sont à sa base même y sont respectées.

avatar pagaupa | 

@Bigdidou

Pas convaincu...
Mediapart nous montre tous les jours que la confidentialité est mise à mal de tous côtés...
Autrement dit quand on cherche l’info, on la trouve, confidentialité ou pas.

avatar Bigdidou | 

@pagaupa

« Autrement dit quand on cherche l’info, on la trouve, confidentialité ou pas. »

Quel rapport entre des fuites d’infos confidentielles et système à grande échelle qui serait le traitement automatisé de données à des fins commerciales ?

C’est pas une histoire de conviction, mais de réalité.

avatar pagaupa | 

@Bigdidou

On va te laisser le dernier mot...
Reste convaincu que les fichiers sont hermétiques...

avatar Bigdidou | 

@pagaupa

« Reste convaincu que les fichiers sont hermétiques... »

Heu, non, c’est pas une histoire de conviction, c’est la loi qui le dit et c’est une base fondamentale du métier.
Toi, tu es convaincu du contraire, alors même que tu sembles tout ignorer de la question et du code de santé publique. Enfin, on va pas aller rompre le,secret médical pour faire de la;pub pour les couches, faut redescendre sur terre, un peu.
La conviction du complot est de ton côté, faut quand même pas tout mélanger.

avatar Nightstalker | 

@pagaupa
Pas convaincu...
Mediapart nous montre tous les jours que la confidentialité est mise à mal de tous côtés...
Autrement dit quand on cherche l’info, on la trouve, confidentialité ou pas.

Mediapart comme tout média à but lucratif PAYE ses sources. A partir de ce constat les personnes cupides sont promptes à violer la Loi tout simplement.

avatar pagaupa | 

@Nightstalker

« A partir de ce constat les personnes cupides sont promptes à violer la Loi tout simplement. »
La pub fonctionne sur ce principe de cupidité...

avatar bibi81 | 

Pas vraiment, non.
Un peu comme si les hôpitaux utilisaient tes données médicales en se faisant rétribuer par les labos pour t’’envoyer de la pub ciblées pour tes troubles de l’érection, ton rhume ou ton cancer.
Boum, on te diagnostique un truc, deux heures plus tard, tu es envahi de pub Bayer.
Je pense que tu leur ferais pas très longtemps confiance...

Bah tu dis la même chose que moi en prenant un autre exemple.

avatar colossus928 | 

@marenostrum

Comment ? Tu dis que les humains sont indispensables à chaque requête ?!

Sinon : ouf, ce n'était juste pas très clair.

avatar marenostrum | 

pour toutes les requêtes mal comprise par la machine, c'est les humains qui s'occupent.
par ex quand toi utilise le mot drogue, la machine va pas appeler la police directement, ça passe la raquette à un humain pour vérifier le contexte précis. de quoi il s'agit, d'un mafieux ou d'un utilisation de ce mot en dehors de ce contexte. (il suffit d'ouvrir l'app Photos et voir que dans la reconnaissance des personnes, l'app fait plein d'erreurs, par rapport à nous. et c'est pareil partout. le cerveau humain dépasse l'intelligence artificielle, et va le dépasser toujours)

ces trucs là ne datent pas aujourd'hui. c'est pas Apple, Google ou Amazon qui les ont inventé. eux les utilisent juste pour leur commerce. mais les Etats ça fait des années qui utilisent ces moyens pour maintenir l'ordre.

avatar colossus928 | 

@marenostrum

Oui mais les humains les traitent après coup pour améliorer l'assistant, et non sur l'instant de la requête.
Donc les humains ne sont pas indispensables au quotidien.
Sans eux Siri resterait juste dans son jus.

avatar marenostrum | 

Apple n'est pas la police ou un Etat. eux c'est pour en gagner d'argent qui le font tout ce cirque. mais si les lois les obligent, ils peuvent te surveiller de près, avec l'aide de ces technologies. il faut pas croire que c'est impossible techniquement (Apple elle même peut rien faire, parce que la clé se trouve chez nous).
sinon ils en auraient pas besoin de mise à jour de sécurités les systèmes. déjà un externe peut en utilisant des failles, renter dans n'importe machine et tout modifier.

avatar EBLIS | 

@pillouti
"J’étais resté sur le principe que tout se faisait en local, via le processeur du tel..."

Quand on cherche SPEECH RECOGNITION dans les paramètres d'un iPad, il est clairement stipulé que les enregistrements vocaux sont transmis à Apple. Sur Macos, il me semble qu'il y a une option qui force le traitement en local en n'envoyant aucune donnée.

avatar raoolito | 

clairement c'est le serpent qui se mort la queue: soit tu écoutes pas et tu perds forcement de la qualité, soit tu écoutes et du coup tu entends des trucs que tu devrais pas entendre.

précisons tout de suite que si apple décidait sine die de désactiver en permanence et pour toujours le "dis siri" ou le "lever pour parler", ben les consommateurs râleraient car c une option dispo ailleurs..

Pages

CONNEXION UTILISATEUR