Dans un podcast, John Siracusa, Casey Liss et Marco Arment mettent une chose intéressante en avant : Apple a visiblement modifié l'audio de sa conférence de la WWDC en postproduction pour éviter qu'une personne qui prononce « Siri » puisse activer Siri.
« Dis Siri », c'est fini
Dans l'Accidental Tech Podcast 539, vers 10 minutes, les intervenants discutent de cette modification. La raison pour laquelle Apple a modifié l'audio est évidente : une des nouveautés mises en avant est qu'il est possible de dire uniquement « Siri » et pas « Hey Siri » (ou « Dis Siri » en français) pour activer l'assistant.
Une partie des fréquences coupées
La façon de faire d'Apple est assez particulière et n'est pas la même que celle choisie par Amazon pour éviter d'activer des Echo durant une publicité en 2019. En effet un spectrogramme de l'audio de la WWDC montre très clairement que certaines fréquences sont coupées de façon abrupte quand le mot Siri est prononcé. Ce n'est pas systématique mais très visible quand le nom de l'assistant est prononcé seul.
Il y a des creux à 3 000 Hz, 4 000 Hz, 5 000 Hz et 6 000 Hz, qui doivent probablement empêcher les appareils compatibles avec la commande « Hey Siri » de réagir. Du point de vue de l'auditeur humain, la différence n'est pas (trop) audible, mais du point de vue d'un ordinateur, elle l'est probablement suffisamment pour éviter un déclenchement qui serait évidemment intempestif. Vous devriez entendre une différence dans cet extrait : les deux premières occurrences du mot « Siri » sont modifiées, mais pas la troisième.