Pour améliorer Siri, Apple est en quête de meilleurs micros

Mickaël Bazoge |

Siri, Google Now, Alexa, Cortana… Tous ces assistants sont de plus en plus intelligents, mais malgré tous leurs efforts et les investissements conséquents dans l’intelligence artificielle et l’apprentissage automatique, les constructeurs restent dépendants de la qualité des microphones de leurs fournisseurs. Depuis 2012 et le lancement de l’iPhone 5, les améliorations aussi bien matérielles que logicielles dans ce secteur sont restées très modestes, explique Bloomberg.

Et pourtant, ces composants sont devenus essentiels pour les assistants intelligents : s’ils interprètent mal les requêtes vocales de leurs utilisateurs, leur efficacité est réduite à peau de chagrin. Pour améliorer les choses, les constructeurs multiplient les micros dans leurs produits : si les modèles Galaxy de Samsung se contentent de deux micros, le Droid Turbo de Motorola en compte cinq, Echo (le haut-parleur connecté d’Amazon) sept.

Apple a aussi augmenté le nombre de ces composants dans ses smartphones, au fur et à mesure que Siri prenait de l’importance. On n’en compte qu’un dans le premier iPhone, mais trois dans l’iPhone 6, et quatre dans l’iPhone 6s. Le hic, c’est que ces micros n’ont guère évolué en termes de performances, et qu’ils tirent aussi beaucoup sur la batterie. Une fonction comme « Dis Siri » nécessite « d’écouter » en permanence l’utilisateur. Or, on sait que l’autonomie, c’est le nerf de la guerre dans ces smartphones de plus en plus fins.

C’est pourquoi les constructeurs, Apple en tête, font pression sur leurs fournisseurs pour qu’ils remplissent leur part du contrat. Ils réclament des micros offrant une meilleure isolation de la voix, de près comme de loin. Et une amélioration de la distance à partir de laquelle un micro ne sait plus distinguer le signal du bruit environnant. Le tout en gérant mieux l’énergie, et en évitant de trop grossir car la place est comptée.

Knowles, le leader du secteur avec 1,4 milliard de micros fournis chaque année, s’est tourné vers le logiciel pour améliorer les performances de ses produits. Il espère ainsi accélérer le traitement de la voix et réduire la consommation d’énergie. De son côté, Vesper expérimente de nouveaux designs pour ses micros, là aussi de manière à améliorer le signal et ménager la batterie. C’est prometteur, mais ces nouveaux composants ne seront pas sur le marché avant le deuxième semestre 2017.

avatar guigus31 | 

Dommage que l'app Dictaphone n'exploite pas tous ces micros pour enregistrer en stéréo.

avatar C1rc3@0rc | 

Ahhhh oui!
Un dictaphone a 50$ fait beaucoup mieux qu'un iPhone a 800$, chercher l'erreur!

«Siri, Google Now, Alexa, Cortana… Tous ces assistants sont de plus en plus intelligents»
Non ces services informatiques ne sont pas intelligents, le l'on jamais ete et n'ont pas l'air de le devenir de sitôt. Ce sont des automates qui mettent juste en correspondance des requetes standard et des reponses standards. La seule progression qu'il y a c'est la course a l'exhaustivité des demandes et des reponses...

L'intelligence elle reside dans les programmeurs des interfaces qui simulent un comportement animal dans l'interaction, mais il s'agit uniquement d'un leurre et de rien d'autre.

On peut parler d'amelioration dans l'efficacité du systeme, mais certainement pas d'intelligence.

avatar sachouba | 

@C1rc3@0rc :
Tu te trompes. Google, Amazon et toutes les entreprises qui travaillent sur un assistant virtuel sont en train de développer une vraie intelligence artificielle.

Google Now ne fait pas que comparer les requêtes des utilisateurs avec une liste préétablie. L'idée est de comprendre le sens des phrases dans leur contexte. D'ailleurs, Google Now n'est pas uniquement capable de répondre aux requêtes établies par Google, il comprend lui-même des tas de choses (ça m'étonnerait qu'un développeur de chez Google ait ajouté la phrase : "quelle est la valeur de la pression atmosphérique usuelle ?", "quelle est l'électronégativité du fluor ?" ou "qui détient Burj Khalifa ?"). Une simple base de données est incapable d'être aussi pointue.

avatar r e m y | 

Je suis sûr que NSO Group pourrait contribuer, y compris financièrement, à accélérer ses améliorations....

avatar thebarty | 

@Zara2stra :
Oui, mais il faut que quelque chose "écoute" ces micros pour décider quoi faire. C'est une combinaison de composants qui est en œuvre. Donc conso micro additionnée au reste.

avatar C1rc3@0rc | 

Bon, on decode le discours commercial.

«C’est pourquoi les constructeurs, Apple en tête, font pression sur leurs fournisseurs pour qu’ils remplissent leur part du contrat. Ils réclament des micros offrant une meilleure isolation de la voix, de près comme de loin. Et une amélioration de la distance à partir de laquelle un micro ne sait plus distinguer le signal du bruit environnant. Le tout en gérant mieux l’énergie, et en évitant de trop grossir car la place est comptée.»

Traduction:
Les constructeurs font pression sur leurs fournisseurs pour que le composants prennent en charge tout ce que le client doit aujourd'hui faire par lui meme ou doit aller chercher chez un autre fournisseur pour arriver a une efficacité fonctionnelle.

L'objectif est que le fournisseur prennent a sa charge les frais de R&D et de production et que le client n'ait plus qu'a payer, au meme tarif, un composant qui n'a plus qu'a etre integré sur la carte.
L'objectif est d'augmenter la rentabilité!

Faut comprendre que la production industrielle cherche avant tout l'optimisation de la rentabilité. Avoir un composant qui fait a lui seul ce qui nécessitait 3 composants, c'est diviser le cout par plus que 3!
Avoir un seul composant plutôt que 3 c'est pouvoir réduire la taille du produit final et sur des echelles de 100 millions d'unités c'est des millions voire des milliards de benefices!

Faut réfléchir en terme industriel et financier avant tout.

avatar r e m y | 

@zara2stra
La consommation des micros me surprend également, mais ca explique pourquoi l'activation de "Dis Siri" ne pouvait se faire qu'avec l'iPhone sur secteur avec les iPhone antérieurs au 6...

avatar patrick86 | 

"mais ca explique pourquoi l'activation de "Dis Siri" ne pouvait se faire qu'avec l'iPhone sur secteur avec les iPhone antérieurs au 6..."

Il y a aussi le traitement du signal qui est fait derrière.

avatar occam | 

Le problème fondamental est qu'on ne peut pas contourner les lois de la physique et de la psycho-acoustique. Or c'est ce que l'on demande sans cesse aux ingénieurs : déjouer ls contraintes physiques tant du matériel que des réseaux de communication, dans des limites économiques impossibles.

Pour quelqu'un comme moi qui vient de l'audio classique, ce que se fait déjà est d'une ingéniosité remarquable. Il est tout aussi clair que le moindre progrès passe forcément par une chaîne de traitement très poussé des signaux acoustiques, ce qui demande des performance accrues du ou des processeurs (ainsi que des blocs DSP dédiés), ce qui va grever l'autonomie de la batterie, ce qui... Bref, encore une spirale infernale.

Pour comprendre pourquoi il est nécessaire de multiplier les nombre des micros dans les smartphones, lire cet article de fond
http://www.embedded.com/design/real-world-applications/4420680/1/Achieving-better-voice-quality--why-smartphones-need-3-microphones
qui explique notamment les principes du CASA (computational auditory scene analysis).

avatar marc_os | 

@ occam
« Le problème fondamental est qu'on ne peut pas contourner les lois de la physique et de la psycho-acoustique »

Ah mais quels casse-pieds* ces gens qui rappellent les lois de la physique !
C'est comme ces autres qui prétendent qu'une croissance infinie ne serait pas possible.
Mais quels rabat-joie* !
;-)

(*) mots invariables, j'ai vérifié chez Mr Larousse ;-)

avatar malcolmZ07 | 

je ne sais pas ce qu'il en est pour l'iphone 6S que je n'ai pas pu tester, mais les micro installé sur les <= 6 sont moyen (enfin ils ont une grosse marge d'amélioration).
J'ai du développer une application tirant partie du micro, sur l'iphone 5s/6/+ le son était pas aussi claire et riche que sur le galaxy S5/S6 :-S c'est comme s'il y avait un voile.
=> il y a encore matière à amélioration

avatar ovea | 

Hein ? Qu'est ski dit ? Kiss est qu'Apple ?

Donc : les ch'tites formules de l'électronique sur les circuits du traitement audio …
Mèèè, avec une plus de finesse encore ?

Et Timy ski dit c'est pô la peine dsy mettre pour travailler sur une nouvelle architecture de processeurs :

Grande nouvelle tout lemon'ddd !!!

Apple a déjà intégré dans iOS 12 :
— Les transformées de Laplace —

avatar ovea | 

Sur iOS 13 :
— la transformation de Merlin —
Koa ? La Berline !?!?

avatar ovea | 

iOS 14
— un système de calcul formel —

avatar r e m y | 

@marc_os
Alors pour ce qui est de la croissance qui ne saurait être infinie.... On vient de trouver le moyen de contourner, au moins momentanément, ce détail. Une toute nouvelle exoplanète, en tous points semblable à la Terre, nous attend à à peine plus de 4 années-lumière !

avatar marc_os | 

@ r e m y
Cool, on va pouvoir en bousiller une autre.

avatar ovea | 

Sur du traitement DSP on aurait du FMA sur des matrices de taille quelconque et là on parle bien uniquement d'addiction et de multiplication rapides …

Le plus intéressant serait que
l'intégration et la dérivation soient
transformées
en division et multiplication,
de la même manière que
le logarithme transforme
la multiplication en addition.

avatar IceWizard | 

@remy
"Alors pour ce qui est de la croissance qui ne saurait être infinie.... On vient de trouver le moyen de contourner, au moins momentanément, ce détail. Une toute nouvelle exoplanète, en tous points semblable à la Terre, nous attend à à peine plus de 4 années-lumière !"

Pas besoin, les Daleks ont réglé le problème pour nous en détruisant une planète du système solaire. Les morceaux gravitent dans l'espace, entre Mars et Jupiter, de gigantesques pépites de dizaines de km de long, prêtes à l'emploi. Et ce n'est plus de la SF. L'entreprise DSI (Deep Space Industries) vas lancer en 2020, Prospecter-1, une sonde spatiale destinée à rejoindre et cartographier les ressources minières d'un astéroïde. En avant vers l'infini et au delà ..

avatar ovea | 

Un petit test acoustique intéressante :

Pourquoi le son est si mauvais
quand avec son téléphone,
on enregistre dans une salle de cinéma ?

avatar IceWizard | 

@ovea
"Un petit test acoustique intéressante :

Pourquoi le son est si mauvais
quand avec son téléphone,
on enregistre dans une salle de cinéma ?"
Je n'y connais pas grand chose, je dirais à l'instinct que le micro d'un smartphone est conçu pour enregistrer des sources sonores proches, éloigné d'un ou deux mètres au maximum.

avatar ovea | 

Oui c'est ce que je concevrais si @marc_os n'avait pas relevé le problème d'@occam :
« Le problème fondamental est qu'on ne peut pas contourner les lois de la physique et de la psycho-acoustique »

@IceWizard :« le micro d'un smartphone est conçu pour enregistrer des sources sonores proches »

Il y aurait donc une limite proche claire et un fond doué pour embrouiller cette clarté sonore pour un micro; Un fond qui se manifesterait dans une hypothétique zone limite un peu moins fine pour deux micros; Une zone limite où les résultats d'une analyse « psychologique », faite avec des calculateurs « contourneraient » telle loi physique; l'acoustique nous chuchoterait de ne pas comprendre qu'on entend pas bien ? Ou alors qu'en multipliant les micros, on aurait beaucoup plus d'interférences à gérer à tel point qu'on limiterait l'espace d'écoute ? Qu'une écoute attentive ne pourrait même plus suivre une source en deçà de la limite proche ?

Un ingénieur son, casque audio gyroscopique sur les oreilles ne pourrait-il même pas introduire sa psychologie de l'écoute pour tenter d'influencer/paramétrer empiriquement l'analyseur en focalisant le calcul sur tel micro ? De même, qu'en comparant ses déplacements il ne pourrait pas trouver une position de prise de son bien meilleur ?
La tension de la peau, la résonance osseuse en troisième micro, ne pourraient-elles pas servir si elles étaient mesurées pour des son basse fréquence, sismique, des résonances, … ?

avatar sachouba | 

@ovea :
Tes propos ne sont pas très sensés. Du tout.
Tu as consommé une herbe encore inconnue ?

avatar sachouba | 

De meilleurs micros pour continuer à enregistrer le son en mono dans les vidéos ?

PS : Pour être exact, certains smartphones Samsung Galaxy ont 3 microphones, comme le Note 4.

avatar ovea | 

@sachouba :
« … le son en mono dans les vidéos ? PS : Pour être exact, certains smartphones Samsung Galaxy ont 3 microphones, comme le Note 4. »

Trois, … quartes micros !?!?

Pourquoi faire ?

avatar sachouba | 

@ovea :
Pour une meilleure annulation du bruit et une spatialisation du son. Le dictaphone permet notamment de choisir la direction dans laquelle enregistrer le son. Et l'appareil photo dispose d'un "zoom audio" : en zoomant pour enregistrer une vidéo, seul le son venant de l'endroit cadré est enregistré.
http://www.samsung.com/sa_en/support/skp/faq/1064343

avatar ovea | 

@sachouba :
Purée c'est génial ce truc, sans char ^^

avatar Lightman | 

"Ils réclament des micros offrant une meilleure isolation de la voix, de près comme de loin. Et une amélioration de la distance à partir de laquelle un micro ne sait plus distinguer le signal du bruit environnant. Le tout en gérant mieux l’énergie, et en évitant de trop grossir car la place est comptée."

Rien que ça ! Ils ne voudraient pas qu'ils soient moins chers en plus ?

CONNEXION UTILISATEUR