Apple a discrètement lancé un catalogue de livres audio lus par une voix artificielle

Félix Cattafesta |

Apple vient de discrètement lancer un catalogue de livres audio narrés par une intelligence artificielle. Repérés par The Guardian, les titres peuvent être trouvés en tapant « AI narration » dans la barre de recherche de l'application Livres. Si un grand nombre d'entre eux sont payants, certains sont gratuits. Il est possible d'écouter des extraits, et la technologie est assez bluffante.

Sur sa page dédiée, Apple explique que la technologie va rendre la création de livres audio accessible à un plus grand nombre. L'éditeur/auteur conserve les droits du livre audio, et il n'y a aucune restriction sur la production et la distribution d'autres déclinaisons audio.

La narration numérique Apple Books associe une technologie de synthèse vocale avancée au travail important d'équipes de linguistes, de spécialistes du contrôle qualité et d'ingénieurs du son pour produire des livres audio de grande qualité à partir d'un fichier ebook.

Les auteurs peuvent envoyer leur livre à Apple afin de voir s'ils sont éligibles au programme. Certains critères sont requis : le titre doit être disponible sur Apple Books, il doit être en anglais et doit entrer dans une certaine catégorie. La démarche passe par deux partenaires, à savoir Draft2Digital et Ingram CoreSource.

Apple explique vouloir commencer par la fiction et la romance, avant d'ouvrir aux ouvrages de non-fiction et aux livres de développement personnel. Il faudra que le texte soit compatible avec le système de transcription (pas d'éléments de formatage complexes et peu de mots et de phrases en langue étrangère) et avec les normes éditoriales d'Apple. Plusieurs voix sont disponibles, dont vous pouvez écouter des extraits sur le site d'Apple.

Une fois le projet envoyé, il faudra attendre un ou deux mois le temps que Cupertino traite l'ouvrage et effectue des contrôles de qualité. La Pomme affirme rester déterminée à « célébrer et à mettre en valeur la magie de la narration humaine » et explique vouloir continuer de développer son catalogue de livre audio standard.

Apple aurait approché des éditeurs indépendants au cours des derniers mois afin de trouver des partenaires potentiels. Les auteurs ont été informés qu'Apple (qui n'était pas désignée comme la société à l'origine de la technologie) prendrait en charge les coûts de production et qu'ils recevraient des redevances sur les ventes. Cette nouveauté aurait dû être lancée à la mi-novembre, mais le rachat de Twitter par Elon Musk aurait poussé Apple à décaler la sortie du projet.

La popularité des livres audio n'est plus à prouver : Spotify y voit une « opportunité énorme » et a lancé sa boutique dédiée au mois de septembre aux États-Unis. Apple n'a d'ailleurs pas manqué de lui mettre des bâtons dans les roues, ce qui a poussé Spotify a renoncer à vendre ses livres audio sur iOS. L'entreprise a d'ailleurs lancé un site web pour dénoncer les pratiques anticoncurrentielles de l'App Store. Selon The Guardian, les ventes de ce format ont bondi de 25 % l'année dernière et auraient rapporté plus de 1,5 milliard de dollars. L'idée du lancement d'un service de livres audio par abonnement a déjà été évoquée à Cupertino, mais rien de concret n'a été présenté pour le moment.

avatar fosterj | 

Les voix sont dingues de réalisme !!!

On y est !!! l'AI va vraiment tout changer .. pour le meilleur ou le pire .. qui sera à l'abri ??

avatar iPop | 

@fosterj

Je trouve tout de même que ça limite l’immersion et surtout moins d’imagination, c’est comme écouter les nouvelles.

avatar occam | 

L’idée n’est pas aberrante en soi ; l’on peut d’ores et déjà lui envisager de nombreuses applications adéquates. Ce n’est pas son principe qui est en cause.

Mais écoutons les échantillons proposés par Apple : les personnalités synthétiques de Madison, Jackson (yes Apple, we get the pun), Helena, Mitchell. Jugeons sur pièce.
Ces voix, ces timbres, ces intonations incarnent ce que Steve Jobs reprochait justement à Microsoft, et qui en 2023 s’applique atrocement à Apple, ère Cook :
« They have absolutely no taste. And I don’t mean that in a small way, I mean that in a big way, in the sense that they don’t think of original ideas, and they don’t bring much culture into their products. »

Ce qui n’enlève rien au succès commercial probable de l’initiative. Apple aura calqué ses choix esthétiques sur son public cible, sur ses goûts (ou manque de) et son discernement (ou son absence de). Ticky-tacky d’apparence multicolore, ce public cible pourra s’y identifier :
Little boxes all the same
There’s a green one and a pink one
And a blue one and a yellow one,
And they’re all made out of ticky tacky
And they all look just the same.

avatar raoolito | 

@occam

amusant que dans les narrations on tente deja d’ajouter plus de ressentis et de chaleur pour les acteurs humains, sortir du texte justement
ici on a le texte bien lu mais je met au défi quiconque d’ecouter cela 2h sans perdre le fil.
bravo à l’AI d’obliger désormais les narrateurs à faire mieux que lire platement leurs trucs

avatar occam | 

@raoolito

🎤 "je met au défi quiconque d’ecouter cela 2h sans perdre le fil."

Je n’ai pas rédigé mon commentaire à chaud. Il date de cette nuit, écrit dans l’éventualité d’une reprise de la nouvelle par MacG.
J’avais été averti dès hier soir du papier dans le Guardian, et j’ai écouté les échantillons à plusieurs reprises. Entre elles, pour comparer, des audiobooks relatés à la fois par des acteurs et de auteurs (ces derniers n’étant par définition pas des pros du voice-over, aguerris aux nécessités d’une lecture à la fois soutenue et indolore). Et j’en suis resté de plus en plus consterné par la fadeur, par les fautes de rythme, de phrase et d’emphase, par la platitude du rendu des voix AI apparemment considérées comme suffisantes par Apple pour aguicher le chaland.

Or, je sais que l’on peut faire bien mieux, à l’heure actuelle, en tant que voix de synthèse en lecture AI, et même depuis un bon bout de temps.
Il faut dire que je suis partisan de la synthèse vocale, là où elle a lieu d’être, et je l’utilise volontiers. Sur Mac, dès la voix synthétique en ROM du Mac Plus de 1986 (c’était à peu près le codec de Stephen Hawking) ; bien avant, sur un PC Sirius qui était l’une des premières machines à inclure un module synth et codec vocal, sous MS-DOS. Mon parti-pris est donc largement positif.

Ce qui est en cause, encore une fois, ce sont les critères de qualité chez Apple : ce qu’ils considèrent comme suffisamment bon, et ready for prime-time.
Même problème que pour leur soft, en fait.

avatar iPop | 

@occam

Salut, vous m’aviez demandé une fois que pouvait on faire avec Raccourci. Et bien je viens de faire un petit raccourci qui lit les articles avec une voix digne d’un documentaire sur France 3.
Et en plus, c’était pas bien compliqué.

avatar passingphantom | 

En ce qui concerne le réalisme des voix, juste avant le lancement de leur nouveau site, le site d'information scientifique français Futura permettait la lecture des articles via une voix synthétique. J'avoue avoir été bluffé par le rendu. Dommage qu'ils n'aient pas gardé cela pour leur nouveau site. Il y a aussi l'application française Juice qui permet de se faire sa propre radio qui mêle infos (lues par des voix artificielles totalement réalistes), podcasts (grâce à des partenariat avec des éditeurs) et musique (pour peu qu'on ait souscrit un abonnement chez Spotify, Deezer ou Apple Music) Le résultat est juste hallucinant là aussi. Cependant, en dépit de tout cela, à mes oreilles, rien ne vaut la voix et l'émotion humaine. Je suis abonné à Audible (US) depuis 2003, et pour la lecture de mes livres, rien ne vaut le travail d'un comédien.

avatar ruru75020 | 

Alors avant de se faire élargir la rondelle parce que j’ai l’impression que tout le monde va oublier ce point de détail :

Les prix des livres audio lus par voix artificielle va-t-il baisser ? J’en doute…

Or ce qui explique la différence de prix entre un livre classique y compris numérique et sa version audio (en moyenne 10€ d’écart !), c’est la lecture avec les intonations et donc la rémunération des lecteurs, ce qui est un métier.

Si la voix est synthétique, la valeur ajoutée disparaît et pas de lecteur à rémunérer donc baisse du prix ?

avatar Baptiste_nv18 | 

@ruru75020

Parce que le travail réalisé sur les algorithmes pour produire cette voix artificielle ne coûte rien ??

avatar ruru75020 | 

@Baptiste_nv18

Alors deux choses :

1 - ce n’est pas que pour cet usage que les voix synthétiques évoluent, et ça repose souvent sur des technologies qui ne sont pas systématiquement développés par Apple et consort
2 - une fois que c’est développé et amorti en qui faudrait-il continuer de payer beaucoup plus pour de l’artificiel ?

Je ne dis pas que le livre audio doit être forcément au même prix dans cette configuration, encore que, mais pas à plus de 10€ d’écart c’est certain.

avatar cecile_aelita | 

@ruru75020

Raisonnement qui se tient en effet 🙂

avatar iPop | 

@ruru75020

Le prix baissera quand les livres seront lu par des moines tibétains. Et pourquoi pas UberAudible, lu par n’importe quel racaille, ça va être très fin.

avatar r e m y | 

Synthèse vocale ok, mais nulle intelligence artificielle là-dedans!

avatar EricBM1 | 

@r e m y

Exact. C’est la mode en ce moment de mettre IA pour tout et n’importe quoi

avatar echarbon44 | 

Erreur. Il y a bien de l'IA. Voici une explication de la technologie mise en œuvre pour lire des articles du journal "Le Monde" à base de voix neuronale a base de 2 modèles d'IA:

La voix neuronale personnalisée se compose de trois composants principaux : l’analyseur de texte, le modèle acoustique neuronal et le vocodeur neuronal. Pour générer une voix de synthèse naturelle à partir d’un texte, ce dernier est d’abord entré dans l’analyseur de texte, qui fournit une sortie sous la forme d’une séquence de phonèmes. Un phonème est une unité sonore de base qui distingue un mot d’un autre dans une langue particulière. Une séquence de phonèmes définit les prononciations des mots fournis dans le texte.

Ensuite, la séquence de phonèmes entre dans le modèle acoustique neuronal pour prédire les caractéristiques acoustiques qui définissent les signaux de parole. Les fonctionnalités acoustiques incluent le timbre, le type de diction, la vitesse d’élocution, les intonations et les modèles d’accent tonique. Enfin, le vocodeur neuronal convertit les caractéristiques acoustiques en ondes audibles afin de générer une voix de synthèse.

avatar r e m y | 

Non tout ça (la décomposition en phonème et ajustement de la prononciation...) c'est le B A BA de la synthèse vocale.
On pourrait parler d'intelligence si il y avait compréhension du texte lu pour, par exemple, adapter les intonations au contexte (joie, colère, peur, ...).

avatar echarbon44 | 

@r e m y

Il faut lire pas que la 1ere partie de ma réponse.

avatar r e m y | 

Timbre, type de diction, vitesse d'élocution, intonation et respect des accents toniques de la langue... tout ça ce sont des éléments de synthèse vocale.

L'intelligence suppose une compréhension du texte. On en est loin ici.

avatar echarbon44 | 

Bon désolé si vous n'y croyez pas.
L'acoustic model est basé sur des modèles DNN, RNN/LSTM, GAN... C'est assez complexe.
C'est aussi basé sur le Tacotron qui prédit le spectogramme en fonction des phonèmes.

​Bref, je ne rentre pas plus dans le détail, mais si vous arrivez à faire cela juste avec de l'analyse vocale bravo... Les technos de Neural Voice ont un peu plus d'un an et pas plus et c'est pour cela qu'elles arrivent maintenant. Ceci dit elles posent des problèmes de droits car ils faut les entraîner avec une voix d'un acteur... qui doit donner son accord. Après sa voix peux être utiliser pour lui faire dire n'importe quoi....

avatar r e m y | 

Mais je connais bien tout cela qui entre largement dans mon domaine professionnel, mais on reste dans la synthèse vocale (et ses évolutions récentes aussi impressionnantes soient-elles), pas dans le domaine de l'intelligence artificielle car, je le répète, à aucun moment on ne cherche à comprendre le sens du texte, mais à le prononcer de la manière la plus naturelle possible.

Bon mais passons à autre chose, ça n'a pas grande importance.

avatar echarbon44 | 

Passons comme vous dite. Mais il se trouve que c'est mon domaine de spécialité . Avec juste de la synthèse vocale ca ne marche pas.
On cherche bien à comprendre le texte car il faut faire les bonnes intonations. A partir du moment ou on se base sur des modèles d'IA qu'on a entrainé pour chaque acteur pour faire cette prédiction on est bien dans de l'IA. Après c'est pas le rôle de ces modèles de faire un résumé pour savoir si il a compris ce qu'il a dit. Il en existe d'autre comme ceux qu'on trouve dans GPT.
Bon après libre à vous de pensez ce que vous voulez. J'arrête là.

avatar Spinaker | 

@echarbon44

En tous cas le débat reste intéressant. ☺️

avatar Gladjessca | 

Encore un moyen de gagner de l’argent en ne baissant pas le prix des livres et en ne payant pas les droits du lecteur…

avatar Giru | 

Extrêmement bien foutu, mais assez triste pour les personnes qui travaillent dans cette industrie... Encore un métier qui est donc voué à disparaitre à court terme. Il ne restera probablement à terme qu'un nombre limité de productions qui feront le choix, plus cher, d'utiliser des voix humaines.

avatar undien | 

Bonjour, c’est déjà le cas sur Netflix pour l’audio description
Étant aveugle, cela devient du n’importe quoi, bref une grande graissions pour nous les déficients visuels

avatar math65 | 

@undien

J'avoue⋯ Et la voix de netflix est selon moi, loin, d'être naturelle. Quand au mixage, n'en parlont pas!!!

avatar Rickles69 | 

@undien

Je suis atteint de cécité également. C’est pour cela qu’on se bat, en tout cas en France, pour que Netflix arrête ses audio description avec voix de synthèse. En tout cas, tant que celle-ci n’aura pas atteint le niveau d’une description avec voix humaine.

avatar marc_os | 

> avant d'ouvrir aux ouvrages de non-fiction et aux livres de développement personnel

« non-fiction » ? 😳

Le « développement personnel », ah la belle nov-langue pour parler de développement égoïste à la "et moi et moi et moi".

avatar marc_os | 

C'est pour quand le français ?

En attendant, les livres en braille vont enfin être au prix des livres imprimés.

avatar jul69 | 

Franchement certaine fois, Apple ne se casse vraiment pas le cul avec leurs milliards à ne plus quoi savoir en faire

avatar marc_os | 

@ jul69

C'est quoi votre problème ?
Ça vous défrise qu'Apple fasse quelque chose de bien, et pour le coup sans même s'en venter ?

avatar iPop | 

@jul69

Comme depuis toujours. Leur plus gros achat fut Beat, et on se demande c’était pour quoi encore.

avatar szut | 

Quand on voit la sélection de livre sur l'illustration, je me demande si on peut vraiment appeler ça des livres. C'est du papier gâché produit au kilomètre qui sera avantageusement remplacé par une voix artificielle. Le public à qui c'est destiné s'en contentera.
Et à la prochaine étape, ce sont les textes eux mêmes qui seront rédigés par des machines. Mon AI préférée peux-tu m'écrire un livre qui se passe à Los Angeles avec Brandon riche producteur de cinéma qui va rencontrer une jeune femme au doux prénom de Sandy, étudiante sans un sou. Et juste après, un autre livre qui se passe à Venise où le riche marchand d'art Carmine va rencontrer la fermière Graziella au beau décolleté. Merci.

avatar MachuPicchu | 

Mouais, l’intonation c’est pas trop ça quand même.

avatar Wolfstein | 

J'ai déjà un abo Audible, qui me convient très bien même si je reconnais que les voix numériques sont bluffantes de réalisme.

Cependant j'aurais préféré qu'Apple s'occupe enfin de Siri afin d'avoir qq chose de potable.

Dernier exemple en date, je lui demande quand est programmé mon RDV chez TOTO par exemple
→ il me répond qu'il ne trouve pas d'évènement au nom de TOTO

alors que si je lui demande quel est mon RDV programmé le 9 janvier
→ il est capable de trouver et prononcer TOTO

C'est d'une stupidité sans nom..

CONNEXION UTILISATEUR