Karaoke by Deezer, du machine learning pour effacer la voix de Céline Dion

Florian Innocente |

Une petite app sympa pour les abonnés de Deezer, sur iOS, qui ont un penchant pour la chanson à tue-tête : Karaoke by Deezer. Comme son nom l'indique, elle donne l'occasion de chanter sur des titres connus, sans pour autant se passer de la voix de l'artiste. Car en coulisses, l'app s'appuie sur un développement complexe.

Une réglette en bas de l'écran offre trois positions : musique seule, voix de l'artiste faible ou voix normale. Les chanteurs les moins assurés pourront sélectionner l'option intermédiaire et se servir de la voix originale comme guide.

Trois modes d'écoutes pour avoir la voix de l'artiste à son volume normal, affaiblie ou supprimée

C'est très bien fait mais le choix de morceaux est léger, il tourne autour de quelques gros tubes francophones, avec une prédilection pour Goldman et Dion, saupoudrés de Kyo, Trust, Voulzy ou encore Thierry Hazard et Art Mengo. Cette liste est amenée à s'allonger.

Simple d'utilisation, ce karaoké repose sur un développement pointu des ingénieurs de Deezer qui utilisent le machine learning pour opérer une séparation entre la voix et les instruments (et les instruments eux-même). Leur solution baptisée Spleeter est offerte en open source, elle fonctionne en Python avec le moteur Tensorflow de Google.

Le résultat est assez convaincant, même si avec l'option musique seule on peut deviner, dans l'arrière-plan, une sorte de fantôme sonore de la voix de l'artiste. Pas de quoi gêner toutefois lorsqu'on sera à fond dans son karaoké (ce billet donne quelques exemples à écouter, appliqués à des morceaux anglo-saxons).

Dans le cadre de cette app, Spleeter traite la voix d'un côté et la musique de l'autre, mais le système est conçu pour isoler la piste vocale, celle de la batterie, celle de la basse et le reste. Ce karaoké est une illustration ludique de ce développement qui peut avoir des débouchés dans d'autres domaines comme l'éducation, le remixage audio ou tout bêtement la restranscription de contenus vocaux une fois qu'ils ont été isolés de leur accompagnement musical.

Tags
avatar MisteriousGaga | 

Pas mal l'app, mais ils auraient pu directement travailler avec les fichiers multipistes ^^ même si c'est vrai ça aurait fait du travail en + de fournir tout ça à Deezer au lieu d'un seul fichier WAV 24 bits ^^

avatar Florian Innocente | 
Remplaçons français par francophone alors.
avatar MisteriousGaga | 

@innocente

Pardon, je viens d'éditer mon commentaire parce que je pensais avoir mal compris le sens de la phrase ! x)

Mais du coup effectivement c'est bien ce que je me disais, Céline Dion n'est pas française elle le parle juste, hein ?

avatar Florian Innocente | 

Non mais ta remarque avait un certain fondement 😁
Elle parle une sorte de français on va dire.

avatar MisteriousGaga | 

@innocente

Hahaha ça à refait ma journée 😂
C'est vrai que certains de ses mots ont une prononciation assez spéciale, mais comme elle, qui devrait bien rigoler si un jour elle entend un de mes morceaux, qui m'a bien fait comprendre que la prononciation de "EYES" est ULTRA importante quand tu chantes vite en anglais 😂😂😂

avatar Mickaël Bazoge | 
avatar EricdeB | 

@MisteriousGaga
Ça poserait des problèmes dans pas mal de cas. Le mastering se fait souvent sur un fichier "applati". Il faudrait revoir pas mal d'habitudes !

avatar MisteriousGaga | 

@EricdeB

Effectivement, j'ai pensé à ça uniquement après avoir posté mes commentaires :')

J'ai l'habitude de systématiquement faire une version instrumentale de tous mes morceaux, mais c'est vrai que tout le monde ne fait pas ça ^^
Moi je me le permet parce que je fais tout moi même et que de passer du temps à faire un bel instrumental me coutera en rien, mais pour une boîte qui a des temps imposés et qui doit payer les personnes qui s'occuperont de ça, ça doit être différent 😅

avatar EricdeB | 

@MisteriousGaga
Si c'est juste virer les voix ce n'est pas hyper compliqué. Ni très long. Par contre si la version instru est optimisée pour combler le manque des voix, forcément ça va en rebuter quelques uns ;)

avatar Mickaël Bazoge | 

Qui voudrait supprimer la voix de Céline 😱

avatar MisteriousGaga | 

@MickaëlBazoge

C'est vrai qu'elle chante bien, mais quitte à avoir un "vrai" instrumental, autant tapper "fort" en disant, "eh ouais on est en partenariat avec les artistes et on vous propose les instrumentaux officiels" (au final je vais peut être développer cette idée par moi même hehe 😁)

avatar DavidAubery | 

Pour Voulzy ça va pas demander trop de travail...

avatar MisteriousGaga | 

@DavidAubery

Faut que sérieusement que je me mette à jour niveau francophonie, je sais même pas qui est Voulzy 😅

avatar W01fman | 

Eh ils pourraient ajouter le dernier album de Renaud pour qu’on puisse l’écouter correctement 👍

avatar e2x | 

hey super idée bien qu’il existe des apps pour ça, payante gratuite abonnement etc.. là c’est l’app de streaming qui propose pas juste les paroles en direct façon Apple mais carrément le karaoke (dont je ne suis pas pratiquant mais j’apprécie le côté ludique et éducatif, pas le côté « chanteur casserole » c’est sûr🤣)
Par contre le design du Splister là est mooooche bondieu 🤤

avatar M2000 | 

Du « machine learning » alors que j’avais un bouton sur mon radiocassette qui faisait la même chose dans les 90s !

avatar MisteriousGaga | 

@M2000

Oh Waw ! Si jamais tu te rappelles du nom / model ça m'intéresserait beaucoup, comme ça je pourrais aller voir comment ils pouvaient faire ça avec uniquement une bande magnétique ._.
---ÉDIT
Ouais, franchement si quelqu'un sait ce qu'il faut taper sur Google pour trouver, ça m'aiderait bien parce que je tombe sur des pages mystiques du style "La transcommunication instrumentale. (1) La TCI audio" 😅😂🤣

avatar bax137 | 

@MisteriousGaga

Je n’ai pas de modèle en tête mais je crois que le principe était simple : on inverse la phase d’une des deux voies droites ou gauche et on additionne les deux . Si la voix est au bien au centre et que les instruments sont pas trop mal séparés à droite et à gauche, ca donne de bons résultats. Mais évidemment ça ne fonctionne pas dans tous les cas...

avatar MisteriousGaga | 

@bax137

Waw cool merci pour l'explication !
C'est assez impressionnant... mais en gros si je comprend bien, vu que la phase sera inversée, les enceintes sont déphasées, du coup elle continue à jouer le son MAIS (encore une fois) le fait qu'elles soient déphasées annule "physiquement" celui ci et on l'entend pas ? (Alors qu'il est pourtant joué par les haut parleurs ._. )
Un peu le même principe que les casques à réduction de bruits ambiants ?

avatar bax137 | 

@MisteriousGaga

En fait la soustraction (plus exactement l’addition des deux voies déphasées) se fait avant l’amplification et le son est donc diffusé en mono sur les deux enceintes. Le son qui est exactement identique entre les voies droites et gauche (généralement, mais pas toujours, la voix) se voit donc supprimé par cette opération de soustraction.

avatar MisteriousGaga | 

@bax137

Waaaa ! Merci beaucoup de l'explication !
C'est impressionnant...
donc pour la plupart des "anciens" morceaux ça fonctionnerait du style Michael Jackson, mais les nouveaux, ou pour la plupart du temps, la voix principale est à la fois sur le canal de droite et de gauche tout en étant pas strictement identique... je sais pas trop comment expliquer, mais perso pour simuler cet effet je chante 2 fois le morceau et je pan à fond d'un côté et pareil de l'autre :') (me tapez pas si il fallait juste mettre un effet au lieu de faire tout ça 😂😅)

Mais du coup dans le cas du morceau ou j'ai fais ça, il est impossible de soustraire la voix de cette méthode on est d'accord ? Et dans ce cas j'aurais tout bien compris ^^

avatar bax137 | 

@MisteriousGaga

"Un peu le même principe que les casques à réduction de bruits ambiant"

Oui, c’est ça.

avatar MisteriousGaga | 

@bax137

D'accord

avatar tleveque | 

Il existe déjà un service en ligne pour le faire vous même avec vos fichier audio:
https://moises.ai

Ça utilise la librairie de Deezer derriere.
J'ai essayé et c'est vraiment impressionnant! Pas parfait bien sûr, mais quand même! Je joue de la batterie, alors pour moi, pouvoir enlever la batterie d'une pièce pour jouer dessus, c'est vraiment miraculeux! Merci Deezer!

CONNEXION UTILISATEUR