Ouvrir le menu principal

iGeneration

Recherche

Apple dément avoir entrainé Apple Intelligence sur des sous-titres de vidéos YouTube

Félix Cattafesta

jeudi 18 juillet 2024 à 10:30 • 42

iOS

En début de semaine, une enquête révélait comment certaines grandes boites de la tech - dont Apple - utilisaient une base de données basées sur des transcriptions de vidéos YouTube pour former leurs modèles d’intelligence artificielle. Cette source de près de 900 Go a été créée sans le consentement des vidéastes, ce qui n’a pas manqué de faire polémique. Apple a aujourd’hui clarifié les choses auprès de 9to5Mac : si elle a bien utilisé cet ensemble de données pour mettre sur pied son modèle open source OpenELM, le moteur ne sert pas à faire carburer les fonctions d’IA de son écosystème.

La base de données en question contient des textes tirés de plus de 48 000 chaînes pour un total de 173 536 vidéos. Parmi eux, de grands noms comme PewDiePie, MrBeast ou différentes émissions comme les Late Show de Stephen Colbert, John Oliver ou Jimmy Kimmel. L’affaire avait fait du bruit étant donné que les vidéastes n’étaient pas au courant de la réutilisation de leur travail. Certains youtubeurs comme MKBHD ont réagi dans la foulée via une vidéo.

Le modèle entrainé par Apple à l’aide de cette source est OpenELM, un modèle open source disponible sur GitHub pensé pour ne pas prendre trop de place et tourner localement. La page Github explique que les différents modèles OpenELM ont été « entraînés sur des ensembles de données publics » et que leur publication « vise à renforcer et à enrichir la communauté de la recherche ». Dans sa déclaration faite à 9to5, Apple affirme qu’elle n’utilise pas ce moteur pour ses fonctions d’IA ou pour le futur Apple Intelligence. Elle précise qu’elle n’a pas prévu d’en créer une seconde version.

Apple n’est pas la seule à s’être appuyée sur cette base de données : Google utiliserait les vidéos de YouTube pour ses IA, tandis qu’OpenAI aurait également moissonné la plateforme pour créer son modèle Sora. Depuis quasiment un an, Apple publie régulièrement des modèles de langage open source : on a par exemple vu arriver Ferret ou Matryoshka Diffusion pour ce qui est de la génération d’images.

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

La caméra avant de l’iPhone 2027 cachée sous son écran ?

16:19

• 6


Notices médicaments se refait une santé en passant au Liquid Glass et à SwiftUI

15:52

• 6


Les premières puces de mémoire LPDDR6 annoncées, parfaites pour les Mac, iPhone et autres iPad

15:46

• 1


Amazon pousse son Fire TV Stick sous Vega OS aux utilisateurs de Fire TV abandonnés et obsolètes, avec une belle promotion

11:55

• 15


Où trouver un iPhone 17, 17 Pro et 17 Pro Max en stock ? 🆕

11:55

• 196


Migrer vers Windows 10 : la bonne idée du ministère britannique de l’Agriculture

11:19

• 67


Apple TV : pas d’offre avec pub prévue pour l’instant, mais Eddy Cue ne s’interdit rien

10:58

• 14


Quel avenir pour Apple Fitness+ ?

08:43

• 61


À quoi ressemblerait le MacBook “low-cost” équipé d’une puce d’iPhone ?

08:43

• 28


La charge rapide a un effet limité sur la santé des batteries de nos smartphones, la preuve

08:30

• 48


iPhone : Apple veut pousser la connexion satellite beaucoup plus loin

06:52

• 17


L’avenir du satellite, le retour du MacBook et le contrat à un milliard de dollars : la semaine Apple

09/11/2025 à 21:06

• 17


WhatsApp sur le point de s’ouvrir aux messageries tierces

09/11/2025 à 15:18

• 66


Test du lampadaire de SwitchBot : un éclairage Matter sans se ruiner 🆕

08/11/2025 à 23:00

• 80


Sortie de veille : un nouveau MacBook autour de 700 €, trop beau pour être vrai ?

08/11/2025 à 10:54

• 28


L’arrivée d’Apple comme diffuseur a eu l’effet d’une bombe, et la F1 compte bien exploiter le partenariat au maximum

07/11/2025 à 21:00

• 50