OpenAI et Midjourney se serviraient des publications Tumblr et WordPress pour leur entraînement

Pixabay

Tl;dr

  • Automattic approche un accord pour vendre les données utilisateurs de Tumblr et WordPress à OpenAI et Midjourney.
  • Automattic pourrait avoir tenté d’inclure des données privées dans l’accord initial.
  • Automattic prévoit de lancer un outil d’opt-out permettant aux utilisateurs de bloquer l’utilisation de leurs données par des tiers.
  • La rentabilité des accords de formation de données d’IA attire de plus en plus de sites web.

Vers une vente des données utilisateurs de Tumblr et WordPress à des entreprises d’IA

Automattic, la société mère des plateformes de blogs Tumblr et WordPress, serait sur le point de conclure des accords avec OpenAI et Midjourney pour leur vendre des données utilisateurs. Ces informations seraient destinées à former les modèles des entreprises d’IA, selon une information de 404 Media.

Une tentative présumée d’inclure des données privées

Cependant, le type de données qui seraient incluses dans l’accord n’est pas clair. D’après une présumée publication interne de Cyle Gage, manager de produit chez Tumblr, il semble qu’Automattic avait prévu d’inclure des données privées ou liées à des partenaires pourtant censées être exclues de l’accord. Cela concernerait potentiellement des publications privées, des blogs supprimés ou suspendus, ou encore du contenu marqué comme explicite.

Un nouvel outil pour protéger les données des utilisateurs

Face à ces incertitudes, Automattic prévoirait de lancer un outil d’opt-out ce mercredi. Celui-ci permettrait aux utilisateurs de bloquer l’accès à leurs données par des tiers, y compris les entreprises d’IA. Une FAQ interne préparée par Automattic explique que si un utilisateur choisit l’opt-out dès le départ, son site serait ajouté à une liste de sites interdits d’accès. Par ailleurs, si un utilisateur change d’avis ultérieurement, Automattic prévoit de notifier ses partenaires pour demander la suppression du contenu.

Un marché lucratif pour les sites web

Dans un contexte où la publication en ligne est de plus en plus précaire, ces accords de formation de données d’IA deviennent une opportunité lucrative pour bon nombre de sites web. Par exemple, Google a récemment conclu un accord avec Reddit pour former son intelligence artificielle sur la vaste base de connaissances générées par les utilisateurs du site. De son côté, OpenAI a lancé un programme de partenariat l’année dernière pour collecter des ensembles de données de tiers afin d’entraîner ses modèles d’IA.

Lire la source


A lire aussi