Droits d’auteur et droits voisins

Droits d’auteur et droits voisins

B Smart | Smart Tech | Le Rendez-vous éco-numérique

Entraînement des IA: qui doit payer quoi ?

Qui dit données d’entrainement pour les solutions d’intelligence artificielle générative, dit contenus de qualités. Leurs auteurs doivent trouver une juste rémunération

Dans le rendez-vous mensuel de notre think tank dans l’émission Smart Tech, présentée par Delphine Sabattier, sur B Smart TV, selon David Lacombled, président de La villa numeris, «si vous savez authentifier et tracer vos contenus, vous pouvez en réclamer la paternité et in fine la rémunération»

Delphine Sabattier: Je vous propose un nouveau rendez-vous qui sera régulier autour des questions des sujets d'économie numérique. Alors aujourd'hui, on va s'intéresser, parmi tous ces défis de l'économie numérique, je ne dirais pas le plus simple, mais en tout cas qui est vraiment sur le devant de la scène en ce moment, la rémunération des contenus qui servent à entraîner les intelligences artificielles. Je dis complexe, mais on ne va pas dire insoluble quand même, non?

David Lacombled: Les journalistes, pour la plupart, ont fait vœu de pauvreté.

Delphine Sabattier: C'est vrai.

David Lacombled: Ce n’est pas une raison pour autant pour ne pas les payer. Or, la rémunération des artistes, des journalistes, des chanteurs et donc de ce qu'ils produisent est aussi ancienne que le Web et Internet, et donc le numérique. Souvenez-vous, il y a 25 ans, il y avait plusieurs moteurs de recherche. Les plus jeunes ne s'en souviendront peut être pas Altavista, Voilà et Yahoo qui ont périclité depuis. Aujourd'hui, il reste Bing et surtout Google, vers lesquels d'ailleurs la plupart des producteurs de contenus se tournent parce qu'on ne prête qu'aux riches et on leur demande aussi beaucoup. Alors c'est vrai qu'historiquement, ce moteur de recherche référençait des contenus pour envoyer de l'audience vers des sites Web qui tentaient soit de vendre leurs contenus dans une économie qui est quasiment gratuite, en tout cas pour les utilisateurs, ou soit qu'il est financé par la publicité. Or, il s'avère que Google est une régie publicitaire et une grosse régie publicitaire. Deux tiers du marché publicitaire est détenu par les grandes plateformes. Et donc, effectivement, les médias traditionnels et historiques ont le sentiment d'avoir une perte de valeur et c'est pour ça qu'ils se retournent vers les plateformes pour tenter d'aller négocier quelques subsides parce qu'ils considèrent que leur contenu, c'est le sel, c'est le moteur, le combustible de ces moteurs de recherche. Et rien de mieux que des journalistes ou des auteurs pour les écrire.

Delphine Sabattier: Bon, ils sont quand même rémunérés.

David Lacombled: Alors ils sont rémunérés par des éditeurs qui aujourd'hui effectivement les financent soit par la publicité, soit par les abonnements, soit par des contrats qu'ils négocient de gré à gré avec des diffuseurs. Il y a aussi un système en Europe depuis 2019 de droits voisins. C'est ainsi qu'on les appelle ou les plateformes en ligne redistribuent par des organismes de gestion collective un certain nombre de financements auprès des médias.

Delphine Sabattier: Et donc ce dispositif de droits voisins peut s'étendre aux contenus qui servent à entraîner les solutions d'intelligence artificielle générative comme ChatGPT, Gemini, Llama de Meta par exemple.

David Lacombled: Ces solutions d'intelligence artificielle générative ne valent que si elles sont très performantes. Et pour l'être, il faut s'entraîner. C'est un peu comme Léon Marchand, une course assez courte tous les quatre ans et le reste du temps aux bassins pour s'entraîner. C'est le même cas pour les intelligences artificielles génératives. Et pour cela il faut des données, beaucoup de données. Alors ça tombe bien, il y a des réservoirs à données. Je vous enverrai vers Common Crawl, qui est une fondation américaine. Les contenus y sont gratuits et Common Crawl ratisse, écume, l'ensemble du Web très régulièrement et vous pouvez d'ailleurs y aller. Vous serez surprise de ce que vous y trouverez. Equipez-vous d'un ordinateur avec quelques Téra de mémoire pour pouvoir aspirer ce que vous souhaitez. Et c'est là que se servent les solutions d'intelligence artificielle. C'est la mémoire du Web qui est une représentation assez significative de l'humanité, pour ne pas dire très représentative. On a fait une étude avec Aday qui montre que les contenus en langue française, c'est 5 % de cette masse-là. Et les contenus qu'on peut estimer de qualité produits par des journalistes, c'est 3 %, 3 % des 5 %. Je vous laisse faire le calcul, Delphine. Et donc les médias, c'est une infime partie, mais qui vaut de l'or.

Delphine Sabattier: Mais donc ça devrait être simple finalement d'en tirer un revenu.

David Lacombled: Alors c'est simple, si vous savez authentifier et tracer vos contenus, vous pouvez en réclamer la paternité et in fine la rémunération. C'est un peu comme un robot ménager cette affaire. Vous mettez des ingrédients, vous les mêlez, vous les mixez, vous les malaxez. Et au final, quand vous servez le plat préparé, compliqué de dire d'où vient la farine, le sucre et qui l'a fabriqué ? Et donc, la seule solution qui est technologique pour valoriser ces contenus, c'est de créer des registres, de les marquer pour les authentifier, les tracer. Et demain vous donnez tous les moyens d'y mettre des droits et donc une valeur et de la négocier.

:: Pour aller plus loin:

:: Smart Tech est le magazine dédié au monde de l’innovation et à la nouvelle société numérique animé par Delphine Sabattier

:: Retrouvez B Smart sur votre TV: Bouygues (canal 245), Free (canal 349) et Orange (canal 230)