Google a faim de plus de données pour former son IA - mais à quel prix ?

Google est prêt à utiliser votre contenu en ligne pour former ses modèles d'IA, à moins qu'on lui demande d'arrêter.

Par Jose Antonio Lanz

Aug 10, 2023

4 min de lecture

Image created by Decrypt using AI

Add on Google

Google est clairement déterminé à se nourrir du contenu des éditeurs web pour faire avancer ses systèmes d'intelligence artificielle. Le géant de la technologie et de la recherche propose que les entreprises doivent se désengager - comme elles le font actuellement pour l'indexation des moteurs de recherche - si elles ne veulent pas que leur contenu soit extrait.

Les détracteurs de ce modèle de désengagement affirment que cette politique bouleverse les lois sur le droit d'auteur qui mettent la responsabilité sur les entités cherchant à utiliser du matériel protégé par le droit d'auteur, plutôt que sur les détenteurs des droits d'auteur eux-mêmes.

Le plan de Google a été révélé dans sa contribution à la consultation du gouvernement australien sur la réglementation des applications d'IA à haut risque. Alors que l'Australie envisage d'interdire certaines utilisations problématiques de l'IA telles que la désinformation et la discrimination, Google soutient que les développeurs d'IA ont besoin d'un large accès aux données.

Comme rapporté par The Guardian, Google a déclaré aux décideurs politiques australiens que «la loi sur le droit d'auteur devrait permettre une utilisation appropriée et équitable du contenu protégé par le droit d'auteur» pour la formation de l'IA. La société a mentionné son robot d'exploration de contenu standardisé appelé robots.txt, qui permet aux éditeurs de spécifier les sections de leurs sites fermées aux robots d'exploration web.

Google n'a pas donné de détails sur le fonctionnement de l'option de désactivation. Dans un article de blog, il a vaguement fait allusion à de nouvelles «normes et protocoles» qui permettraient aux créateurs de sites web de choisir leur niveau de participation à l'IA.

La société fait pression sur l'Australie depuis mai pour assouplir les règles de droit d'auteur après avoir lancé son chatbot Bard AI dans le pays. Cependant, Google n'est pas le seul à avoir des ambitions en matière de collecte de données. OpenAI, créateur du chatbot ChatGPT, vise à étendre son ensemble de données d'entraînement avec un nouveau robot d'exploration web appelé GPTBot. Comme Google, il adopte un modèle de désinscription qui oblige les éditeurs à ajouter une règle «disallow» s'ils ne veulent pas que leur contenu soit extrait.

C'est une pratique courante pour de nombreuses grandes entreprises technologiques qui se basent sur l'IA (algorithmes d'apprentissage profond et d'apprentissage automatique) pour cartographier les préférences de leurs utilisateurs et diffuser du contenu et des publicités correspondants.

Cette poussée pour plus de données intervient alors que la popularité de l'IA a explosé. Les capacités de systèmes tels que ChatGPT et Bard de Google reposent sur l'ingestion de vastes ensembles de données textuelles, d'images et de vidéos. Selon OpenAI, «GPT-4 a appris à partir d'une variété de sources de données sous licence, créées et disponibles publiquement, qui peuvent inclure des informations personnelles disponibles publiquement».

Mais certains experts soutiennent que le web scraping sans autorisation soulève des problèmes de droits d'auteur et d'éthique. Des éditeurs comme News Corp. sont déjà en pourparlers avec des entreprises d'IA pour demander un paiement pour l'utilisation de leur contenu. L'AFP vient de publier une lettre ouverte sur cette question très importante.

«Les intelligences artificielles génératives et les grands modèles de langage sont souvent entraînés à l'aide de contenus médiatiques propriétaires, pour lesquels les éditeurs et d'autres investissent beaucoup de temps et de ressources», indique la lettre. «De telles pratiques sapent les modèles économiques fondamentaux de l'industrie des médias, qui reposent sur le lectorat et l'audience (comme les abonnements), les licences et la publicité.

»En plus de violer le droit d'auteur, cela réduit de manière significative la diversité des médias et compromet la viabilité financière des entreprises pour investir dans la couverture médiatique, réduisant ainsi l'accès du public à des informations de haute qualité et fiables«, a ajouté l'agence de presse.

Ce débat illustre la tension entre la promotion de l'IA grâce à un accès illimité aux données et le respect des droits de propriété. D'un côté, plus de contenu est consommé, plus ces systèmes deviennent performants. Mais ces entreprises profitent également du travail des autres sans partager les bénéfices.

Trouver le bon équilibre ne sera pas facile. La proposition de Google demande essentiellement aux éditeurs de »remettre leur travail à notre IA ou prendre des mesures pour s'en exclure«. Pour les petits éditeurs avec des ressources ou des connaissances limitées, il peut être difficile de s'en exclure.

L'examen de l'éthique de l'IA en Australie offre une opportunité de mieux façonner l'évolution de ces technologies. Mais si le discours public cède la place aux géants de la technologie avides de données poursuivant leurs propres intérêts, cela pourrait établir un statu quo où les créations sont englouties par des systèmes d'IA à moins que les créateurs ne fassent des pieds et des mains pour l'arrêter.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices