Lecture

Google a faim de plus de données pour former son IA - mais à quel prix ?

Google est prêt à utiliser votre contenu en ligne pour former ses modèles d'IA, à moins qu'on lui demande d'arrêter.

Par Jose Antonio Lanz

Aug 10, 2023

4 min de lecture

Image created by Decrypt using AI

Google est clairement déterminé à se nourrir du contenu des éditeurs web pour faire avancer ses systèmes d'intelligence artificielle. Le géant de la technologie et de la recherche propose que les entreprises doivent se désengager - comme elles le font actuellement pour l'indexation des moteurs de recherche - si elles ne veulent pas que leur contenu soit extrait.

Les détracteurs de ce modèle de désengagement affirment que cette politique bouleverse les lois sur le droit d'auteur qui mettent la responsabilité sur les entités cherchant à utiliser du matériel protégé par le droit d'auteur, plutôt que sur les détenteurs des droits d'auteur eux-mêmes.

Le plan de Google a été révélé dans sa contribution à la consultation du gouvernement australien sur la réglementation des applications d'IA à haut risque. Alors que l'Australie envisage d'interdire certaines utilisations problématiques de l'IA telles que la désinformation et la discrimination, Google soutient que les développeurs d'IA ont besoin d'un large accès aux données.

Comme rapporté par The Guardian, Google a déclaré aux décideurs politiques australiens que «la loi sur le droit d'auteur devrait permettre une utilisation appropriée et équitable du contenu protégé par le droit d'auteur» pour la formation de l'IA. La société a mentionné son robot d'exploration de contenu standardisé appelé robots.txt, qui permet aux éditeurs de spécifier les sections de leurs sites fermées aux robots d'exploration web.

Google n'a pas donné de détails sur le fonctionnement de l'option de désactivation. Dans un article de blog, il a vaguement fait allusion à de nouvelles «normes et protocoles» qui permettraient aux créateurs de sites web de choisir leur niveau de participation à l'IA.

La société fait pression sur l'Australie depuis mai pour assouplir les règles de droit d'auteur après avoir lancé son chatbot Bard AI dans le pays. Cependant, Google n'est pas le seul à avoir des ambitions en matière de collecte de données. OpenAI, créateur du chatbot ChatGPT, vise à étendre son ensemble de données d'entraînement avec un nouveau robot d'exploration web appelé GPTBot. Comme Google, il adopte un modèle de désinscription qui oblige les éditeurs à ajouter une règle «disallow» s'ils ne veulent pas que leur contenu soit extrait.

C'est une pratique courante pour de nombreuses grandes entreprises technologiques qui se basent sur l'IA (algorithmes d'apprentissage profond et d'apprentissage automatique) pour cartographier les préférences de leurs utilisateurs et diffuser du contenu et des publicités correspondants.

Cette poussée pour plus de données intervient alors que la popularité de l'IA a explosé. Les capacités de systèmes tels que ChatGPT et Bard de Google reposent sur l'ingestion de vastes ensembles de données textuelles, d'images et de vidéos. Selon OpenAI, «GPT-4 a appris à partir d'une variété de sources de données sous licence, créées et disponibles publiquement, qui peuvent inclure des informations personnelles disponibles publiquement».

Mais certains experts soutiennent que le web scraping sans autorisation soulève des problèmes de droits d'auteur et d'éthique. Des éditeurs comme News Corp. sont déjà en pourparlers avec des entreprises d'IA pour demander un paiement pour l'utilisation de leur contenu. L'AFP vient de publier une lettre ouverte sur cette question très importante.

«Les intelligences artificielles génératives et les grands modèles de langage sont souvent entraînés à l'aide de contenus médiatiques propriétaires, pour lesquels les éditeurs et d'autres investissent beaucoup de temps et de ressources», indique la lettre. «De telles pratiques sapent les modèles économiques fondamentaux de l'industrie des médias, qui reposent sur le lectorat et l'audience (comme les abonnements), les licences et la publicité.

»En plus de violer le droit d'auteur, cela réduit de manière significative la diversité des médias et compromet la viabilité financière des entreprises pour investir dans la couverture médiatique, réduisant ainsi l'accès du public à des informations de haute qualité et fiables«, a ajouté l'agence de presse.

Ce débat illustre la tension entre la promotion de l'IA grâce à un accès illimité aux données et le respect des droits de propriété. D'un côté, plus de contenu est consommé, plus ces systèmes deviennent performants. Mais ces entreprises profitent également du travail des autres sans partager les bénéfices.

Trouver le bon équilibre ne sera pas facile. La proposition de Google demande essentiellement aux éditeurs de »remettre leur travail à notre IA ou prendre des mesures pour s'en exclure«. Pour les petits éditeurs avec des ressources ou des connaissances limitées, il peut être difficile de s'en exclure.

L'examen de l'éthique de l'IA en Australie offre une opportunité de mieux façonner l'évolution de ces technologies. Mais si le discours public cède la place aux géants de la technologie avides de données poursuivant leurs propres intérêts, cela pourrait établir un statu quo où les créations sont englouties par des systèmes d'IA à moins que les créateurs ne fassent des pieds et des mains pour l'arrêter.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Artificial Intelligence

The latest artificial intelligence news, in-depth features, explainers, and analysis, spanning from generative to transformational technology and beyond.

CollectionÚltima actualización Mar 17, 2025

La musicienne FKA Twigs raconte au Congress qu'elle a créé son propre deepfake AI
L'intelligence artificielle était à nouveau le sujet chaud de la journée à Washington D.C., alors que les membres du Comité judiciaire du Sénat ont entendu témoignages de l'industrie musicale, des syndicats et du monde universitaire sur les risques présentés par l'IA générative. La séance s'est largement concentrée sur les répliques numériques alimentées par l'IA et les deepfakes, avec une musicienne partageant ses propres expériences avec la technologie. Le droit d'auteur et les protections de...
ActualitésArtificial Intelligence
4 min de lecture
Jason NelsonMay 1, 2024
Create an account to save your articles.
Le nouveau modèle d'IA Reka défie ChatGPT, Claude et Llama-3 - et c'est gratuit !
Une startup axée sur la construction de modèles d'IA personnalisés pour les grandes entreprises a annoncé le lancement public de Reka Core, un modèle de langage multimodal capable de traiter du texte, des images, des vidéos et des entrées audio. La société de logiciels d'entreprise Reka AI a été fondée en 2022 par des chercheurs de DeepMind de Google, du géant chinois de la technologie Baidu et de Meta. Elle a déjà levé 60 millions de dollars de financement auprès d'investisseurs, dont New York...
Reviews
9 min de lecture
Meta dévoile Llama-3 - Nous mettons à l'épreuve le nouveau modèle d'IA Open-Source le plus performant
Meta a publié Llama 3, le modèle de langage large open source le plus avancé actuellement disponible. Il s'appuie sur les bases posées par son prédécesseur, Llama 2, et est arrivé comme une surprise alors que des rumeurs suggéraient que la sortie aurait lieu le mois prochain. Avec ses racines open source, Llama-2 a été essentiel dans le développement simultané d'autres modèles puissants tels que Mixtral, Alpaca, Vicuna et WizardLM. Maintenant, Llama-3 promet d'aller encore plus loin avec ces cap...
ActualitésArtificial Intelligence
8 min de lecture
Jose Antonio LanzApr 22, 2024
Create an account to save your articles.

Coin Prices