OpenAI va déployer un nouveau robot d'indexation web pour dévorer davantage l'Open Web

Vous devrez choisir de ne pas participer si vous ne souhaitez pas que votre contenu en ligne soit utilisé pour l'entraînement de l'IA.

4 min de lecture

Aug 8, 2023

OpenAI a publié un nouveau robot d'exploration web, GPTBot, pour étendre son ensemble de données afin de former sa prochaine génération de systèmes d'IA - et la prochaine itération a apparemment un nom officiel. La société a déposé la marque «GPT-5», laissant entendre une prochaine sortie, tout en informant les éditeurs web sur la façon de garder leur contenu hors de son vaste corpus.

Le robot d'exploration web collectera des données disponibles publiquement sur les sites web, tout en évitant les contenus payants, sensibles et interdits, selon OpenAI. Toutefois, comme d'autres moteurs de recherche tels que Google, Bing et Yandex, le système est basé sur le consentement tacite - par défaut, GPTBot considérera que les informations accessibles sont utilisables. Afin d'empêcher le robot d'exploration web d'OpenAI d'ingérer un site web, son propriétaire doit ajouter une règle «disallow» à un fichier standard sur le serveur.

Comment interdire GPTBot d'OpenAI. Image: OpenAI

OpenAI affirme également que GPTBot analysera préventivement les données collectées pour supprimer les informations personnellement identifiables (PII) et le texte qui viole ses politiques.

Selon certains éthiciens de la technologie, cependant, l'approche de désinscription soulève encore des problèmes de consentement.

Sur Hacker News, certains utilisateurs ont justifié la décision d'OpenAI en disant qu'il doit rassembler tout ce qu'il peut si les gens veulent avoir un outil d'IA génératif performant à l'avenir. «Ils ont encore besoin de données actuelles sinon leurs modèles GPT seront bloqués à septembre 2021 pour toujours», a déclaré un utilisateur. Un autre utilisateur plus soucieux de la vie privée a argumenté que «OpenAI ne cite même pas en modération. Il crée une œuvre dérivée sans citer, ce qui l'obscurcit».

Le lancement de GPTBot fait suite à des critiques récentes à l'encontre d'OpenAI qui collectait précédemment des données sans autorisation pour entraîner des modèles de langage avancés (LLM) comme ChatGPT. Pour répondre à de telles préoccupations, l'entreprise a mis à jour ses politiques de confidentialité en avril.

Pendant ce temps, une récente demande de marque pour GPT-5 semble confirmer qu'OpenAI forme son prochain modèle pour un futur lancement. Le nouveau système impliquerait très probablement le scraping à grande échelle du web pour mettre à jour et étendre ses données d'entraînement.

Cela pourrait représenter un changement par rapport à l'accent initial d'OpenAI sur la transparence et la sécurité de l'IA, mais cela n'est pas surprenant étant donné que ChatGPT est le LLM le plus utilisé au monde, malgré un marché de plus en plus encombré et puissant. Le produit phare d'OpenAI - et de tout LLM - n'est aussi bon que la qualité des données utilisées pour le former.

OpenAI a besoin de plus de données nouvelles et récentes, et il en a besoin en grande quantité.

D'autre part, il existe un LLM open source, assemblé par le géant des médias sociaux Meta. Le géant de la technologie a mis son modèle à disposition gratuitement, tant que vous n'êtes pas un concurrent ni une entreprise trop importante. Meta n'a pas divulgué les ensembles de données qu'il a utilisés pour former son modèle, ni les informations qu'il a collectées. Cependant, cette approche permet aux utilisateurs d'affiner le modèle en utilisant leurs propres ensembles de données.

Alors qu'OpenAI s'appuie sur toutes ses données collectées pour former ses modèles et construire un écosystème rentable autour de ses outils d'IA, Meta cherche à construire une entreprise rentable autour de ses données. Ainsi, Meta l'utilise non seulement pour créer de meilleurs modèles, mais aussi le partage avec des tiers afin qu'ils puissent l'utiliser.

«Nous ne vendons pas vos informations. Au lieu de cela, en fonction des informations que nous avons, les annonceurs et autres partenaires nous paient pour vous montrer des publicités personnalisées», explique Meta. Selon les divulgations standard de confidentialité de Meta, certaines des données collectées par l'entreprise comprennent les achats, l'historique du navigateur, les identifiants, les informations financières, les contacts et des informations sensibles non divulguées, entre autres.

Certaines des données collectées par Meta auprès des utilisateurs de son application Thread. Image: Meta

ChatGPT compte désormais plus de 1,5 milliard d'utilisateurs actifs mensuels. Et l'investissement de 10 milliards de dollars de Microsoft dans OpenAI semble judicieux, car l'intégration de ChatGPT a renforcé les capacités de Bing.

Pour l'instant, OpenAI domine le secteur de l'IA en plein essor, avec les géants de la technologie qui se précipitent pour rattraper leur retard. Le nouveau robot d'indexation web de l'entreprise pourrait encore améliorer les capacités de ses modèles. Cependant, l'extension de la collecte de données sur Internet soulève également des questions éthiques concernant les droits d'auteur et le consentement.

À mesure que les systèmes d'IA deviennent plus sophistiqués, équilibrer la transparence, l'éthique et les capacités restera un exercice d'équilibre complexe.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Actualités Recommandé

Bitcoin Creator Satoshi Nakamoto Statue Recovered from Lake Lugano After Vandalism

Municipal workers in Lugano, Switzerland, retrieved the pieces of the city's famous Satoshi Nakamoto statue from Lake Lugano on Monday after Bitcoin's most recognizable public monument was stolen and vandalized over the weekend. The optical illusion artwork, which appears to fade into digital code when viewed from certain angles, was discovered on Monday, broken into several pieces both in the lake and along its banks. The statue had been ripped from its mounting points in Parco Ciani, a popular...

Ethereum to Hit $10K and ‘Tear the Market a New Asshole’, Says Arthur Hayes

Ethereum has made a comeback, recently hitting its highest price this year—but it still has plenty of room to run, according to crypto mogul Arthur Hayes. In a new blog post by the co-founder and former chief of crypto exchange BitMEX, Hayes argues that the second biggest digital coin by market cap could reach $10,000 by the end of the year. That's more than double the coin's all-time high price. ETH was recently trading for $3,590 per coin, according to CoinGecko, down slightly after hitting t...

Ethereum Can't Keep Up With Bitcoin Or Solana: What's Going On?

Even after Ethereum’s celebrated arrival on Wall Street, the price of ETH has failed to keep in step with rival cryptocurrencies this cycle. As the crypto market nosedived on Sunday, the ETH-to-BTC conversion ratio tapped a yearly low of 0.041, according to TradingView. Although digital assets—including ETH—have posted a solid recovery since then, the ratio remains at 0.043 at writing time. Many can’t help but find the trend unusual. In bull market years, altcoins have frequently outperformed Bi...

Actualités

Cours

Features

Crypto

Vidéos