¿Murió el Internet? Stanford Revela que un Tercio de los Nuevas Páginas Web Son Generadas por IA

Un estudio liderado por Stanford cuantificó lo que todos ya sospechaban, aunque los hallazgos no son exactamente lo que la gente esperaba.

Por Jose Antonio Lanz

4 min lectura

Un nuevo estudio tiene una cifra sobre cuánto del internet es ahora generado por IA: el 35%. Esa es la proporción de sitios web recién publicados clasificados como generados o asistidos por IA a mediados de 2025, según una investigación de la Universidad de Stanford, el Imperial College London y el Internet Archive. La cifra era prácticamente cero antes del lanzamiento de ChatGPT en noviembre de 2022.

"Me resulta bastante asombrosa la velocidad con la que la IA ha tomado el control de la web", señaló Jonáš Doležal, investigador del Imperial College London y coautor del estudio, a 404 Media. "Después de décadas en que los humanos la moldearon, una parte significativa del internet ha quedado definida por la IA en apenas tres años".

El estudio, titulado "The Impact of AI-Generated Text on the Internet", se basó en 33 meses de capturas de sitios web de la Wayback Machine del Internet Archive y utilizó un detector de texto con IA llamado Pangram v3 para clasificar cada página.

Los daños confirmados: percepciones, no hechos

Los investigadores pusieron a prueba seis hipótesis sobre lo que el contenido generado por IA le hace a la web. Solo dos resistieron el escrutinio de los datos.

La primera: nos estamos convirtiendo en una horda de NPCs sin criterio que actúan de la misma manera... O, dicho de forma más científica, la web se está volviendo menos diversa semánticamente.

Los sitios generados por IA mostraron puntuaciones de similitud semántica por pares un 33% más altas que los escritos por humanos. Las mismas ideas se expresan una y otra vez de maneras casi idénticas.

El estudio sugiere que la ventana de Overton en línea podría estar reduciéndose, no por censura ni campañas coordinadas, sino porque los modelos de lenguaje optimizan sus resultados para mantenerse cerca de su distribución de entrenamiento.

La segunda: la web se está volviendo agresivamente optimista.

El contenido generado por IA mostró puntuaciones de sentimiento positivo más de un 107% superiores a las del contenido humano. Los investigadores vinculan esto a las conocidas tendencias aduladoras de los LLMs, que al ser entrenados con señales de aprobación humana producen textos que se sienten esterilizados, sin fricción y perpetuamente optimistas.

Un internet inundado de contenido alegre y homogéneo podría marginar la disidencia humana a gran escala sin que nadie mueva un dedo.

A pesar de la creencia generalizada, el estudio no encontró evidencia estadísticamente significativa de que el contenido generado por IA esté haciendo el internet menos preciso en términos de hechos. Los investigadores no hallaron una correlación significativa entre la prevalencia de la IA y la tasa de errores factuales.

La hipótesis de la monocultura estilística, es decir, que la IA aplana las voces individuales en un registro genérico y uniforme, fue la creencia que los encuestados sostenían con más fuerza (el 83% estuvo de acuerdo). Los datos no la confirmaron. El análisis a nivel de caracteres no encontró un aumento estadísticamente significativo en la homogeneidad estilística vinculado a la prevalencia de la IA.

El problema del colapso de los modelos se vuelve real

Las implicaciones más amplias van más allá de la calidad del discurso. Con una prevalencia del 35% de IA, el riesgo teórico del colapso de los modelos, donde los modelos futuros se degradan tras entrenarse con datos generados por IA, deja de ser una preocupación académica para convertirse en una realidad empírica. Los futuros modelos de fundación entrenados con rastreos web contemporáneos inevitablemente ingerirán datos que son sustancialmente generados por IA y notablemente menos diversos en términos semánticos.

El equipo trabaja actualmente con el Internet Archive para convertir el estudio en una herramienta de monitoreo continuo y en tiempo real, que rastree la participación de la IA en la web de forma permanente y no como una fotografía única.

Una encuesta realizada en Estados Unidos junto con el estudio reveló que la mayoría de los estadounidenses ya cree en las seis hipótesis negativas, incluidas aquellas que los datos no respaldan. Las personas que usan la IA con poca frecuencia tenían un 12% más de probabilidades de creer en los daños que los usuarios frecuentes. Los creyentes de la Teoría del Internet Muerto pueden conocer los datos: el internet no está muerto, pero el 35% de lo que es nuevo probablemente sea contenido zombi en cierta forma.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados