En Resumen

  • La IA que aprende del contenido generado por la IA podría provocar el colapso del modelo y distorsiones en la realidad.
  • Acceder a datos reales producidos por humanos es fundamental para prevenir el colapso del modelo y garantizar la precisión de la IA.
  • El error de aproximación estadístico y funcional son las principales causas del colapso del modelo, y su acumulación genera inexactitudes cada vez peores.

La inteligencia artificial (IA) ha sido un cambio radical en numerosos campos, desde la atención médica hasta el comercio minorista, el entretenimiento y el arte. Sin embargo, una nueva investigación sugiere que podríamos haber alcanzado un punto de inflexión: la IA aprendiendo del contenido generado por la IA.

Este ouroboros de IA, una serpiente que se come su propia cola, podría terminar bastante mal. Un grupo de investigación de diferentes universidades del Reino Unido ha emitido una advertencia sobre lo que llamaron "colapso del modelo", un proceso degenerativo que podría separar por completo la IA de la realidad.

En un artículo titulado "La maldición de la recursividad: el entrenamiento en datos generados hace que los modelos olviden", investigadores de las universidades de Cambridge, Oxford, la Universidad de Toronto y del Imperial College de Londres explican que el colapso del modelo ocurre cuando "los datos generados terminan contaminando el conjunto de entrenamiento de la próxima generación de modelos".

"Al ser entrenados con datos contaminados, luego perciben mal la realidad", escribieron.

En otras palabras, el contenido ampliamente generado por la IA que se publica en línea podría ser absorbido de nuevo por los sistemas de IA, lo que lleva a distorsiones e inexactitudes.

Al igual que intentar copiar o clonar indefinidamente algo, estas prácticas, según los investigadores, podrían llevar a más casos de colapso del modelo.

Dadas las graves implicaciones del colapso del modelo, el acceso a la distribución de datos originales es fundamental. Los modelos de IA necesitan datos reales producidos por humanos para comprender y simular con precisión nuestro mundo.

Cómo prevenir el colapso de los modelos de IA

Según el artículo de investigación, hay dos causas principales del colapso del modelo. El principal es el "error de aproximación estadístico", que está relacionado con el número finito de muestras de datos. El secundario es el "error de aproximación funcional", que se deriva del margen de error utilizado durante el entrenamiento de la IA que no está configurado correctamente. Estos errores pueden acumularse a lo largo de las generaciones, causando un efecto cascada de inexactitudes cada vez peores.

El artículo explica una "ventaja del primer movimiento" para entrenar modelos de IA. Si podemos mantener el acceso a la fuente de datos generada por humanos original, podríamos evitar un cambio de distribución perjudicial y, por lo tanto, el colapso del modelo.

Distinguir el contenido generado por IA a gran escala es un desafío desalentador que puede requerir coordinación a nivel comunitario.

En última instancia, la importancia de la integridad de los datos y la influencia de la información humana en la IA es tan buena como los datos de los que se deriva, y la explosión de contenido generado por IA podría ser una espada de doble filo para la industria. Es como decir si "basura entra, basura sale": la IA basada en contenido de IA llevará a muchas máquinas muy inteligentes, pero "delirantes".

¿Qué tal para un giro irónico de la trama? Nuestra descendencia de máquinas, aprendiendo más entre ellas que de nosotros, se vuelven "delirantes". A continuación, tendremos que lidiar con un ChatGPT adolescente y delirante.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.