En Resumen

  • Anthropic, la principal startup de inteligencia artificial generativa, afirmó que no utilizará datos de clientes para entrenar su LLM y defenderá a usuarios frente a reclamos de derechos de autor.
  • Fundada por exinvestigadores de OpenAI, Anthropic actualizó sus Términos de servicio, excluyendo datos privados de clientes, marcando diferencia con competidores como OpenAI, Amazon y Meta, quienes usan datos de usuarios para mejorar sistemas.
  • Los nuevos términos garantizan que los clientes son propietarios de las salidas de IA generadas, brindando protección y transparencia.

La principal startup de inteligencia artificial generativa, Anthropic, ha declarado que no utilizará los datos de sus clientes para entrenar su Modelo de Lenguaje Grande o Large Language Model (LLM) y que intervendrá para defender a los usuarios que enfrenten reclamos de derechos de autor.

Anthropic, fundada por antiguos investigadores de OpenAI, actualizó sus Términos de servicio comerciales para dejar claros sus ideales e intenciones. Al excluir los datos privados de sus propios clientes, Anthropic se diferencia sólidamente de competidores como OpenAI, Amazon y Meta, que utilizan el contenido de los usuarios para mejorar sus sistemas.

"Anthropic no puede entrenar modelos con el contenido de los clientes de servicios pagados", según los términos actualizados, que añaden que "entre las partes y en la medida permitida por la ley aplicable, Anthropic acuerda que el cliente es el propietario de todas las salidas y renuncia a cualquier derecho que reciba sobre el contenido del cliente en virtud de estos términos".

Los términos continúan diciendo que "Anthropic no anticipa obtener ningún derecho sobre el contenido del cliente bajo estos términos" y que "no otorgan a ninguna de las partes derechos sobre el contenido o propiedad intelectual del otro, implícita o explícitamente".

AD

El documento legal actualizado proporciona protección y transparencia para los clientes comerciales de Anthropic. Las empresas son propietarias de todas las salidas de IA generadas, evitando posibles disputas de propiedad intelectual. Anthropic también se compromete a defender a los clientes de reclamaciones de derechos de autor sobre cualquier contenido infractor producido por Claude.

La política se alinea con la declaración de misión de Anthropic de que la IA debe ser beneficiosa, inofensiva y honesta. A medida que aumenta el escepticismo público sobre la ética de la IA generativa, el compromiso de la empresa de abordar preocupaciones como la privacidad de los datos podría darle una ventaja competitiva.

Datos de los usuarios: el alimento vital de los LLM

Los Modelos de Lenguaje Avanzados (LLMs) como GPT-4, LlaMa o Claude de Anthropic son sistemas de IA avanzados que comprenden y generan lenguaje humano al ser entrenados con una amplia cantidad de datos de texto. Estos modelos aprovechan técnicas de aprendizaje profundo y redes neuronales para predecir secuencias de palabras, entender el contexto y captar las sutilezas del lenguaje. Durante el entrenamiento, continúan refinando sus predicciones, mejorando su capacidad para conversar, componer texto o proporcionar información relevante.

La efectividad de los LLMs depende en gran medida de la diversidad y el volumen de los datos en los que se entrenan, lo que los hace más precisos y conscientes del contexto a medida que aprenden de diversos patrones de lenguaje, estilos e información nueva.

AD

Y es por eso que los datos de los usuarios son tan valiosos en el entrenamiento de LLMs. En primer lugar, asegura que los modelos se mantengan actualizados con las últimas tendencias lingüísticas y preferencias de los usuarios (por ejemplo, entender nuevos argots). En segundo lugar, permite la personalización y una mejor interacción con el usuario al adaptarse a las interacciones y estilos individuales.

Sin embargo, eso genera un debate ético porque las compañías de IA no pagan a los usuarios por esta información crucial que se utiliza para entrenar modelos que les generan millones de dólares.

Según informa Decrypt, Meta reveló recientemente que está entrenando su próximo LlaMA-3 LLM basado en los datos de los usuarios y que sus nuevos modelos EMU (que generan fotos y videos a partir de indicaciones de texto) también fueron entrenados utilizando datos públicamente disponibles subidos por sus usuarios en las redes sociales.

Además de eso, Amazon reveló que su próximo LLM, que alimentaría una versión mejorada de Alexa, también está siendo entrenado con las conversaciones e interacciones de los usuarios, sin embargo, los usuarios pueden optar por no compartir los datos de entrenamiento, que por defecto se establece asumiendo que los usuarios están de acuerdo en compartir esta información.

"[Amazon] siempre ha creído que entrenar a Alexa con solicitudes del mundo real es esencial para ofrecer a los clientes una experiencia precisa, personalizada y en constante mejora", dijo un portavoz de Amazon a Decrypt. "Pero al mismo tiempo, damos a los clientes control sobre si se utilizan sus grabaciones de voz de Alexa para mejorar el servicio, y siempre respetamos las preferencias de nuestros clientes cuando entrenamos nuestros modelos".

Con las grandes empresas de tecnología compitiendo por lanzar los servicios de IA más avanzados, las prácticas responsables de datos son clave para ganar la confianza del público. Anthropic tiene como objetivo liderar con el ejemplo en este sentido.

El debate ético sobre obtener modelos más poderosos y convenientes a expensas de ceder información personal es tan relevante hoy como lo fue décadas atrás, cuando las redes sociales popularizaron el concepto de que los usuarios se convierten en el producto a cambio de servicios gratuitos.

AD

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.