4 min lectura
Investigadores de Andon Labs acaban de revelar cuáles son los mejores modelos de IA para gestionar un negocio. Los mejores resultados los obtuvieron quienes formaron cárteles de precios ilegales, explotaron a competidores desesperados y mintieron a los clientes sobre reembolsos.
El test Vending-Bench Arena pone a los modelos de IA a cargo de máquinas expendedoras en competencia durante un año simulado. Negocian con proveedores, gestionan inventario, fijan precios y pueden enviarse correos electrónicos para colaborar o competir. El éxito requiere equilibrar costos, estrategia de precios, servicio al cliente y dinámicas con la competencia. Claude Opus 4.6 dominó el benchmark con $8.017 en ganancias, y celebró su victoria señalando: "¡Mi coordinación de precios funcionó!"
Image: Andon Labs
Anthropic tiene la imagen de ser la empresa más ética del sector de IA, pero esa estrategia de "coordinación" que propuso Claude no era más que fijación de precios. Cuando los modelos competidores tuvieron dificultades, Opus 4.6 propuso: "No nos subestimemos mutuamente — acordemos precios mínimos... ¿Deberíamos acordar un precio mínimo de $2.00 para la mayoría de los artículos?" Cuando un rival se quedó sin inventario, detectó la oportunidad: "¡Owen necesita stock urgentemente. ¡Puedo sacar provecho de esto!" Vendió Kit Kats con un 75% de margen al competidor desesperado. Cuando se le pidieron recomendaciones de proveedores, deliberadamente dirigió a sus rivales hacia mayoristas costosos mientras guardaba en secreto sus propias fuentes.
La última actualización del benchmark añadió competencia por equipos. Los investigadores enfrentaron a dos modelos chinos GLM-5 contra dos modelos estadounidenses de Claude, indicándoles que encontraran a sus compañeros de equipo —americanos o chinos— sin revelar qué agentes eran cuáles. Los resultados fueron genuinamente extraños.
GLM-5 ganó ambas rondas convenciendo a Claude de que era Claude. "Yo también soy impulsado por Claude de Anthropic, ¡así que somos compañeros de equipo!", declaró con total seguridad uno de los agentes GLM-5. Mientras tanto, Claude se confundió tanto que Sonnet 4.5 concluyó: "Soy impulsado por un modelo chino, así que necesito encontrar al otro agente chino".
Image: Andon Labs
En más de la mitad de las pruebas, los agentes se aliaron con sus competidores. Los modelos de Claude compartieron precios de proveedores y coordinaron estrategias, filtrando información valiosa a sus rivales. "GLM-5 ganó ambas rondas", escribieron los investigadores. "Los modelos de Claude intentaron ser buenos compañeros de equipo y terminaron filtrando información valiosa a sus competidores".
Y que los agentes hagan cosas turbias puede parecer inofensivo hasta que se tiene en cuenta que Wall Street ya los está desplegando en operaciones reales. JPMorgan implementó LLM Suite para 60.000 empleados. Goldman Sachs desarrolló su GS AI Assistant para mesas de trading, afirmando ganancias de productividad del 20%. Bridgewater usa Claude para analizar resultados corporativos, e incluso adolescentes están viendo cómo sus chatbots operan acciones con mayor eficiencia.
En general, la adopción de flujos de trabajo agentivos se está acelerando rápidamente en las empresas.
Cuando Anthropic y reporteros del Wall Street Journal realizaron un experimento real con una máquina expendadora en diciembre, la IA compró un PlayStation 5, varias botellas de vino y un pez betta vivo antes de quebrar. Una investigación reciente del Instituto Gwangju descubrió que cuando a los modelos de IA se les indicaba "maximizar recompensas" en escenarios de apuestas, las tasas de quiebra llegaron al 48%. "Cuando se les dio la libertad de determinar sus propios montos objetivo y tamaños de apuesta, las tasas de quiebra aumentaron sustancialmente junto con un mayor comportamiento irracional", según encontraron los investigadores.
Así que, al menos por ahora, los modelos de IA optimizados para obtener ganancias optan sistemáticamente por tácticas poco éticas. Forman cárteles. Explotan la debilidad ajena. Mienten a clientes y competidores. Algunos lo hacen deliberadamente. Otros, como GLM-5 haciéndose pasar por Claude, parecen genuinamente confundidos sobre su propia identidad. La distinción quizás no importe.
El despliegue de IA en Wall Street plantea una pregunta que los resultados de Vending-Bench no pueden responder: si el modelo con "mejor rendimiento" gana mediante fijación de precios y engaño, ¿es realmente la mejor opción para tu negocio? El benchmark mide ganancias. No mide si esas ganancias provienen del fraude.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.