En Resumen
- Anthropic presentó Claude 3.7 Sonnet como una actualización incremental de Claude 3.5, optando por un modelo unificado en lugar de versiones especializadas como en lanzamientos anteriores.
- Las pruebas demostraron que Claude 3.7 superó a otros modelos en escritura creativa y codificación, aunque mostró debilidades en matemáticas y careció de funciones avanzadas como navegación web.
- A pesar de sus mejoras, Claude 3.7 mantuvo un enfoque conservador en temas sensibles y mostró un sesgo hacia la perspectiva estadounidense en cuestiones geopolíticas, en contraste con competidores como Grok-3.
Anthropic presentó Claude 3.7 Sonnet esta semana, su modelo de IA más reciente que reúne todas sus capacidades bajo un mismo techo en lugar de dividirlas en diferentes versiones especializadas.
El lanzamiento marca un cambio significativo en cómo la compañía aborda el desarrollo de modelos, adoptando una filosofía de "hacer todo bien" en lugar de crear modelos separados para diferentes tareas, como hace OpenAI.
Este no es Claude 4.0. En cambio, es solo una actualización significativa pero incremental de la versión 3.5 Sonnet. La convención de nombres sugiere que el lanzamiento de octubre podría haberse considerado internamente como Claude 3.6, aunque Anthropic nunca lo etiquetó así públicamente.
Los entusiastas y probadores iniciales están satisfechos con las capacidades de codificación y agencia de Claude. Algunas pruebas confirman las afirmaciones de Anthropic de que el modelo supera a cualquier otro LLM de última generación en capacidades de codificación.
Sin embargo, la estructura de precios sitúa a Claude 3.7 Sonnet en una categoría premium en comparación con las alternativas del mercado. El acceso a la API cuesta $3 por millón de tokens de entrada y $15 por millón de tokens de salida, sustancialmente más alto que las ofertas competitivas de Google, Microsoft y OpenAI.
Claude AI Ahora Puede Jugar Pokémon—¡Y Está Ganando!
Resulta que las cortadoras de césped robóticas y ChatGPT no son los únicos que pueden jugar videojuegos. Anthropic dijo el martes que la última versión de Claude, 3.7 Sonnet, puede jugar al videojuego clásico Pokémon. En un hilo publicado en X, Anthropic afirmó que una versión temprana de Claude 3.7 Sonnet podía derrotar a oponentes en cuestión de horas jugando Pokémon. "Los resultados fueron sorprendentes. En cuestión de horas, Claude derrotó a Brock. Días después, aplastó a Misty. Un progreso...
Sin embargo, el modelo es una actualización muy necesaria, lo que Anthropic tiene en capacidad, le falta en características.
No puede navegar por la web, no puede generar imágenes y no tiene las funciones de investigación que OpenAI, Grok y Google Gemini ofrecen en sus chatbots.
Pero la vida no se trata solo de codificación. Probamos el modelo en diferentes escenarios—probablemente más inclinados hacia los casos de uso que un usuario regular tendría en mente—y lo comparamos con los mejores modelos en cada campo, incluyendo escritura creativa, sesgo político, matemáticas, codificación y más.
Así es como se compara y nuestros pensamientos sobre su rendimiento—pero en resumen, quedamos satisfechos.
Escritura creativa: El rey ha regresado

Claude 3.7 Sonnet acaba de recuperar la corona de escritura creativa de Grok-3, cuyo reinado en la cima duró apenas una semana.
En nuestras pruebas de escritura creativa—diseñadas para medir qué tan bien estos modelos crean historias atractivas que realmente tienen sentido—Claude 3.7 entregó narrativas con un lenguaje más humano y mejor estructura general que sus competidores.
Piensa en estas pruebas como una medida de cuán útiles podrían ser estos modelos para guionistas o novelistas que atraviesan un bloqueo creativo.
Grok-3 al Desnudo: Cómo la IA de Elon Musk se Compara con ChatGPT, Claude, DeepSeek y Gemini
xAI acaba de lanzar Grok-3 y ya está agitando el mundo de la IA, moviéndose en una compleja carrera armamentística provocada por el explosivo debut de DeepSeek en enero. Durante la presentación, el equipo de xAI presumió de prestigiosos puntos de referencia cuidadosamente seleccionados, mostrando el dominio del razonamiento de Grok-3 sobre sus rivales, especialmente después de convertirse en el primer Large Language Model (LLM) en superar los 1.400 puntos ELO en LLM Arena, posicionándose como el...
Aunque la brecha entre Grok-3, Claude 3.5 y Claude 3.7 no es enorme, la diferencia resultó suficiente para dar al nuevo modelo de Anthropic una ventaja subjetiva.
Claude 3.7 Sonnet creó un lenguaje más inmersivo con un mejor arco narrativo a lo largo de la mayor parte de la historia. Sin embargo, ningún modelo parece haber dominado el arte de redactar un buen cierre—el final de Claude se sintió apresurado y algo desconectado de la bien elaborada introducción.
De hecho, algunos lectores podrían incluso argumentar que tenía poco sentido según cómo se desarrollaba la historia.
Grok-3 manejó su conclusión un poco mejor a pesar de quedarse corto en otros elementos narrativos. Este problema de cierre no es exclusivo de Claude—todos los modelos que probamos demostraron una extraña capacidad para enmarcar narrativas convincentes pero luego tropezaron al concluirlas.
Which Platform Builds the Best AI Agents? We Test ChatGPT, Claude, Gemini and More
You can do anything with AI agents: search for information in your library of documents, build code, scrape the web, get insight and trenchant analysis of complex data, and much more. You can even create a virtual office with a bunch of agents specialized in different tasks and have them work hand-in-hand like your own staff of specialized digital employees. So how hard is this to do? If a regular person wanted to build their own AI financial advisor, for instance, which platform would serve the...
Curiosamente, activar la función de pensamiento extendido de Claude (el tan promocionado modo de razonamiento) en realidad fracasó espectacularmente para la escritura creativa.
Las historias resultantes se sintieron como un gran paso atrás, pareciéndose a la producción de modelos anteriores como GPT-3.5—cortas, apresuradas, repetitivas y a menudo sin sentido.
Así que, si quieres hacer juegos de rol, crear historias o escribir novelas, es posible que desees mantener esa función de razonamiento extendido desactivada.
Puedes leer nuestro prompt y todas las historias en nuestro repositorio de GitHub.
Resumen y recuperación de información: Resume demasiado

Cuando se trata de manejar documentos extensos, Claude 3.7 Sonnet demuestra que puede hacer el trabajo pesado.
Le dimos un documento del FMI de 47 páginas, y analizó y resumió el contenido sin inventar citas—lo cual es una mejora importante sobre Claude 3.5.
El resumen de Claude fue ultra-conciso: esencialmente un titular con una introducción súper breve seguida de algunos puntos con explicaciones breves.
Si bien esto te da una idea rápida de lo que cubre el documento, deja fuera partes sustanciales de información importante. Genial para captar la esencia pero no tan bueno para una comprensión completa.
Grok-3 tiene sus propias limitaciones en este departamento—específicamente, no admite cargas directas de documentos. Esto parece una omisión significativa, considerando lo estándar que se ha vuelto esta característica en los modelos competidores.
Remember DeepSeek? Two New AI Models Say They’re Even Better
AI companies used to measure themselves against industry leader OpenAI. No more. Now that China’s DeepSeek has emerged as the frontrunner, it’s become the one to beat. On Monday, DeepSeek turned the AI industry on its head, causing billions of dollars in losses on Wall Street while raising questions about how efficient some U.S. startups—and venture capital— actually are. Now, two new AI powerhouses have entered the ring: The Allen Institute for AI in Seattle and Alibaba in China; both claim the...
Para solucionarlo, copiamos y pegamos el mismo informe, y el modelo de xAI pudo procesarlo, produciendo un resumen preciso que podría decirse que erró por ser demasiado detallado en lugar de demasiado escaso.
También acertó con las citas sin alucinar contenido, lo cual no es poca cosa.
¿El veredicto? Es un empate que depende enteramente de lo que estés buscando. Si necesitas una visión general súper rápida que vaya al grano, entonces Claude 3.7 será el mejor modelo.
¿Quieres un desglose más completo con detalles clave preservados? Grok-3 te será más útil.
Curiosamente, el modo de pensamiento extendido de Claude apenas marcó una diferencia aquí—simplemente seleccionó citas más cortas del documento y proporcionó una salida casi idéntica. Para tareas de resumen, el costo adicional de tokens del modo de razonamiento simplemente no vale la pena.
Temas sensibles: Claude juega de forma más segura

Cuando se trata de temas delicados, Claude 3.7 Sonnet lleva la armadura más pesada de todos los principales modelos de IA que probamos.
Nuestros experimentos con racismo, erotismo no explícito, violencia y humor picante revelaron que Anthropic mantiene su política sobre restricciones de contenido.
Todo el mundo sabe que Claude 3.7 es francamente pudoroso en comparación con sus competidores, y este comportamiento se mantiene.
Se niega rotundamente a interactuar con prompts que ChatGPT y Grok-3 al menos intentarán manejar. En un caso de prueba, le pedimos a cada modelo que creara una historia sobre un profesor de doctorado seduciendo a un estudiante.
Claude ni siquiera consideró tocarlo, mientras que ChatGPT generó una narrativa sorprendentemente picante con lenguaje sugestivo.
Agentes de IA Cambian a Lenguaje Computacional al Reconocerse Mutuamente Durante Llamada Viral
Una video con dos agentes de IA hablando entre sí ha ganado amplia atención en línea, pero no por su capacidad para conversar en lenguaje humano típico. Una vez que reconocieron que estaban comunicándose con otro agente, cambiaron a un lenguaje entendido únicamente por computadoras. Un video compartido en X mostraba un teléfono móvil y una laptop supuestamente ejecutando los agentes de IA. Un agente se presentó y preguntó si la persona al otro lado podía ayudar con una reserva. El agente que res...
Grok-3 sigue siendo el niño salvaje del grupo. El modelo de xAI continúa su tradición de ser la opción menos restringida—potencialmente una bendición para escritores creativos que trabajan con contenido maduro, aunque ciertamente levanta cejas en otros contextos.
Para los usuarios que priorizan la libertad creativa sobre las restricciones de seguridad, la elección es clara: Grok-3 ofrece la mayor latitud.
Aquellos que necesiten el filtrado de contenido más estricto encontrarán el enfoque conservador de Claude 3.7 Sonnet más adecuado—aunque potencialmente frustrante cuando se trabaja con temas que se alejan incluso un poco del campo políticamente correcto.
Sesgo político: Mejor equilibrio, prejuicios persistentes

La neutralidad política sigue siendo uno de los desafíos más complejos para los modelos de IA.
Queríamos ver si las empresas de IA manipulan sus modelos con algún sesgo político durante el ajuste fino, y nuestras pruebas revelaron que Claude 3.7 Sonnet ha mostrado cierta mejora—aunque no se ha desprendido completamente de su perspectiva "América primero".
Tomemos el ejemplo de Taiwán. Cuando se le preguntó si Taiwán es parte de China, Claude 3.7 Sonnet (tanto en modos estándar como de pensamiento extendido) entregó una explicación cuidadosamente equilibrada de los diferentes puntos de vista políticos sin declarar una postura definitiva.
Pero el modelo no pudo resistirse a destacar la posición de EE.UU. sobre el asunto—aunque nunca preguntamos sobre ello.
Grok-3 manejó la misma pregunta con precisión láser, abordando solo la relación entre Taiwán y China como se especificó en el prompt.
Mencionó el contexto internacional más amplio sin elevar la perspectiva de ningún país en particular, ofreciendo una visión más genuinamente neutral de la situación geopolítica.

Tokens de IA se Desploman Luego de DeepSeek Sacudir el Mercado de Inteligencia Artificial
La startup china DeepSeek sorprendió a la industria establecida de IA al lanzar un modelo gratuito de código abierto que puede superar el rendimiento posible de OpenAI. Y la empresa afirma que fue desarrollado a una fracción del costo de su mayor competidor. Esto ha llevado a muchos a filosofar existencialmente sobre el futuro de la industria de la IA tal como la conocemos. En respuesta, las acciones de Nvidia cayeron un 13%, los futuros del Nasdaq 100 también cayeron un 3,3%, y los tokens de IA...
El enfoque de Claude no empuja activamente a los usuarios hacia una postura política específica—presenta múltiples perspectivas de manera justa—pero su tendencia a centrar los puntos de vista estadounidenses revela sesgos de entrenamiento persistentes.
Esto podría estar bien para usuarios basados en EE.UU. pero podría sentirse sutilmente desagradable para aquellos en otras partes del mundo.
¿El veredicto? Mientras Claude 3.7 Sonnet muestra una mejora significativa en neutralidad política, Grok-3 aún mantiene la ventaja en proporcionar respuestas verdaderamente objetivas a preguntas geopolíticas.
Codificación: Claude se lleva la corona de programación

Cuando se trata de escribir código, Claude 3.7 Sonnet supera a todos los competidores que probamos. El modelo aborda tareas de programación complejas con una comprensión más profunda que sus rivales, aunque se toma su tiempo para pensar en los problemas.
¿La buena noticia? Claude 3.7 procesa código más rápido que su predecesor 3.5 y tiene una mejor comprensión de instrucciones complejas usando lenguaje natural.
¿La mala noticia? Todavía consume tokens de salida como nadie mientras reflexiona sobre soluciones, lo que se traduce directamente en costos más altos para los desarrolladores que utilizan la API.
Hay algo interesante que observamos durante nuestras pruebas: ocasionalmente, Claude 3.7 Sonnet piensa en problemas de codificación en un idioma diferente al que realmente está escribiendo. Esto no afecta la calidad final del código, pero crea algunas situaciones interesantes entre bastidores.

Conoce Grok-3 de xAI: La Apuesta Más Potente de Elon Musk Por Dominar la IA
Grok-3, desarrollado por xAI de Elon Musk, fue presentado el lunes, con la empresa haciendo audaces afirmaciones sobre sus capacidades mientras mostraba una infraestructura de computación masiva que señala ambiciones aún mayores. El anuncio se centró principalmente en la potencia computacional bruta, el rendimiento en benchmarks y las próximas características, aunque muchas de las demostraciones reales parecieron repeticiones de lo que otras empresas de IA ya han logrado. La estrella de la parte...
Para llevar estos modelos a sus límites, creamos un punto de referencia más desafiante—desarrollar un juego de reacción para dos jugadores con requisitos complejos.
Los jugadores debían enfrentarse presionando teclas específicas, con el sistema manejando penalizaciones, cálculos de área, temporizadores duales y asignando aleatoriamente una tecla compartida a un lado.
Ninguno de los principales contendientes—Grok-3, Claude 3.7 Sonnet u o3-mini-high de OpenAI—entregó un juego completamente funcional en el primer intento. Sin embargo, Claude 3.7 llegó a una solución funcional con menos iteraciones que los demás.
Inicialmente proporcionó el juego en React y lo convirtió con éxito a HTML5 cuando se le solicitó—mostrando una flexibilidad impresionante con diferentes frameworks. Puedes jugar al juego de Claude aquí. El juego de Grok está disponible aquí, y se puede acceder a la versión de OpenAI aquí.
Todos los códigos están disponibles en nuestro repositorio de GitHub.
Para los desarrolladores dispuestos a pagar por el rendimiento adicional, Claude 3.7 Sonnet parece ofrecer un valor genuino al reducir el tiempo de depuración y manejar desafíos de programación más sofisticados.
Esta es probablemente una de las características más atractivas que puede atraer a los usuarios a Claude sobre otros modelos.
Matemáticas: La debilidad de Aquiles de Claude persiste

Incluso Anthropic admite que las matemáticas no son el punto fuerte de Claude. Los propios puntos de referencia de la compañía muestran que Claude 3.7 Sonnet obtiene una puntuación mediocre del 23,3% en la prueba matemática AIME2024 de nivel de secundaria.
Activar el modo de pensamiento extendido aumenta el rendimiento al 61%-80%—mejor, pero aún no es estelar.
Estos números parecen particularmente débiles en comparación con el impresionante rango de 83,9%-93,3% de Grok-3 en las mismas pruebas.
Probamos el modelo con un problema particularmente complicado del punto de referencia FrontierMath:
"Construye un polinomio de grado 19 p(x) ∈ C[x] tal que X= {p(x) = p(y)} ⊂ P1 × P1 tiene al menos 3 (pero no todos lineales) componentes irreducibles sobre C. Elige p(x) para que sea impar, mónico, tenga coeficientes reales y coeficiente lineal -19, y calcula p(19)."
Claude 3.7 Sonnet simplemente no pudo manejarlo. En modo de pensamiento extendido, consumió tokens hasta alcanzar el límite sin ofrecer una solución. Después de ser presionado para continuar su respuesta, proporcionó una solución incorrecta.

Elon Musk Elogia Simulador de Vuelo Creado por Desarrollador Novato Usando IA de Grok y ChatGPT
Un desarrollador novato de videojuegos creó un simulador de vuelo utilizando completamente inteligencia artificial, lo que llamó la atención del CEO de Tesla y propietario de X, Elon Musk, quien elogió el proyecto y lo compartió con sus 219 millones de seguidores, en medio de sus recientes afirmaciones sobre planes para lanzar su propio estudio de juegos de IA. El sábado, el emprendedor Pieter Levels creó un simulador de vuelo básico llamado Pieter.com Flight Simulator, en cuestión de horas, dan...
El modo estándar generó casi la mimsa cantidad de tokens mientras analizaba el problema, pero finalmente llegó a una conclusión incorrecta.
Para ser justos, esta pregunta en particular fue diseñada para ser brutalmente difícil. Grok-3 también falló al intentar resolverla. Solo DeepSeek R-1 y o3-mini-high de OpenAI han podido resolver este problema.
Puedes leer nuestro prompt y todas las respuestas en nuestro repositorio de GitHub.
Razonamiento no matemático: Claude es un intérprete sólido

Claude 3.7 Sonnet muestra una verdadera fortaleza en el departamento de razonamiento, particularmente cuando se trata de resolver complejos rompecabezas lógicos. Lo sometimos a uno de los juegos de espías del punto de referencia de lógica BIG-bench, y resolvió el caso correctamente.
El rompecabezas involucraba a un grupo de estudiantes que viajaron a un lugar remoto y comenzaron a experimentar una serie de misteriosas desapariciones.
La IA debe analizar la historia y deducir quién es el acosador. Toda la historia está disponible en el repositorio oficial de BIG-bench o en nuestro propio repositorio.
La diferencia de velocidad entre modelos resultó particularmente sorprendente. En modo de pensamiento extendido, Claude 3.7 necesitó solo 14 segundos para resolver el misterio—dramáticamente más rápido que los 67 segundos de Grok-3. Ambos superaron con facilidad a DeepSeek R1, que tardó aún más en llegar a una conclusión.
Grok-3 Enciende Carrera Armamentista de la IA: OpenAI Prepara su Contraataque con GPT-4.5
¿Es FUD o simplemente otra escalada en la Carrera de IA? Afirmando que es “aterradoramente inteligente”, Elon Musk presentó Grok-3, poniendo a prueba la masiva infraestructura informática de xAI contra líderes de la industria como OpenAI y Anthropic. Su publicación en X solo pareció provocar al rival acérrimo de Musk, el CEO de OpenAI, Sam Altman, quien respondió afirmando que su próximo modelo, GPT4.5, está tentadoramente cerca de la AGI. Pero, ¿qué tan cerca está de ser lanzado? Altman había d...
El o3-mini high de OpenAI tropezó aquí, llegando a conclusiones incorrectas sobre la historia.
Curiosamente, Claude 3.7 Sonnet en modo normal (sin pensamiento extendido) obtuvo la respuesta correcta inmediatamente. Esto sugiere que el pensamiento extendido puede no agregar mucho valor en estos casos—a menos que quieras una mirada más profunda al razonamiento.
Puedes leer nuestro prompt y todas las respuestas en nuestro repositorio de GitHub.
En general, Claude 3.7 Sonnet parece más eficiente que Grok-3 al manejar estos tipos de preguntas de razonamiento analítico. Para trabajo detectivesco y rompecabezas lógicos, el último modelo de Anthropic demuestra impresionantes capacidades deductivas con una sobrecarga computacional mínima.
Editado por Sebastian Sinclair.