11 min lectura
Anthropic , con sede en San Francisco, acaba de lanzar la cuarta generación de sus modelos de inteligencia artificial Claude, y los resultados son... complicados. Mientras Google amplía las ventanas de contexto más allá de un millón de tokens y OpenAI construye sistemas multimodales que ven, escuchan y hablan, Anthropic se mantuvo con el mismo límite de 200.000 tokens y enfoque solo en texto. Ahora es la excepción entre las principales empresas de IA.
La sincronización parece deliberada: Google anunció Gemini esta semana, y OpenAI presentó un nuevo agente de codificación basado en su modelo Codex propietario. ¿La respuesta de Claude? Modelos híbridos que cambian entre modos de razonamiento y no razonamiento dependiendo de lo que les presentes, ofreciendo lo que OpenAI espera lograr cada vez que lanzan el GPT-5.
Pero aquí hay algo que los usuarios de API deben considerar seriamente: Anthropic está cobrando precios premium por esa actualización.
Imagen: t3.gg
Sin embargo, la aplicación de chatbot sigue siendo la misma a $20 con Claude Max a $200 al mes, con límites de uso 20 veces más altos.
Pusimos a prueba los nuevos modelos en escritura creativa, codificación, matemáticas y tareas de razonamiento. Los resultados cuentan una historia interesante con mejoras marginales en algunas áreas, sorprendentes mejoras en otras, y un claro cambio en las prioridades de Anthropic alejándose del uso general hacia características enfocadas en desarrolladores.
Así es como se desempeñaron Claude Sonnet 4 y Claude Opus 4 en nuestras diferentes pruebas. (Puedes verlos, incluyendo nuestros prompts y resultados, en nuestro repositorio de Github.)
Las capacidades de escritura creativa determinan si los modelos de IA pueden producir narrativas atractivas, mantener un tono consistente e integrar elementos factuales de forma natural. Estas habilidades son importantes para creadores de contenido, especialistas en marketing y cualquier persona que necesite ayuda de IA con la narración o la escritura persuasiva.
Hasta ahora, no hay un modelo que pueda superar a Claude en esta prueba subjetiva (sin considerar, por supuesto, Longwriter). Por lo tanto, no tiene sentido comparar a Claude con opciones de terceros. Para esta tarea, decidimos enfrentar a Sonnet y Opus.
Pedimos a los modelos que escribieran una historia corta sobre una persona que viaja en el tiempo para evitar una catástrofe, pero termina dándose cuenta de que sus acciones del pasado en realidad fueron parte de los eventos que inclinaron la existencia hacia ese futuro específico. El prompt agregó algunos detalles a considerar y dio a los modelos suficiente libertad y creatividad para desarrollar una historia según lo consideren adecuado.
Claude Sonnet 4 produjo una prosa vívida con los mejores detalles atmosféricos y matices psicológicos. El modelo elaboró descripciones inmersivas y proporcionó una historia convincente, aunque el final no fue exactamente como se solicitó, pero encajó en la narrativa y en el resultado esperado.
En general, la construcción narrativa de Sonnet equilibró la acción, la introspección y las ideas filosóficas sobre la inevitabilidad histórica.
Puntuación: 9/10—definitivamente mejor que Claude 3.7 Sonnet
Claude Opus 4 fundamentó su ficción especulativa en contextos históricos creíbles, haciendo referencia a visiones del mundo indígenas y a la sociedad Tupí precolonial con atención cuidadosa a las limitaciones culturales. El modelo integró material fuente de manera natural y proporcionó una historia más larga que Sonnet, sin poder igualar su estilo poético, lamentablemente.
También mostró algo interesante: la narrativa comenzó de manera mucho más vívida y fue más inmersiva que lo que proporcionó Sonnet, pero en algún momento alrededor de la mitad, cambió para apresurar el giro argumental, haciendo que todo el resultado fuera aburrido y predecible.
Puntuación: 8/10
Sonnet 4 es el ganador para escritura creativa, aunque el margen se mantuvo estrecho. Escritores, ¡cuidado! A diferencia de modelos anteriores, parece que Anthropic no ha priorizado mejoras en escritura creativa, enfocando los esfuerzos de desarrollo en otros aspectos.
Todas las historias están disponibles aquí.
La evaluación de codificación mide si la IA puede generar software funcional y mantenible que siga las mejores prácticas. Esta capacidad afecta a los desarrolladores que utilizan IA para la generación de código, depuración y decisiones arquitectónicas.
Gemini 2.5 Pro es considerado el rey de la codificación impulsada por IA, por lo que lo probamos contra Claude Opus 4 con pensamiento extendido.
Realizamos una prueba sin entrenamiento con nuestras instrucciones para un juego: un robot que debe evitar periodistas en su camino para fusionarse con una computadora y lograr la AGI, y usamos una iteración adicional para corregir errores y aclarar diferentes aspectos del juego.
Claude Opus creó un juego de sigilo desde arriba con mecánicas sofisticadas, que incluyen ondas de sonido dinámicas, estados de IA investigativos y ocultación de conos de visión. La implementación presentaba elementos de jugabilidad ricos: los periodistas respondían a los sonidos a través de banderas de heardSound, los obstáculos bloqueaban los cálculos de línea de visión y la generación procedural creaba niveles únicos en cada partida.
Puntuación: 8/10
Gemini de Google produjo un juego de plataformas de desplazamiento lateral con una arquitectura más limpia utilizando clases ES6 y constantes con nombres.
El juego no era funcional después de dos iteraciones, pero la implementación separó eficazmente las preocupaciones: level.init() manejaba la generación de terreno, la clase Journalist encapsulaba la lógica de patrulla y constantes como PLAYER_JUMP_POWER facilitaban la ajuste. Si bien la jugabilidad seguía siendo más simple que la versión de Claude, la estructura mantenible y los estándares de codificación consistentes obtuvieron calificaciones particularmente altas en legibilidad y mantenibilidad.
Veredicto: Claude ganó: ofreció una funcionalidad de juego superior que los usuarios preferirían.
Sin embargo, los desarrolladores podrían preferir Gemini a pesar de todo esto, ya que creó un código más limpio que se puede mejorar más fácilmente.
Nuestro prompt y códigos están disponibles aquí. Y puedes hacer clic aquí para jugar al juego generado con Claude.
Las pruebas de resolución de problemas matemáticos ponen a prueba la capacidad de los modelos de IA para manejar cálculos complejos, mostrar pasos de razonamiento y llegar a respuestas correctas. Esto es importante para aplicaciones educativas, investigaciones científicas y cualquier dominio que requiera un pensamiento computacional preciso.
Comparamos el último modelo de razonamiento de Claude y OpenAI, o3, pidiendo a los modelos que resuelvan un problema que apareció en el benchmark de FrontierMath, diseñado específicamente para ser difícil de resolver:
"Construir un polinomio de grado 19 p(x) ∈ C[x] tal que X := {p(x) = p(y)} ⊂ P1 × P1 tenga al menos 3 componentes irreducibles (pero no todas lineales) sobre C. Elija p(x) para que sea impar, mónico, tenga coeficientes reales y coeficiente lineal -19 y calcule p(19)."
Claude Opus 4 mostró su proceso de razonamiento completo al enfrentarse a desafíos matemáticos difíciles. La transparencia permitió a los evaluadores rastrear los caminos lógicos e identificar dónde fallaron los cálculos. A pesar de mostrar todo el trabajo, el modelo no logró alcanzar una precisión perfecta.
El modelo o3 de OpenAI logró una precisión del 100% en tareas matemáticas idénticas, marcando la primera vez que cualquier modelo resolvió completamente los problemas de prueba. Sin embargo, o3 truncó la visualización de su razonamiento, mostrando solo respuestas finales sin pasos intermedios. Este enfoque impidió el análisis de errores y dificultó que los usuarios verificaran la lógica o aprendieran del proceso de solución.
Veredicto: OpenAI o3 ganó la categoría de razonamiento matemático gracias a su precisión perfecta, aunque el enfoque transparente de Claude ofreció ventajas educativas. Por ejemplo, los investigadores pueden tener más facilidad para detectar fallos al analizar toda la Cadena de Pensamiento, en lugar de tener que confiar plenamente en el modelo o resolver el problema manualmente para corroborar los resultados.
Puedes revisar la Cadena de Pensamiento de Claude 4 aquí.
Para esta evaluación, queríamos probar la capacidad de los modelos para comprender complejidades, elaborar mensajes matizados y equilibrar intereses. Estas habilidades resultan esenciales para la estrategia empresarial, las relaciones públicas y cualquier escenario que requiera una comunicación humana sofisticada.
Proporcionamos a Claude, Grok y ChatGPT instrucciones para elaborar una estrategia de comunicación única que abordara simultáneamente a cinco grupos de interés diferentes sobre una situación crítica en un gran centro médico. Cada grupo tiene perspectivas, estados emocionales, necesidades de información y preferencias de comunicación muy diferentes.
Claude demostró un pensamiento estratégico excepcional a través de un marco de mensajería de tres pilares para una crisis de ransomware en un hospital: Seguridad del Paciente en Primer Lugar, Respuesta Activa y Futuro más Fuerte. La respuesta incluyó asignaciones específicas de recursos de $2.300.000 de financiamiento de emergencia, cronogramas detallados para cada grupo de interés y adaptaciones culturalmente sensibles para poblaciones multilingües. Las preocupaciones individuales de los miembros de la junta recibieron atención personalizada manteniendo la consistencia del mensaje. El modelo proporcionó un buen conjunto de declaraciones iniciales para tener una idea de cómo abordar a cada audiencia.
ChatGPT también fue bueno en la tarea, pero no al mismo nivel de detalle y practicidad. Mientras proporcionaba marcos sólidos con principios básicos claros, GPT4.1 se basaba más en la variación de tono que en la adaptación de contenido sustantivo. Las respuestas eran extensas y detalladas, anticipando preguntas y estados de ánimo, y cómo nuestras acciones pueden afectar a aquellos a quienes se dirigen. Sin embargo, carecía de asignaciones de recursos específicas, entregables detallados y otros detalles que Claude proporcionó.
Veredicto: Claude gana
Puedes verificar los resultados y la Cadena de Pensamiento para cada modelo, aquí.
Las habilidades de recuperación de contexto determinan qué tan efectivamente los modelos de IA pueden localizar información específica dentro de documentos extensos o conversaciones. Esta habilidad resulta crítica para la investigación legal, análisis de documentos, revisiones de literatura académica y cualquier escenario que requiera extracción precisa de información de volúmenes extensos de texto.
Probamos la capacidad de Claude para identificar información específica enterrada dentro de ventanas de contexto progresivamente más grandes utilizando la metodología estándar de "buscar una aguja en un pajar". Esta evaluación implicó colocar una pieza de información específica en varias posiciones dentro de documentos de diferentes longitudes y medir la precisión de recuperación.
Claude Sonnet 4 y Opus 4 identificaron con éxito la aguja cuando estaba incrustada dentro de un "pajar" de 85.000 tokens. Los modelos demostraron capacidades confiables de recuperación en diferentes posiciones de colocación dentro de este rango de contexto, manteniendo la precisión independientemente de si la información objetivo aparecía al principio, en el medio o al final del documento. La calidad de la respuesta se mantuvo consistente, con el modelo proporcionando citas precisas y contexto relevante alrededor de la información recuperada.
Sin embargo, el rendimiento de los modelos se vio limitado al intentar procesar la prueba de 200.000 tokens. No pudieron completar esta evaluación porque el tamaño del documento excedía su capacidad máxima de ventana de contexto de 200.000 tokens. Esta es una limitación significativa en comparación con competidores como Gemini de Google, que maneja ventanas de contexto que exceden un millón de tokens, y los modelos de OpenAI con capacidades de procesamiento sustancialmente mayores.
Esta limitación tiene implicaciones prácticas para los usuarios que trabajan con documentación extensa. Profesionales legales que analizan contratos extensos, investigadores que procesan documentos académicos completos o analistas que revisan informes financieros detallados pueden encontrar problemáticas las restricciones de contexto de Claude. La incapacidad para procesar la prueba completa de 200.000 tokens sugiere que documentos del mundo real que se acerquen a este tamaño podrían provocar truncamiento o requerir segmentación manual.
Veredicto: Gemini es el mejor modelo para tareas de contexto largo
Puedes verificar tanto la aguja como el pajar, aquí.
Claude 4 es genial, y está mejor que nunca, pero no es para todos.
Los usuarios avanzados que necesitan su creatividad y capacidades de codificación estarán muy satisfechos. Su comprensión de la dinámica humana también lo hace ideal para estrategas empresariales, profesionales de la comunicación y cualquier persona que necesite un análisis sofisticado de escenarios con múltiples partes interesadas. El proceso de razonamiento transparente del modelo también beneficia a educadores e investigadores que necesitan entender los caminos de toma de decisiones de la IA.
Sin embargo, los usuarios novatos que deseen tener la experiencia completa de IA pueden encontrar que el chatbot es un poco insípido. No genera video, no puedes hablar con él y la interfaz es menos pulida que lo que puedes encontrar en Gemini o ChatGPT.
La limitación de la ventana de contexto de 200.000 tokens afecta a los usuarios de Claude que procesan documentos extensos o mantienen conversaciones prolongadas, e implementa una cuota muy estricta que puede afectar a los usuarios que esperan sesiones largas.
En nuestra opinión, es un "sí" sólido para escritores creativos y programadores casuales. Otros tipos de usuarios pueden necesitar cierta consideración, comparando pros y contras con alternativas.
Editado por Andrew Hayward
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.