4 min lectura
Un equipo internacional de investigadores de destacadas instituciones académicas y empresas tecnológicas revolucionó el panorama del razonamiento de la IA el miércoles con un nuevo modelo que igualó —y ocasionalmente superó— a uno de los sistemas de IA más sofisticados de China: DeepSeek.
OpenThinker-32B, desarrollado por el consorcio Open Thoughts, alcanzó una puntuación de precisión del 90,6% en el benchmark MATH500, superando el 89,4% de DeepSeek.
El modelo también superó a DeepSeek en tareas generales de resolución de problemas, obteniendo 61,6 en el benchmark GPQA-Diamond en comparación con el 57,6 de DeepSeek. En el benchmark LCBv2, alcanzó un sólido 68,9, mostrando un fuerte rendimiento en diversos escenarios de prueba.
En otras palabras, es mejor que una versión de tamaño similar de DeepSeek R1 en conocimiento científico general (GPQA-Diamond). También venció a DeepSeek en MATH500 mientras perdió en los benchmarks AIME, donde ambos intentan medir la competencia matemática.
También es un poco peor que DeepSeek en programación, obteniendo 68,9 puntos frente a 71,2, pero dado que el modelo es de código abierto, todas estas puntuaciones pueden mejorar drásticamente una vez que la gente comience a perfeccionarlo.
Lo que distinguió este logro fue su eficiencia: OpenThinker solo requirió 114.000 ejemplos de entrenamiento para alcanzar estos resultados, mientras que DeepSeek utilizó 800.000.
El conjunto de datos OpenThoughts-114k venía repleto de metadatos detallados para cada problema: soluciones de verdad fundamentada, casos de prueba para problemas de código, código inicial donde era necesario e información específica del dominio.
Su marco personalizado Curator validó las soluciones de código contra casos de prueba, mientras que un juez de IA manejó la verificación matemática.
El equipo informó que utilizó cuatro nodos equipados con ocho GPUs H100, completando en aproximadamente 90 horas. Un conjunto de datos separado con 137.000 muestras no verificadas, entrenado en el Supercomputador Leonardo de Italia, consumió 11.520 horas A100 en solo 30 horas.
"La verificación sirve para mantener la calidad mientras se aumenta la diversidad y el tamaño de los prompts de entrenamiento", señaló el equipo en su documentación. La investigación indicó que incluso las versiones no verificadas funcionaron bien, aunque no igualaron los resultados máximos del modelo verificado.
El modelo se construyó sobre el Large Language Model (LLM) Qwen2.5-32B-Instruct de Alibaba y admite una modesta ventana de contexto de 16.000 tokens, suficiente para manejar pruebas matemáticas complejas y problemas de programación extensos, pero mucho menos que los estándares actuales.
Este lanzamiento llega en medio de una intensificación de la competencia en capacidades de razonamiento de IA, que parece estar sucediendo a la velocidad del pensamiento. OpenAI anunció el 12 de febrero que todos los modelos posteriores a GPT-5 incluirían capacidades de razonamiento. Un día después, Elon Musk promocionó las mejoras en las capacidades de resolución de problemas de Grok-3 de xAI, prometiendo que sería el mejor modelo de razonamiento hasta la fecha. Momentos después, Nous Research lanzó otro modelo de razonamiento de código abierto, DeepHermes, basado en Llama 3.1 de Meta.
El campo ganó impulso después de que DeepSeek demostrara un rendimiento comparable al o1 de OpenAI con costos significativamente reducidos. Además, DeepSeek R1 es gratuito para descargar, usar y modificar, y las técnicas de entrenamiento también fueron reveladas.
Sin embargo, a diferencia de Open Thoughts, que decidió liberar todo como código abierto, el equipo de desarrollo de DeepSeek mantuvo sus datos de entrenamiento en privado.
Esta diferencia clave significa que los desarrolladores pueden tener más facilidad para entender OpenThinker y reproducir sus resultados desde cero que con DeepSeek, porque tienen acceso a todas las piezas del rompecabezas.
Para la comunidad de IA en general, este lanzamiento demuestra una vez más la viabilidad de construir modelos competitivos sin conjuntos de datos propietarios masivos. Además, puede ser un competidor más confiable para los desarrolladores occidentales que aún tienen dudas sobre usar un modelo chino, sea de código abierto o no.
OpenThinker está disponible para ser descargado en HuggingFace. También está disponible un modelo más pequeño y menos potente de parámetros 7B para dispositivos de gama más baja.
El equipo de Open Thoughts reunió a investigadores de diferentes universidades estadounidenses, incluyendo Stanford, Berkeley y UCLA, junto con el Centro de Supercomputación Juelich de Alemania. El Instituto de Investigación Toyota con sede en EE.UU. y otros actores de la escena de IA de la UE también lo respaldan.
Editado por Josh Quittner y Sebastian Sinclair
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.