Esta IA Frankenstein Fusiona Claude Opus, GLM y Qwen—Y Supera a los Mejores Modelos

El ingeniero de IA Kyle Hessling fusionó dos finetunes destilados de Claude Opus 4.6 y GLM-5.1 de Jackrong en un solo "frankenmerge".

Por Jose Antonio Lanz

4 min lectura

¿Pensabas que Qwopus era genial porque fusionaba Qwen y Opus? Pues bien, Kyle Hessling, un ingeniero de IA con mucho conocimiento y tiempo libre, tomó esa receta y añadió GLM —uno de los mejores modelos de razonamiento disponibles— a la mezcla. El resultado es un frankenmerge de 18 mil millones de parámetros que cabe en una GPU económica y supera al modelo 35B más reciente de Alibaba.

Para quienes no lo saben, los parámetros son los valores numéricos incorporados en una red neuronal durante el entrenamiento, como diales que la red puede ajustar — cuantos más tenga, mayor conocimiento y complejidad puede manejar, y más memoria necesita para funcionar.

Hessling, un ingeniero de infraestructura de IA, apilió dos finetunes de Qwen3.5 de Jackrong: las capas 0 a 31 de Qwopus 3.5-9B-v3.5, que destila el estilo de razonamiento de Claude 4.6 Opus en Qwen como modelo base, y las capas 32 a 63 de Qwen 3.5-9B-GLM5.1-Distill-v1, entrenado con datos de razonamiento del modelo maestro GLM-5.1 de z.AI sobre la misma base de Qwen.

La hipótesis: darle al modelo la planificación estructurada al estilo Opus en la primera mitad del razonamiento, y el andamiaje de descomposición de problemas de GLM en la segunda — 64 capas en total, en un solo modelo.

La técnica se llama passthrough frankenmerge — sin mezcla, sin promediar pesos, solo apilamiento de capas en bruto. Hessling tuvo que escribir su propio script de fusión desde cero porque las herramientas existentes no soportan la arquitectura de atención híbrida lineal/completa de Qwen 3.5. El modelo resultante superó 40 de 44 pruebas de capacidad, venciendo al Qwen 3.6-35B-A3B MoE de Alibaba — que requiere 22 GB de VRAM — mientras funciona con tan solo 9,2 GB en cuantización Q4_K_M.

Una NVIDIA RTX 3060 lo maneja sin problema… en teoría.

Hessling explica que crear este modelo no fue sencillo. La fusión en bruto solía generar código ilegible. Aun así, los modelos de prueba que publicó se volvieron algo virales entre los entusiastas.

La solución definitiva de Hessling fue un "heal fine-tune" — básicamente un QLoRA (un fragmento de código que se incrusta en el modelo como un apéndice y condiciona fuertemente la salida final) aplicado a todas las capas de atención y proyecciones.

Lo probamos, y aunque la idea de tener Qwen, Claude Opus y GLM 5.1 corriendo localmente en nuestra humilde máquina es muy tentadora, en la práctica encontramos que el modelo razona tan bien que termina pensando demasiado.

Lo probamos en un MacBook M1 ejecutando una versión cuantizada con MLX (un modelo optimizado para correr en Macs). Cuando se le indicó mediante prompt generar nuestro juego de prueba habitual, la cadena de razonamiento se extendió tanto que alcanzó el límite de tokens y nos dio un largo proceso de razonamiento sin un resultado funcional en una interacción de zero shot. Eso es un obstáculo para el uso diario de cualquiera que quiera ejecutarlo localmente en hardware de consumo para cualquier aplicación seria.

Fuimos un poco más suaves y las cosas seguían siendo complicadas. Un simple prompt "escribe un juego Snake" tardó más de 40 minutos en razonamiento... mucho de él.

Puedes ver los resultados en nuestro repositorio de Github.

Esta es una tensión conocida en el linaje de Qwopus: los finetunes v2 de Jackrong fueron diseñados para abordar la tendencia de Qwen 3.5 hacia los bucles internos repetitivos y "razonar de forma más económica". Apilar 64 capas de dos destilaciones de razonamiento parece amplificar ese comportamiento en ciertos prompts.

Es un problema que tiene solución, y la comunidad de código abierto probablemente lo resolverá. Lo que importa aquí es el patrón más amplio: un desarrollador mejor conocido como pseudónimo publica finetunes especializados con guías de entrenamiento completas, otro entusiasta los apila con un script personalizado, ejecuta 1.000 pasos de sanación, y obtiene un modelo que supera un lanzamiento de 35 mil millones de parámetros de uno de los laboratorios de IA más grandes del mundo. Todo cabe en un archivo pequeño.

Esto es lo que hace que el código abierto valga la pena seguir de cerca — no solo los grandes laboratorios publicando pesos, sino las soluciones capa por capa, la especialización que ocurre por debajo del radar. La brecha entre un proyecto de fin de semana y un despliegue de frontera es cada vez más estrecha cuantos más desarrolladores se suman a la comunidad.

Desde entonces, Jackrong ha replicado el repositorio de Hessling, y el modelo acumuló más de 3.000 descargas durante sus primeras dos semanas de disponibilidad.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados