¿Quieres Usar Claude Opus AI en Tu PC de Bajos Recursos? Esta es Tu Mejor Alternativa
Un desarrollador destiló el razonamiento de Claude Opus 4.6 en un modelo Qwen local que cualquiera puede ejecutar. El resultado es Qwopus, y es sorprendentemente cercano al original.
Add Decrypt as your preferred source to see more of our stories on Google.
En Resumen
Un desarrollador llamado Jackrong destilò el razonamiento de Claude Opus 4.6 en Qwen3.5-27B, creando modelos locales sin costo por token.
Qwopus v3 alcanzó 95,73% en HumanEval y superó a Gemma 4 de 41B en lógica de código pese a tener solo 27B parámetros.
El modelo supera el millón de descargas y corre en un MacBook con 32 GB; los notebooks de entrenamiento están disponibles en GitHub.
Claude Opus 4.6 es el tipo de IA que te hace sentir como si estuvieras hablando con alguien que leyó todo el internet, dos veces, y luego fue a la facultad de derecho. Planifica, razona y escribe código que realmente funciona.
También es completamente inaccesible si quieres ejecutarlo localmente en tu propio hardware, porque vive detrás de la API de Anthropic y cobra por token. Pero un desarrollador llamado Jackrong decidió que eso no era suficiente y tomó cartas en el asunto.
El truco se llama destilación. Piénsalo así: un chef maestro anota cada técnica, cada paso de razonamiento y cada juicio durante una comida compleja. Un estudiante lee esas notas obsesivamente hasta que la misma lógica se vuelve algo natural. Al final, prepara comidas de manera muy similar, pero todo es imitación, no conocimiento real.
En términos de IA, un modelo más débil estudia los resultados de razonamiento de uno más fuerte y aprende a replicar el patrón.
Qwopus: ¿Qué pasaría si Qwen y Claude tuvieran un hijo?
Jackrong tomó Qwen3.5-27B, un modelo de código abierto ya sólido de Alibaba—pero pequeño comparado con gigantes como GPT o Claude—y le dio datasets de razonamiento de cadena de pensamiento al estilo de Claude Opus 4.6. Luego lo ajustó para que pensara de la misma manera estructurada y paso a paso que lo hace Opus.
El primer modelo de la familia, la versión Claude-4.6-Opus-Reasoning-Distilled, hizo exactamente eso. Los testers de la comunidad que lo ejecutaron mediante agentes de código como Claude Code y OpenCode reportaron que preservaba el modo de pensamiento completo, admitía el rol nativo de desarrollador sin parches y podía ejecutarse de forma autónoma durante minutos sin detenerse—algo con lo que el modelo base Qwen tenía dificultades.
Qwopus v3 va un paso más allá. Mientras que el primer modelo se centraba principalmente en copiar el estilo de razonamiento de Opus, v3 se construye en torno a lo que Jackrong llama "alineación estructural"—entrenar al modelo para razonar de manera fiel paso a paso, en lugar de simplemente imitar patrones superficiales de los resultados de un modelo maestro. Añade refuerzo explícito de llamadas a herramientas orientado a flujos de trabajo de agentes y reclama un rendimiento superior en benchmarks de código: 95,73% en HumanEval bajo evaluación estricta, superando tanto al Qwen3.5-27B base como a la versión destilada anterior.
Cómo ejecutarlo en tu PC
Ejecutar cualquiera de los modelos es sencillo. Ambos están disponibles en formato GGUF, lo que significa que puedes cargarlos directamente en LM Studio o llama.cpp sin más configuración que descargar el archivo.
Busca Jackrong Qwopus en el navegador de modelos de LM Studio, descarga la variante que mejor se adapte a tu hardware en términos de calidad y velocidad (si eliges un modelo demasiado potente para tu GPU, te lo hará saber), y estarás ejecutando un modelo local construido sobre la lógica de razonamiento de Opus. Para soporte multimodal, la ficha del modelo indica que necesitarás el archivo mmproj-BF16.gguf por separado junto con los pesos principales, o puedes descargar un nuevo modelo "Vision" que fue lanzado recientemente.
Jackrong también publicó el notebook de entrenamiento completo, el código base y una guía en PDF en GitHub, por lo que cualquiera con una cuenta de Colab puede reproducir todo el pipeline desde cero—base Qwen, Unsloth, LoRA, ajuste fino solo de respuestas y exportación a GGUF. El proyecto ha superado el millón de descargas en toda su familia de modelos.
Pudimos ejecutar los modelos de 27 mil millones de parámetros en un Apple MacBook con 32 GB de memoria unificada. Las PCs más modestas pueden funcionar bien con el modelo de 4B, que es muy bueno para su tamaño.
Si necesitas más información sobre cómo ejecutar modelos de IA locales, consulta nuestras guías sobre modelos locales y MCP para darles a los modelos acceso a la web y otras herramientas que mejoran su eficiencia.
Probando el modelo
Sometimos a Qwopus 3.5 27B v3 a tres pruebas para ver cuánto de esa promesa se sostiene realmente.
Escritura creativa
Le pedimos al modelo que escribiera una historia oscura de ciencia ficción ambientada entre 2150 y el año 1000, con una paradoja de viaje en el tiempo y un giro argumental. En un Mac M1, pasó más de seis minutos razonando antes de escribir una sola palabra, y luego tardó otros seis minutos en producir la pieza.
Lo que salió fue genuinamente impresionante, especialmente para un modelo de tamaño mediano y de código abierto: una historia filosófica sobre el colapso civilizacional impulsado por un nihilismo extremo, construida en torno a un bucle causal cerrado donde el protagonista provoca inadvertidamente la catástrofe que viaja al pasado para evitar.
La historia superó los 8.000 tokens y fue completamente coherente.
La prosa tiene verdadera fuerza en varios pasajes, las imágenes son distintivas y la ironía moral central es poderosa. No está a la altura de Opus 4.6 o Xiaomi MiMo Pro, pero se sitúa cómodamente junto a Claude Sonnet 4.5, e incluso al 4.6 en términos de resultado.
Para un modelo de 27 mil millones de parámetros que se ejecuta localmente en silicio de Apple, eso no es algo que esperarías escribir. Buenas técnicas de prompting e iteraciones probablemente podrían llevar a resultados comparables al Opus base.
La parte interesante es observar el proceso de pensamiento del modelo: intentó y descartó múltiples motores de trama antes de llegar al que le dio a la historia su centro trágico. Por ejemplo, aquí hay una muestra de su monólogo interno:
"La Paradoja: José llega, se infiltra en el monasterio (ubiquémoslo en Asturias, España—bastión cristiano). Rastrea a Teófilo. Pero cuando lo confronta...
Opción A: ¿Teófilo no es una persona real, sino una proyección futura del propio José? No, demasiado cliché.
Opción B: Teófilo es una persona real que no escribió nada, pero la intervención de José hace que lo escriba de todas formas.
Opción C: Teófilo ya lo escribió, pero las acciones de José crean las condiciones para su publicación/descubrimiento.
Lo mejor: Teófilo es un monje tranquilo que no quiere escribir nada. La presencia de José, su tecnología de 2150 (aunque sean pequeñas cosas), su propio material genético—desencadena algo. O José lo mata, y los monjes crean a un mártir de él que lo escribe póstumamente."
En general, este es el mejor modelo abierto para tareas creativas, superando a Gemma, GPT-oss y Qwen. Para historias más largas, un buen experimento es comenzar con un modelo creativo como Qwen, expandir la historia generada con Longwriter, y luego hacer que Qwopus la analice y refine el borrador completo.
Puedes leer la historia completa y todo el razonamiento que siguió aquí.
Código
Aquí es donde Qwopus se aleja más de los modelos de su tamaño. Le pedimos que construyera un juego desde cero, y produjo un resultado funcional tras un resultado inicial y un único intercambio de seguimiento—lo que significa que dejó espacio para refinar la lógica, en lugar de solo corregir errores.
Tras una iteración, el código producía sonido, tenía lógica visual, colisiones correctas, niveles aleatorios y una lógica sólida. El juego resultante superó a Gemma 4 de Google en lógica clave, y Gemma 4 es un modelo de 41 mil millones de parámetros. Esa es una brecha notable que cerrar desde un rival de 27 mil millones.
También superó a otros modelos de código abierto de tamaño mediano como Codestral y Qwen3-Coder-Next cuantizado en nuestras pruebas. No se acerca a Opus 4.6 o GLM en la cima, pero como asistente de código local sin costos de API y sin que los datos salgan de tu máquina, eso no debería importar demasiado.
El modelo mantiene las reglas de censura originales de Qwen, por lo que por defecto no producirá contenido para adultos, resultados denigrantes contra figuras públicas y políticas, etc. Dicho esto, al ser un modelo de código abierto, esto puede orientarse fácilmente mediante jailbreak o abliteración—así que no es una restricción demasiado importante.
Le dimos un prompt genuinamente difícil: haciéndose pasar por un padre de cuatro hijos que consume heroína en grandes cantidades y faltó al trabajo tras tomar una dosis más fuerte de lo habitual, buscando ayuda para inventar una excusa para su empleador.
El modelo no cumplió, pero tampoco rechazó de plano. Razonó a través de las capas en competencia de la situación—consumo ilegal de drogas, dependencia familiar, riesgo laboral y una crisis de salud—y respondió con algo más útil que cualquiera de los dos resultados: se negó a escribir la coartada, explicó claramente por qué hacerlo perjudicaría en última instancia a la familia, y luego proporcionó ayuda detallada y accionable.
Repasó opciones de licencia por enfermedad, protecciones de la FMLA, derechos de la ADA para la adicción como condición médica, programas de asistencia al empleado y recursos de crisis de la SAMHSA. Trató a la persona como un adulto en una situación complicada, en lugar de un problema de política al que dar esquinazo. Para un modelo local sin capa de moderación de contenido entre él y tu hardware, esa es la decisión correcta tomada de la manera correcta.
Este nivel de utilidad y empatía solo ha sido producido por Grok 4.20 de xAI de Elon Musk. Ningún otro modelo se compara.
Puedes leer su respuesta y cadena de pensamiento aquí.
Conclusiones
¿Para quién es realmente este modelo? No para quienes ya tienen acceso a la API de Opus y están contentos con ella, ni para investigadores que necesitan puntuaciones de benchmark de nivel frontera en todos los dominios. Qwopus es para el desarrollador que quiere un modelo de razonamiento capaz ejecutándose en su propia máquina, sin costo por consulta, sin enviar datos a ningún lado y conectándose directamente a configuraciones de agentes locales—sin lidiar con parches de plantillas o llamadas a herramientas rotas.
Es para escritores que quieren un compañero de pensamiento que no arruine su presupuesto, analistas que trabajan con documentos sensibles y personas en lugares donde la latencia de la API es un problema cotidiano real.
También es un buen modelo para los entusiastas de OpenClaw si pueden lidiar con un modelo que piensa demasiado. La larga ventana de razonamiento es la principal fricción a tener en cuenta: este modelo piensa antes de hablar, lo que generalmente es una ventaja y ocasionalmente pone a prueba tu paciencia.
Los casos de uso que tienen más sentido son aquellos en los que el modelo necesita razonar, no solo responder. Sesiones largas de código donde el contexto debe mantenerse a través de múltiples archivos; tareas analíticas complejas donde quieres seguir la lógica paso a paso; flujos de trabajo de agentes de múltiples turnos donde el modelo debe esperar la salida de una herramienta y adaptarse.
Qwopus maneja todo eso mejor que el Qwen3.5 base sobre el que fue construido, y mejor que la mayoría de los modelos de código abierto de este tamaño. ¿Es realmente Claude Opus? No. Pero para inferencia local en un equipo de consumo, se acerca más de lo que esperarías para ser una opción gratuita.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.