Perplexity Quiere Que Tu Laptop Haga Parte del Trabajo de IA—Para No Tener Que Hacerlo Ella

El nuevo sistema de inferencia híbrida de la empresa enruta automáticamente las tareas de IA entre tu dispositivo y la nube. La propuesta es privacidad y ahorro de costos —y facturas de servidor más bajas.

Por Jose Antonio Lanz

6 min lectura

El CEO de Perplexity, Aravind Srinivas, subió al escenario del Computex 2026 en Taipéi el 2 de junio junto al CEO de Intel, Lip-Bu Tan, para anunciar lo que la empresa denomina el primer orquestador híbrido de inferencia local-servidor. El sistema, que llegará a Perplexity Computer en julio, decide automáticamente qué partes de una tarea de IA ejecutar en tu equipo y cuáles enrutar hacia modelos más potentes en la nube, sin pedirte que elijas.

"Hoy anunciamos el siguiente paso para la computadora personal: el primer orquestador híbrido de inferencia local-servidor", anunció Perplexity. "Decide qué trabajo debe ejecutarse en tu dispositivo y qué trabajo debe enviarse a agentes en la nube, enrutando automáticamente cada parte de una tarea al lugar adecuado".

"El objetivo correcto para un sistema de IA es ofrecer el mayor valor de tokens por vatio, para cada usuario", señaló Perplexity en el anuncio oficial. Tres presiones en competencia lo dificultan: la precisión exige los modelos más capaces, la privacidad exige que ciertos datos nunca salgan de tu equipo, y el costo exige no gastar los recursos computacionales de un modelo de frontera en una tarea que un modelo más pequeño puede resolver.

La solución que Perplexity denomina "inferencia agéntica híbrida" aborda las tres simultáneamente. Un modelo compacto se ejecuta localmente en tu dispositivo y actúa como controlador de tráfico, determinando qué información es lo suficientemente sensible como para permanecer local y qué tareas requieren la potencia completa de un modelo de frontera basado en la nube.

"La inferencia agéntica híbrida está pensada para trabajo que incluye datos sensibles pero requiere IA potente. Cosas como registros financieros, información de salud y archivos personales", explicó la empresa. "El modelo compacto se ejecuta localmente en tu dispositivo para determinar cuándo los datos sensibles también deben conservarse localmente. Mientras tanto, el trabajo que necesita la capacidad completa de un modelo de frontera se ejecuta en el servidor".

¿Debería importarte?

La inferencia —el proceso de ejecutar un modelo de IA entrenado para generar una respuesta— es el trabajo computacional que ocurre cada vez que envías un prompt a un chatbot. Por ahora, casi todo sucede en servidores remotos propiedad de empresas de IA. Eso significa que tus documentos financieros, consultas de salud y notas privadas viajan a la computadora de otra persona antes de que recibas una respuesta.

Por eso existen los modos "Auto" o de "pensamiento reducido" en los chatbots. Las empresas de IA siempre intentarán llevar a los usuarios hacia el modo de enrutamiento más económico posible para ellas.

Srinivas ha sido directo al respecto. En una entrevista con Bloomberg Television en el Computex, dijo lo que muchos no se atreven a decir en voz alta: "No quieres todo tu cómputo centralizado en servidores con todo ejecutándose a través de los modelos más grandes. Hay personas que gastan $500 millones al mes. Lo que realmente quieres es un valor eficiente por vatio por usuario". Trasladar el trabajo de inferencia al hardware del usuario reduce esas facturas, para Perplexity.

La inferencia local es la mejor opción para esas empresas, ya que recorta gran parte de los costos, pero tiene un punto a favor para los usuarios de IA: mantiene los datos en tu equipo. La contrapartida siempre ha sido la potencia: los modelos más pequeños que se ejecutan localmente son menos capaces que los grandes que viven en los centros de datos.

El orquestador de Perplexity intenta obtener ambas ventajas. Las tareas simples —resumir un documento que ya escribiste, dar formato a texto, clasificación ligera— se ejecutan localmente. El razonamiento complejo se enruta hacia la nube, idealmente sin las partes sensibles de tu tarea adjuntas. La empresa afirma que esto ocurre de forma automática, en medio de la tarea, invisible para el usuario. Si el enrutamiento es tan confiable en la práctica como suena en una demo del Computex es una pregunta que el lanzamiento de julio responderá.

Vale la pena aclarar algo: esto no es Perplexity ofreciendo un modelo local de código abierto que tú controles. El componente local es un modelo compacto que Perplexity despliega como parte de su app. El componente en la nube sigue pasando por los servidores de Perplexity. Los usuarios que quieran una configuración completamente offline y autoalojada —del tipo que ofrecen proyectos como MiniCPM5-1B— no encontrarán eso aquí.

Los números dan contexto a ese planteamiento. Los ingresos de Perplexity crecieron de $100 millones a $500 millones mientras que el número de empleados aumentó apenas un 34%, según anunció Srinivas en abril. Una empresa que enruta consultas a través de modelos que no entrena tiene fuertes incentivos para mantener los costos computacionales lo más bajos posible. Trasladar parte de la carga de inferencia a los dispositivos de los usuarios —miles de millones de PCs ya en circulación— es una forma eficiente de lograrlo. El argumento de privacidad es real, pero coincide convenientemente con el financiero.

Quién más está haciendo esto

Todos los grandes jugadores de la IA están avanzando hacia la inferencia en dispositivo o híbrida en este momento. Apple Intelligence ejecuta su procesamiento más sensible localmente en chips de la serie M. Microsoft Foundry Local alcanzó disponibilidad general en abril de 2026, habilitando inferencia de IA completa en Windows, macOS y Linux sin dependencia de la nube.

Nvidia anunció RTX Spark en el mismo Computex donde Perplexity hizo su anuncio, apuntando a la inferencia de LLM local en laptops y computadoras de escritorio. El enfoque de Google, como reportó Decrypt, ha sido más polémico: Chrome estaba instalando silenciosamente un modelo Gemini Nano de 4 GB sin el consentimiento del usuario, y el botón "Modo IA" que la mayoría de los usuarios ven ni siquiera lo utiliza.

La diferenciación de Perplexity está en la capa de orquestación. En lugar de pedirle a los usuarios que elijan entre local o nube desde el principio, el sistema decide por tarea, en tiempo real. Srinivas afirmó que el enfoque es "agnóstico en cuanto al chip": la demo del Computex se ejecutó en Intel Core Ultra Series 3, pero los procesadores Nvidia también son compatibles. La función es actualmente exclusiva de la app de Perplexity para PC con Windows, y el calendario de lanzamiento más amplio aún no ha sido confirmado.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados