En Resumen

  • Abacus AI desarrolló un método para extender la capacidad de contexto de los LLM, permitiendo procesar hasta 16.000 palabras (el doble de las que procesa ChatGPT).
  • Esta técnica mejora la precisión y coherencia en tareas complejas, abriendo posibilidades para chatbots conversacionales mucho más fluidos.
  • Aunque es un camino viable, se requiere afinar estrategias y esquemas avanzados para ampliar aún más la capacidad de contexto.

¿Alguna vez has notado que tu chatbot de IA se pierde en medio de una conversación, o simplemente dice que no puede manejar indicaciones que son demasiado largas? Bueno, eso se debe a que cada modelo tiene una limitación en sus capacidades de procesamiento y comienza a sufrir una vez que supera ese límite, más o menos como si sufriera algún tipo de trastorno de déficit de atención digital. Pero esto podría cambiar pronto gracias a un nuevo método para potenciar las capacidades de LLM.

Los LLM actuales tienen capacidades de contexto limitadas. Por ejemplo, ChatGPT puede procesar 8.192 tokens, que equivalen a unas 6.144 palabras, mientras que Claude maneja 100.000 tokens. Los tokens son las unidades básicas de texto o código utilizadas por una IA de LLM para procesar y generar lenguaje. Esto limita la cantidad de información de fondo que pueden aprovechar al formular respuestas. Abacus AI ha desarrollado un método que supuestamente duplica la longitud del contexto utilizable para LLM de código abierto como Llama de Meta sin comprometer la precisión del modelo en la aplicación práctica.

Su técnica implica "escalar" las incrustaciones de posición que rastrean las ubicaciones de las palabras en los textos de entrada. Según su página de Github, Abacus AI afirma que su método de escalamiento aumenta drásticamente la cantidad de tokens que un modelo puede manejar.

Los investigadores evaluaron dos variantes escaladas de LlaMA en tareas como la ubicación de subcadenas y preguntas y respuestas de libro abierto. El modelo de escala 16 mantuvo la precisión en ejemplos del mundo real con contextos de hasta 16.000 palabras, en comparación con las solo 2.000 palabras en el modelo base de Llama. Incluso mostró cierta coherencia en más de 20.000 palabras, algo que no era posible lograr solo con ciertas técnicas de ajuste fino.

La importancia de la extensión del contexto no puede ser subestimada. Una ventana de contexto estrecha hace que el modelo sea preciso, pero no realmente utilizable en tareas complejas que requieren algo de contexto. Por otro lado, con un contexto ampliado, los LLM pueden procesar y generar respuestas mejores, aunque tardan más tiempo en hacerlo o devuelven resultados inferiores. Manejar contextos más largos de manera eficiente podría permitir que los LLM absorban documentos completos o múltiples documentos como antecedentes al generar texto. Esto puede llevar a resultados más fundamentados en el conocimiento y consistentes en conversaciones largas.

Sin embargo, las ganancias no son perfectamente proporcionales a los factores de escala.

Todavía es necesario afinar las estrategias porque solo escalar no garantiza resultados de alta calidad. El equipo de Abacus también está explorando esquemas avanzados de codificación de posición de documentos recientes para ampliar aún más la capacidad de contexto.

Su trabajo sugiere que escalar los LLM existentes es un camino viable para ampliar la longitud del contexto utilizable. Esto podría democratizar el acceso a Modelos de Lenguaje Grandes o Large Language Model (LLM), capaces de manejar mucho contexto a la vez.

Abacus AI ha abierto las puertas de su repositorio "solo para fines de investigación", compartiendo código específico para sus proyectos de ajuste fino. Esto permite iterar aún más en su desarrollo y aplicar los métodos de ajuste fino en prácticamente cualquier Modelo de Lenguaje Grande de código abierto.

Con aplicaciones, desde chatbots personalizados hasta ayudas para la escritura creativa, los LLM con más memoria podrían pronto permitir asistentes de IA de próxima generación que sean conversacionales en diversos temas.

Por ahora, los investigadores están progresando rápidamente para superar las limitaciones técnicas en busca de una inteligencia artificial generalizada, es decir, con habilidades cognitivas humanas generalizadas en un modelo de IA. Tal vez algún día nuestros amigos digitales manejarán tantas pestañas como nosotros los humanos, ¡pero sin dolor de cabeza!

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.