En el constante y cambiante mundo de la tecnología, los esfuerzos de Elon Musk rara vez dejan de causar revuelo. Unas semanas después de su llamado a detener el entrenamiento de LLMs más capaces que GPT-4, Musk hizo su movimiento característico: hacer exactamente lo contrario de lo que predicaba. Así surge xAI, la última creación de Musk, y Grok, su flamante LLM anunciado el sábado.
Announcing Grok!
Grok is an AI modeled after the Hitchhiker’s Guide to the Galaxy, so intended to answer almost anything and, far harder, even suggest what questions to ask!
Grok is designed to answer questions with a bit of wit and has a rebellious streak, so please don’t use…
La empresa hizo titulares, no solo por la participación de Musk, sino también debido al impresionante equipo de investigadores de IA que logró reclutar de las principales startups y gigantes tecnológicos.
Promocionado con el atractivo tentador de una IA diseñada para "entender el mundo", xAI se mantuvo misteriosamente reservado sobre el "cómo" y el "qué" de sus operaciones... al menos hasta la semana pasada.
¿Es este otro movimiento clásico de Musk para desafiar el statu quo, o simplemente un chatbot sobrevalorado que se aprovecha de la enorme ola de popularidad y expectativas que rodea a sus predecesores?
Lo Bueno
Un flujo constante de conocimiento en tiempo real
Tener acceso a todo el contenido de Twitter hace que Grok sea una innovación disruptiva. Como destacó xAI, Grok tendrá un "conocimiento en tiempo real del mundo", presentando lo que los investigadores de IA llaman Aprendizaje por Reforzamiento a partir de la Retroalimentación Humana (RLHF), procesando noticias y comentarios diversos sobre eventos actuales.
Al aprender sobre eventos desde diferentes puntos de vista y absorber las notas de la comunidad de Twitter, que son básicamente anotaciones, Grok se beneficiará de una visión multifacética del mundo.
Según estudios recientes, las personas ya han cambiado su comportamiento y buscan noticias en las redes sociales antes de recurrir a los medios de comunicación tradicionales.
La integración de Grok con Twitter podría acelerar aún más este proceso, ofreciendo a los usuarios comentarios inmediatos, contexto y, si se ejecuta correctamente, verificación de hechos o noticias en tiempo real. La función de conocimiento en tiempo real, como destacó xAI, asegura que Grok se mantenga actualizado con el pulso del mundo, lo que le permite proporcionar respuestas oportunas y relevantes.
Modo Divertido: El sueño de Elon Musk hecho realidad
La visión de Elon Musk de una IA divertida parece haber cobrado vida con el llamado "Modo Divertido" de Grok. Esta función permite al LLM crear chistes, ofrecer respuestas humorísticas pero precisas y brindar a los usuarios una experiencia de conversación caprichosa y casual.
Uno de los desafíos de los LLMs existentes, como ChatGPT, es que algunos usuarios sienten que han sido excesivamente censurados para garantizar la corrección política, lo que potencialmente hace que las interacciones sean menos orgánicas y espontáneas. Además, algunos LLM no son hábiles en interacciones prolongadas. Grok, con su modo divertido, promete llenar este vacío, sirviendo potencialmente como una forma entretenida de pasar el tiempo para aquellos que buscan relajarse.
Grok has real-time access to info via the 𝕏 platform, which is a massive advantage over other models.
It’s also based & loves sarcasm. I have no idea who could have guided it this way 🤷♂️ 🤣 pic.twitter.com/e5OwuGvZ3Z
Este concepto no es del todo nuevo, ya que Poe de Quora ofrece un servicio similar con sus chatbots afinados, cada uno con una personalidad única. Sin embargo, tener esto incorporado en un LLM con las capacidades de Grok lleva la experiencia a un nuevo nivel.
Acceso nativo a Internet
Otro aspecto diferenciador de Grok es la capacidad de acceder a Internet sin necesidad de un complemento u otro módulo.
Si bien el alcance exacto de sus capacidades de navegación aún debe aclararse, la idea es tentadora. Imagina un LLM que pueda mejorar la precisión factual porque puede cruzar datos en tiempo real. Junto con su acceso al contenido de Twitter, Grok podría revolucionar la forma en que los usuarios interactúan con la IA, sabiendo que la información que reciben no se basa solo en datos de entrenamiento preexistentes, sino que se actualiza y verifica continuamente.
Multitarea
Grok es capaz de realizar múltiples tareas, lo que permite a los usuarios llevar a cabo varias conversaciones simultáneamente. Además, pueden explorar diversos temas, esperar una respuesta en un hilo y continuar con otro.
El chatbot también ofrece ramificación en las conversaciones, lo que permite a los usuarios profundizar en áreas específicas sin interrumpir la discusión principal, ofreciendo una guía visual de todas las ramas de la conversación, facilitando a los usuarios navegar entre temas.
Grok también ofrece un editor de markdown incorporado, que permite a los usuarios descargar y editar las respuestas de Grok para su uso posterior. Esta herramienta, combinada con la ramificación, asegura que los usuarios puedan trabajar con ramas de conversación específicas y volver a participar sin problemas.
These are some of the UI features in Grok. First, it allows you to multi-task. You can run several concurrent conversations and switch between them as they progress. pic.twitter.com/aXAG0M2oPF
La visión de Elon Musk para Grok era clara: una IA que no se acobardara al expresar su opinión digital.
Si bien todos los principales chatbots de IA tienen medidas de seguridad para evitar posibles daños o desinformación, a veces puede sentirse restrictivo. Los usuarios han señalado casos en que modelos como ChatGPT, Llama y Claude podrían contener sus respuestas, optando por la precaución para evitar posibles ofensas. Sin embargo, esto puede filtrar respuestas que son inofensivas o buscadas de manera genuina.
A Grok se le permite tener más libertad en sus respuestas y, por lo tanto, puede ofrecer una experiencia conversacional más auténtica y sin restricciones. Como destacó xAI, el diseño de Grok le permite abordar preguntas picantes que otros sistemas de IA podrían evitar.
Announcing Grok!
Grok is an AI modeled after the Hitchhiker’s Guide to the Galaxy, so intended to answer almost anything and, far harder, even suggest what questions to ask!
Grok is designed to answer questions with a bit of wit and has a rebellious streak, so please don’t use…
Es evidente que esta IA ofrece una combinación única de información en tiempo real, humor, precisión y libertad. Sin embargo, como con cualquier innovación, también hay desafíos y posibles obstáculos a considerar.
Lo malo
Desarrollo apresurado y entrenamiento limitado
Desde el principio, el rápido desarrollo de Grok fue bastante controversial. Según lo declarado por xAI, "Grok todavía es un producto beta muy temprano, es lo mejor que pudimos hacer con dos meses de entrenamiento". En el mundo de los LLMs, dos meses y 33.000 millones de parámetros suenan como una gota en el océano.
Para tener una perspectiva, OpenAI ha sido transparente sobre su proceso de desarrollo, mencionando: "Hemos pasado seis meses alineando iterativamente GPT-4". La disparidad en los plazos de desarrollo sugiere que el desarrollo de Grok puede haber sido apresurado para aprovechar la ola de hype de la IA.
Además, x.AI se mantiene reservado sobre la cantidad de hardware utilizado durante el entrenamiento de Grok, dejando espacio para las especulaciones.
Todo sobre los parámetros
Para los no iniciados, los parámetros en los LLM representan la cantidad de información o conocimiento que el modelo puede contener. Indican la capacidad efectiva del cerebro de la IA, determinando su capacidad para procesar y generar información.
Grok, con sus 33.000 millones de parámetros, puede sonar impresionante a primera vista. Sin embargo, en el competitivo panorama de los LLM, es solo otro jugador. De hecho, la cantidad de parámetros podría quedarse corta para satisfacer las complejas necesidades corporativas y los resultados de alta calidad que titanes como ChatGPT, Claude y Bard han establecido como el estándar de oro.
Parte de esta baja cantidad de parámetros es la razón por la cual Grok no logra superar a otros modelos principales en pruebas clave como HumanEval o MMLU:
Además del parámetro de recuento, también está el problema del manejo del contexto, básicamente se refiere a cuánta información puede entender un chatbot de IA en una sola entrada. Grok no es especialmente impresionante en esta área. Según xAI, Grok comprende 8.192 tokens de contexto, mientras que GPT-4 maneja 32.000, y Claude va aún más lejos con hasta 100.000 tokens. El nuevo GPT-4 Turbo de OpenAI alcanza una ventana de contexto de 128.000 tokens.
El precio de la innovación
El costo es un factor crucial al evaluar el valor de cualquier producto, y Grok no es una excepción. El chatbot estará disponible para los usuarios dispuestos a pagar $16 al mes por el privilegio de interactuar con él.
Con ofertas gratuitas como Claude 2 y ChatGPT equipados con GPT-3.5 Turbo, puede ser difícil vender Grok, especialmente considerando que estos modelos gratuitos han sido elogiados por su precisión, superando incluso a Grok en ciertos puntos de referencia.
Además, incluso el LLM más potente en acción, GPT-4, promete ser mejor que Grok, con la ventaja adicional de ser ampliamente accesible, multimodal y poderoso.
The @xAI Grok AI assistant will be provided as part of 𝕏 Premium+, so I recommend signing up for that.
¿Podría la introducción de Grok ser en gran medida un movimiento estratégico para impulsar las suscripciones a Twitter Blue, amplificando así los ingresos de Twitter?
Estas preocupaciones resaltan los desafíos de Grok para establecerse como un jugador importante en el ámbito de los LLMs. Y sus desventajas no se detienen en el precio.
Lo feo
Imitación de ficción
Basar un LLM en un personaje ficticio de una novela popular es, sin duda, una elección creativa. Si bien el encanto de una personalidad ficticia puede ser atractivo, plantea riesgos inherentes en un mundo que cada vez más depende de información precisa. Los usuarios que recurren a la IA para consultas o consejos serios, podrían encontrarse en desacuerdo con un sistema diseñado para emular a un personaje cómico.
Además, a medida que la línea entre la ficción y la realidad se difumina, existe la preocupación de que los usuarios malinterpreten respuestas juguetonas o satíricas como información factual. En la era digital, donde cada pieza de información es analizada y compartida, las ramificaciones de tales malentendidos podrían ser amplias. Especialmente cuando entran en juego más de un idioma.
Si bien el humor y el ingenio tienen su lugar, es esencial encontrar un equilibrio, especialmente cuando los usuarios buscan información crítica.
Priorizar el humor sobre la precisión puede entretener, pero también socava la esencia misma de lo que un LLM debería ofrecer: información confiable.
Sobreprometido y subentregado
Las grandes promesas de Elon Musk sobre Grok han creado expectativas muy altas. Sin embargo, al profundizar, se revela una posible discrepancia entre la exageración y la realidad. El hecho de que los métodos de entrenamiento tradicionales de LLMs estén limitados por sus datos de entrenamiento subraya una limitación crítica: no pueden adentrarse genuinamente en el territorio de la "super IA".
El poco entrenamiento de Grok, con sus 33.000 millones de parámetros y un par de meses de desarrollo, parece insignificante en comparación con otros gigantes de LLMs. Si bien la idea de una personalidad ficticia y juguetona suena atractiva, esperar que entregue resultados revolucionarios utilizando métodos de entrenamiento estándar podría ser exagerado.
La comunidad de IA no es ajena a la exageración, pero con los avances rápidos en el campo, es crucial que los usuarios filtren la exageración. Alcanzar el estatus de "super IA" es un desafío monumental y es poco probable que Grok, con su configuración y entrenamiento actual, califique.
De hecho, para demostrar el poder de Grok, Elon Musk comparó su chatbot conversacional con un pequeño LLM entrenado para programar. Basta decir que no fue una pelea justa.
Example of Grok vs typical GPT, where Grok has current information, but other doesn’t pic.twitter.com/hBRXmQ8KFi
Los LLMs son poderosos, pero no son infalibles. En ausencia de estándares rigurosos, distinguir los hechos de la ficción se convierte en una tarea hercúlea. La historia reciente ofrece ejemplos de advertencia, como chatbots entrenados con datos de 4chan o incluso Tay, un chatbot anterior de Microsoft que se le permitió interactuar en Twitter. Estos bots no solo emitieron discursos de odio, sino que también se han disfrazado convincentemente como una persona real, engañando a una vasta audiencia en línea.
This week an #AI model was released on @huggingface that produces harmful + discriminatory text and has already posted over 30k vile comments online (says it's author).
This experiment would never pass a human research #ethics board. Here are my recommendations.
— Lauren Oakden-Rayner 🏳️⚧️ (@DrLaurenOR) June 6, 2022
Este coqueteo con la desinformación no es aislado. Con la imagen de Twitter recibiendo golpes desde la toma de Elon Musk, puede haber preocupaciones sobre la capacidad de Grok para proporcionar información precisa de manera constante. Los LLM a veces caen presa de alucinaciones, y si estas distorsiones se consumen como verdades, los efectos pueden ser alarmantes.
El potencial de desinformación es una bomba de tiempo. A medida que los usuarios dependen cada vez más de la IA para obtener información, la desinformación puede llevar a una toma de decisiones defectuosa.
Para que Grok sea un aliado confiable, debe tener cuidado y asegurarse de que su comportamiento juguetón no nuble la verdad.
¿Faltan capacidades multimodales?
En el floreciente mundo de la IA, el enfoque exclusivo en texto de Grok parece ser un vestigio del pasado. Si bien se espera que los usuarios paguen por los servicios de Grok, es posible que se cuestionen por qué, especialmente cuando otros LLM ofrecen experiencias más ricas y multimodales.
Por ejemplo, GPT-4-V ya ha avanzado en el ámbito multimodal, presumiendo la capacidad de escuchar, ver y hablar. El próximo Gemini de Google promete una suite similar de características. En este contexto, las ofertas de Grok parecen poco impresionantes, planteando más preguntas sobre su propuesta de valor.
Es un mercado competitivo y los usuarios se están volviendo cada vez más exigentes. Si Grok desea abrirse un nicho, necesita ofrecer algo verdaderamente excepcional. En la situación actual, con competidores que ofrecen características mejoradas y una mayor precisión, a menudo de forma gratuita, Grok tiene mucho trabajo por delante.
Conclusión
El lanzamiento de Grok ha generado emoción pero también ha despertado una cantidad considerable de escepticismo. Su enfoque de MVP (producto mínimo viable) básico permite una rápida iteración y mejora basada en los comentarios de los usuarios. Sin embargo, la competencia de los gigantes de la IA con muchos más recursos plantea una batalla cuesta arriba.
Para que Grok tenga éxito, necesita capacidades que sean tanto novedosas como útiles. El mero valor de entretenimiento no será suficiente en un mercado saturado. Los expertos en IA no se distraen con memes de perros lindos.
Al final, el destino de Grok depende de equilibrar la innovación y la practicidad. Si bien el escepticismo saludable es válido, descartarlo por completo podría ser prematuro. Grok aún puede ser pionero en nuevas fronteras o terminar siendo un pie de nota en la evolución de la IA. De cualquier manera, sus orígenes poco convencionales garantizan que Grok será un capítulo intrigante en la historia en desarrollo de la inteligencia artificial.