En Resumen
- Le Chat de Mistral integró Flux Pro para generación de imágenes, superando a DALL-E 3 en precisión y detalle.
- Pixtral Large alcanzó un 93,3% en DocVQA, superando a GPT-4 y Gemini 1.5 Pro de Google en pruebas visuales clave.
- Mistral ofrece funciones gratuitas, como búsqueda web y análisis de documentos, igualando herramientas de pago de OpenAI.
Mistral AI, la empresa francesa de inteligencia artificial fundada por ex-empleados de Google y Meta, ha mejorado su plataforma de IA multimodal gratuita—y se acerca a igualar, e incluso a superar en ocasiones, las ofertas de pago de OpenAI o Anthropic.
El conjunto de herramientas de IA de la startup con sede en París ahora presenta capacidades de búsqueda web y generación de imágenes junto con un nuevo modelo visual que supera a rivales más grandes en puntos de referencia clave.
La compañía ha impulsado una actualización para analizar documentos, un Modelo de Lenguaje de Gran Escala o Large Language Model (LLM) actualizado, y Codestral, un LLM enfocado en tareas de programación.
Pero el punto a destacar es su uso de Flux Pro para generar imágenes, lo que lo convierte en el chatbot multimodal con las mejores capacidades de generación de imágenes actualmente disponibles. Una nueva interfaz Canvas permite edición de contenido directa, posicionando a Le Chat —el nombre elegido por Mistral para su interfaz de chatbot— como un espacio de trabajo empresarial listo.
"No estamos persiguiendo AGI a toda costa; nuestra misión es en su lugar poner la IA de frontera en tus manos", dijo Mistral en un comunicado, distanciándose de las ambiciones más amplias de inteligencia general artificial de sus competidores que han generado preocupación entre los expertos.
La empresa fue valorada en $2.000 millones en su ronda de financiación de diciembre.
Pixtral Large, un modelo visual de 124 mil millones de parámetros, superó a GPT-4 y Gemini 1.5 Pro de Google con 69,4% de precisión en MathVista y 93,3% en DocVQA. Maneja hasta 30 imágenes de alta resolución dentro de una ventana de contexto de 128.000 tokens.
Mientras tanto, Flux Pro, supera a todos los otros generadores de imágenes en términos de calidad y velocidades de inferencia, como Decrypt informó anteriormente.
Por su parte, ChatGPT usa DALL-E, que es primitivo por comparación. Así que la integración de Flux en Le Chat es un movimiento bienvenido.
Estas características han sido introducidas como "ofertas beta gratuitas", dando a los usuarios acceso a las últimas herramientas de IA generativa sin costo. Mistral no dijo cuándo pretendía comenzar a cobrar por sus herramientas.
ChatGPT vs. LeChat de Mistral: Cómo se comparan
Pusimos a prueba las versiones gratuitas de los chatbots de Mistral y ChatGPT. Hubo muchas similitudes —principalmente en estilo de escritura— pero las diferencias fueron suficientes para establecer algunas distinciones entre ambos.
GPT-4o de ChatGPT sigue siendo la joya de la corona de los modelos de lenguaje, mostrando un matiz incomparable en razonamiento complejo, escritura creativa y análisis técnico.
Su capacidad para entender el contexto y mantener conversaciones coherentes y largas ha definido el estándar de la industria. Durante pruebas extensas, GPT-4o ha demostrado una capacidad notable en tareas que van desde análisis literario hasta desafíos de programación avanzados.
Le Chat Large 2.5, aunque es impresionante, opera un nivel por debajo de GPT-4o en tareas de razonamiento sofisticado. Sin embargo, destaca en aplicaciones prácticas, ofreciendo respuestas ágiles y un rendimiento robusto en tareas diarias. Mientras que el modelo posee capacidades multilingües, tiende a ser menos creativo que GPT-4o.
Integración de Búsqueda Web
Le Chat ofrece una función de búsqueda web gratuita–los usuarios pueden acceder a información actual con enlaces de citación directa, similar a cómo usarías un motor de búsqueda tradicional pero con síntesis de IA. La integración se siente natural y discreta, haciendo que los flujos de trabajo de verificación de hechos e investigación sean notablemente eficientes. El acceso gratuito a esta función representa una proposición de valor significativa.
SearchGPT de ChatGPT, aunque es más sofisticado en su enfoque, está detrás de un muro de pago. Toma un ángulo único en la integración web, a menudo proporcionando más análisis contextual (al punto de incluso alucinar algunas respuestas). El plugin de Chrome ofrece una integración más profunda con las capacidades del modelo de lenguaje de OpenAI, aunque muchos usuarios podrían encontrar el enfoque directo de Le Chat más práctico para uso diario.
Capacidades de Generación de Imágenes
La integración de Flux Pro en Le Chat es una gran ventaja en el espacio de generación de imágenes. El sistema produce imágenes muy detalladas con gran adherencia a los prompts, particularmente sobresaliendo en estilos artísticos, anatomía humana precisa y composición de escenas complejas. Benchmarks recientes sitúan a Flux Pro a la vanguardia de la tecnología de generación de imágenes, con un rendimiento notablemente mejor en áreas como detalle de textura y coherencia espacial.
DALL-E 3 de ChatGPT, aunque es revolucionario en su lanzamiento, ahora muestra su edad frente a modelos más nuevos. Aunque capaz de producir imágenes utilizables, a menudo lucha con prompts complejos, texturas detalladas y mantenimiento de estilo consistente – áreas donde Flux Pro demuestra clara superioridad. La brecha es particularmente notable en tareas de generación de imágenes de grado profesional.
Agentes de IA Personalizados
El enfoque democrático de Le Chat para agentes de IA representa un cambio significativo en accesibilidad. Los usuarios pueden crear, personalizar e implementar agentes especializados para tareas que van desde análisis de datos hasta escritura creativa de forma gratuita.
ChatGPT, por otro lado, mantiene un sistema de dos niveles. Mientras que los usuarios gratuitos pueden acceder a GPTs pregenerados, la capacidad de crear personalizados sigue siendo una característica premium.
La calidad de estos GPTs es excelente, y la capacidad de configurarlos mediante indicaciones en lenguaje natural es un plus; pero la restricción en herramientas de creación y el muro de precios limita el potencial de optimización de flujos de trabajo personalizados.
Capacidades de Análisis Visual
Aquí parece haber un empate—al menos en nuestras primeras pruebas rápidas. GPT-4V y Pixtral Large demuestran capacidades notablemente similares en aplicaciones del mundo real.
Ambos se destacan en interpretación de diagramas, comprensión de imágenes, notación matemática y conciencia espacial.
Veredicto
Si bien los números de referencia muestran ligeras variaciones para los LLM, los Modelos de Visión y los Modelos de Generación de Imágenes, la diferencia práctica en los casos de uso diario no es tan significativa.
Ambos sistemas manejan todo, desde escritura creativa hasta diagramas técnicos con impresionante precisión, haciendo que la elección entre ellos sea más sobre preferencia de ecosistema que diferencias de capacidad.
La elección entre estas plataformas cada vez depende más de casos de uso específicos:
ChatGPT sigue siendo superior para:
- Escritura académica
- Documentación técnica compleja
- Escritura creativa matizada
- Desafíos de programación avanzados
Le Chat ofrece mejor valor para:
- Creación de contenido visual
- Investigación web
- Análisis de documentos
- Tareas de productividad diaria
- Automatización de flujos de trabajo
Las implicaciones financieras son el punto decisivo: Le Chat ofrece aproximadamente 80-90% de la funcionalidad de ChatGPT Plus sin costo, convirtiéndolo en una opción cada vez más atractiva tanto para usuarios individuales como para pequeñas empresas con restricciones presupuestarias.
En general, Mistral ofrece una mejor propuesta de valor actualmente, y sus modelos pueden servir a los usuarios lo suficiente como para justificar cancelar una suscripción—al menos mientras dure el período de pruebas beta.
Editado por Josh Quittner y Sebastian Sinclair