En Resumen

  • Google lanzó Gemma 3, un modelo de IA de código abierto basado en Gemini 2.0
  • El modelo superó a competidores más grandes en benchmarks de LMArena
  • Su capacidad de escritura creativa destacó sobre modelos como Claude 3.7

El martes, Google lanzó Gemma 3, un modelo de IA de código abierto basado en Gemini 2.0 que ofrece una sorprendente potencia para su tamaño.

El modelo completo funciona en una sola GPU, pero según los benchmarks de Google, es lo suficientemente competitivo cuando se compara con modelos más grandes que requieren mucha más potencia de cálculo.

Imagen: Google

La nueva familia de modelos, que Google dice que fue "co-diseñada con la familia de modelos de vanguardia Gemini", viene en cuatro tamaños que van desde 1 mil millones hasta 27 mil millones de parámetros.

Google lo está posicionando como una solución práctica para desarrolladores que necesitan implementar IA directamente en dispositivos como teléfonos, computadoras portátiles y estaciones de trabajo.

"Estos son nuestros modelos abiertos más avanzados, portátiles y desarrollados de manera responsable hasta ahora", escribieron Clement Farabet, VP de Investigación en Google DeepMind, y Tris Warkentin, Director en Google DeepMind, en un anuncio del miércoles.

A pesar de su tamaño relativamente modesto, Gemma 3 superó a modelos más grandes como el Llama-405B de Meta, DeepSeek-V3, Qwen 2.5 Max de Alibaba y o3-mini de OpenAI en la clasificación de LMArena.

La versión de 27B con instrucciones obtuvo 1.339 en la calificación Elo de LMSys Chatbot Arena, ubicándose entre los 10 mejores modelos en general.

Gemma 3 también es multimodal: maneja texto, imágenes e incluso videos cortos en sus variantes más grandes.

Su ventana de contexto expandida de 128.000 tokens (32.000 para la versión 1B) supera ampliamente el límite de 8.000 tokens del anterior Gemma 2, permitiéndole procesar y comprender mucha más información a la vez.

El alcance global del modelo se extiende a más de 140 idiomas, con 35 idiomas soportados de forma nativa. Esto lo posiciona como una opción viable para desarrolladores que construyen aplicaciones para audiencias internacionales sin necesidad de modelos separados para diferentes regiones.

Google afirma que la familia Gemma ya ha visto más de 100 millones de descargas desde su lanzamiento el año pasado, con desarrolladores creando más de 60.000 variantes.

El "Gemmaverse" creado por la comunidad —un ecosistema completo construido alrededor de la familia de modelos Gemma— incluye versiones personalizadas para el Sudeste Asiático, Bulgaria, y un modelo personalizado de texto a audio llamado OmniAudio.

Los desarrolladores pueden implementar aplicaciones de Gemma 3 a través de Vertex AI, Cloud Run, la API de Google GenAI, o en entornos locales, proporcionando flexibilidad para diversos requisitos de infraestructura.

Probando Gemma

Sometimos a Gemma 3 a una serie de pruebas del mundo real para evaluar su rendimiento en diferentes tareas. Esto es lo que encontramos en cada área.

Escritura creativa

Nos sorprendieron las capacidades de escritura creativa de Gemma 3. A pesar de tener solo 27.000 millones de parámetros, logró superar a Claude 3.7 Sonnet, que recientemente venció a Grok-3 en nuestras pruebas de escritura creativa. Y ganó por un amplio margen.

Gemma 3 produjo la historia más larga de todos los modelos que probamos, con la excepción de Longwriter, que fue diseñado específicamente para narrativas extensas.

La calidad tampoco se sacrificó por la cantidad: la escritura fue atractiva y original, evitando las introducciones formulaicas que la mayoría de los modelos de IA tienden a mostrar.

Gemma también fue muy bueno creando mundos detallados e inmersivos con fuerte coherencia narrativa. Los nombres de personajes, ubicaciones y descripciones encajaban naturalmente dentro del contexto de la historia.

Y esto es una gran ventaja para escritores creativos porque otros modelos a veces mezclan referencias culturales u omiten estos pequeños detalles, lo que acaba matando la inmersión. Gemma 3 mantuvo la consistencia a lo largo de todo.

El formato más largo de la historia permitió un desarrollo natural con transiciones fluidas entre segmentos narrativos. El modelo fue muy bueno describiendo acciones, sentimientos, pensamientos y diálogos de una manera que creaba una experiencia de lectura creíble.

Cuando se le pidió incorporar un final sorpresa, logró hacerlo sin romper la lógica interna de la historia. Todos los otros modelos hasta ahora tendían a estropearlo un poco al intentar concluir la historia. Pero Gemma no.

Para escritores creativos que buscan un asistente de IA que pueda ayudar con proyectos de ficción aptos para el trabajo, Gemma 3 parece ser el líder actual.

Puedes leer nuestro prompt y todas las respuestas en nuestro repositorio de GitHub.

Resumen y recuperación de información

Aunque su escritura creativa fue excelente, Gemma 3 tuvo dificultades significativas con tareas de análisis de documentos.

Subimos un documento del FMI de 47 páginas al AI Studio de Google, y aunque el sistema aceptó el archivo, el modelo no pudo completar su análisis, deteniéndose a mitad de la tarea. Múltiples intentos arrojaron resultados idénticos.

Probamos un enfoque alternativo que funcionó con Grok-3, copiando y pegando el contenido del documento directamente en la interfaz, pero encontramos el mismo problema.

El modelo simplemente no pudo manejar el procesamiento y resumen de contenido extenso.

Vale la pena señalar que esta limitación podría estar relacionada con la implementación de AI Studio de Google más que con una falla inherente en el modelo Gemma 3.

Ejecutar el modelo localmente podría dar mejores resultados para el análisis de documentos, pero los usuarios que dependen de la interfaz oficial de Google probablemente enfrentarán estas limitaciones, al menos por ahora.

Temas sensibles

Como característica única entre las interfaces de chatbot de IA, Google AI Studio ofrece filtros de contenido muy estrictos que son accesibles a través de una serie de controles deslizantes.

Probamos los límites de Gemma solicitando consejos cuestionables para situaciones hipotéticas no éticas (consejos para seducir a una mujer casada), y el modelo se negó firmemente a cumplir. De manera similar, cuando se le pidió generar contenido para adultos para una novela ficticia, se negó a producir algo remotamente sugestivo.

Nuestros intentos de ajustar o eludir estos filtros de censura apagando los parámetros de Google no funcionaron realmente.

Los "ajustes de seguridad" de Google AI Studio en teoría controlan cuán restringido está el modelo cuando se trata de generar contenido que puede considerarse como acoso, discurso de odio, sexualmente explícito o peligroso.

Incluso con todas las restricciones desactivadas, el modelo rechazó consistentemente participar en conversaciones que contenían elementos controvertidos, violentos u ofensivos, aún cuando claramente eran para propósitos creativos ficticios.

Al final, los controles realmente no hicieron ninguna diferencia.

Los usuarios que esperan trabajar con temas sensibles, incluso en contextos creativos legítimos, probablemente necesitarán encontrar formas de hacer jailbreak al modelo o elaborar prompts extremadamente cuidadosos.

En general, las restricciones de contenido de Gemma 3 para aquellos dispuestos a usar el Studio de Google parecen estar a la par con las de ChatGPT, siendo a veces incluso demasiado restrictivas dependiendo del caso de uso.

Aquellos dispuestos a ejecutarlo localmente no enfrentarán estos problemas. Para aquellos que necesitan una buena interfaz de IA y un modelo algo menos censurado, la mejor opción parece ser Grok-3, que tiene muchas menos restricciones. Todos los otros modelos cerrados también se negaron.

Puedes leer nuestro prompt y todas las respuestas en nuestro repositorio de GitHub.

Multimodalidad

Gemma 3 es multimodal en su núcleo, lo que significa que puede procesar y comprender imágenes de forma nativa sin depender de un modelo de visión separado.

En nuestras pruebas, encontramos algunas limitaciones de la plataforma. Por ejemplo, AI Studio de Google no nos permitió procesar imágenes directamente con el modelo.

Sin embargo, pudimos probar las capacidades de imagen a través de la interfaz de Hugging Face, que presenta una versión más pequeña de Gemma 3.

El modelo demostró una sólida comprensión de las imágenes, identificando con éxito elementos clave y proporcionando análisis relevantes en la mayoría de los casos. Podía reconocer objetos, escenas y contenido general dentro de fotos con una precisión razonable.

Sin embargo, la variante de modelo más pequeña de Hugging Face mostró limitaciones con el análisis visual detallado.

En una de nuestras pruebas, no logró interpretar correctamente un gráfico financiero, alucinando que Bitcoin tenía un precio de alrededor de $68.618 en 2024, información que en realidad no se mostraba en la imagen pero probablemente provenía de sus datos de entrenamiento.

Aunque las capacidades multimodales de Gemma 3 son funcionales, usar un modelo más pequeño puede no igualar la precisión de modelos de visión especializados más grandes, incluso los de código abierto como Llama 3.2 Vision, LlaVa o Phi Vision, particularmente cuando se trata de gráficos, diagramas o contenido que requiere análisis visual detallado.

Razonamiento no matemático

Como era de esperar para un modelo de lenguaje tradicional sin capacidades de razonamiento especializadas, Gemma 3 muestra claras limitaciones cuando se enfrenta a problemas que requieren deducción lógica compleja en lugar de simples predicciones de tokens.

Lo probamos con nuestro problema de misterio habitual del conjunto de datos BigBENCH, y el modelo no logró identificar pistas clave ni extraer conclusiones lógicas de la información proporcionada.

Curiosamente, cuando intentamos guiar al modelo a través de un razonamiento explícito de cadena de pensamiento (esencialmente pidiéndole que "piense paso a paso"), activó sus filtros de violencia y se negó a proporcionar cualquier respuesta.

Puedes leer nuestro prompt y todas las respuestas en nuestro repositorio de GitHub.

¿Es este el modelo para ti?

Amarás u odiarás Gemma 3 dependiendo de tus necesidades específicas y casos de uso.

Para escritores creativos, Gemma 3 es una opción destacada. Su capacidad para crear narrativas detalladas, coherentes y atractivas supera a algunos modelos comerciales más grandes, incluidos Claude 3.7, Grok-3 y GPT-4.5 con un condicionamiento mínimo.

Si escribes ficción, publicaciones de blog u otro contenido creativo que se mantenga dentro de los límites aptos para el trabajo, este modelo ofrece una calidad excepcional a costo cero, funcionando en hardware accesible.

Los desarrolladores y creadores que trabajan en aplicaciones multilingües apreciarán el soporte de Gemma 3 para más de 140 idiomas. Esto hace que sea práctico crear servicios específicos para regiones o aplicaciones globales sin mantener múltiples modelos específicos para cada idioma.

Las pequeñas empresas y startups con recursos informáticos limitados también pueden disfrutar de la eficiencia de Gemma 3. Ejecutar capacidades avanzadas de IA en una sola GPU reduce drásticamente la barrera de entrada para implementar soluciones de IA sin inversiones masivas en infraestructura.

La naturaleza de código abierto de Gemma 3 proporciona una flexibilidad que los modelos cerrados como Claude o ChatGPT simplemente no pueden igualar.

Los desarrolladores pueden ajustarlo para dominios específicos, modificar su comportamiento o integrarlo profundamente en sistemas existentes sin limitaciones de API o costos de suscripción.

Para aplicaciones con requisitos estrictos de privacidad, el modelo puede ejecutarse completamente desconectado de internet en hardware local.

Sin embargo, los usuarios que necesitan analizar documentos extensos o trabajar con temas sensibles encontrarán limitaciones frustrantes. Las tareas de investigación que requieren razonamiento matizado o la capacidad de procesar material controvertido siguen siendo más adecuadas para modelos de código cerrado más grandes que ofrecen más flexibilidad.

Tampoco es realmente bueno en tareas de razonamiento, codificación o cualquiera de las tareas complejas en las que nuestra sociedad ahora espera que los modelos de IA sobresalgan. Así que no esperes que genere un juego para ti, mejore tu código o sobresalga en algo más allá de la escritura creativa de texto.

En general, Gemma 3 no reemplazará a los modelos de razonamiento propietarios o de código abierto más avanzados para cada tarea.

Sin embargo, su combinación de rendimiento, eficiencia y personalización lo posiciona como una opción muy interesante para entusiastas de la IA que aman probar cosas nuevas, e incluso para fanáticos del código abierto que quieren controlar y ejecutar sus modelos localmente.

Editado por Sebastian Sinclair

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.