Más Allá de Bard: Google Lanza Gemini, Una IA Multimodal Para Desafiar a ChatGPT

A primera vista, Gemini demuestra capacidades sin precedentes en la comprensión e integración de texto, imagen, audio y video.

4 min lectura

Dec 6, 2023

Este miércoles Google sorprendió al mundo tecnológico con el debut de Gemini, su conjunto de herramientas de inteligencia artificial multimodal para consumidores y empresas.

Entre los gigantes tecnológicos que se adentran agresivamente en la IA, Google, parecía estar nadando en el espacio intermedio, mientras que OpenAI, respaldado por Microsoft, impulsaba a ChatGPT a Turbo y Vision y, Anthropic mejoraba a Claude.

Sin embargo, hoy, Google se disparó en la competencia con tres versiones de Gemini: Nano, Pro y Ultra, que comprenden e integran sin problemas texto, imágenes, audio y video.

Gemini parece estar listo para superar a los modelos de IA de última generación de OpenAI, que acaba de lanzar una lista interminable de nuevas capacidades, pero poco después se vio envuelta en intrigas corporativas.

La versión más avanzada, Gemini Ultra, obtuvo resultados sólidos en varios benchmarks populares, igualando o superando el rendimiento humano en algunos casos. Por ejemplo, estableció nuevos récords en 30 de los 32 benchmarks en el examen MMLU, que abarca una variedad de materias académicas.

Una característica clave de Gemini es su entrenamiento "nativamente multimodal", que le permite procesar múltiples tipos de datos como texto, imágenes y audio como entradas y salidas. Este enfoque significa que el modelo fue construido y entrenado desde cero para comprender diferentes entradas, en lugar de ser el resultado de combinar modos y módulos discretos más tarde.

Las IAs multimodales más populares en la actualidad siguen la última hoja de ruta. Por ejemplo, ChatGPT combina GPT-4 Turbo con Dall-E 3 para procesar texto y generar imágenes, GPT-4 Vision para procesar imágenes y un módulo de codificación especial para cálculos. Como resultado, el LLM se relega al papel de coordinador entre diferentes modelos de IA que no pueden comprender de forma independiente la naturaleza completa de un problema específico.

Esta limitación también puede llevar a vulnerabilidades como la inyección de comandos. Por ejemplo, técnicas para evadir los controles de seguridad establecidos para los mensajes de texto, escribiéndolos o imprimiéndolos en un papel, tomando una foto y pidiendo al módulo visual que lo procese.

Google Gemini muestra excelentes resultados en pruebas de IA. Imagen: Google

En contraste, las primeras evaluaciones cualitativas de Gemini revelan su notable capacidad para realizar razonamiento multimodal. Por ejemplo, en entornos educativos, Gemini puede comprender problemas complejos de física, convertirlos en fórmulas matemáticas y proporcionar soluciones correctas. Esta capacidad abre caminos transformadores en la educación y en otros campos.

Los LLM tradicionales generalmente no son muy buenos en matemáticas, por lo que las capacidades de razonamiento de la familia Gemini de LLM multimodales merecen atención.

En otra prueba de referencia centrada en la comprensión del lenguaje multimodal, Gemini Ultra logró una precisión superior al 90%, superando a otros modelos existentes. Google afirma que las pruebas de preferencia humana también mostraron una clara preferencia por Gemini sobre modelos como PaLM 2 en áreas como la escritura creativa.

El servicio más pequeño, Gemini Nano, está diseñado para una eficiencia en el dispositivo, destacando en la resumenización, comprensión de lectura y diversas tareas de razonamiento. A pesar de su tamaño más pequeño, Gemini Nano muestra un rendimiento notable en comparación con el modelo Gemini Pro más grande. Esto significa que Gemini podría convertirse en la IA preferida para alimentar asistentes móviles que pueden o deben funcionar sin conexión.

Gemini parece tener un debut muy sólido. Y a medida que se mejoren las capacidades de IA de Google, su versatilidad podría permitir nuevas aplicaciones en muchos ámbitos. Sin embargo, por ahora, se requieren pruebas adicionales en el mundo real para determinar sus niveles de rendimiento realistas.

Hoy, los usuarios pueden probar una versión afinada de Gemini Pro con Bard. Gemini Ultra se lanzará el próximo año en una nueva versión del chatbot de Google llamado Bard Advanced. Google espera lanzar Gemini en más de 170 idiomas diferentes y utilizar la tecnología para impulsar su línea de productos Pixel y la Experiencia Generativa de Búsqueda.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Kalshi Obtiene Protagonismo en la Copa Mundial de la FIFA Mientras el Trading en Mercados de Predicción Alcanza Récord

El evento deportivo más esperado del mundo sigue elevando el perfil de los mercados de predicción, con una cantidad récord de apuestas abiertas que se vio acentuada el viernes por un acuerdo de alto perfil entre Kalshi y un socio oficial de la Copa del Mundo 2026. ADI Predictstreet, un mercado de predicción con licencia en Gibraltar que presentó un acuerdo de patrocinio con la FIFA en abril, anunció que colaboraría con Kalshi de cara a la fase eliminatoria de la competición, con ambas marcas es...

BitGo se Une a la Ola de Despidos por IA en el Sector Cripto, Reduciendo su Personal un 15%

BitGo se ha sumado a la creciente lista de empresas cripto que recortan personal como parte de un giro hacia la inteligencia artificial. La empresa de custodia e infraestructura cripto está eliminando cerca del 15% de su fuerza laboral, según señaló el jueves su cofundador y CEO Mike Belshe en un tuit que BitGo también presentó ante la Comisión de Bolsa y Valores de Estados Unidos (SEC). Today I'm sharing a hard decision: we are reducing our workforce by nearly 15%. I want to be straight with y...

Noticias

Cursos

Profundidades

Monedas

Videos