Google Actualiza Gemini AI, Aplastando a ChatGPT de OpenAI

Gemini 1.5 Pro de Google presume de una ventana de contexto de 1 millón de tokens multimodales, superando el límite de GPT-4, mientras potencia las características de IA en todos sus servicios.

6 min lectura

May 15, 2024

El día después del tan esperado anuncio de GPT-4o de OpenAI, su mejorado Large Language Model (LLM) "omnimodal", Google respondió con una serie de mejoras a sus ofertas de inteligencia artificial de Gemini AI, mostrando su destreza tecnológica, aprovechando sus ventajas de búsqueda en vivo y consolidando su posición frente al líder en participación mental ChatGPT.

Aprovechando sus fortalezas, Google está incorporando inteligencia artificial generativa en su experiencia de búsqueda, permitiendo a los usuarios interactuar de forma natural con su motor de búsqueda en lugar de depender de consultas basadas en palabras clave. La presentación incluyó una demostración de una consulta de búsqueda en Google sobre cómo quitar una mancha de café. En lugar de simplemente mostrar enlaces a páginas web con instrucciones, el motor de búsqueda proporcionó de inmediato una respuesta completa generada por inteligencia artificial.

Estos resultados generados por IA, diseñados para abordar directa y eficientemente las consultas de los usuarios, se mostrarán por encima de los resultados de búsqueda.

A lo largo de la presentación, Google dejó claro que su dominio en la búsqueda web se traduce en una ventaja clave para sus iniciativas de IA, mostrando cómo varias funciones pueden acceder a información actual en lugar de depender de una instantánea desactualizada como otros modelos de lenguaje grandes.

Una de las características destacadas anunciadas es "Preguntar a Fotos", que permite a los usuarios tener conversaciones naturales con Gemini para buscar información en su galería. Si bien Google Fotos ha permitido durante mucho tiempo a las personas buscar en su biblioteca de imágenes a personas específicas, objetos o palabras, la actualización con IA admite consultas abiertas y en lenguaje natural.

Por ejemplo, un usuario de Google le preguntó a Gemini cuál era el número de matrícula de su coche. Gemini buscó en todas sus fotos, las evaluó y proporcionó la respuesta correcta.

Otra mejora sería familiar para los usuarios de una serie de asistentes de reuniones de IA, incluidos los integrados en plataformas de conferencias en línea como Zoom. En Google Meet, Gemini ahora puede analizar las reuniones, resumirlas y generar respuestas a preguntas en el chat. Después de una reunión, Gemini proporciona una lista de tareas pendientes y asignaciones de tareas.

Las noticias más importantes involucraron actualizaciones bajo el capó. Google anunció hoy el lanzamiento de Gemini 1.5 Pro, presumiendo de una impresionante ventana de contexto de 1 millón de tokens multimodales. Esa capacidad supera con creces el límite de 128.000 tokens de GPT-4 y ya está disponible tanto para desarrolladores como para consumidores en Gemini Advanced, el nivel de servicios de IA pago del gigante tecnológico.

Imagen: Google

Google dice que planea expandir este año aún más su capacidad de manejo de tokens, alcanzando potencialmente hasta 2 millones de tokens para desarrolladores y un aumento de diez veces sobre el de GPT-4.

Gracias a su capacidad masivamente aumentada, Google también mostró las impresionantes capacidades de recuperación de Gemini. Esta es una característica clave, porque hasta ahora, LLMs como Claude o GPT-4 muestran una degradación del rendimiento —"olvidando" información discutida previamente— cuando se les solicita grandes cantidades de datos.

Además de sus modelos de última generación, Google lanzó Gemini 1.5 Flash, un LLM multimodal compacto diseñado para competir contra Claude 3 Haiku y GPT-3.5 en proporción de respuestas rápidas. Sin embargo, su capacidad de manejo de 1 millón de tokens lo posiciona como el modelo "ligero" más potente disponible hasta la fecha.

Probablemente, el anuncio más interesante fue el Proyecto Astra de Google, un agente de IA universal que puede ser personalizado y adaptado a las necesidades de cada usuario. Google señaló que la presentación de Astra fue grabada en tiempo real, probablemente en respuesta a la demostración en vivo de GPT-4o de OpenAI ayer. La interacción parecía más capaz y menos torpe que la de GPT-4o, aunque con respuestas más concretas y menos humanas.

Si bien la voz de Gemini también es ampliamente natural, carece de la calidad emocional, o incluso "coqueta", del nuevo asistente de ChatGPT de OpenAI. La prioridad de Google parece ser la funcionalidad, en contraste con el énfasis de OpenAI en interacciones más parecidas a las humanas.

Yendo más allá de los modelos de lenguaje tradicionales, Google presentó agentes de IA personalizables y de multiplataforma que, según afirma, son capaces de razonar, planificar y memorizar. Estas habilidades permiten que Gemini se comporte como un conjunto de IA especializadas trabajando juntas.

Estas conexiones basadas en API, que Google describió como "Gems", parecen ser una respuesta a los GPT personalizables de OpenAI. Las Gems se integran perfectamente con el ecosistema de Google, ofreciendo funciones como traducción de idiomas en tiempo real, búsqueda contextual y recomendaciones personalizadas. Los usuarios pueden moldear las Gems para enfocarse en tareas o áreas temáticas específicas, utilizando un tono específico.

Imagen: Google

Google también anunció nuevos modelos de IA generativa para imágenes, videos y música. Imagen 3, el nuevo generador de imágenes de Google, proporciona imágenes altamente realistas y detalladas, en contraste con el aspecto caricaturesco de OpenAI. También afirman que sobresale en la generación de texto, una característica que OpenAI también dice haber mejorado.

Además, lanzaron una versión mejorada de MusicLM para los entusiastas de la música generativa.

La cereza del pastel fue Veo, un modelo de video generativo, anunciado antes del lanzamiento de la muy esperada pero aún no lanzada herramienta de video Sora de OpenAI. La salida cruda sin editar sugiere un nivel de calidad comparable a la próxima entrada de OpenAI. Google dice que hará que Veo esté disponible en unas semanas, un plazo que podría superar a Sora en el mercado.

Hacia el final de su presentación de más de dos horas, Google mostró su aprecio a la comunidad de código abierto, presentando a Pali Gemma, un modelo de visión de código abierto. La compañía también prometió lanzar Gemma 2, la próxima iteración de su modelo de lenguaje grande de código abierto, en junio. El nuevo modelo tendrá una ventana de contexto de token extendida y será más potente y preciso.

Finalmente, Google anunció que estaba lanzando por primera vez su conjunto de funciones impulsadas por Gemini en su sistema operativo móvil Android. Sigue el aparente favoritismo de OpenAI por las plataformas MacOS e iOS de Apple, donde estaba lanzando sus últimas actualizaciones antes de hacerlo en Windows, creado por su principal inversor, Microsoft.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Bitcoin Sube a $64.000 Tras la Mayor Desaceleración de la Inflación en EEUU en Seis Años

Bitcoin superó los $64.000 el martes por la mañana, después de que un ampliamente observado índice de inflación mostrara que los precios al consumidor se enfriaron más de lo esperado en junio, lo que reforzó las expectativas de que la Reserva Federal mantendrá las tasas de interés sin cambios al concluir su próxima reunión de política monetaria. El Índice de Precios al Consumidor (IPC) cayó un 0,4% intermensual en junio, según informó el martes la Oficina de Estadísticas Laborales de Estados Uni...

Reino Unido Elimina Impuesto a Ganancias de Capital en Préstamos DeFi y Depósitos en Pools de Liquidez

El Servicio de Impuestos y Aduanas del Reino Unido (HMRC) ha confirmado que depositar criptoactivos en protocolos de préstamos DeFi y pools de liquidez ya no se considerará una enajenación sujeta a impuestos, difiriendo cualquier impuesto sobre las ganancias de capital hasta que el inversor realice una enajenación económica real de los activos. El cambio, establecido en un documento de política publicado el lunes, entrará en vigor el 6 de abril de 2027 y modificará la Ley de Tributación de Ganan...

Noticias

Cursos

Profundidades

Monedas

Videos