Microsoft Apuesta Por la Potencia en su Nuevo Modelo de IA Pequeño "Phi-2"

El tamaño no lo es todo en los modelos de lenguaje de inteligencia artificial, ya que el último lanzamiento de Redmond se enfrenta a competidores 25 veces más grandes.

3 min lectura

Dec 13, 2023

Microsoft Research ha anunciado el lanzamiento de Phi-2, un modelo de lenguaje pequeño o small language model (SLM) que demuestra capacidades notables para su tamaño. El modelo fue revelado por primera vez durante el evento Ignite 2023 de Microsoft, en el que Satya Nadella, CEO de Microsoft, destacó su capacidad para lograr un rendimiento de vanguardia con una fracción de los datos de entrenamiento.

A diferencia de GPT, Gemini y otros modelos de lenguaje grandes o Large Language Models (LLM), un SLM se entrena con un conjunto de datos limitado, utilizando menos parámetros y requiriendo menos cálculos para funcionar. Como resultado, el modelo no puede generalizar tanto como un LLM, pero puede ser muy bueno y eficiente en tareas específicas, como matemáticas y cálculos en el caso de Phi.

Phi-2, con sus 2.700 millones de parámetros, muestra un buen razonamiento y comprensión del lenguaje, rivalizando con modelos hasta 25 veces su tamaño, según Microsoft. Esto se debe al enfoque de Microsoft Research en datos de entrenamiento de alta calidad y técnicas avanzadas de escalado, lo que produce un modelo que supera a sus predecesores en varios puntos de referencia, incluyendo matemáticas, programación y razonamiento de sentido común.

"Con solo 2.7 mil millones de parámetros, Phi-2 supera el rendimiento de los modelos Mistral y Llama-2 con 7B y 13B de parámetros en varios puntos de referencia agregados", dijo Microsoft, lanzando un golpe bajo al nuevo modelo de IA de Google: "Además, Phi-2 iguala o supera al recientemente anunciado Google Gemini Nano 2, a pesar de ser más pequeño en tamaño".

Fuente: Microsoft

Gemini Nano 2 es la última apuesta de Google en un multimodal LLM capaz de funcionar localmente. Fue anunciado como parte de la familia Gemini de LLMs que se espera que reemplacen a PaLM-2 en la mayoría de los servicios de Google.

El enfoque de Microsoft hacia la IA va más allá del desarrollo de modelos. Como informó Decrypt recientemente, la introducción de chips personalizados, Maia y Cobalt, muestra que la empresa se está moviendo hacia la integración total de la IA y la computación en la nube. Los chips de computadora, optimizados para tareas de IA, respaldan la visión más amplia de Microsoft de armonizar las capacidades de hardware y software y compiten directamente contra Google Tensor y la nueva serie de chips M de Apple.

Es importante destacar que Phi-2 es un modelo de lenguaje tan pequeño que se puede ejecutar localmente en equipos de baja gama, incluso potencialmente en teléfonos inteligentes, lo que abre el camino a nuevas aplicaciones y casos de uso.

A medida que Phi-2 entra en el ámbito de la investigación y desarrollo de IA, su disponibilidad en el catálogo de modelos de Azure AI Studio también es un paso hacia la democratización de la investigación en IA. Además, Microsoft es una de las empresas más activas que contribuyen al desarrollo de IA de código abierto.

A medida que el panorama de la IA continúa evolucionando, Phi-2 de Microsoft es evidencia de que el mundo de la IA no siempre se trata de pensar en grande. A veces, el mayor poder radica en ser más pequeño pero más inteligente que la competencia.

Editado por Ryan Ozawa.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Historia del Año 2025 de Decrypt: Empresas de Tesorería de Criptomonedas Inundan Wall Street

¿Están las empresas compradoras de criptomonedas destinadas a convertirse en un pilar de Wall Street, o serán recordadas como otra moda pasajera, haciendo eco de los auges y caídas de ciclos de mercado anteriores? Esa pregunta ha salido a la superficie en los últimos meses, mientras una larga fila de empresas que colectivamente recaudaron miles de millones de dólares para acumular activos digitales han visto caer sus precios de acciones, tras un frenesí de pivotes y fusiones a principios de este...

Persona del Año 2025 de Decrypt: Donald Trump

Hace un año, los principales ejecutivos cripto de Estados Unidos nunca habían pisado la Casa Blanca. Nunca habían socializado con el Secretario del Tesoro, ni habían organizado cumbres exclusivas con altos funcionarios del DOJ, ni aprobado una ley federal importante. Tampoco habían visto los activos digitales que ayudaron a crear alcanzar valores tan altos, o tan rápidamente. Estas victorias tienen muchos autores. Pero todas habrían sido probablemente imposibles sin el apoyo del presidente de Es...

Jump Trading Obtendrá Participación en Polymarket y Kalshi a Cambio de Liquidez: Bloomberg

La firma global de trading Jump Trading obtendrá pequeños paquetes de acciones en los principales mercados de predicción Polymarket y Kalshi a cambio de proporcionar liquidez a sus mercados, según un informe de Bloomberg. Citando a personas familiarizadas con el asunto, el informe indica que el acuerdo de la firma con Kalshi es por una posición de capital fija, mientras que su participación en Polymarket puede crecer dependiendo del tamaño de su actividad de creación de mercado. Esa participació...

Noticias

Cursos

Profundidades

Monedas

Videos