En Resumen

  • Google presentó DolphinGemma, una IA capaz de decodificar sonidos de delfines, coincidiendo con el Día Nacional del Delfín.
  • El modelo fue entrenado con datos de WDP desde 1985 y funciona en teléfonos Pixel para análisis en tiempo real.
  • DolphinGemma ayudó a identificar patrones sonoros que podrían formar un vocabulario compartido con delfines.

Google presentó hoy DolphinGemma, un modelo de IA de código abierto diseñado para decodificar la comunicación de los delfines mediante el análisis de sus clics, silbidos y pulsos. El anuncio coincidió con el Día Nacional del Delfín.

El modelo, creado en colaboración con Georgia Tech y el Wild Dolphin Project (WDP), aprende la estructura de las vocalizaciones de los delfines y puede generar secuencias de sonidos similares a los de estos mamíferos marinos.

Este avance podría ayudar a determinar si la comunicación de los delfines alcanza el nivel de lenguaje o no.

Entrenado en el proyecto de investigación submarina de delfines más largo del mundo, DolphinGemma aprovecha décadas de datos de audio y video meticulosamente etiquetados, recopilados por WDP desde 1985.

El proyecto ha estudiado a los delfines manchados del Atlántico en las Bahamas a lo largo de generaciones, utilizando un enfoque no invasivo que denominan "En su mundo, en sus términos".

"Al identificar patrones de sonido recurrentes, agrupaciones y secuencias confiables, el modelo puede ayudar a los investigadores a descubrir estructuras ocultas y significados potenciales dentro de la comunicación natural de los delfines, una tarea que anteriormente requería un inmenso esfuerzo humano", dijo Google en su anuncio.

El modelo de IA, que contiene aproximadamente 400 millones de parámetros, es lo suficientemente pequeño para funcionar en teléfonos Pixel que los investigadores utilizan en el campo. El modelo procesa los sonidos de los delfines utilizando el tokenizador SoundStream de Google y predice los sonidos posteriores en una secuencia, de manera similar a cómo los modelos de lenguaje humano predicen la siguiente palabra en una oración.

DolphinGemma no opera de forma aislada. Funciona junto con el sistema CHAT (Cetacean Hearing Augmentation Telemetry), que asocia silbidos sintéticos con objetos específicos que disfrutan los delfines, como sargazo, pastos marinos o bufandas, potencialmente estableciendo un vocabulario compartido para la interacción.

"Eventualmente, estos patrones, aumentados con sonidos sintéticos creados por los investigadores para referirse a objetos con los que a los delfines les gusta jugar, pueden establecer un vocabulario compartido con los delfines para la comunicación interactiva", según Google.

Los investigadores de campo actualmente utilizan teléfonos Pixel 6 para el análisis en tiempo real de los sonidos de los delfines.

El equipo planea actualizar a dispositivos Pixel 9 para la temporada de investigación del verano de 2025, que integrará funciones de altavoz y micrófono mientras ejecuta simultáneamente modelos de deep learning y algoritmos de coincidencia de plantillas.

El cambio a la tecnología de smartphones reduce drásticamente la necesidad de hardware personalizado, una ventaja crucial para el trabajo de campo marino. Las capacidades predictivas de DolphinGemma pueden ayudar a los investigadores a anticipar e identificar posibles imitaciones más temprano en las secuencias de vocalización, haciendo las interacciones más fluidas.

Entendiendo lo que no puede ser entendido

DolphinGemma se une a varias otras iniciativas de IA destinadas a descifrar el código de la comunicación animal.

El Earth Species Project (ESP), una organización sin fines de lucro, desarrolló recientemente NatureLM, un modelo de lenguaje de audio capaz de identificar especies animales, edad aproximada y si los sonidos indican angustia o juego —no realmente lenguaje, pero aún así, formas de establecer alguna comunicación primitiva.

El modelo, entrenado en una mezcla de lenguaje humano, sonidos ambientales y vocalizaciones animales, ha mostrado resultados prometedores, incluso con especies que no ha encontrado antes.

El Proyecto CETI representa otro esfuerzo significativo en este espacio.

Dirigido por investigadores, incluido Michael Bronstein del Imperial College de Londres, se centra específicamente en la comunicación de las ballenas cachalotes, analizando sus complejos patrones de clics utilizados a largas distancias.

El equipo ha identificado 143 combinaciones de clics que podrían formar una especie de alfabeto fonético, que ahora están estudiando mediante redes neuronales profundas y técnicas de procesamiento de lenguaje natural.

Mientras estos proyectos se centran en decodificar sonidos animales, investigadores de la Universidad de Nueva York se han inspirado en el desarrollo infantil para el aprendizaje de IA.

Su modelo Child's View for Contrastive Learning (CVCL) aprendió lenguaje viendo el mundo a través de la perspectiva de un bebé, utilizando imágenes de una cámara montada en la cabeza usada por un bebé desde los 6 meses hasta los 2 años.

El equipo de NYU descubrió que su IA podía aprender eficientemente de datos naturalistas similares a cómo lo hacen los bebés humanos, contrastando marcadamente con los modelos de IA tradicionales que requieren billones de palabras para el entrenamiento.

Google planea compartir una versión actualizada de DolphinGemma este verano, potencialmente extendiendo su utilidad más allá de los delfines manchados del Atlántico. Sin embargo, el modelo puede requerir ajustes para las vocalizaciones de diferentes especies.

WDP se ha centrado extensamente en correlacionar los sonidos de los delfines con comportamientos específicos, incluidos los silbidos distintivos utilizados por madres y crías para reunirse, los "graznidos" de pulsos durante los conflictos y los "zumbidos" de clics utilizados durante el cortejo o cuando persiguen tiburones.

"Ya no solo estamos escuchando", señaló Google. "Estamos comenzando a entender los patrones dentro de los sonidos, allanando el camino para un futuro donde la brecha entre la comunicación humana y la de los delfines podría reducirse un poco".

Editado por Sebastian Sinclair y Josh Quittner

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.