En Resumen

  • Los sistemas de IA están replicando sesgos racistas al ser entrenados con conjuntos de datos limitados que no representaban adecuadamente la diversidad.
  • Se descubrió que tener equipos diversos era clave para detectar y mitigar el sesgo racial en el desarrollo de IA.
  • Se necesita la participación de todos -desde usuarios hasta desarrolladores- para abordar el sesgo en la IA de manera integral.
  • Los usuarios podían reportar los resultados problemáticos, mientras que los desarrolladores podrían crear sistemas más inclusivos y representativos.

Los sistemas de inteligencia artificial están siendo imbuidos de tendencias racistas, lo que provoca que las máquinas repliquen los sesgos humanos, advierten los expertos. Y a medida que la adopción de la IA se dispara, podría correr el riesgo de perpetuar el desequilibrio racial a través de una herramienta que muchos creen que ayudará a avanzar en la civilización.

En un artículo de BuzzFeed, recientemente eliminado, el autor utilizó la herramienta de generación de imágenes de IA Midjourney para crear representaciones de muñecas Barbie de diferentes países, y los resultados no fueron bien recibidos. La Barbie alemana llevaba un uniforme de las SS nazis, la Barbie sursudanesa sostenía un arma y la Barbie libanesa estaba posada frente a un edificio en ruinas.

Es un ejemplo relativamente ligero, pero apunta a resultados potencialmente más profundos y consecuentes a medida que la tecnología de IA se utiliza en una variedad de casos de uso del mundo real. Y esta no es la primera vez que se ha tildado de racista a la IA.

AD

En 2009, el software de detección de rostros de Nikon le preguntaba a las personas asiáticas si estaban parpadeando. En 2016, una herramienta de IA utilizada por los tribunales de Estados Unidos para evaluar la probabilidad de que los delincuentes reincidan predijo el doble de falsos positivos para los acusados negros (45%) que para los delincuentes blancos (23%), según el análisis de ProPublica.

Recientemente, Google's Vision Cloud identificó erróneamente a personas de piel oscura sosteniendo un termómetro de mano como una "pistola", mientras que a las personas de piel clara se les etiquetó como portadoras de un "dispositivo electrónico".

La tendencia de la IA a mostrar sesgos raciales ha llevado a la Oficina del Comisionado de Información del Reino Unido (ICO) a investigar el problema, alegando que podría tener "consecuencias perjudiciales para la vida de las personas".

"Abordar la discriminación impulsada por la IA es una de las prioridades clave del ICO que establecimos en nuestro plan estratégico de 3 años ICO25", dijo un portavoz a Decrypt. "Quienes trabajan con IA deben tener cuidado de mitigar estos riesgos, especialmente cuando la IA se utiliza para tomar decisiones que pueden afectar la vida de las personas".

AD

Un estudio reciente de la empresa de software de infraestructura Progress destacó que el 78% de los tomadores de decisiones empresariales y de TI creen que el sesgo de datos se convertirá en una preocupación mayor a medida que aumente el uso de la IA y el aprendizaje automático, pero solo el 13% lo está abordando actualmente.

A principios de este mes, investigadores de la Universidad de Washington, la Universidad Carnegie Mellon y la Universidad Xi'an Jiaotong descubrieron que las herramientas de IA generativa también tienen diferentes sesgos políticos, dependiendo de dónde se haya recopilado el corpus de datos de la herramienta y qué información estaba procesando la herramienta.

"No hay nada inherentemente racista en la IA," Migüel Jetté, VP de IA en la empresa de transcripción de voz a texto Rev, le dijo a Decrypt. "Todo está en el proceso de intentar entender cómo construir estas cosas correctamente."

¿Cómo se desarrolla el sesgo racial?

La IA se entrena en varios conjuntos de datos para desarrollar su "inteligencia". El conjunto de datos construye el modelo de IA a través de un proceso de aprendizaje, enseñándole a actuar de cierta manera. Desafortunadamente, esto significa que cualquier sesgo arraigado dentro del conjunto de datos se refleja y finalmente se amplifica en el producto final.

Por ejemplo, el servicio de transcripción de IA de Rev ha sido entrenado con millones de horas de datos de voz para poder traducir el audio ingresado por los clientes. Si el conjunto de datos original excluye ciertas voces, acentos o grupos, tendrá mucho más difícil poder traducir para esas personas.

"El conjunto de datos es la razón principal por la que se producen este tipo de sesgos", explicó Jetté. "Lo que muestras a tu algoritmo y lo que le estás diciendo al algoritmo que aprenda, si eso no es lo suficientemente variado, entonces el algoritmo no podrá entender eso".

Si bien las consecuencias son bastante bajas para Rev, donde un conjunto de datos limitado simplemente significa no poder traducir ciertos acentos, los resultados pueden ser significativamente peores a medida que la IA se adentra más en nuestra vida diaria.

Por ejemplo, la IA ya se utiliza ampliamente en recursos humanos, reclutamiento y contratación, afectando directamente los resultados económicos de millones de personas.

AD

Para el 2026, todos los nuevos vehículos vendidos en la UE requerirán monitoreo en la cabina que detectará la somnolencia o distracción del conductor. Si este sistema de IA solo funciona de manera consistente con personas de piel clara, podría haber una posibilidad significativamente mayor de un accidente debido a la falla del sistema.

"En el campo en el que nos estamos enfocando de monitoreo en la cabina para la industria automotriz, si el sistema no logra detectar si el conductor está somnoliento o distraído, eso podría tener implicaciones críticas para la vida", dijo Richard Bremer, CEO de la empresa de conjuntos de datos sintéticos Devant, a Decrypt. "Hay tantos sistemas basados en cámaras que están entrando paso a paso en diferentes partes de nuestras vidas. En mi opinión, no estamos tomando los datos lo suficientemente en serio".

Devant crea conjuntos de datos sintéticos de humanos digitales para aplicaciones de IA basadas en cámaras, con el fin de combatir los sesgos que a menudo ocurren en los conjuntos de datos del mundo real.

"Si te enfocas solo en datos reales, te enfocarás en recopilar los datos que son fácilmente accesibles. Y lo que sucede es que los datos que son fácilmente accesibles no siempre crean la mejor cobertura posible de cada posible escenario de la vida real", explicó Bremer. "El rendimiento [de la IA] está limitado a los datos que tienes disponibles. Ese es el problema al que te enfrentas".

Como resultado, Devant suministra a los clientes conjuntos de datos generados por computadora grandes y diversos. Cada imagen tarda "solo unos segundos" en generarse utilizando automatizaciones internas, tomando contenido 3D de la amplia biblioteca de contenido de Devant.

Sin embargo, tener un conjunto de datos representativo solo llega hasta cierto punto: el sesgo racial aún puede existir en el producto final. Por esta razón, el siguiente paso es la prueba de sesgo, donde los desarrolladores buscan problemas de rendimiento relacionados con el sesgo.

"Probar el sesgo es un aspecto crucial de la mitigación del sesgo, y abogo por la prueba de sesgo como un problema de gobernanza," Shingai Manjengwa, jefa de educación en IA en la empresa de IA generativa ChainML, le dijo a Decrypt. "Uno tiene que evaluar cada caso individualmente. Incluso si un conjunto de datos está equilibrado, aún puede tener sesgo."

AD

Existen varias formas en las que un conjunto de datos equilibrado puede proporcionar resultados sesgados. Pueden aparecer sesgos algorítmicos y de modelo (es decir, la regresión lineal tiene un sesgo hacia las relaciones lineales), así como sesgos de medición y selección creados en los datos fuente.

"También puede ocurrir sesgo de interpretación o confirmación al analizar los resultados del modelo", dijo Manjengwa. "Esta lista de sesgos no es exhaustiva. Por eso abogo por las pruebas de sesgo como parte del proceso de aprendizaje automático."

Un equipo diverso

La diversidad en el lugar de trabajo juega un papel importante cuando se trata de probar un producto de IA.

"Podemos evitar algunos casos de sesgo cuando alguien de un origen o raza diferente al resto del equipo puede resaltar problemas que un grupo homogéneo de personas no vería", dijo Manjengwa a Decrypt. "Es más que solo su presencia en el equipo. Ese miembro del equipo debe sentirse empoderado para plantear problemas, y el equipo debe estar abierto a discutir y responder cuando se planteen preocupaciones".

Un ejemplo de esto aplicado dentro de la industria es cuando Parinaz Sobhani, jefa de IA en Georgian, descubrió que TurnItIn—una popular herramienta de detección de plagio utilizada por universidades—tenía sesgos contra hablantes no nativos de inglés.

El problema solo se descubrió gracias a tener a un hablante no inglés en el equipo, resultando en un producto mejor y más inclusivo. Este es un claro ejemplo de cómo la diversidad dentro de la fuerza laboral puede mejorar la eficiencia de las pruebas para prevenir el sesgo racial en la IA. 

Según techUK, solo el 8,5% de los altos directivos en la industria tecnológica del Reino Unido pertenecen a grupos étnicos minoritarios. Sin embargo, las cosas están mejorando en cuanto a diversidad en la industria de la IA, con un informe de 2021 que muestra que más de la mitad (54,4%) de los estudiantes de doctorado en IA en Estados Unidos pertenecen a grupos étnicos minoritarios. Dicho esto, solo un pequeño número de estudiantes (2,4%) se identificaron como negros o afroamericanos. 

Organizaciones como Black in AI están trabajando para llevar esta cifra a un número más representativo a través de talleres, eventos y otras iniciativas. Estos defensores dicen que la diversidad en la IA no es solo un objetivo moral, sino un paso importante para garantizar que los sistemas de IA funcionen para todos.

AD

Desafortunadamente, incluso con un conjunto de datos representativo, pruebas rigurosas y un lugar de trabajo diverso, el sesgo racial aún puede existir dentro de los modelos de IA. Los resultados ofensivos pueden ser especialmente problemáticos cuando se utiliza IA para casos de uso imprevistos.

"La IA generativa es bastante poderosa y aplicable a muchas cosas", dijo Jetté. "Las personas están ampliando un poco los límites cuando intentan estas cosas. Y luego suceden cosas sorprendentes."

Los desarrolladores solo pueden poner a prueba sus productos hasta cierto punto, especialmente con productos aparentemente ilimitados como la IA generativa, lo que hace que algunos errores se les escapen.

Por esta razón, los usuarios de IA también tienen parte de la culpa. En lugar de utilizar resultados racistas para obtener clics en línea, los usuarios podrían informarlo al equipo de desarrollo para ayudar a reducir la reproducción de tales resultados en los modelos de lenguaje grandes o Large Language Models (LLM) en el futuro.

"La analogía que puedo ofrecer es que podemos y regulamos a los peatones (usuarios de IA), pero se pueden obtener ganancias más impactantes al requerir licencias de conducir y registro de automóviles debido al daño que los vehículos (desarrolladores de IA) pueden causar", explicó Manjengwa. "Abordar el sesgo en la IA es un deporte de equipo multifacético que requiere que todos, desde los usuarios hasta los profesionales y productores de LLMs, participen y trabajen hacia resultados más justos".

Stay on top of crypto news, get daily updates in your inbox.