Sesgos en los algoritmos
Por Mikaela Pisani (@mikaela_uy) de Girls in Tech Uruguay
Hoy en día con los avances tecnológicos actuales, confiamos en que las computadoras hagan más y más cosas cotidianas por nosotros y nosotras. Al generar más datos, los algoritmos son más precisos para predecir y decidir sobre nuestras vidas.
En este artículo nos proponemos trabajar sobre el sesgo algorítmico y reflexionar sobre por qué existen los sesgos y por qué tener equipos de ciencia de datos más diversos es uno de los factores que podría ayudar a mitigarlo. El sesgo en los algoritmos existe porque la humanidad es sesgada, no podemos escaparle a esa verdad. Los algoritmos aprenden sobre los datos disponibles y es necesario remarcar que dichos datos, al venir de personas suelen ser racistas, misóginos, binarios, capacitistas: es decir no son objetivos.
A continuación partiremos de algunas definiciones que nos ayudarán a comprender el gran problema del sesgo algorítmico con mayor precisión:
Aprendizaje automático (Machine Learning)
Primero, debemos comprender qué hace el aprendizaje automático (Machine Learning en inglés) con nuestros datos. Los algoritmos aplican cálculos estadísticos sobre los datos para encontrar patrones que puedan proporcionar información, identificar tendencias y hacer predicciones. No es magia, no son cajas negras incomprensibles: son solo matemáticas, pero a una velocidad que el cerebro humano no puede procesar. Sí es verdad que hay algoritmos que son complejos y que muchas veces se dificulta comprender su funcionamiento, pero con un poco de estudio y esfuerzo podemos lograr identificar el procedimiento y la lógica detrás de los algoritmos.
Sesgo en Aprendizaje Automático
El sesgo en el aprendizaje automático corresponde a errores en las suposiciones hechas a partir de los datos. El sesgo no puede desaparecer completamente, pues los algoritmos son creados por personas que a su vez son las responsables del conjunto seleccionado de datos. Como resultado, tanto las personas como los datos pueden estar sesgados.
El sesgo algorítmico (algorithmic bias) se puede presentar de diferentes maneras, como sesgo de género, sesgo racial, sesgo demográfico, sesgo económico, etc. Por lo general, el sesgo desfavorece a las minorías o a aquellos grupos que no están bien representados en los datos que se utilizan para entrenar modelos de aprendizaje automático.
Es importante aclarar que los sesgos pueden presentarse en datos compuestos por números, textos, imágenes, videos, sonidos.
¿Por qué es importante tener en cuenta el sesgo?
Desde hace algunos años se popularizó la utilización de algoritmos para facilitar tareas que antes tenían que realizar las personas. También se están empezando a utilizar algoritmos para la toma de decisiones sobre la vida de poblaciones de países enteros.
Estas decisiones pueden determinar si una persona es elegible para un préstamo, atención médica, universidad, empleo, o para recobrar o no su libertad luego de estar en la cárcel, por nombrar algunos ejemplos.
¿Cuáles son los factores que pueden influir en el sesgo?
El sesgo algorítmico no es un problema fácil de resolver, ya que muchos factores pueden influir en él. No hay soluciones mágicas y es necesario saber que, al igual que las personas, es muy difícil encontrar datos sin sesgos o completamente objetivos.
Sesgo en los datos
Los datos pueden estar incompletos o desequilibrados, esto significa que tienen más información sobre un determinado grupo de personas, lo que puede generar sesgos. Tengamos en cuenta que el simple hecho de tener datos balanceados no significa que hayamos eliminado los sesgos por completo, pero es un buen punto de partida.
¿Qué pasa si simplemente eliminamos las variables de género de los datos para evitar el sesgo de género? Como destaca el libro “Fairness and machine learning Limitations and Opportunities” [4], no es tan simple, ya que existen otras variables o características donde el género está oculto, a su vez para ciertos análisis la variable “Género” es importante y no debe descartarse.
Sesgo Humano
Inconscientemente, las personas usamos atajos mentales para la toma de decisiones, y el sesgo introducido en esos atajos no se puede eliminar, ya que es la forma en que funciona nuestro cerebro, para poder desarmar la forma en la que tomamos decisiones inconscientes es necesario realizar un gran trabajo de deconstrucción y de análisis. Sin embargo, conocer las lógicas detrás de nuestras decisiones nos ayudará a prevenir, identificar y evitar errores comunes a la hora de realizar suposiciones y tomar decisiones.
Según el libro “Judgment in managerial decision making,” de Bazerman, [3] los sesgos humanos más comunes se dividen en tres categorías: representatividad, disponibilidad y anclaje, y sesgo de ajuste.
Las mujeres cis representan a la mitad de la población y no están representadas
Cuando hablamos de género, las mujeres cis, las personas trans y no binarias no están representadas ni en los datos ni en los equipos de tecnología, menos específicamente en los equipos de científicos de datos.
Como resultado, perdemos su punto de vista en la solución y desarrollo de los algoritmos.
Miremos algunos números sobre la participación de mujeres cis en inteligencia artificial(IA):
- Profesionales: solamente el 22% de los profesionales en IA son mujeres cis.
- Investigadoras: el 13.8% de las autoras en papers de IA en arXiv de son mujeres cis, y la cantidad de papers de IA donde en los co-autores hay al menos una mujer cis no mejoró desde 1990s.
- Oradoras en conferencias: solamente el 18% the los oradores en conferencias de IA son mujeres cis.
Entonces, como los indicadores muestran, los varones cis dominan en la creación de algoritmos, y la visión de las mujeres cis y personas trans y no bianrias no es parte de la solución. Varias entrevistas realizadas en el siguiente estudio [9], muestran que si queremos hacer un cambio en la IA, se debe trabajar más para hacer que los grupos subrepresentados sean más visibles, y no solo para las oportunidades de marketing.
A continuación listaremos varios casos que demuestran lo dañino que pueden ser los sesgos en el mundo del aprendizaje automático y la inteligencia artificial sobre la vida de las personas y se resalta la importancia y urgencia de abordar este tema en la sociedad.
Los sesgos de Google
A fines de 2020 Google decidió despedir a Timinit Gebru, la líder de Ética en Inteligencia Artificial. Este hecho fue y es realmente preocupante, ya que vemos muchos sesgos en los algoritmos de Google. Aquí van algunos ejemplos:
- El documento “Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings” [1] muestra cómo artículos de Google News exhiben estereotipos de género que están presentados en la sociedad. Cuando se le pide al algoritmo que complete la oración “El hombre es para el “programador de computadoras” como la mujer es para “X””, y elige reemplazar la X con “ama de casa”. Google está intentando resolver este problema. En abril de 2020, realizó una publicación donde explica cómo iniciaron este camino. El ejemplo provisto es sobre la traducción de la frase “My friend is a doctor” al español. En inglés, el género es ambiguo, pero si queremos traducirlo al español, es necesario especificarlo. A partir de los datos disponibles, el algoritmo concluye que es más probable que la palabra “médico” se asocie al género masculino, dando como salida la palabra “amigo”. La siguiente imagen muestra cómo se ha resuelto este problema, brindando las dos posibilidades: amigo o amiga.
2. ¿Qué pasa cuando utilizamos más de una frase?. Veamos este ejemplo en Google Translate traducido del Bengalí, si traducimos hacia atrás y hacia adelante la frase “Ella es una doctora. El es un enfermero” a un lenguaje de género neutro podemos observar lo que sucede a continuación:
Como se puede ver, cambia de género. ¿Significa esto que el algoritmo está mal? ¿Por qué pasó esto? El problema aquí es que los datos históricos dicen que es más probable que una mujer sea enfermera y un hombre sea médico. Entonces, el algoritmo elige la salida más probable, reproduciendo un estereotipo de género que es necesario combatir.
3. De forma similar, se muestra un párrafo más largo para visualizar el hecho de que esta traducción puede ser discriminatoria.
La traducción al español de estas frases sería “Ella es hermosa. Él es inteligente. Él lee. Ella lava los platos. El construye. Él enseña. Ella cocina. Él está investigando. Ella está criando un niño/a. Él toca música. Ella está limpiando. Él es un político. Él gana mucho dinero. Ella hornea una torta. Él es un profesor. Ella es una asistente”
4. En octubre de 2017, se reportó que un algoritmo de Google que realizaba Análisis de Sentimiento asignó una clasificación negativa a la frase “Soy homosexual”. Este algoritmo fue entrenado con millones de datos de diversas fuentes y aprendió a clasificar de forma negativa la frase.
Otros ejemplos de sesgos algorítmicos
Los textos producidos por el modelo de lenguaje autorregresivo GPT3 son tan parecidos a textos producidos por personas, que por lo tanto, también presentan sesgos. En el paper “Language Models are Few-Shot Learners” [2], OpenAI dice que el modelo presenta limitaciones en lo que respecta a la equidad, el sesgo y la representación.
- El sesgo no solamente está presente en el texto, sino también en las imágenes. En 2020, el siguiente artículo describe cómo el sesgo del algoritmo de Twitter favoreció a las personas caucásicas debido a que fue entrenado con mayor cantidad de rostros caucásicos.
- Las grandes empresas necesitan automatizar el trabajo, aquí la inteligencia artificial puede ser de gran ayuda, pero qué pasa cuando introduce sesgos?. Por ejemplo, en 2018, se descubrió que una herramienta de inteligencia artificial utilizada por Amazon para la contratación de personas poseía sesgo hacia las mujeres. El siguiente artículo describe que el motivo de este sesgo fue debido a que los datos históricos muestran que existe una predominancia de hombres en el área, por lo que, al entrenar el algoritmo con estos datos, el puntaba negativamente a las mujeres, haciendo que sean menos elegibles para trabajar en la empresa.
- Otra situación que muestra cuán grandes pueden ser las consecuencias sobre las personas ante sesgos en algoritmos: Una herramienta denominada COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), la cual juega un rol importante en determinar si un criminal deberá ser liberado. El algoritmo está relacionado con la probabilidad de que la persona acusada vuelva a cometer un crimen de reincidencia violenta. ProPublica anuncia que para la mayoría de las personas acusadas no caucasicas, es más probable que el algoritmo los clasifique erróneamente en comparación con una persona caucásica.
- Se estaba utilizando un algoritmo para evaluar al personal docente, como este artículo establece que hubieron casos de evaluación sin explicación donde docentes con buena reputación recibieron puntuaciones bajas. La propiedad del sistema se considera confidencial y una “caja negra” y el/la docente no recibe ninguna justificación clara sobre el proceso de toma de decisiones. Este es un claro ejemplo de dónde deberían exigirse regulaciones según el uso de algoritmos. No podemos asumir que los algoritmos no están sesgados y tomar su palabra sin cuestionar para tomar decisiones que pueden afectar a las personas.
Estos ejemplos deberían ser evidencia más que suficiente para iniciar esta conversación a una escala más amplia. Si bien algunos ejemplos son de hace unos años, otros son muy recientes. Y a su vez son los ejemplos que salieron a la luz, lo que nos lleva a preguntarnos ¿qué sucede con todos aquellos modelos sesgados que están tomando decisiones sobre las vidas de las personas y que nadie está auditando? Esto enfatiza aún más cómo no hemos mejorado y que el problema no se puede resolver por sí solo.
En conclusión, como científicos y científicas de datos, tenemos la responsabilidad de tomar acción, y como sociedad, tenemos el derecho de denunciar y de luchar contra el sesgo.
Entonces, ¿qué podemos hacer para reducir el sesgo?
Evitar el sesgo, como se discutió a lo largo de este artículo, no es un problema fácil de resolver. Sin embargo, podemos tomar determinadas acciones necesarias para reducirlo.
- Comprender la fuente de los datos: es muy importante verificar de dónde provienen los datos. Debemos ser conscientes de las limitaciones, estudiar las características y significados, y estar al tanto de cualquier información faltante que represente con precisión a la población. Exigir metadatos.
- Obtener más datos: si los datos que hay no son suficientes o no están representando a un determinado grupo de la sociedad, hay que encontrar formas de obtener datos adicionales o generar más datos, con la mayor precisión posible. Los datos que seleccionemos serán el factor principal en los resultados del algoritmo.
- Asegurarse de que los datos estén equilibrados: si no, buscar estrategias para resolver esto.
- Ser consciente del sesgo humano: comprobar el propio sesgo sobre los datos y solicitar una segunda opinión.
- Validar supuestos: si hay supuestos, deben validarse. No debemos asumir nada, cuando existe la opción de validar.
- Analizar los resultados y los niveles de precisión para cada categoría / grupo: cuando observamos la precisión o error del algoritmo, debemos analizar la precisión total y también analizarla sobre las clases específicas.
- Probar los modelos con personas reales: no se conformarse con un cierto nivel de precisión de los datos de test. Debemos hacer que personas reales lo prueben y aprender de esa experiencia. Hay que asegurarse que el grupo de personas reales sea diverso o representativo de la población que queremos caracterizar.
- Cuidar la forma de mostrar los resultados: mostrar conclusiones y explicar la definición de éxito es importante. Ser transparente sobre lo que realmente significa cuando el algoritmo alcanza un cierto nivel de precisión.
- Diversificar los equipos de trabajo con datos. Tener equipos diversos proporcionará diferentes puntos de vista para resolver problemas. Esto no solo proporciona perspectivas desde diferentes géneros, sino también puntos de vista de diferentes orígenes, edades, razas y experiencias de la vida real. Como dijo Joy Buolamwini en la popular charla TED, podemos comenzar implementando prácticas de codificación más inclusivas. “Who codes matters”. Joy Buolamwini.
- Capacitar a los equipos en género y sensibilizarlos sobre las diversas problemáticas sociales que atraviesan a las personas y por ende a sus datos. Estas capacitaciones van a tener a todo el equipo (tanto varones y mujeres cis como personas trans y no binarias) alertas ante las diversas partes del proces que puedan presentar sesgos.
¡Te necesitamos! Aportá tu granito de arena
La inteligencia artificial está en todas las industrias, los datos están en todos lados. Entonces, no importa si trabajas en tecnología o no, no importa la industria que trabajes hay gran probabilidad de que IA sea parte de tu trabajo. O que incluso ni te des cuenta. Estamos generando datos todo el tiempo, en las redes sociales, datos históricos, datos administrativos. Todos estos datos pueden ser utilizados por algoritmos.
Por lo tanto, te invitamos a pensar en el poder que tiene la Inteligencia Artificial y te preguntes: ¿Cómo estamos usando la tecnología para la toma de decisiones? ¿Cuál es el potencial de la IA? ¿Cuáles son sus limitaciones? Teniendo en cuenta que el sesgo nunca se eliminará por completo, ¿qué debería regularse y cómo?
No estamos diciendo que la solución sea prohibir el uso de IA: la IA está aquí para quedarse, lo que estamos diciendo es que aceptar las limitaciones actuales que presenta puede ayudarnos a sacarle el mayor provecho y a analizar los procesos tecnológicos desde una mirada crítica.
Referencias
- Tolga, B. et al. (2016) “Man Is to Computer Programmer as Woman Is to Homemaker? Debiasing Word Embeddings.” arxiv.org/abs/1607.06520.
- Brown, T. B. et al. (2020) “Language Models are Few-Shot Learners”. https://arxiv.org/pdf/2005.14165.pdf
- Bazerman, M. H. (2002). “Judgment in managerial decision making”
- Solon Barocas and Moritz Hardt and Arvind Narayanan (2019) “Fairness and machine learning Limitations and Opportunities” https://fairmlbook.org/
- Stathoulopoulos, Konstantinos and Mateos-Garcia, Juan C, Gender Diversity in AI Research (July 29, 2019). Available at SSRN: https://ssrn.com/abstract=3428240
Videos recomendados
- 3 ways to be a better ally in the workplace — Melinda Epler
- How I’m fighting bias in algorithms — Joy Buolamwini
- The Danger of a Single Story — Chimamanda Ngozi Adichie
- How to keep human bias out of AI — Kriti Sharma
- The Trouble with Bias — NIPS 2017 Keynote — Kate Crawford
- The era of blind faith in big data must end — Cathy O’Neil
- Algorithms of Oppression — Safiya Umoja Noble
- Machine Intelligence makes Human Morals more Important — Zeynep Tufekci
- Coded Bias — Documentary
Por Mikaela Pisani (@mikaela_uy)