El contexto de nuestros datos: una herramienta iluminadora
“Metadatos. La historia detrás de los datos. Obtener información es una cosa, pero cómo se creó, dónde y por quién, a menudo puede ser iluminador”.
-Mr.Robot
Muchas veces pareciera que los datos son la solución mágica a distintos tipos de problemas. Pensamos que tener datos sobre cierta población o contar con información sobre determinados temas puede ayudar a comprender problemas para luego actuar sobre los mismos. Si bien esto es en parte verdad, es necesario recordar que no todos los datos sirven para entender todos los problemas.
Al igual que cuando nos duele la cabeza tomamos un medicamento específico para ese dolor, cuando queremos responder preguntas basándonos en los datos, no cualquier dataset nos sirve para ese propósito.
Muchas veces sabemos que cierta pastilla es para tratar tal síntoma, pero otras veces además de saber qué síntoma alivia el medicamento, también queremos leer la información adicional que nos cuenta la forma en la que hay que utilizar esta medicación, los efectos secundarios, las advertencias y contraindicaciones.
Los metadatos son información del contexto: de dónde provienen, quién los recolectó, a través de qué herramienta y con qué fines. ¿Por qué es importante tener esta información? Porque sin el contexto de los datos, hay información clave que nos falta.
Pongamos un ejemplo muy actual: sabemos que la pandemia afectó y sigue afectando por completo a muchas poblaciones a nivel mundial. En este sentido, la fecha en la cual se recolectaron los datos es fundamental para entender comportamientos, ya que no es lo mismo el nivel de desempleo en noviembre de 2019 que en junio de 2020. La fecha de creación de los datos debe estar explicitada en los metadatos.
Otro ejemplo está vinculado al muestreo, cuando se decide a quién entrevistar y a quién no, es importante explicitar cuál fue el criterio de selección, y cuando vayamos a analizar los datos sepamos que la muestra es o no representativa. Si cierta consultora de opinión pública quiere relevar “lo que opinan los jóvenes de la Argentina” sobre un tema, y sólamente se acerca a las entradas de las universidades de Capital Federal para hacer sus encuestas de opinión, la muestra no está representando a “los jóvenes de la Argentina”, sino a lo sumo a “jóvenes universitarios porteños” y eso también es necesario aclararlo, para no sacar conclusiones erradas sobre los datos.
Desde una mirada transfeminista interseccional exigimos que los datasets aclaren los porcentajes de identidad de género que representan, para poder ver si son realmente representativos los datos de personas trans, travestis y no binarias. También es necesario que aclaren si la variable género representa identidad de género o se está refiriendo al sexo biológico de la persona. Vemos que en muchas ocasiones los sets de datos tienen la variable género y solamente toma las categorías “Hombre/Mujer”. Una vez más es necesario aclarar que el sexo biológico no es un dato que haya que preguntar, excepto que estemos trabajando con datos de salud y esa variable tenga cierta relevancia. Podemos preguntar la identidad de género o con qué pronombres se siente cómoda la persona entrevistada, dependiendo del propósito de la base de datos.
En esta misma línea, extendemos la propuesta de desagregación sobre la categoría de etnia/raza. Los sets de datos públicos de rostros de personas suelen ser imágenes disponibles en la web, en especial de celebridades y eso deja afuera a una gran parte de la población. Si se quieren realizar predicciones con esas bases de datos para inferir el género de una persona (por cierto, no lo hagan) o para predecir su etnia (tampoco lo hagan), es probable que los datos ayuden a identificar mejor a hombres blancos de América y Europa que a todo el resto de las personas.
Actualmente existen varias organizaciones y grupos que exigen que los datos tengan algún archivo o columna adicional que contenga esta información.
The Data Nutrition Project ve que gran parte del problema se vincula a los datos incompletos, mal interpretados o históricamente problemáticos ya que pueden influir negativamente en la toma de decisiones y en el uso de los algoritmos de Inteligencia Artificial.
La solución que encontró este grupo de investigadorxs es generar etiquetas de “nutrición” como las de los alimentos, que contengan quién recolectó los datos, si son públicos o no, qué preguntas pueden responderse con ese set de datos y algunas advertencias respecto de falta de continuidad temporal de datos, si el dataset tiene los datos “crudos” o pre procesados, etc.
Otra organización que se encarga del contexto de los datos es CIVIC Software Foundation: esta organización tiene como objetivo pensar en cómo estructurar los metadatos para poder sistematizar procesos y unificar criterios:
“Los metadatos, en su forma más simple, brindan información sobre el conjunto de datos, lo que ayuda al profesional a comprender y aplicar los datos hacia un propósito. Un enfoque estructurado de los metadatos incluye documentación técnica sobre métodos, suposiciones y limitaciones situadas dentro de la conciencia de las prácticas antirracistas y antiopresivas. El contexto es esencial a medida que comenzamos a desentrañar inferencias ocultas incrustadas en nuestros sistemas y es un requisito previo ético para sacar conclusiones de los datos o tomar decisiones que pueden afectar la vida y el cuerpo de las personas.”
Podemos encontrar ejemplos claros de metadata en los datasets disponibilizados de Tensorflow aunque muchas veces el concepto de “Identidad de género” no aparezca ni siquiera mencionado.
A continuación dejamos algunas preguntas orientativas que podemos hacerle a nuestro dataset, para documentar su contexto diferenciando distintos tipos de metadata, que tienen diversos fines:
(1) Metadata descriptiva: son los datos más comunes que suelen encontrarse anexados a un dataset, que describen características observables del mismo. Este análisis podría hacerlo cualquier persona que comience a analizar los datos, pero es preferible que esa información esté explicitada de antemano.
- ¿Cuántas filas y columnas tiene el dataset?
- ¿Cuánto pesa el archivo?
- ¿En qué formato está?
- ¿Qué variables contiene? En este punto, si hay un diccionario de variables que explique el contenido de las mismas, es un punto muy a favor.
- ¿Qué tipo de datos contiene cada variable?
- ¿Hay valores faltantes?
Preguntas desde una mirada interseccional:
- ¿Existe información desagregada por identidad de género? ¿Qué categorías se utilizaron? ¿Por qué?
- ¿Los datos son representativos de las desigualdades económicas de la población estudiada? ¿Se corre el riesgo de la existencia de sesgos de brecha económica en el set de datos?
- ¿Los datos son representativos de las diferentes etnias de la población estudiada? ¿Se corre el riesgo de la existencia de sesgos en ese sentido?
- ¿Los datos son representativos de las personas con discapacidad de la población estudiada? ¿Se corre el riesgo de la existencia de sesgos en ese sentido?
(2) Metadata de uso: acá es donde se empieza a dificultar el acceso de información. La metadata de uso explica qué usos fueron los originales y los adicionales, para qué se creó y para qué se utiliza. Muchos grupos de investigación y desarrollo no quieren dar este tipo de información, ya sea por problemas de acuerdos de confidencialidad o por estar desarrollando soluciones en estado del arte. Sin embargo, recomendamos que pueda existir información adicional en los datasets de recomendaciones de uso y también de advertencias sobre el mismo.
- ¿Cómo se utilizó originalmente este conjunto de datos? Especificar y abordar el impacto
- ¿Para qué se utiliza principalmente este conjunto de datos?
- ¿Para qué no debería usarse este conjunto de datos?
- ¿Este conjunto de datos se utiliza para fines adicionales? ¿Para qué se utiliza este conjunto de datos?
(3) Metadata de la historia de los datos: es aquella información vinculada con procesos anteriores y durante la confección del dataset, que es imposible saber sin que nos los digan, al igual que la metadata de uso. La metadata histórica nos permite comprender mejor los actores involucrados, el modo de recolección, tal vez vislumbrar algunos intereses adicionales a la hora de confeccionar el set de datos.
- ¿Cuándo se recolectaron estos datos?
- ¿Están los datos vinculados a algún evento histórico que pueda llegar a impactar en los mismos? Si es así, ¿en cuál?
- ¿Cómo se recopilaron los datos? ¿hubo estrategia de muestreo? ¿cuál? ¿cómo se justifica?
- ¿Qué financiación depende de los resultados de este conjunto de datos?
- ¿Qué organización financió la creación o el mantenimiento de este conjunto de datos?
- ¿Cómo se financia la organización financiadora? Si es una corporación, ¿cuál es su modelo de negocio?
- Si los datos se capturaron automáticamente, ¿quién procesó y analizó los datos?
- Si las personas recopilaron los datos, ¿quién recopiló los datos?
- ¿Cómo se compensó a esas personas?
- ¿Falta información recopilada en el conjunto de datos y por qué? ¿Se excluyó algo explícitamente?
- ¿Qué información importante no se recopiló? ¿Es representativo?
- ¿Este conjunto de datos se relaciona con las personas, es decir, se basa en una encuesta, un censo u otro estudio de población?
A modo de conclusión, queremos hacer hincapié en la importancia del contexto de los datos. Cada vez que trabajemos con un set de datos, es importante ver si podemos responder estas preguntas y presionar a las personas que subieron el dataset a que hagan pública esta información.
Si trabajamos para un ente gubernamental o alguna organización que produce datos, recomendamos anexar un documento de metadata a cada dataset, utilizando estas preguntas orientadoras, para abonar a un uso más responsable y ético de los datos.
Por Ivana Feldfeber — Directora General de DataGénero - Observatorio