Cargando. Por favor, espere

Técnicas para evitar los sesgos en los datos utilizados por la inteligencia artificial

  • 27-7-2022 | Parlamento Europeo
  • El informe “Auditing the quality of datasets used in algorithmic decision-making systems”, elaborado por el Servicio de Estudios del Parlamento Europeo (EPRS), analiza los diferentes tipos de sesgos que se producen en las soluciones basadas en la IA, en diferentes campos de aplicación, y propone opciones políticas que sirvan para mitigarlos. Desde un punto de vista jurídico, destacan, como herramientas esenciales para combatir los sesgos, la estandarización, la certificación y la compliance y el control.
Portada

Los sesgos, ya sean en los datos o en los algoritmos, se consideran habitualmente uno de los factores más perjudiciales para el desarrollo de una inteligencia artificial (IA) fiable. En particular, la calidad de los resultados producidos por los algoritmos basados en el aprendizaje automático (Machine Learning), dependen en gran medida de la calidad de los conjuntos de datos utilizados para el entrenamiento del sistema.

Y es que un paso esencial en el diseño de soluciones basadas en la IA se basa en la forma en que estas reciben la información que representa el "mundo real", de forma que el sistema informático la entienda y aprenda de ese conocimiento para resolver problemas. Si la representación del conocimiento no es completa, el proceso de razonamiento del sistema basado en la IA estará sesgado y, por tanto, proporcionará resultados injustos.

Sin embargo, mitigar los sesgos no es fácil, pues, como ya anticipó el informe Towards a Standard for Identifying and Managing Bias in Artificial Intelligence, del Instituto Nacional de Estándares y Tecnología de los Estados Unidos (NIST), los tipos de sesgos en los sistemas basados en la IA son muchos y diferentes.

Por ello resulta particularmente interesante el informe “Auditing the quality of datasets used in algorithmic decision-making systems ” (Auditoría de la calidad de los datos utilizados en los sistemas algorítmicos de toma de decisiones), elaborado por el Servicio de Estudios del Parlamento Europeo (EPRS).

Este informe, preparado por Iñigo de Miguel Beriain y Pilar Nicolás Jiménez de la Universidad del País Vasco / EHU, María José Rementería, Davide Cirillo, Atia Cortés y Diego Saby, del Barcelona Supercomputing Center, y Guillermo Lazcoz Moratinos del Centro de Investigación Biomédica en Red (CIBERER – ISCIII), tiene como objetivo principal comprender los sesgos que se producen en las soluciones basadas en la IA en diferentes campos de aplicación y proponer opciones políticas que sirvan para mitigarlos.

Desde un punto de vista jurídico, destacan, las herramientas esenciales para combatir los sesgos son la estandarización, la certificación y la compliance y el contro.

La compleja noción de sesgo

El primer problema al que se enfrenta este análisis es el de la noción de sesgo.

Curiosamente, curiosamente, un documento tan relevante para la IA en Europa como es la propuesta de Reglamento europeo de IA de abril de 2021, no incluye una definición de sesgo.

Sin embargo, su Considerando 44, en combinación con su art. 10.3 permite obtener una noción bastante precisa de los mismos. O, al menos, de lo que esta regulación trata de evitar. Así, el Considerando 44 declara que “… Es preciso instaurar prácticas adecuadas de gestión y gobernanza de datos para lograr que los conjuntos de datos de entrenamiento, validación y prueba sean de buena calidad. Los conjuntos de datos de entrenamiento, validación y prueba deben ser lo suficientemente pertinentes y representativos, carecer de errores y ser completos en vista de la finalidad prevista del sistema. Asimismo, deben tener las propiedades estadísticas adecuadas, también en lo que respecta a las personas o los grupos de personas en las que en un principio se usará el sistema de IA de alto riesgo. En concreto, los conjuntos de datos de entrenamiento, validación y prueba deben tener en cuenta, en la medida necesaria en función de su finalidad prevista, los rasgos, características o elementos particulares del entorno o contexto geográfico, conductual o funcional específico en el que se pretende utilizar el sistema de IA. Con el fin de proteger los derechos de terceros frente a la discriminación que podría provocar el sesgo de los sistemas de IA, los proveedores deben ser capaces de tratar también categorías especiales de datos personales, como cuestión de interés público esencial, para garantizar que el sesgo de los sistemas de IA de alto riesgo se vigile, detecte y corrija”.

En virtud de lo anterior, el art. 10.3 de la propuesta establece que “los conjuntos de datos de entrenamiento, validación y prueba deben ser lo suficientemente pertinentes y representativos, carecer de errores y ser completos en vista de la finalidad prevista del sistema”. Resulta importante resaltar, además, que esta propuesta no ha sido objeto de modificación por el Consejo en sus enmiendas de noviembre de 2021.

Para los autores de este informe, sesgos son aquellas “desviaciones sistemáticas de un valor de referencia, norma o racionalidad de juicio de un individuo, un grupo o un algoritmo, que producen consecuencias injustas”, y estas desviaciones pueden ser de varios clases y responder a diversas taxonomías.

Problemas que provocan los sesgos

El problema de los sesgos es, como se señala en el informe, que pueden producir resultados perjudiciales para las personas, incluida la discriminación social y una importante pérdida de confianza de la sociedad en la IA.

Sin embargo, se indica también, esto no debe considerarse como un problema novedoso e irresoluble: “La existencia del sesgo es anterior a la creación de las herramientas de IA. Todas las sociedades humanas son parciales: la IA sólo reproduce lo que somos. Por lo tanto, oponerse a esta tecnología por esta razón simplemente ocultaría la discriminación y no la evitaría”.

Sin embargo, de hecho, es un reto diferenciar entre los patrones en los datos que representan conocimientos fácticos que queremos que el sistema basado en la IA aprenda (p. ej, la obesidad aumenta el riesgo de cáncer colorrectal) y los estereotipos que queremos evitar (por ejemplo, las personas obesas no tienen el hábito de realizar ejercicio). Sin ninguna intervención, el algoritmo aprenderá tanto los conocimientos como los estereotipos.

Nuestra tarea, destacan los autores del informe, “debe consistir en utilizar los medios de que disponemos -que son muchos- para mitigar los sesgos en la IA”. Así, añaden, es probable que, en algún momento del futuro, las recomendaciones hechas por un mecanismo de IA contengan menos sesgos que las realizadas por los seres humanos, pues “a diferencia de los humanos, la IA puede ser revisada y sus defectos corregidos de forma constante”.

No todos los sesgos deben evitarse

El informe destaca que no todos los sesgos deben evitarse.

En este sentido, se deben diferenciar entre lo que se denomina sesgo desde una perspectiva estadística y lo que solemos entender como sesgo desde el punto de punto de vista de las ciencias sociales. En estadística, el concepto de sesgo es aséptico: sólo implica que un mecanismo siempre segrega en una dirección determinada. Esto, en algunos casos, es aceptable e incluso necesario. Por ejemplo, en un servicio de apoyo social, puede ser necesario prestar asistencia a personas con bajos ingresos y no a otras. Sin embargo, desde la perspectiva de las ciencias sociales, la idea de sesgo (como prejuicio) se asocia con la discriminación y la injusticia, por lo que, en principio, debe evitarse (la discriminación positiva suele ser una excepción a esta regla).

A veces esto puede implicar una intervención activa destinada a introducir medidas correctoras en una base de datos, por ejemplo, cuando las decisiones de contratación de ejecutivos se toman en bases de datos que reflejan fielmente la infrarrepresentación de las mujeres en este ámbito. En tal contexto, será necesario sesgar esas bases de datos para obtener resultados justos.

Sin embargo, esta afirmación general debe matizarse, teniendo en cuenta nuestro marco jurídico sobre la discriminación, que sólo considera legalmente discriminatorias las diferencias que se crean en función de determinadas categorías (sexo, religión, ideología política, etc.). Además, estas disposiciones no pueden extenderse a otros prejuicios que, en principio, parecen conducir a resultados injustos, pero que no se consideran directamente discriminatorios. Así, por ejemplo, si una herramienta de IA sugiere un precio más alto para el mismo producto a una persona que vive en el campo y no en la ciudad, esto no viola las leyes europeas contra la discriminación.

La difícil tarea de evitar los sesgos

Señalan estos autores que detectar los sesgos es una tarea difícil y compleja, pero importante.

Las estrategias para ello deben centrarse en reducir su incidencia y mitigar sus efectos, teniendo en cuenta que los sesgos no deben interpretarse como un problema específico de los repositorios de datos o de la IA, pues un operador humano puede introducir sesgos mucho más acentuados y más difíciles de erradicar.

Por tanto, cualquier crítica a los sesgos derivados del uso de sistemas de IA debe contemplar que su alternativa -el elemento humano- puede incorporar los mismos sesgos, o peores.

Y es que los sesgos son inherentes al ser humano, a su cultura y a su historia. Por ello, las soluciones basadas en la IA incorporan nuevos sesgos y tienden a magnificar los sesgos humanos existentes.

Por tanto, para identificar y mitigar los sesgos en las soluciones basadas en la IA, es necesario comprender y ser consciente de que los sesgos se pueden introducir en todas las etapas del proceso de desarrollo de la IA por el conjunto de datos de entrenamiento, el algoritmo y los humanos implicados.

- Utilizar datos de alta calidad

Un paso esencial para mitigar los sesgos es crear o utilizar conjuntos de datos de entrenamiento de alta calidad para garantizar una representación justa del conocimiento del "mundo real" por el sistema basado en la IA. Para ello, deben implementarse mecanismos de supervisión y responsabilidad para evaluar continuamente la calidad e integridad de los datos.

Existen técnicas que corrigen los sesgos en los sistemas de IA mediante el preprocesamiento, el procesamiento o el postprocesamiento, para lograr una mayor equidad en dichos sistemas. En la actualidad, varias empresas están desarrollando conjuntos de herramientas para ayudar en este proceso, aunque todavía hay una falta de estandarización en el sector.

- Intervención humana

Las mejores prácticas recomiendan incluir al "humano en el circuito" de decisión del sistema de IA (Human in the loop) durante el proceso de desarrollo y crear equipos de desarrollo diversos e interdisciplinarios con una reflexión ética y una participación inclusiva.

Por ello, señala el informe, la creación de normas y certificados aplicables a los conjuntos de datos y a los mecanismos de IA es un pilar fundamental en la regulación de estos activos. Sin embargo, ambos están en sus primeras etapas, tanto en los conjuntos de datos como en el ámbito de la IA. Las normas relacionadas con los conjuntos de datos deben incluir información sobre el contenido del conjunto de datos, las restricciones de uso, las licencias, la metodología de metodología, calidad de los datos e incertidumbre. Por otro lado, la normalización y las certificaciones relacionadas con los conjuntos de datos y las herramientas de IA deben permitir la flexibilidad para poder incluir la variedad de posibles formatos y colecciones de datos utilizados en las aplicaciones de IA.

La supervisión de las herramientas de IA de alto riesgo es ciertamente necesaria si queremos mitigar el sesgo. Sin embargo, la supervisión puede resultar extremadamente compleja, por varias razones. Esto significa que debemos crear herramientas adecuadas capaces de hacer frente a dicha complejidad. La supervisión dinámica debe considerarse cuidadosamente, como se propone en el proyecto de ley de IA. El marco de gobernanza introducido por la propuesta de ley de IA es definitivamente complejo. Incluye la supervisión por parte de terceros, con competencias compartidas por los Estados miembros y la Comisión Europea como último recurso para garantizar el cumplimiento. Sin embargo, no proporciona a los ciudadanos individuales y a las ONG que protegen los derechos humanos las herramientas adecuadas para reclamar a las autoridades de vigilancia del mercado o para demandar a un proveedor o usuario por incumplimiento de los requisitos. Probablemente esto debería reconsiderarse.

Medios para mitigar o reducir los sesgos

En primer lugar, es absolutamente importante entender dónde y cómo pueden introducirse los sesgos. Esto incluye abordar los sesgos cuando se recopilan y preprocesan los datos, así como durante las etapas de construcción, entrenamiento y evaluación de modelos, y finalmente en la fase de despliegue y evaluación del impacto cuando la IA se aplica a los usuarios finales en entornos del mundo real.

Dicho eso, no es fácil trazar un marco normativo capaz de abordar el sesgo, ya que el sesgo es un concepto complejo que no es sinónimo de discriminación, al menos desde el punto de vista jurídico.

En el contexto de la UE, la prohibición de la discriminación se limita a contextos particulares y factores concretos. Este escenario introduce dudas a la hora de permitir el uso de algoritmos que introducen sesgos en algunos casos concretos, y es necesario abordarlo cuanto antes. Hay diferentes maneras de abordar esta situación.

La normativa específica sobre protección de datos podría desempeñar un papel clave en la solución de este problema, apelando al concepto de "equidad" y proporcionando nuevos usos para la evaluación del impacto de la protección de datos. Esta opción debería complementarse con las medidas incluidas en los nuevos reglamentos sobre datos e IA que se están debatiendo actualmente. Las propuestas de leyes sobre IA, gobernanza de datos y datos, por ejemplo, podrían convertirse en excelentes herramientas para evitar el sesgo. De hecho, algunas de sus estrategias propuestas, como el refuerzo de la mitigación del sesgo desde las primeras etapas del proceso de desarrollo de herramientas de IA, podrían convertirse en un excelente enfoque de cumplimiento anticipado. Además, la creación de certificados que garanticen la normalización de las bases de datos es esencial para garantizar que las herramientas de IA empleen conjuntos de datos adecuados. Por último, el refuerzo de los derechos de transparencia de los sistemas de IA podría ser muy útil para encontrar el origen de los resultados sesgados. Sin embargo, debería corregirse el desajuste entre la normativa y el Reglamento General de Protección de Datos (LA LEY 6637/2016).

En este sentido, se considera que el RGPD podría ser una excelente herramienta para luchar contra la parcialidad a través de su concepto de "equidad". Sin embargo, también muestra algunas debilidades. Si el principal problema de la ley contra la discriminación es su limitada aplicación a las múltiples formas de trato injusto que producen los sistemas algorítmicos, el principal problema de la ley de protección de datos es su falta de cobertura de las bases de datos que no contienen datos personales. Las técnicas de anonimización son apropiadas para proteger la privacidad, pero no protegen contra la reproducción de sesgos al utilizar dichos datos. Esto se ve agravado por el hecho de que los principios del RGPD no son aplicables a los datos anonimizados. Auditar la calidad de los conjuntos de datos utilizados en los sistemas algorítmicos de toma de decisiones.

Sin embargo, advierten estos expertos, esto difícilmente puede hacerse si nuestros marcos legales no están bien diseñados para este fin. Para lograrlo, los autores del informe consideran necesario: i) aumentar la concienciación en la comunidad científica, la industria tecnológica, los responsables políticos y el público en general; ii) implementar la IA con componentes explicables y validados con puntos de referencia adecuados y, iii) incorporar consideraciones éticas clave en la implementación de la IA, garantizando que los sistemas maximicen el bienestar y la salud de toda la población.

Herramientas jurídicas esenciales para luchar contra los prejuicios

En primer lugar, es necesario establecer procedimientos de certificación de los sistemas de IA.

Estos procedimientos deben ser a veces dinámicos, dado que algunas herramientas de IA aprenden de los datos recogidos. De hecho, en el caso de la IA, "el sistema de gestión de riesgos consistirá en un proceso iterativo continuo que se desarrollará a lo largo de todo el ciclo de vida de un sistema de IA de alto riesgo y que requerirá una actualización sistemática periódica". Los conjuntos de datos, por su parte

Por otra parte, es probable que deban incluir una información adecuada sobre algunas de sus importantes si se espera que se utilicen en los procesos de desarrollo de sistemas de IA. Dado que estos conjuntos de datos se modifican a menudo, la información proporcionada también debería actualizarse.

A su vez, la eficacia de estos procesos de certificación depende de la creación de normas que 1) proporcionen un conocimiento fiable de los conjuntos de datos (incluyendo información esencial sobre cómo se han creado, qué tipos de datos contienen, etc.), y 2) proporcionen directrices homogéneas para determinar la ausencia de sesgos en las predicciones realizadas por el mecanismo de IA. Esto debería reforzarse con un sistema de certificación y la aplicación de medidas de rendición de cuentas que garanticen que las partes implicadas aplican una mitigación adecuada de los riesgos que surgen.

A. La normalización como forma de evitar los sesgos

La creación de normas aplicables a los conjuntos de datos y mecanismos de IA es un pilar fundamental en la regulación de estos activos.

Sin embargo, hay que destacar que la normalización está en sus primeras tanto en los conjuntos de datos como en el ámbito de la IA. No hay normas universalmente acordadas para la evaluación de la calidad de los datos para las herramientas de aprendizaje automático, aunque hay algunas propuestas interesantes en este ámbito.

Con todo, los autores del informe destacan que la Data Act está haciendo significativos esfuerzos para introducir la normalización en el ámbito de los datasets.

B. Certificación

La certificación puede definirse como la constatación de que un producto, un proceso, una persona o una organización cumple unos criterios específicos. Las certificaciones suelen tener como objetivo reducir las asimetrías de información y su uso suele considerarse un claro ahorro de costes. De alguna manera, la certificación se vincula estrictamente a la normalización, aunque se trata de un concepto diferente: las certificaciones pretenden dar evidencia de que las normas se cumplen.

El concepto de certificación ya se utiliza en múltiples sectores y está empezando a introducirse en el sector de la IA. En concreto, la propuesta de Ley de IA incluye este enfoque imponiendo un sistema de certificación -la Evaluación de la Conformidad- que cubre los requisitos obligatorios aplicables a los sistemas de IA de alto riesgo, basados en las normas europeas armonizadas normas del Reglamento (UE) nº 1025/2012 (LA LEY 19005/2012) y en las especificaciones comunes que establezca la Comisión.

Este sistema, sin embargo, se basa principalmente en la autocertificación. Esto ha sido criticado por la Comité y el Supervisor Europeos de Protección de Datos, que consideran que la evaluación de la conformidad por parte de terceros debe llevarse a cabo con carácter general para las IA de alto riesgo. Esta parece ser una sugerencia adecuada, que coincide con algunas opiniones relevantes del mundo académico.

Por otra parte, las certificaciones también podrían aplicarse a los datos, pero la Data Act y la propuesta de Data Governance Act no las imponen específicamente.

C. Compliance (cumplimiento normativo) y supervisión

La supervisión de las herramientas de IA de alto riesgo es ciertamente necesaria si queremos mitigar el sesgo. Como ya Como ya se ha mencionado, el proceso de creación y despliegue de un mecanismo de IA es complejo. Sólo si somos capaces de determinar en qué momento se ha introducido un sesgo será posible derivar la responsabilidad de sus consecuencias.

Sin embargo, la supervisión de las herramientas de IA puede ser a veces extremadamente compleja por varias razones.

Queremos saber tu opiniónNombreE-mail (no será publicado)ComentarioLA LEY no se hace responsable de las opiniones vertidas en los comentarios. Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista.
Introduce el código que aparece en la imagencaptcha
Enviar
Scroll