Ahora que las máquinas pueden aprender, ¿pueden desaprender?

La preocupación por la privacidad de los sistemas de inteligencia artificial es cada vez mayor. Por ello, los investigadores están probando si pueden eliminar los datos sensibles sin volver a entrenar el sistema desde cero.

EMPRESAS DE TODO TIPO utilizan el aprendizaje automático para analizar los deseos, disgustos o rostros de las personas. Algunos investigadores se plantean ahora una pregunta diferente: ¿Cómo podemos hacer que las máquinas olviden?

Un área incipiente de la informática, denominada "machine unlearning" (desaprendizaje automático), busca formas de inducir una amnesia selectiva en el software de inteligencia artificial. El objetivo es eliminar todo rastro de una persona o dato concreto de un sistema de aprendizaje automático, sin que ello afecte a su rendimiento.

Si se hace práctico, el concepto podría dar a las personas más control sobre sus datos y el valor que se deriva de ellos. Aunque los usuarios ya pueden pedir a algunas empresas que eliminen sus datos personales, por lo general no saben qué algoritmos han contribuido a afinar o entrenar con su información. El desaprendizaje automático podría hacer posible que una persona retirara tanto sus datos como la capacidad de una empresa para beneficiarse de ellos.

Aunque es intuitivo para cualquiera que se haya arrepentido de lo que ha compartido en Internet, esa noción de amnesia artificial requiere algunas ideas nuevas en informática. Las empresas gastan millones de dólares en la formación de algoritmos de aprendizaje automático para reconocer rostros o clasificar publicaciones sociales, porque los algoritmos a menudo pueden resolver un problema más rápidamente que los codificadores humanos. Pero una vez entrenado, un sistema de aprendizaje automático no es fácil de modificar, ni siquiera de entender. La forma convencional de eliminar la influencia de un punto de datos concreto es reconstruir un sistema desde el principio, un ejercicio potencialmente costoso. "Esta investigación pretende encontrar un punto intermedio", dice Aaron Roth, profesor de la Universidad de Pensilvania que trabaja en el desaprendizaje automático. "¿Podemos eliminar toda la influencia de los datos de alguien cuando pide borrarlos, pero evitar todo el coste de volver a entrenar desde cero?".

El trabajo sobre el desaprendizaje de las máquinas está motivado en parte por la creciente atención a las formas en que la inteligencia artificial puede erosionar la privacidad. Los reguladores de datos de todo el mundo tienen desde hace tiempo el poder de obligar a las empresas a eliminar la información mal obtenida. Los ciudadanos de algunos lugares, como la UE y California, tienen incluso derecho a solicitar que una empresa elimine sus datos si cambian de opinión sobre lo que han revelado. Más recientemente, los reguladores estadounidenses y europeos han dicho que los propietarios de los sistemas de inteligencia artificial deben ir a veces un paso más allá: eliminar un sistema que fue entrenado con datos sensibles.

El año pasado, el regulador de datos del Reino Unido advirtió a las empresas que algunos programas de aprendizaje automático podrían estar sujetos a los derechos del GDPR, como la eliminación de datos, porque un sistema de IA puede contener datos personales. Los investigadores de seguridad han demostrado que, en ocasiones, los algoritmos pueden verse obligados a filtrar datos sensibles utilizados en su creación. A principios de este año, la Comisión Federal de Comercio de EE.UU. obligó a la empresa de reconocimiento facial Paravision a eliminar una colección de fotos faciales obtenidas indebidamente y los algoritmos de aprendizaje automático entrenados con ellas. El comisario de la FTC, Rohit Chopra, elogió esta nueva táctica de aplicación como una forma de obligar a una empresa que incumple las normas sobre datos a "renunciar a los frutos de su engaño".

El pequeño campo de la investigación sobre el desaprendizaje de las máquinas se enfrenta a algunas de las cuestiones prácticas y matemáticas que plantean estos cambios normativos. Los investigadores han demostrado que pueden hacer que los algoritmos de aprendizaje automático olviden en determinadas condiciones, pero la técnica aún no está preparada para el momento decisivo. "Como es habitual en un campo joven, hay una brecha entre lo que este ámbito aspira a hacer y lo que sabemos hacer ahora", dice Roth.

Un enfoque prometedor propuesto en 2019 por investigadores de las universidades de Toronto y Wisconsin-Madison consiste en segregar los datos de origen de un nuevo proyecto de aprendizaje automático en varias piezas. Cada uno se procesa por separado, antes de que los resultados se combinen en el modelo final de aprendizaje automático. Si más tarde hay que olvidar un punto de datos, sólo hay que volver a procesar una fracción de los datos de entrada originales. El método ha demostrado funcionar con datos de compras en línea y una colección de más de un millón de fotos.

Recientemente, Roth y sus colaboradores de Penn, Harvard y Stanford demostraron un fallo en ese enfoque, al demostrar que el sistema de desaprendizaje se rompería si las solicitudes de borrado enviadas se produjeran en una secuencia particular, ya sea por casualidad o por un actor malicioso. También mostraron cómo se podía mitigar el problema.

Gautam Kamath, profesor de la Universidad de Waterloo que también trabaja en el desaprendizaje, afirma que el problema detectado y solucionado por el proyecto es un ejemplo de las muchas cuestiones abiertas que quedan sobre cómo hacer que el desaprendizaje automático sea algo más que una curiosidad de laboratorio. Su propio grupo de investigación ha estado explorando hasta qué punto se reduce la precisión de un sistema al hacerle desaprender sucesivamente múltiples puntos de datos.

Kamath también está interesado en encontrar la manera de que una empresa demuestre -o un regulador compruebe- que un sistema realmente ha olvidado lo que debía desaprender. "Parece que está un poco lejos en el camino, pero tal vez en algún momento habrá auditores para este tipo de cosas", dice.

Es probable que las razones reglamentarias para investigar la posibilidad de desaprender de las máquinas aumenten a medida que la FTC y otros organismos examinen más de cerca el poder de los algoritmos. Reuben Binns, profesor asociado de la Universidad de Oxford que estudia la protección de datos, afirma que la noción de que los individuos deben tener algo que decir sobre el destino y los frutos de sus datos ha crecido en los últimos años tanto en Estados Unidos como en Europa.

Hará falta un trabajo técnico virtuoso antes de que las empresas tecnológicas puedan aplicar realmente el desaprendizaje automático como forma de ofrecer a las personas un mayor control sobre el destino algorítmico de sus datos. Incluso entonces, la tecnología podría no cambiar mucho los riesgos para la privacidad en la era de la IA.

La privacidad diferencial, una técnica inteligente para poner límites matemáticos a lo que un sistema puede filtrar sobre una persona, ofrece una comparación útil. Apple, Google y Microsoft hacen gala de esta tecnología, pero se utiliza relativamente poco, y los peligros para la privacidad siguen siendo abundantes.

Binns dice que, aunque puede ser realmente útil, "en otros casos es más bien algo que una empresa hace para demostrar que está innovando". Sospecha que el desaprendizaje de las máquinas puede resultar similar, más una demostración de perspicacia técnica que un cambio importante en la protección de datos. Incluso si las máquinas aprenden a olvidar, los usuarios tendrán que recordar que deben tener cuidado con quién comparten los datos.

Francisco Pérez Yoma

Buscar este blog

Ahora que las máquinas pueden aprender, ¿pueden desaprender?