Los marcos legales en materia de protección de datos han ido evolucionando exponencialmente a lo largo de estos últimos años con la finalidad última de dotar a las entidades de una serie de pautas que salvaguarden los derechos y libertades de las personas.
Dentro de las múltiples medidas que pueden desplegarse, vamos a enfocarnos en los controles técnicos, pues tradicionalmente, cuando se necesitaba analizar y compartir datos, se aplicaban métidos de supresión, perturbación y generalización de atributos de los sujetos de los datos con el objetivo de desidentificarlos, es decir, incrementar la complejidad de vinculación con la persona, pero el avance de las tecnologías y, sobre todo, el incremento de la capacidad de cómputo y la disponibilidad de los datos, han generado nuevos riesgos que ponen en tela de juicio dichas herramientas, por lo que a consecuencia de ello se han desarrollado modelos formales.
La privacidad diferencial es una propiedad de un conjunto de datos basada en la inyección aleatoria de ruido que proporciona una garantía matemática formal sobre la desvinculación dato – persona.
Es decir, es una definición matemática en el contexto del análisis estadístico y de aprendizaje automático que busca impedir, por ejemplo, ataques de reidentificación o vinculación de registros, afianzando el principio de minimización de datos, puesto que la técnica asegura que no se van a revelar datos a sujetos no autorizados.
Hay que tener en cuenta que esta técnica de anonimización genera datos menos precisos y, por lo tanto, en función del objetivo de uso, puede no resultar útil. La privacidad diferencial puede ser útil, por ejemplo, para detectar anomalías o patrones generales dentro de los datos, hacer histogramas, consultas de recuento o clasificaciones con aprendizaje automático.
Un punto clave en el despliegue de esta técnica, es lo que se denomina “épsilon” -aunque también se le conoce como “presupuesto de privacidad” o “parámetro de privacidad”- y que determina el nivel de ruido añadido, es decir, es la cantidad de información que todavía puede inferirse de un individuo dentro del conjunto de datos, de modo que la finalidad consiste en impedir garantizar que la información relacionada con una persona específica esté presente en los datos.
Cada análisis ajustarse para proporcionar más o menos privacidad cambiando el valor de este parámetro.
Hay dos tipos de privacidad diferencial disponibles:
- La privacidad diferencial global, que es la que agrega ruido durante el cálculo del resultado final antes de compartirlo con terceros, si bien su implementación implica que se debe acceder directamente a los datos en bruto reales. Como principales ventajas frente al siguiente, obtendríamos unos resultados más precisos y homogéneos al aplicar el mismo ruido a todo el conjunto.
- La privacidad diferencial local, que es la que realiza cada uno de los sujetos respecto a sus datos, por lo que el ruido total y la complejidad es mucho mayor que en el caso anterior puesto que se aplica en capas varias veces ese mismo ruido. Ahora bien, a pesar de esto, el modelo local no se recomienda para producir información anónima, puesto que, a pesar de la configuración, se ha demostrado que cabe la posibilidad de vincular o asociar registros con los datos de la persona al no parametrizar de común acuerdo, si bien reduce netamente la inferencia de atributos.
Para elegir épsilon correctamente, debemos tener en consideración que cuanto más pequeño es su valor, más similar son las salidas, por lo que se proporciona mayor nivel de privacidad, de modo que cuanto más alto sea el valor de épsilon, menos ruido, resultando más fácil distinguir entre diferentes registros en la base de datos.
Por ejemplo, si el parámetro seleccionado es 0, el análisis imita perfectamente el escenario de exclusión voluntaria de cada individuo, pues no podríamos conocer ningún tipo de información, pero es implicaría ignorar toda la información de la entrada y, en consecuencia, no nos estaría podría proporcionando ningún resultado significativo. Sin embargo, si establecemos 0,1, la desviación entre el cómputo del conjunto real y el escenario de exclusión voluntaria de cada individuo será lo suficientemente pequeño como para brindar privacidad y, además, estadísticas útiles.
Po tanto, para evaluar cual es el parámetro a seleccionar, debemos tener en cuenta:
- La finalidad u objetivo último del uso de los datos.
- La naturaleza y tipología de la información y los atributos.
- El tamaño de la población del conjunto de datos.
- Tipo y número de consultas a realizar.
Una vez establecido, conviene realizar una fase de pruebas, analizando el nivel de riesgo al que se enfrentaría si, por ejemplo, un atacante realiza un número de consultas suficiente como para acumular conocimiento directo o inferido de una persona por sus resultados o las correlaciones de estos respecto a la disponible.
En definitiva, este tipo de herramientas de privacidad nos proporcionan sólidas ventajas respecto a las tradicionales, ya que no es necesario guardar el secreto en torno a los cálculos, por lo que permiten un acceso más amplio a los conjuntos de datos que, de otro modo, no se podrían compartir debido a problemas de privacidad.
Además, cuenta con la ventaja de que, si se puede demostrar que un cómputo es diferencialmente privado, podemos estar seguros de que el uso del cómputo no revelaría indebidamente información específica de un sujeto dentro del conjunto.
AUTORA: Alba Sánchez de la Calle
TWITTER: https://twitter.com/AlbusAlba