Los anunciantes de Internet no necesitan una lista completa de los sitios a los que accedemos, solo necesitan entre 50 y 150 páginas web favoritas.

Un estudio publicado recientemente por tres empleados de Mozilla examinó la privacidad asociada con el historial de navegación.

Sus resultados muestran que la mayoría de los usuarios tienen varias páginas web únicas que ven con regularidad, y esta información permite a los anunciantes en línea crear perfiles precisos.

Estos perfiles se pueden usar para rastrear y volver a identificar a los usuarios en diferentes conjuntos de datos que contienen incluso pequeñas muestras del historial de navegación.

Básicamente, este estudio disipa el mito de que el historial de navegación, incluso anónimo, es inútil para los anunciantes en la red. De hecho, las investigaciones muestran que incluso una pequeña lista de 50 a 150 dominios favoritos y más utilizados puede permitir a los anunciantes crear un perfil de seguimiento único.

Estudio de 2012

El artículo de investigación de Mozilla se titula ” Replicación: por qué todavía no podemos navegar en paz: sobre la singularidad y la reidentificación de los historiales de navegación web ” [PDF].

El documento fue presentado a principios de este mes en la Conferencia de Seguridad de USENIX y es un seguimiento de otro estudio académico publicado en 2012 [PDF].

El estudio fue uno de los proyectos de análisis de privacidad de los usuarios más grandes y, al mismo tiempo, un evento a gran escala para un grupo de investigación que recopiló datos del historial del navegador de más de 380.000 usuarios de Internet .

Entre enero de 2009 y mayo de 2011 los investigadores pidieron a los usuarios que fueran a un sitio de prueba, donde utilizaron un código CSS especial para determinar qué sitios web de una lista precompilada de 6.000 dominios habían visitado previamente.

Un estudio de 2012 encontró que el 97% de los usuarios que visitaron este sitio de prueba tenían una lista única de sitios en su historial de navegación, lo que hace que el historial del navegador sea un vector confiable de huellas digitales.

Además, cuando se les pidió a los usuarios que volvieran a visitar el sitio de prueba, los investigadores dijeron que podían volver a identificar a los usuarios en función de sus perfiles de historial de navegación desde la primera visita.

Investigación de Mozilla 2020

El año pasado, los investigadores de Mozilla querían comprobar si el historial de navegación sigue siendo un vector válido de huellas digitales y si el estudio de 2012 está actualizado.

El nuevo experimento duró del 16 de julio al 13 de agosto de 2019. Los investigadores de Mozilla dijeron que más de 52.000 usuarios han aceptado participar y han acordado proporcionar datos de navegación anónimos.

Sin embargo, esta vez, dado que los datos se recopilaron desde el propio Firefox, y no a través de una página web que ejecuta una prueba CSS prolongada, los datos fueron mucho más precisos y confiables. Además, los datos recopilados por los investigadores de Mozilla también son el mismo tipo de datos que las empresas modernas de análisis online también recopilan sobre los usuarios a través de asociaciones, aplicaciones móviles, publicidad u otros mecanismos.

Como antes, la recopilación de datos se llevó a cabo en dos fases, un período de dos semanas con los usuarios compartiendo su historial de navegación en la primera semana y luego nuevamente en la segunda, para que los investigadores de Mozilla puedan verificar si pueden volver a identificar a los usuarios.

En total, el equipo de Mozilla dijo que ha recopilado 35 millones de visitas al sitio web en 660.000 dominios únicos . Y la disponibilidad de acceso a datos de mejor calidad se reflejó inmediatamente en los resultados de la investigación.

Mozilla dijo que el 99% de las historias de navegadores que recopilaron para la investigación eran únicas.

Esta singularidad permitió a los investigadores de Mozilla volver a identificar fácilmente a los usuarios durante la segunda semana del estudio.

La precisión también fue mayor que en un estudio de 2012, y Mozilla dijo que la tasa de reidentificación para conjuntos de datos que contienen solo 50 dominios fue de aproximadamente el 50%. La tasa de reidentificación aumentó a más del 80% cuando los investigadores de Mozilla expandieron su conjunto de datos de historial de navegación a 150 dominios .

Este último hallazgo sugiere que las empresas de análisis y los anunciantes no necesitan grandes listas de datos del historial de navegación para rastrear a los usuarios, y que los patrones de navegación de cada usuario y sus sitios favoritos terminan relevados, incluso si los datos son anónimos.

Podéis echar un vistazo al video de la presentación aquí.