Rappel : Vous n'êtes *pas* obligés de mettre des bandeaux pour les cookies et des demandes de consentements de partout.

Pas besoin de blâmer le RGPD pour ça puisqu'il ne l'impose pas.

[suspense intenable]

Il vous suffit de ne *pas* stocker et utiliser de données personnelles autrement que par pure nécessité pour fournir le service demandé explicitement par l'utilisateur.

Simple en fait

Ça me fatigue juste de voir les gens râler comme si le RGPD et la CNIL rendaient impossible de naviguer sur le web.

Ce qui rend impossible de naviguer ce sont les pratiques détestables des éditeurs et annonceurs. La balle est dans leur camp.

--

Le problème n'est pas le besoin de consentement, c'est votre envie de stocker et utiliser des données personnelles pour autre chose que ce que vous a demandé l'utilisateur.

Arrêtez, c'est tout. Fin de la solution

@edasfr

Certes, mais un débat récent avec @aeris nous a amenés sur le terrain de "qu'est-ce qu'une donnée perso". Pour lui, tout. Pour moi, ça dépend.

Ses arguments se tiennent, et pour l'instant, je comprends que par précaution on fasse "bandeau par défaut", et ce "à cause du rgpd" (nota: je comprends, mais je ne suis pas d'accord).

@djelouze @edasfr En tout cas, une IP, un cookie, une résolution d’écran, un referer, un user-agent, un fingerprint JS, c’est clairement de la donnée perso…

@djelouze @edasfr Il y a des trucs qui pourraient éventuellement mener à discussion, mais tout ça, clairement non.

@djelouze @edasfr D’une manière générale, j’aurais tendance à considérer que tout ce qui est en dessous de 33% ici est une donnée perso. Parce qu’en recroiser 3 (ce qui est TRÈS facile à obtenir) ne laisse que 3% d’erreur d’identification de l’individu… Tout ce qui est < 1% devrait limite relever d’une obligation d’analyse d’impact : la donnée elle-même est identifiante.

Follow

@djelouze @edasfr Quand tu vois que rien que l’entête Language m’identifie à plus de 99.99%… 😱

@djelouze @edasfr Et que ma résolution d’écran m’identifie avec une probabilité d’erreur de 1 sur 50.000…

@aeris

Et on est d'accord que ces ratios ne concernent que l'identification à partir de tous les paramètres ? C'est en d'autres termes la contribution de chaque paramètre â mon identification ?

Sinon, je ne vois pas comment ma langue pourrait m'identifier si sûrement parmi tou·te·s les internautes francophones...

@edasfr

@djelouze @edasfr La définition exacte d’après le site. C’est donc bien par valeur, et non la contribution totale.

@djelouze @edasfr Et c’est tout le problème d’une donnée perso. Les gens ne se rendent pas vraiment compte de la précision exacte d’une donnée, qu’ils ont tendance à très fortement minimiser…

@djelouze @edasfr Exemple à la con :

- Langue FR : 283 millions de personnes sur 7.5 milliards : 3.7% d’erreur d’identification 😱
- Fuseau horaire : ~1/24ème du monde = 4.2% d’erreur 😱

Les 2 cumulés : 0.15% d’erreur !!!! 😱 😱 😱

@djelouze @edasfr La position du service va du coup aussi beaucoup jouer avec ses 2 paramètres. Une petite boîte FR verra majoritairement du FR/UTC+2, donc la proba d’erreur va monter en flèche, plus proche du 100% que d’autre chose. À l’inverse une petite boîte US aura quasiment la certitude de l’unicité de l’individu avec la même donnée…

@djelouze @edasfr Bref « C’est compliqué », mais jusqu’à preuve du contraire (et l’analyse qui le prouve pour être conforme RGPD), une donnée a plus de chance d’être une donnée personnelle qu’autre chose.

@aeris @djelouze @edasfr Y a pas une répartition uniforme des fuseaux horaires donc le cumul en pratique devrait être un peu plus haut que ça… Dans cet exemple en tout cas.

@GeoffreyFrogeye @djelouze @edasfr Oui, il faudrait regarder les chiffres exactes, ça donne juste des ordres de grandeur 😂

@GeoffreyFrogeye @djelouze @edasfr UTC+2, c’est 459.000.000 habitants. Sur 7.5 milliard, ça fait donc 6.12%.
À l’inverse UTC+11 fait 16.850.000 habitants. On tombe à 0.22%…

@aeris 0.15% d'erreur sur 7,5 milliards, ça fait quand même 11 250 000 personnes. x)
Donc si tu stocke que ça, est-ce vraiment une donnée perso ? (sans ID, date ou quoi que ce soit)

Puisqu'il est pas possible de recroiser ces données avec d'autres…

@djelouze @edasfr

@Darks

J'allais justement de la fréquence de base :)

On a un peu le même soucis sur l'analyse de risque clinique : pour savoir si il faut faire une analyse, on doit analyser les risques. Ça ressemble à l'analyse d'impact : quand une erreur, aussi faible soit-elle te conduit à un choix parmi 1 million, l'analyse n'est p-ê pas nécessaire. Mais elle a été faite !

../..

@aeris @edasfr

@Darks @djelouze @edasfr Non, il faut le voir dans l’autre sens. Tu as 0.15% d’erreur de te planter dans l’association de 2 visiteurs avec les mêmes valeurs.

@Darks @djelouze @edasfr Et tu stockes « forcément » une donnée autre à côté, sinon cette donnée n’a aucun intérêt à être stockée (ou ne serait effectivement plus une donnée perso)

@aeris Imaginons, j'ai Fr/UTC+2 dans ma bdd.
→ Je n'ai qu'une entrée ⇒ j'identifie une personne unique parmi 11 millions. Donc en fait personne.
→ J'ai plusieurs entrées (N) ⇒ j'identifie à 1 / (0.15 * N)  % la personne. Donc si N est "grand", ma donnée n'est plus personnelle.

Ceci étant dit, en écrivant ça je trouve le truc foireux… 🤔

@djelouze @edasfr

@Darks @djelouze @edasfr Vois le truc dans l’autre sens. Un visiteur se pointe en FR/UTC+2. Tu as une db avec 12 millions de personnes. Tu n’as pas FR/UTC+2 dedans. Tu en déduis que c’est un nouveau visiteur.
Tu vois une autre personne avec FR/UTC+2. Quelle est la probabilité qu’il s’agisse de la même personne que précédemment, sachant que tu n’avais jamais vu ce motif avec 12 millions de personnes auparavant.

@Darks @djelouze @edasfr On ne cherche pas à calculer la propa d’identifier un individu parmis 12 millions, la proba qu’il s’agisse du même sachant que tu as déjà vu ce motif avant.

@aeris Je vois. Donc 1 / (p × N), où p est le taux d'identification global et N le nombre d'apparitions, si je suis bien ?

@Darks Faudrait faire les calculs exacts, les probas conditionnelles, c’est toujours le merdier à calculer 😂

@Darks En tout cas Am I Unique a déjà traité 1 394 986 analyses, et « fr-FR,fr;q=0.5 » n’a été vu que 0.77% du temps et mon fuseau horaire que 10.17% du temps. Rien qu’avec ces 2 paramètres, on sait m’associer à un groupe de 1092 personnes chez Am I Unique… C’est LARGEMENT plus qu’il n’en faut pour être utilisé pour du ciblage publicitaire par exemple.

@Darks Et sur la population mondiale, je serais dans un groupe de 5.8 millions de personnes. Soit « seulement » la petite couronne de l’Île de France… Ça remet des choses en perspective…

@djelouze @edasfr Attention, tu fais une énorme confusion. Dans *TON* cas une donnée n’est peut-être pas identifiante, mais il faut regarder si elle l’est *en moyenne*.

@djelouze @edasfr Le tout en pondérant aussi avec la précision des identifications. 2 données avec 50% de moyenne peuvent très bien cacher 1 donnée avec tout le monde à 50% (et donc peu identifiante) et une donnée avec beaucoup de monde à 75% mais tout le reste à 25% (et donc très identifiante).

@djelouze @aeris
Faut aussi relativiser la durée du ratio. Y'a des headers qui changent avec le temps. Typiquement le DNT est identifiant à 10 % depuis tout le temps, mais seulement 40 % depuis 90 jours.

@edasfr

@aeris

Oui, mais si je ne stocke que le langage ?

Encore une, ça dépend de l'audience : si un français, un belge et un américain visite mon site, au delà de la mauvaise blague, le langage identifie. Si j'en ai 10000 de chaque, non.

Parce que si je te suis, le bandeau devrait être obligatoire pour *tous* les sites. Ce qui n'est pas le propos d'@edasfr, justement.

Sign in to participate in the conversation
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!