Démantèlement des données sur la dépersonnalisation : Vers un cadre de gouvernance des données relationnelles

Résumé

La gouvernance des données au Canada fait l’objet de réformes majeures. Dans ce contexte, la dépersonnalisation des données est proposée comme un mécanisme qui permet de préserver la vie privée des individus tout en permettant à l’économie des données de se développer. À travers une analyse des protocoles normalisés de dépersonnalisation et en appliquant les perspectives à la fois de la justice et de la démocratie des données, nous examinons les limites techniques et conceptuelles de la dépersonnalisation. Nous soutenons que la gouvernance des données doit reconnaître la spécificité, la relationnalité et les composantes structurelles des données pour naviguer efficacement dans les réalités d’une économie des données de plus en plus concentrée. Comme nous le démontrons, le modèle individualisé d’atteinte aux données sur la dépersonnalisation ne peut pas prendre en compte ces dimensions.

Introduction

En 2018 et 2019, Sidewalk Labs (Roth, 2018, 2019) et l’utilisation des données par Facebook (Hemmadi, 2019) ont occupé les manchettes nationales, et les débats sur la collecte et l’utilisation des données personnelles au Canada ont gagné du terrain dans le discours public. Dans ce contexte, le gouvernement fédéral canadien s’apprêtait à remanier les régimes de protection de la vie privée et des données du Canada en mettant à jour la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE) et la Loi sur la protection des renseignements personnels. Et dans le secteur privé, plusieurs des plus grands détenteurs de données du Canada se sont réunis pour former CANON – le Canadian Anonymization Network (Réseau canadien d’anonymisation). Les membres de CANON comprennent les trois entreprises nationales de télécommunications (Telus, Bell et Rogers), l’agence d’évaluation du crédit TransUnion, le processeur de paiement Moneris, la CIBC et la Banque TD (Canadian Anonymization Network, 2019a).

L’objectif de CANON est de préconiser et de développer des normes autour de la dépersonnalisation des données – le processus de manipulation des données de telle sorte qu’elles ne puissent plus être facilement associées à un individu qu’elles représentent. Si les techniques particulières varient en fonction du type de données en question (Ghinita et coll., 2011), l’objectif général de la dépersonnalisation des données est de réduire le risque qu’une personne puisse être identifiée à partir d’un ensemble de données. La dépersonnalisation est généralement utilisée pour permettre l’échange de données, en particulier dans le secteur de la santé. En fin de compte, l’objectif de CANON est de plaider en faveur de lois et de politiques qui élargissent les utilisations de la dépersonnalisation et qui permettent le traitement étendu des mégadonnées et l’augmentation des flux de données entre les secteurs d’activité (Canadian Anonymization Network, 2019a).

Les membres de CANON ont déjà démontré les façons dont ils espèrent utiliser cette occasion élargie. En particulier, les entreprises de télécommunications canadiennes ont fait part de leur désir de vendre des données de réseau comme nouvelle source de revenus et d’augmenter en interne la collecte et l’analyse de données afin d’optimiser leurs opérations et de se développer sur de nouveaux marchés. Par exemple, Bell a fait l’acquisition de l’agrégateur de données Environics Analytics – signalant une évolution vers le courtage de données (Environics Analytics, 2020) – et Telus s’est montrée de plus en plus ouverte à l’idée de tirer parti des données produites par son réseau de télécommunications dans le cadre de son initiative Les données au service du bien commun (Telus, s. d.). Bell a également annoncé récemment son intention de vendre aux annonceurs un accès à des données de réseau et d’utilisation dépersonnalisées au moyen de son programme « DSP » (Bell Media, 2021). Ces pratiques existent actuellement dans une sorte de zone grise juridique. Le travail de CANON vise à les légitimer et à consolider leur place dans la politique canadienne.

L’augmentation des autorisations de collecte, de traitement et de circulation des données dépersonnalisées constitue un changement majeur dans le paysage canadien des communications et des télécommunications. Le débat sur l’utilisation des données fournies par Telus à l’Agence de la santé publique du Canada (ASPC) montre que les fournisseurs de télécommunications canadiens sont en train de passer du statut de simples fournisseurs de services et d’infrastructures à celui de courtiers en données (Boutilier, 2022; Parsons, 2022). Mais malgré ces vastes implications, les données et la dépersonnalisation sont largement abordées dans le cadre de la législation sur la protection de la vie privée. Le projet de loi fédérale C-11 – qui a été présenté en 2020 et est finalement mort au Feuilleton lorsque le Parlement a été dissous pour les élections fédérales de 2021 – aurait placé la dépersonnalisation au cœur du régime canadien de réglementation des données. Le gouvernement libéral réélu a indiqué qu’il a l’intention de réintroduire une législation sensiblement comparable dans le nouveau parlement (Trudeau, 2021). À l’échelle provinciale, le projet de loi 64 du Québec a été adopté à l’unanimité par l’Assemblée nationale en septembre 2021, ce qui fait de la dépersonnalisation un élément majeur de la manière dont la province réglemente l’utilisation des renseignements personnels.

Dans l’état actuel des choses, la dépersonnalisation des données est présentée comme une solution générale aux préjudices perçus qui résultent de l’échange intersectoriel des données (comme avec l’ASPC et Telus). Cependant, ces applications générales ne tiennent pas compte des spécificités des données ou de différents types de données (Ghinita et coll., 2011) et les données qui proviennent de différentes sources présentent leurs propres complexités. En outre, le fait d’aborder de manière restrictive les préjudices relatifs aux données au moyen de la législation sur la protection de la vie privée ne fait que mettre l’accent sur le risque de ré-identification des personnes. C’est une question importante, mais ce n’est pas tout le problème.

En tenant compte de ces questions sous l’angle de la justice des données, nous soutenons qu’il existe une série de préjudices que la dépersonnalisation des données non seulement ne prend pas en compte, mais qu’elle exacerbe activement. En s’appuyant sur la littérature scientifique en matière de dépersonnalisation et la ré-identification, ainsi que sur une analyse des protocoles normalisés en matière de dépersonnalisation, nous soutenons que la dépersonnalisation telle qu’elle est mobilisée dans la législation canadienne ne permet pas d’aborder le risque de ré-identification et la fuite générale des données dépersonnalisées. Nous nous appuyons ensuite sur les perspectives de la justice et de la démocratie en matière de données pour affirmer que sur un plan plus fondamental, le traitement des données comme un bien individuel ne reconnaît pas la relationnalité des données. Enfin, nous démontrons les problèmes techniques non résolus de la dépersonnalisation des données et les limites conceptuelles de l’approche des préjudices relatifs aux données du point de vue de la vie privée. Nous soutenons que ces problèmes font de la dépersonnalisation un cadre insuffisant pour la gouvernance générale des données. Nous soutenons plutôt que la gouvernance des données doit reconnaître la spécificité, la relationnalité et les composantes structurelles des données pour naviguer efficacement dans les réalités d’une économie des données de plus en plus concentrée.

Histoire et contexte de la dépersonnalisation

La dépersonnalisation des données comme moyen de protection de la vie privée est bien antérieure à la vague actuelle de réformes réglementaires. En particulier, la dépersonnalisation des données est courante dans l’échange des données cliniques et de santé, et a été un outil important pour permettre la recherche en santé (Santé Canada, 2019; Huser et Shmueli-Blumberg, 2018).

Étant donné que de plus en plus de secteurs de l’économie utilisent des données dans leurs pratiques commerciales, l’utilisation de la dépersonnalisation s’est étendue au-delà des soins de santé. Au Canada, la dépersonnalisation des données joue un rôle important dans la Loi sur l’accès à l’information et la protection de la vie privée de l’Ontario (2021). Et plusieurs des plus grands détenteurs de données du Canada se sont réunis pour défendre et développer des normes autour de la dépersonnalisation des données au moyen de CANON (Canadian Anonymization Network, 2019a). Dans tous ces cas, la dépersonnalisation est positionnée comme permettant la poursuite de l’exploitation à grande échelle des données tout en préservant la vie privée des individus.

La dépersonnalisation figure également en bonne place dans deux des principales réformes de la gouvernance des données récemment proposées par les législateurs canadiens – le projet de loi fédérale C-11 et le projet de loi 64 du Québec.

Le projet de loi C-11Note de bas de page 1Note de bas de page 2– dont le titre complet est « Loi édictant la Loi sur la protection de la vie privée des consommateurs et la Loi sur le Tribunal de la protection des renseignements personnels et des données et apportant des modifications corrélatives et connexes à d’autres lois » – est la plus récente proposition du gouvernement fédéral canadien en vue de réglementer l’utilisation des données au Canada. Le changement le plus important proposé par le projet de loi C-11 est sans doute l’exigence explicite d’obtenir un consentement éclairé pour « l’organisation qui recueille, utilise ou communique des renseignements personnels » (C-11, 2020, §15). Mais cette exigence est assortie de réserves, car dans de nombreux cas, le projet de loi C-11 n’exige pas de consentement lorsque les données sont dépersonnalisées. Par exemple, le projet de loi C-11 aurait permis l’utilisation de renseignements dépersonnalisés à des fins de recherche et de développement internes, à des « fins socialement bénéfiques » ou pour des transactions commerciales éventuelles sans consentement.

Ce sont les façons explicites dont le projet de loi C-11 a mobilisé la dépersonnalisation, mais le projet de loi a également utilisé le concept de façon plus subtile dans sa définition des « renseignements personnels » elle-même. Reprenant une définition du prédécesseur du projet de loi C-11, la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE), le projet de loi C-11 définirait les renseignements personnels comme étant « tout renseignement concernant un individu identifiable » (C-11, 2020; LPRPDE, 2019). Ainsi, si les renseignements dépersonnalisés n’étaient plus considérés comme concernant une personne identifiable, elles auraient été totalement exclues du champ d’application des protections prévues par le projet de loi.

Le projet de loi 64 du Québec – « Loi modernisant des dispositions législatives en matière de protection des renseignements personnels » – adopte une approche semblable à celle du projet de loi fédérale C-11 en matière de données et de dépersonnalisation. Comme le C-11, le projet de loi 64 exige que le consentement soit donné pour l’utilisation des renseignements personnels. Et comme le C-11, le projet de loi 64 crée des exceptions à cette exigence, notamment en n’exigeant pas de consentement « si l’utilisation [des renseignements personnels] est nécessaire à des fins d’étude ou de recherche ou pour la production de statistiques et si les renseignements sont dépersonnalisés » (projet de loi 64, 2021, §110).

La principale différence dans la façon dont le projet de loi 64 traite les données dépersonnalisées réside toutefois dans sa définition des « renseignements personnels ». Contrairement au C-11, qui définissait les renseignements dépersonnalisés comme n’étant plus du tout des renseignements personnels, le projet de loi 64 crée une catégorie distincte pour les renseignements personnels dépersonnalisés. Il définit les renseignements personnels comme étant dépersonnalisés « lorsque ces renseignements ne permettent plus d’identifier directement la personne concernée » (Projet de loi 64, 2021, §110). Ainsi, si le projet de loi 64 accorde toujours une grande importance à la dépersonnalisation, il reconnaît également la provenance des données dépersonnalisées de manière plus substantielle.

À l’échelle internationale, l’invocation la plus importante en matière de dépersonnalisation des données a sans doute été faite dans le Règlement général sur la protection des données (RGPD) de l’Union européenne. Lorsqu’il est entré en vigueur en 2018, le RGPD a imposé de nouvelles réglementations importantes aux personnes qui traitent des données dans l’UE. Comme l’a documenté Hintze (2018), les dispositions relatives à la dépersonnalisation contenues dans le RGPD sont nombreuses et variées. Dans certains cas, la dépersonnalisation des données réduit le degré d’examen requis en vertu du RGPD, tandis que si les données sont considérées comme complètement anonymes, cela supprime entièrement les obligations du détenteur des données en vertu du RGPD (Hintze, 2018).

Au Canada, du moins à l’échelle fédérale, la dépersonnalisation ne jouait pas un rôle important dans le cadre législatif relatif aux données et à la vie privée avant le projet de loi C-11. Dans le sillage du RGPD et dans la perspective de la publication du projet de loi C-11, le Commissariat à la protection de la vie privée (CPVP) a commandé un rapport sur les utilisations de la dépersonnalisation des données dans les politiques publiques (Rosner, 2019). Le rapport recommandait que la dépersonnalisation soit intégrée au cadre canadien de protection de la vie privée pour plusieurs raisons, notamment parce qu’elle aiderait le Canada à satisfaire aux exigences relatives à l’adéquation avec le RGPD. Il convient toutefois de noter que si le rapport de Gilad Rosner au CPVP recommandait l’utilisation de la dépersonnalisation, il recommandait plus précisément l’utilisation d’un modèle fondé sur l’évaluation des risques qui décourage la publication de données « en vrac »; le projet de loi C-11 proposait l’utilisation de la dépersonnalisation sans aucune de ces conditions.

Il convient de noter que l’adéquation avec le RGPD est sans aucun doute un enjeu majeur pour le Canada. L’article 45 du RGPD donne à la Commission européenne le pouvoir de déterminer si la législation d’un pays non européen en matière de protection de la vie privée et des données est adéquate au regard des normes européennes. Si le Canada obtenait le statut de conformité au regard du RGPD, il permettrait la libre circulation des données entre le Canada et les États membres de l’UE (Commission européenne, 2021; RGPD, 2016). L’adoption de la dépersonnalisation serait un moyen direct pour le Canada d’atteindre l’adéquation à l’égard du RGPD, mais, comme nous le soutenons, ses limites techniques et conceptuelles en font une approche indésirable d’un point de vue démocratique. L’adéquation à l’égard du RGPD reste un enjeu majeur pour la relation du Canada avec l’UE et peut signaler la nécessité d’une coopération internationale sur cette question si le Canada choisit d’adopter une approche différente en matière de gouvernance des données.

Analyse technique et limites de la dépersonnalisation

La dépersonnalisation des données est autant un ensemble de procédures techniques qu’un concept. Si l’on considère la dépersonnalisation d’un point de vue technique, une grande partie de la littérature scientifique portant sur la dépersonnalisation met en évidence les défauts inhérents à ce procédé. Dans ces cas, l’accent a été mis sur le risque de ré-identification dans les ensembles de données dépersonnalisées. Culnane, Rubinstein et Teague (2017), par exemple, ont démontré qu’il était possible de ré-identifier des patients à partir d’un ensemble de données dépersonnalisées de dossiers de facturation médicale australiens. Dans une autre affaire très médiatisée, il a été démontré que les habitudes de navigation d’un individu pouvaient être déterminées à partir d’un ensemble de données publiées et rendues publiques, constitué d’enregistrements de navigation Web allemands dépersonnalisés (Hern, 2017). Ce débat a été particulièrement vif au Canada où, en 2014, le Commissaire à l’information et à la protection de la vie privée de l’Ontario a publié un rapport défendant la dépersonnalisation et jetant l’opprobre sur les études relatives à la ré-identification (Cavoukian et Castro, 2014). Comme l’a toutefois noté Cory Doctorow (2014), ce rapport était méthodologiquement imparfait et a été réfuté en profondeur (Narayanan et Felten, 2014).

Pour sauver la dépersonnalisation, certaines questions ont été soulevées quant à l’exactitude de la ré-identification dans les ensembles de données partiels (Barth-Jones, 2012). En effet, si l’on n’est pas certain que le dossier d’une personne figure dans un ensemble de données au départ, l’exactitude de la ré-identification peut être remise en question. Mais comme Rocher, Hendrickx et de Montjoye (2019) l’ont démontré, il est possible d’entraîner un modèle capable d’évaluer si un individu a été correctement ré-identifié avec un degré de certitude élevé.

Étant donné le fort potentiel de ré-identification à partir d’un ensemble de données dépersonnalisées, des appels ont été lancés en faveur d’approches politiques plus nuancées en matière de protection de la vie privée. Narayanan, Huey et Felten (2016), par exemple, appellent à une « approche de précaution. » Cela impliquerait, entre autres, la reconnaissance du fait que tous les ensembles de données peuvent être ré-identifiés et donc une approche nuancée des modèles de libération des données en fonction du contexte et de la sensibilité des données en question. Il convient de noter que même cette approche de précaution proposée se concentre toujours sur la prise de précautions contre la ré-identification individuelle. Les risques communautaires et structurels que permettent les données agrégées ne sont pas pris en compte dans cette littérature scientifique ni dans la mobilisation de la dépersonnalisation dans la politique canadienne.

Compte tenu de cette littérature, ce qui suit dans le reste de cette section est une analyse des directives en matière de dépersonnalisation des données du commissaire à l’information et à la protection de la vie privée de l’Ontario (CIPVP) [Commissaire à l’information et à la protection de la vie privée de l’Ontario, 2016]. En raison de leur large applicabilité et de leur spécificité technique, les lignes directrices du CIPVP ont servi de base à plusieurs exigences en matière de dépersonnalisation des données au Canada, y compris les lignes directrices de Santé Canada sur la diffusion publique des renseignements cliniques. Et étant donné que ni le projet de loi C-11 ni le projet de loi 64 ne précise une norme particulière relative à la dépersonnalisation, nous nous sommes tournés vers la principale norme canadienne relative à la dépersonnalisation des données comme exemple d’une norme qui répondrait probablement aux exigences des deux projets de loi.

À bien des égards, les directives en matière de dépersonnalisation des données du CIPVP font écho à l’approche de précaution proposée par Narayanan, Huey et Felton. Conçues à l’origine comme un moyen de mettre en œuvre de manière pratique les exigences en matière de dépersonnalisation énoncées dans la Loi sur l’accès à l’information et la protection de la vie privée de l’Ontario, les directives du CIPVP adoptent une approche concernant la dépersonnalisation des données fondée sur l’évaluation des risques. Cela est attribué en partie à leur portée, puisque les lignes directrices sont censées permettre la divulgation d’un large éventail d’ensembles de données dans divers contextes. Par conséquent, ils requièrent différents degrés de diligence en fonction de la sensibilité des données et du modèle de diffusion proposé.

En considérant la ré-identification comme le principal risque à atténuer, les lignes directrices du CIPVP fournissent un cadre pour l’attribution de niveaux de risque en fonction du type de données (risque relatif aux données) et du modèle de diffusion des données en question (risque contextuel). Dans les deux cas, les niveaux de risque sont quantifiés, et le document fournit des équations afin de calculer le risque. Le risque relatif aux données, par exemple, est calculé sur la base du risque relatif à la ré-identification d’une ligne donnée. Dans ce cas, une ligne fait référence aux données d’un individu particulier dans un ensemble de données, tandis qu’une colonne représente une variable. Le score de risque pour une ligne donnée est égal à 1 sur la taille de la classe d’équivalence – l’ensemble des lignes qui mettent en commun les mêmes identifiants ou caractéristiques dans un ensemble de données. Le risque final des données est ensuite calculé sur la base du modèle de diffusionNote de bas de page 3; les diffusions publiques et semi-publiques sont considérées comme présentant le degré de risque maximal, tandis que le risque pour les diffusions non publiques est basé sur une moyenne stricte des niveaux de risque de chaque ligne. Par conséquent, les directives du CIPVP encouragent une diffusion plus restreinte des données comme moyen principal de réduction des risques. Cette démarche s’inscrit dans le cadre d’une approche de précaution et reconnaît que la dépersonnalisation est intrinsèquement imparfaite.

Le calcul du risque contextuel effectué par le CIPVP est plus nébuleux. Le risque contextuel pour les diffusions de données non publiques et semi-publiques est basé sur le risque de trois différents types de ré-identification : attaques délibérées d’initiés, reconnaissance par inadvertance d’un initié par une connaissance, et violation des données. Le document décrit chacun d’entre eux en détail et fournit des formules afin de quantifier le risque de chacun. Le risque contextuel global est ensuite calculé sur la base du risque de ces attaques. Là encore, toute publication de données publiques est censée présenter le degré de risque le plus élevé. Par conséquent, cette mesure donne la priorité aux modèles de diffusion plus sûrs plutôt qu’à une dépersonnalisation plus poussée. En bref, le moyen le plus simple de réduire le risque de ré-identification est de donner à moins de personnes un accès plus contrôlé.

Enfin, les données sont dépersonnalisées par une série de procédures qui dépendent des données. Les identifiants directs tels que les noms et les adresses sont soit supprimés, soit pseudonymisés. Les quasi-identifiants, comme l’âge, sont soit généralisés, soit supprimés. Dans les deux cas, le but est d’augmenter la taille de la classe d’équivalence. La généralisation supprime la spécificité des données et regroupe les rangées (par exemple en créant des tranches d’âge plutôt qu’en indiquant des âges particuliers). La suppression permet d’éliminer complètement les lignes qui ne peuvent pas être généralisées.

Une fois que les données sont passées par cette procédure, le risque global est réévalué en utilisant la procédure ci-dessus. Si, avec les classes d’équivalence plus importantes, le nouveau risque global est inférieur à une série de seuils de risque relatifs à la ré-identification, les données peuvent alors être considérées comme dépersonnalisées conformément aux directives du CIPVP.

Comme nous le voyons dans cette approche, les directives du CIPVP concernant la dépersonnalisation reconnaissent la forte probabilité que les données puissent être ré-identifiées. L’accent mis par les lignes directrices sur l’atténuation des risques plutôt que sur des garanties absolues d’anonymat reflète les défauts avérés de la dépersonnalisation en tant qu’approche, comme le montre la littérature scientifique sur la ré-identification.

Le problème, cependant, est qu’au moment où cela a été traduit en politique, comme dans les cas des projets de loi C-11 et 64, le risque inhérent aux données dépersonnalisées est masqué. Les deux projets de loi traitent les données en termes plus ou moins absolus; il s’agit soit de données personnelles, soit de données non personnelles. Et la ligne entre les deux est la dépersonnalisation. Nous pouvons voir ici qu’il y a un décalage entre ce que les procédures relatives à la dépersonnalisation prétendent faire, et la législation qui mobilise les revendications portant sur la dépersonnalisation de ces procédures. La dépersonnalisation est présentée dans la législation comme un moyen de légitimer des utilisations plus invasives des données sans nécessiter de consentement éclairé. Cette légitimation est obtenue en classant les données dépersonnalisées comme non personnelles, mais ce faisant, on occulte le processus nécessairement imparfait qui permet d’y parvenir.

Dans certains cas, comme avec les projets de loi C-11 et 64, il y a une certaine reconnaissance du risque de ré-identification. Le projet de loi C-11 a abordé cette question en interdisant aux organisations de ré-identifier des personnes à partir d’un ensemble de données dépersonnalisées (C-11, 2020, §75) et en exigeant que les procédures relatives à la dépersonnalisation soient « proportionnées » à la sensibilité des données en question (C-11, 2020, §74). Le projet de loi 64 adopte en grande partie la même approche, mais prévoit également des amendes en cas de tentative d’identification d’une personne à partir d’un ensemble de données dépersonnalisées. Ces amendes seraient comprises entre 5 000 $ et 25 000 000 $, ou jusqu’à 4 % du chiffre d’affaires mondial d’une entreprise, le montant le plus élevé étant retenu (Projet de loi 64, 2021, §160). Une fois encore, cependant, cela ne fait que démontrer le décalage entre les procédures relatives à la dépersonnalisation et la législation qui les mobilise. Les lignes directrices du CIPVP, par exemple, indiquent clairement que tout risque de ré-identification n’est pas malveillant. L’un des trois principaux vecteurs de ré-identification du CIPVP est plutôt « la reconnaissance par inadvertance d’une personne par une connaissance » (Commissaire à l’information et à la protection de la vie privée de l’Ontario, 2016, p. 16). En adoptant une approche punitive en vue de prévenir la ré-identification – en supposant que la seule menace est la ré-identification malveillante – le projet de loi C-11 et le projet de loi 64 ne s’attaquent pas à la fuite inhérente aux données dépersonnalisées. Ils problématisent les personnes plutôt que les données elles-mêmes, et ils s’appuient sur la bonne foi des détenteurs de données pour gérer correctement les données dans le contexte d’une dérogation réglementaire conçue pour permettre la réutilisation non consensuelle des données.

Cette approche binaire de la réglementation des données a également été relevée comme un problème par les détenteurs de données. CANON, le groupe de pression de l’industrie canadienne qui préconise la dépersonnalisation des données, a recommandé aux gouvernements d’adopter une législation qui adopte une approche plus nuancée du risque en matière de dépersonnalisation et de ré-identification. Dans ses recommandations à Innovation, Sciences et Développement économique Canada (ISDE), CANON recommande « qu’ISDE envisage l’adoption d’un spectre relatif à l’identifiabilité plutôt que l’approche actuelle en noir ou blanc selon laquelle les renseignements sont soit identifiables, soit non identifiables – entièrement dans ou hors de la portée de la LPRPDE – respectivement » (Canadian Anonymization Network, 2019b). Cependant, pour CANON, cela signifierait peu de restrictions sur l’utilisation des données une fois qu’elles sont considérées comme suffisamment dépersonnalisées. Ils écrivent que :

Par exemple, les renseignements qui ne posent aucun risque sérieux de ré-identification pourraient rester en dehors de la LPRPDE, tandis que les renseignements qui présentent un faible risque de ré-identification pourraient être couverts par la LPRPDE, potentiellement exemptés de consentement […], mais soumis à d’autres principes d’équité dans le traitement de l’information, le cas échéant, notamment la responsabilité, la sauvegarde et la transparence (Canadian Anonymization Network, 2019b).

L’approche proposée par CANON estime à nouveau de l’infaillibilité de certaines formes de dépersonnalisation, à tel point qu’il propose que certaines utilisations des données ne soient absolument pas réglementées. L’approche de CANON présente des avantages évidents pour les détenteurs de données à grande échelle qui sont ses membres, mais elle ne tient pas compte des défauts inhérents à toutes les formes de dépersonnalisation.

Dans l’ensemble, même si la dépersonnalisation a son utilité dans certains domaines, elle présente des problèmes évidents en tant que cadre général de gouvernance des données. D’un point de vue technique, son intérêt réside dans la fourniture de directives réglementaires générales qui indiquent quand et comment les données peuvent être utilisées. Mais dans la pratique, nous constatons que ce n’est pas vraiment le cas. Les techniques en matière de dépersonnalisation impliquent un haut degré de nuance et de spécificité contextuelle que la législation doit largement ignorer pour la rendre utile et applicable du point de vue de la gouvernance.

Analyse conceptuelle et limites de la dépersonnalisation

Ces problèmes liés à la dépersonnalisation en tant qu’outil de gouvernance sont exacerbés par la conception étroite de la dépersonnalisation, qui estime que les préjudices relatifs aux données se produisent uniquement à l’échelle individuelle. Dans cette section, nous utilisons une perspective de la justice des données et de la démocratie des données afin de démontrer la nécessité d’un cadre de gouvernance qui prend en compte la relationnalité des données et qui peut conceptualiser les dommages aux données sur le plan structurel.

La vie privée en tant que bien individuel

Le concept de dépersonnalisation problématise les données à l’échelle individuelle. C’est le cas tant dans sa compréhension de ce qui doit être protégé – les renseignements personnels – que dans ce qui constitue la forme la plus élevée d’infraction ou de risque – la ré-identification.

Lorsque l’on examine les propositions en vue de dépersonnaliser les données personnelles, on peut être tenté de se rassurer en se disant que ses renseignements personnels ne seront pas rendus publics. Mais cela repose sur deux hypothèses : les individus sont les seuls propriétaires et maîtres de leurs données, et ce qu’il faut éviter, c’est la circulation de son nom, de sa photo et de ses informations « sensibles ». Cela est clairement démontré dans les modèles de données et de dommages aux données décrits dans les projets de loi C-11 et 64, car ils présentent la dépersonnalisation comme une autre option au consentement. Ce modèle part du principe que le préjudice est principalement causé par l’utilisation de données d’identification sans consentement explicite. Mais comme le souligne Wendy Chun dans Big Data as Drama (2016), ce raisonnement est erroné. En effet, Chun souligne que l’informatique fonctionne en réseau et en agrégats. Pour illustrer son propos, elle évoque la notion de quartiers. Comme elle l’explique, des entités comme Netflix ou Amazon « exploitent nos données non pas simplement pour identifier qui nous sommes (ce qui, compte tenu de nos témoins et de notre tendance à personnaliser nos machines, est très facile), mais pour nous identifier par rapport à d’autres “comme nous” (2016, p. 370). » C’est le profil que nous représentons en ligne – et en particulier sa relation avec d’autres profils (quartiers) – qui produit des données pouvant être utilisées afin de prédire, spéculer et alimenter des modèles à grande échelle. Ce n’est qu’à travers ces relations que les données prennent de la valeur dans le contexte d’une économie des mégadonnées.

Dans le cadre de ce modèle, la vie privée comporte désormais une composante relationnelle et temporelle; on est touché en tant que membre d’un quartier et en tant que futur sujet des produits algorithmiques. Suivant le concept de quartiers de Chun, les réseaux qui constituent les mégadonnées sont publics, collectifs et relationnels par nature; la protection de la vie privée doit suivre ce modèle et cette échelle. Dans la lignée de Chun, Salomé Viljoen soutient également dans Data as Property? que « la production de données place les individus dans des relations de population les uns avec les autres; les effets sociaux qui en résultent ne peuvent pas être réduits de manière adéquate à des préoccupations individualistes ni être traités par des institutions centrées sur l’individu (Viljoen, 2020a, 2020b). »

En conséquence, Linnet Taylor nous incite à envisager la vie privée à l’échelle du groupe, car ces collectifs ou quartiers s’inscrivent dans les structures existantes du pouvoir social. Elle propose que nous envisagions la vie privée non pas en termes de propriété de nos renseignements personnels, mais en tant qu’équilibre de la tension entre visibilité et invisibilité (2017). Cependant, l’approche de Taylor développe cette notion en vue de décrire la relation entre les citoyens et l’État. En proposant d’équilibrer les données d’un groupe qui devraient être visibles pour l’État, Taylor réaffirme que la visibilité ou la transparence ne suffisent pas à faire respecter le locus de pouvoir. Comme le souligne Taylor, maintenir cette tension dans les politiques de données et de protection de la vie privée nécessite « un cadrage plus détaillé des besoins de visibilité et de protection de la vie privée informationnelle [qui] devrait prendre en compte le travail effectué sur la protection de la vie privée aux marges sociales, les risques pour la vie privée des groupes par le profilage collectif et la mesure dans laquelle les données peuvent être considérées comme un bien public (2017, p. 9). » Par conséquent, le changement que Taylor propose dans notre compréhension des données et de la vie privée est conforme aux principes de la justice et de la démocratie des données qui seront discutés dans les sections suivantes.

En outre, l’approche de Taylor en matière d’(in)visibilité – équilibrant les excès potentiels négatifs et positifs – mobilise l’utilisation des données et la manière dont elles continuent à circuler et à produire de la valeur une fois recueillies. Si les données dépersonnalisées peuvent être utilisées sans le consentement ou la connaissance des personnes, non seulement certains groupes risquent davantage d’être hypervisibles (Gangadharan, 2012), mais d’autres groupes peuvent être complètement effacés des ensembles de données (D’Ignazio et Klein, 2020). L’approche de l’(in)visibilité des données proposée par Taylor tient compte des préoccupations en matière de respect de la vie privée et aborde les limites bien documentées des réglementations relatives aux données. Alors que la dépersonnalisation conceptualise la visibilité comme une identification, Taylor soutient que ce qui est visible est ce qui peut être ordonné ou placé dans un schéma rythmique (voir Carmi, 2020). Ce qui est invisible est conceptualisé comme étant hors de portée ou illisible pour une structure de pouvoir donnée. Taylor nous rappelle que lorsque l’on estime des données à l’échelle d’une population, il y a de la valeur et du risque dans les deux pôles. Pour que les cadres de gouvernance des données tiennent compte des préjudices collectifs, de la justice et de la vie privée, ils doivent tenir compte de ces deux pôles, même lorsqu’ils sont en tension l’un avec l’autre.

Viljoen (2020a, 2020b) regroupe la réglementation des données en deux catégories : la réglementation propre et la réglementation digne. Ces catégories se distinguent par les hypothèses qu’elles formulent sur la nature des données ainsi que sur le type de risque ou de préjudice appelant une réparation. Selon elle, le « propriétariste » considère les données comme un travail ou un bien injustement distribué, tandis que le « dignitaire » les considère comme des droits individuels qui doivent être revendiqués et protégés (2020a, 2020b). Viljoen démontre que tous deux ne tiennent pas compte de l’échelle relationnelle, collective et structurelle des données, car ils sont tous deux ancrés dans les droits individuels. Compte tenu du concept de quartiers de Chun et de l’approche d’(in)visibilité proposée par Taylor, les hypothèses de la dépersonnalisation concernant les données – à savoir qu’il s’agit d’une propriété et d’un droit individuel – sont incorrectes. Ces hypothèses sur les données doivent être modifiées pour faire face aux dommages et aux risques produits par la nature relationnelle et structurelle des données.

Sur la question du préjudice structurel : Que construisent les données dépersonnalisées et pour qui?

Sur un plan plus élevé, les politiques en matière de dépersonnalisation et de protection de la vie privée dans leur ensemble visent à protéger le public canadien. Il existe cependant un décalage entre le préjudice documenté et ce que les politiques reposant sur la dépersonnalisation tentent de résoudre.

La façon dont les préjudices relatifs aux données et la discrimination algorithmique sont imbriqués dans des systèmes sociopolitiques de pouvoir plus larges est désormais bien documentée. Les travaux de Safyia Noble (2018), Ruha Benjamin (2019) et Virginia Eubanks (2018) visent à rendre visible et à documenter la manière dont les technologies axées sur les données réinscrivent des systèmes d’oppression tels que la race et la classe, tout en prétendant être neutres. Des universitaires comme Joanna Redden, Jessica Brand et Vanesa Terzieva (2020), et Lina Dencik et coll. (2019), ont documenté la façon dont ces préjudices existent à l’échelle structurelle, collective et systémique plutôt qu’à l’échelle individuelle en compilant des enregistrements de ces récits. Nous pouvons réfléchir ici à la reconnaissance faciale, à l’optimisation des moteurs de recherche et à la surveillance des migrants comme exemples de préjudices structurels que nos approches actuelles de la gouvernance des données – y compris la dépersonnalisation – ne peuvent pas traiter.

Une façon de prévenir ces préjudices est de se poser la question : À quoi servent les données dépersonnalisées et pour qui? La réponse met en évidence les nuances des positions des sujets qui bénéficient de la technologie, ainsi que de ceux qui ont le pouvoir de façonner et de construire ces technologies. Catherine D’Ignazio et Lauren Klein (2020), ainsi que Sasha Costanza-Chock (2020), ont largement documenté la manière dont les technologies axées sur les données peuvent renforcer les relations de domination.

Ainsi, le préjudice structurel peut résulter à la fois d’une conception individuelle des données et de la neutralité perçue des données dépersonnalisées. Centrer la question « À quoi servent les données dépersonnalisées et pour qui? » dans la gouvernance des données nous permettrait d’engager des conversations plus approfondies sur les personnes qui sont lésées de manière différentielle par les données, ainsi que de nous mobiliser de manière critique sur le fait que ces technologies ne sont pas neutres et nécessitent donc un examen minutieux. Comme l’affirme Orla Lynskey (2019), le fait de réfléchir aux préjudices relatifs aux données de manière structurelle rappelle également comment le pouvoir des données est mobilisé afin d’influencer les politiques publiques et peut se superposer au pouvoir du marché. Il est important que les politiques en matière de gouvernance des données et de protection de la vie privée tiennent compte à la fois de ce que les données – dépersonnalisées ou non – sont utilisées pour créer et de la manière dont cette structure reproduit les relations d’oppression, de discrimination et de domination créées historiquement.

La question de savoir qui et quoi bénéficie de la dépersonnalisation des données est particulièrement pertinente compte tenu des efforts de lobbying déployés au nom de CANON et des principaux fournisseurs de télécommunications du Canada en faveur de la dépersonnalisation des données. Dans ce cas, il y a un chevauchement évident entre le pouvoir des données et le pouvoir du marché. En outre, si les avantages pour les détenteurs de données ont été bien établis, ceux pour les consommateurs et les citoyens sont moins clairs. Il est impératif que ces implications structurelles, qui résultent directement de l’autorisation de l’utilisation généralisée de données dépersonnalisées, soient soigneusement prises en compte dans le processus d’élaboration des politiques.

D’autres perspectives à envisager : La gouvernance des données au-delà de la vie privée

Compte tenu de ces questions, nous soutenons que l’adoption d’une perspective de la justice et de la démocratie en matière de données est un premier pas nécessaire vers un cadre de gouvernance des données équitable et holistique pour le Canada.

Avec le concept de « démocratie des données », Salomé Viljoen (2020a; 2020b) nous invite à réfléchir aux données comme une ressource démocratique à des fins démocratiques. Un tel cadre tient compte de la nature relationnelle et collective des données, de la manière dont elles s’inscrivent dans les structures et les relations de pouvoir existantes, produisant ainsi des préjudices structurels, et définit la limite légitime à laquelle un gouvernement peut recueillir, autoriser et utiliser des données - dépersonnalisées ou non.

En ce qui concerne la « justice des données », nous nous inspirons des travaux de Linnet Taylor (2017) qui nous incite à penser à trois « piliers » construits en vue d’atteindre les principes de capacité humaine comme objectif final de la gouvernance des données. Ces piliers sont : (in)visibilité, (dé)mobilisation, et antidiscrimination. L’(in)visibilité, comme nous l’avons décrit plus haut, vise à maintenir un équilibre entre ce qui est et n’est pas rendu lisible par ceux qui détiennent le pouvoir de l’État ou du marché. La (dé)mobilisation fait alors référence au droit de faire partie de la collecte et de l’utilisation des données et de s’en retirer. Enfin, l’antidiscrimination s’intéresse aux questions en matière de préjudice structurel et de déséquilibre des pouvoirs. Les trois piliers tiennent compte des potentiels positifs et négatifs de l’utilisation des données.

Dans l’ensemble, la justice des données et la démocratie des données sont deux approches différentes qui ont en commun des engagements semblables. La démocratie des données s’intéresse à la manière dont nous mobilisons les données en tant que ressource démocratique à des fins démocratiques. D’autre part, la justice des données souligne que de nombreuses tensions doivent être maintenues en équilibre afin de permettre la justice à travers un cadre de capacités humaines. Pris ensemble, ces cadres permettent une approche de la gouvernance des données qui tient compte de la nature collective, relationnelle et structurelle des données, tout en œuvrant à la justice sociale.

Gouvernance des données, pouvoir et interface floue entre le public et le privé

Les facettes relationnelles et structurelles des données, sur lesquelles la démocratie et la justice des données attirent toutes deux l’attention, sont particulièrement importantes lorsque l’on envisage la gouvernance des données dans l’économie actuelle des données. Les citoyens fournissent des données personnelles à leur gouvernement en échange de l’accès à des protections ou à des services. Nous pouvons réfléchir ici à la collecte de données dans le cadre du recensement, ou à l’échange de données cliniques afin de permettre la recherche de vaccins contre la COVID-19. Dans de tels cas, les citoyens font volontairement et en toute connaissance de cause confiance à leurs gouvernements et leur transmettent leurs renseignements personnels. Dans le même temps, compte tenu de l’économie actuelle des données, les gouvernements ont également la responsabilité de protéger la vie privée des citoyens et les droits relatifs aux données. Dans de nombreux cas, ces deux devoirs sont en contradiction l’un avec l’autre.

Salomé Viljoen décrit la tension entre ces rôles en soulignant que gouverner avec un engagement envers le bien-être public « nécessitera toujours de trouver un équilibre entre la nécessité de recueillir des renseignements importants, parfois très personnels et conséquents, auprès des citoyens, et le risque d’oppression et de coercition indue qui accompagne une telle collecte (2020b, p. 59). » De même, Taylor souligne la manière dont cet échange est formateur et performatif de la relation entre les citoyens et les États; elle donne l’exemple du recensement. Pourtant, cette relation traditionnelle de gouvernance est compliquée par la nature de l’économie des données. Taylor pose cette question difficile, mais cruciale : « Si les données démographiques de l’État sont bientôt composées au moins en partie de données recueillies de façon commerciale et mises à jour en temps réel, et que ces données peuvent indiquer au gouvernement non seulement des faits traditionnels sur la population, mais au contraire presque tout, où s’arrête l’observation légitime et où commence la surveillance illégitime (Taylor, 2017, p. 10)? »

La distinction entre participation démocratique et exercice démocratique du pouvoir doit être prise en compte dans la gouvernance des données. Comme le souligne Taylor (2021), une façon d’analyser ces intérêts est de réfléchir à la question de la collecte et de l’utilisation légitimes des données. Comme elle le développe dans son article « Public Actors Without Public Values : Legitimacy, Domination and the Regulation of the Technology Sector », la légitimité doit être déterminée par rapport aux citoyens et à l’intérêt public dans la mesure où les utilisations des données déterminées démocratiquement ne sont pas arbitraires, car elles impliquent les personnes concernées.

La complexité de la relation entre le citoyen et le gouvernement est exacerbée par la frontière de plus en plus floue entre les institutions publiques et privées. Comme l’a démontré Linnet Taylor, les gouvernements s’appuient de plus en plus sur le secteur privé pour obtenir des produits, l’expertise de consultants et la puissance de traitement du secteur privé, ce qui brouille la frontière entre le public et le privé (Taylor 2017, 2021). Cela peut compromettre la légitimité du gouvernement dans son utilisation des données, notamment dans les cas où les décisions prises sont perçues comme favorisant des intérêts privés. Dans de tels cas, la relation de confiance entre un gouvernement et ses citoyens est érodée.

Pour être clair, la question à laquelle nous faisons référence ici n’est pas l’existence d’une interface public-privé. L’existence de flux de données public-privé ou l’utilisation publique d’une expertise privée n’est pas problématique en soi. Nous mettons plutôt en garde contre le fait que les gouvernements doivent d’abord et avant tout rendre des comptes à leur population. Même dans les cas où un tel conflit n’existe pas dans la pratique, le fait que le gouvernement s’appuie de plus en plus sur les ressources du secteur privé peut donner l’impression d’un conflit – ce qui érode encore plus la légitimité du gouvernement par rapport à son utilisation des données. Comme l’affirme Taylor, la relation entre les États et les entreprises engagées et bénéficiaires de fonds publics doit être transparente afin de permettre aux citoyens de prendre part à cette conversation qui se déroule actuellement à huis clos (Taylor, 2021). De ce point de vue, des initiatives telles que CANON sont problématiques dans la mesure où elles donnent l’impression que des acteurs du secteur privé travaillent contre l’intérêt public en proposant un programme qui favorise des régimes de gouvernance des données de plus en plus opaques.

Vers un cadre de gouvernance des données relationnelles

Cet écosystème de gouvernance en évolution nécessite un cadre de gouvernance des données qui tient compte des limites de la dépersonnalisation ainsi que du caractère relationnel des données. Le cas des données de réseau des fournisseurs de services de télécommunication (FST) et des fournisseurs de services Internet (FSI) illustre les ramifications de la nature relationnelle des données et la manière dont elle devrait influencer la législation sur la protection de la vie privée et la gouvernance des données.

Les données NetFlow sont une forme de données réseau qui a gagné en popularité ces dernières années afin de surveiller la sécurité du réseau. Les données NetFlow sont les deux ensembles unidirectionnels de métadonnées sur le trafic réseau (serveur à client, client à serveur) qui sont recueillies, utilisées et vendues par les FST pour une myriade de raisons (Laman, 2019; Cox, 2021). Il est important de noter que ce type d’informations sur le réseau peut désormais être recueilli et structuré automatiquement, et qu’il peut également façonner les automatisations du réseau, telles que la surveillance des activités « normales » du réseau, la signalisation des logiciels malveillants et de l’utilisation de réseaux de zombies, et, d’une manière générale, la réduction des risques pour le réseau (Pérez et coll., 2017).

Pour de nombreux experts en cybersécurité, les données NetFlow présentent des avantages cruciaux par rapport à l’inspection approfondie des paquets (IAP), une technique traditionnellement utilisée pour assurer la sécurité des réseaux. En effet, l’IAP se concentre sur l’analyse du contenu pour surveiller l’activité du réseau, tandis que les données NetFlow représentent les relations entre les nœuds du réseau. En définitive, les relations entre les acteurs sont plus révélatrices pour les autorités et les experts en sécurité des réseaux que le contenu de leurs discussions. Par exemple, un client qui fait référence au « terrorisme » dans son contenu est une preuve moins fiable d’activités terroristes qu’un ordinateur client communiquant avec un terroriste connu. Bien que l’IAP soit toujours utilisé (ou utilisé conjointement avec les données NetFlow), les données NetFlow gagnent du terrain, car elles sont considérées comme davantage efficaces à l’échelle et moins susceptibles d’enfreindre la législation relative à la protection de la vie privée.

Les données NetFlow sont constituées de cinq types d’informations distinctes : IP source, IP de destination, port source, port de destination, protocole (Laman, 2019). Pris ensemble, ces éléments d’information indiquent plus ou moins « qui parle à qui, et pendant combien de temps ». Selon Yurcik et coll., les données NetFlow contiennent également des renseignements privés tels que « des renseignements qui permettent d’identifier l’utilisateur (contenu de l’utilisateur comme les messages électroniques et les URL) et le comportement de l’utilisateur (schémas d’accès, utilisation des applications) ainsi que les adresses des machines ou des interfaces telles que les adresses IP et MAC (2014, p. 2). » Ainsi, les FSI ou les FST ont tout intérêt à plaider en faveur de la codification de la dépersonnalisation, d’autant plus qu’elle maximiserait l’utilité et le profit qui peuvent être tirés des données NetFlow qu’ils possèdent déjà.

L’utilisation et le traitement des données NetFlow illustrent les tensions entre la sécurité des réseaux, le respect de la vie privée et les préoccupations sociopolitiques plus larges entourant la gouvernance des données. Comme nous l’avons démontré, les régimes actuels en matière de protection de la vie privée et des données comprennent et visent à atténuer les dommages au niveau individuel. Et sur le plan individuel, les données NetFlow présentent très peu de risques. Cependant, lorsque les données NetFlow sont agrégées, et lorsque ces données agrégées sont appliquées à des cas extérieurs à la sécurité des réseaux, ces informations en disent long sur une population donnée. Telus, par exemple, préconise l’utilisation de données NetFlow agrégées comme moyen d’établir des « modèles de population » (Telus, 2019). Dans de tels cas, le choix d’un individu d’accepter ou de refuser que ses données soient recueillies n’a aucune importance lorsque les effets de la collecte de données se font sentir à l’échelle de la communauté ou de la population.

Dans les données NetFlow que les FSI ou les FST produisent et utilisent, nous cernons trois niveaux de relationnalité : infrastructurel, humain et algorithmique. Sur le plan infrastructurel, les données NetFlow sont le produit des clients et des serveurs qui communiquent entre eux; ce sont les renseignements entourant les paquets (d’où ils viennent, où ils vont). Sur le plan humain, il s’agit de renseignements sur l’emplacement physique des appareils et des personnes. Enfin, sur le plan algorithmique, les ensembles compilés et traités de données NetFlow sont souvent agrégés et analysés en tant que quartiers. Toutes les données fonctionnent avec ces différents plans en matière de relationnalité, ce qui explique pourquoi la protection des citoyens à l’échelle individuelle est imparfaite; nous sommes tous analysés et influencés en tant que groupes et, à ce titre, les préjudices et les risques se produisent également à l’échelle du groupe.

Conclusion

Comme nous l’avons démontré, la dépersonnalisation dans les cadres de gouvernance des données du Canada – comme l’illustrent les projets de loi C-11 et C-64 – est utilisée afin de permettre le traitement, le transit et la portabilité des données sans le consentement des personnes. Cette approche s’inspire des modèles du secteur des soins de santé et du RGPD de l’Union européenne, ainsi que des recommandations formulées par des groupes industriels tels que CANON avant le dépôt de ces projets de loi. Aborder la gouvernance des données de cette manière pose des défis à la fois techniques et conceptuels. Techniquement, cette approche ne tient pas compte de la fuite des données dépersonnalisées; la ré-identification est un risque persistant, et si des mesures peuvent être prises afin de réduire la probabilité de ré-identification, il est impossible de supprimer complètement ce risque. En traitant les données de manière binaire – soit personnelles, soit non personnelles – et en faisant de la dépersonnalisation la norme pour passer d’un pôle à l’autre, cette approche offre des protections insuffisantes, car elle conçoit mal les données et le risque relatifs à ces dernières.

Ensuite, nous avons appliqué la perspective de la justice et de la démocratie des données afin d’examiner les limites conceptuelles de la politique en matière de dépersonnalisation. En particulier, ces cadres démontrent que le problème fondamental que la dépersonnalisation tente de résoudre ne tient pas compte de la nature relationnelle des données. Comme nous l’avons souligné, de nombreux risques découlent de la problématisation actuelle et inadéquate de la vie privée en tant que bien individuel, de l’absence de reconnaissance des préjudices structurels relatifs aux données (qu’est-ce que la construction de données, et pour qui), et du déséquilibre du pouvoir (qui possède les données et gouverne avec les données). En outre, nous soulignons l’importance de tenir compte du caractère flou de l’interface privé-public, ainsi que de la nature relationnelle des données.

L’attrait de la dépersonnalisation des données en tant que mécanisme de gouvernance des données réside dans le fait qu’elle peut fournir un mécanisme clair et applicable pour permettre une économie des données qui préserve la vie privée. Dans la pratique, cependant, la dépersonnalisation n’est ni aussi claire ni aussi respectueuse de la vie privée qu’il n’y paraît. En outre, le fait que la dépersonnalisation des données se concentre sur le risque pour les personnes signifie que, même dans le cas idéal, elle ne permet pas de traiter les préjudices structurels liés aux données. Telle qu’elle a été employée dans les politiques et les réglementations, la dépersonnalisation ouvre la voie à des pratiques opaques en matière de données, ce qui soulève des préoccupations importantes dans le contexte d’une économie des données concentrée. Comme le montrent les cadres de la justice et de la démocratie des données, les dimensions relationnelles et structurelles des données doivent être prises en compte lors de l’évaluation des dommages potentiels des données. Autoriser des pratiques opaques sans tenir compte de ces dimensions signifie non seulement que ces préjudices ne seront pas prévenus, mais aussi qu’ils sont plus susceptibles de se produire.

Bibliographie

Projet de loi C-11 : Loi édictant la Loi sur la protection de la vie privée des consommateurs et la Loi sur le Tribunal de la protection des renseignements personnels et des données et apportant des modifications corrélatives et connexes à d’autres lois, C-11, Chambre des communes du Canada, deuxième session, quarante-troisième législature, 69 Elizabeth II, 2020 (2020).

Barth-Jones, D. (2012). The “Re-Identification” of Governor William Weld’s Medical Information: A Critical Re-Examination of Health Data Identification Risks and Privacy Protections, Then and Now (SSRN, Scholarly Paper ID 2076397). Social Science Research Network.

Bell Média. (2021, 1er novembre). Bell Média lance Bell DSP, une nouvelle plateforme de technologie publicitaire pour les annonceurs. Bell Média.

Benjamin, R. (2019). Race After Technology: Abolitionist Tools for the New Jim Code. Polity.

Boutilier, A. (2022, 13 janvier). Canada’s Privacy Watchdog Probing Health Officials’ Use of Cellphone Location Data. Global News.

Canadian Anonymization Network. (2019a). CANON | Canadian Anonymization Network. CANON | Canadian Anonymization Network.

Canadian Anonymization Network. (2019b, 15 octobre). Submission re: ISED’s “Strengthening Privacy for the Digital Age”.

Carmi, E. (2020). Rhythmedia: A Study of Facebook Immune System. Theory, Culture & Society, 37(5), 119-138.

Cavoukian, A., et D. Castro. (2014). Big Data and Innovation, Setting the Record Straight: De-identification Does Work. Commissaire à l’information et à la protection de la vie privée de l’Ontario, Canada.

Chun, W.H.K. (2016). Big Data as Drama. ELH, 83(2), 363-382.

Costanza-Chock, S. (2020). Design Justice: Community-led Practices to Build the Worlds We Need. The MIT Press.

Cox, J. (2021, 24 août). How Data Brokers Sell Access to the Backbone of the Internet. Vice.

Culnane, C., B.I.P. Rubinstein et V. Teague. (2017). Health Data in an Open World. ArXiv:1712.05627 [Cs].

Dencik, L., A. Hintz, J. Redden et E. Treré. (2019). Exploring Data Justice: Conceptions, Applications and Directions. Information, Communication & Society, 22(7), 873-881.

D’Ignazio, C., et L.F. Klein. (2020). Data Feminism. The MIT Press.

Doctorow, C. (2014, 9 juillet). Big Data Should Not Be a Faith-based Initiative. Boing Boing.

Environics Analytics. (2020, 1er décembre). EA Partners with Bell. Environics Analytics.

Eubanks, V. (2018). Automating Inequality: How High-tech Tools Profile, Police, and Punish the Poor. St. Martin’s Press.

Commission européenne. (2021, 28 juin). Adequacy Decisions. Commission européenne.

Règlement relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données), no 2016/679, 1 (2016).

Loi sur l’accès à l’information et la protection de la vie privée, L.R.O. 1990, chap. F.31 (2021).

Gangadharan, S.P. (2012). Digital Inclusion and Data Profiling. First Monday, 17(5).

Ghinita, G., P. Kalnis et Y. Tao. (2011). Anonymous Publication of Sensitive Transactional Data. IEEE Transactions on Knowledge and Data Engineering, 23(2), 161-174.

Santé Canada. (2019). Ligne directrice : diffusion publique des renseignements cliniques.

Hemmadi, M. (2019, 25 avril). Privacy Commissioner Taking Facebook to Court to Try and Force Privacy Changes. The Logic.

Hern, A. (2017, 1er août). “Anonymous” Browsing Data Can Be Easily Exposed, Researchers Reveal. The Guardian.

Hintze, M. (2018). Viewing the Gdpr Through a De-identification Lens: A Tool for Compliance, Clarification, and Consistency. International Data Privacy Law, 8(1), 86-101.

Huser, V., et D. Shmueli-Blumberg. (2018). Data Sharing Platforms for De-identified Data from Human Clinical Trials. Clinical Trials, 15(4), 413-423.

Commissaire à l’information et à la protection de la vie privée de l’Ontario. (2016). De-identification Guidelines for Structured Data.

Laman, A. (2019). Network Flow Data: A Cornucopia of Value. The Blue Team Summit, SANS Institute.

Projet de loi no 64, Loi modernisant des dispositions législatives en matière de protection des renseignements personnels, 64, Assemblée nationale du Québec, 42e législature, 1re session (2021).

Lynskey, O. (2019). Grappling with “Data Power”: Normative Nudges from Data Protection and Privacy. Theoretical Inquiries in Law, 20(1), 189-220.

Narayanan, A., et E. Felten. (2014). No Silver Bullet: De-identification Still Doesn’t Work. Princeton Center for Information Technology.

Narayanan, A., J. Huey et E.W. Felten. (2016). A Precautionary Approach to Big Data Privacy. Dans S. Gutwirth, R. Leenes et P. De Hert (dir.), Data Protection on the Move (vol. 24, p. 357-385). Springer Netherlands.

Noble, S.U. (2018). Algorithms of Oppression: How Search Engines Reinforce Racism. New York University Press.

Parsons, C. (2022). Standing Committee on Access to Information, Privacy and Ethics: Study on Collection and Use of Mobility Data by the Government of Canada. Citizen Lab.

Pérez, M.G., A.H. Celdrán, F. Ippoliti, P.G. Giardina, G. Bernini, R.M. Alaez, E. Chirivella-Perez, F.J.G. Clemente, G.M. Pérez, E. Kraja, G. Carrozzo, J.M.A. Calero et Q. Wang. (2017). Dynamic Reconfiguration in 5G Mobile Networks to Proactively Detect and Mitigate Botnets. IEEE Internet Computing, 21(5), 28-36.

Redden, J., J. Brand et V. Terzieva. (2020, août). Data Harm Record. Data Justice Lab.

Rocher, L., J.M. Hendrickx et Y.-A. de Montjoye. (2019). Estimating the Success of Re-identifications in Incomplete Datasets Using Generative Models. Nature Communications, 10(1), 3069.

Rosner, G. (2019). De-identification as Public Policy. Commissariat à la protection de la vie privée du Canada.

Roth, A. (2018, 19 octobre). Privacy Expert Ann Cavoukian Resigns as Adviser to Sidewalk Labs. The Logic.

Roth, A. (2019, 5 juin). Several Big Tech Critics Urge City of Toronto to Abandon Sidewalk Labs Smart-city Project. The Logic.

Taylor, L. (2017). What Is Data Justice? The Case for Connecting Digital Rights and Freedoms Globally. Big Data & Society, 4(2), 2053951717736335.

Taylor, L. (2021). Public Actors Without Public Values: Legitimacy, Domination and the Regulation of the Technology Sector. Philosophy & Technology.

Telus. (s.d.). Les données au service du bien commun. Telus. Sur Internet : (consulté le 16 novembre 2021).

Telus. (2019, 21 novembre). Centre de protection de la vie privée — Analyse des mégadonnées. TELUS.

Trudeau, J. (2021, 16 décembre). Lettre de mandat du ministre de l’Innovation, des Sciences et de l’Industrie.

Viljoen, S. (2020a, 16 octobre). Data as Property? Phenomenal World.

Viljoen, S. (2020b). Democratic Data: A Relational Theory of Data Governance (SSRN, Scholarly Paper ID 3727562). Social Science Research Network.

Yurcik, W., C. Woolam, L. Khan et B. Thuraisingham. (2014, juin). A Software Tool for Multi-Field MultiLevel NetFlows Anonymization.

Date de modification :