Teugels, Simon
[UCL]
Nijssen, Siegfried
[UCL]
(fre)
Dans un contexte de méfiance grandissante envers les grandes entreprises et leur gestion des données, Bpost souhaite allier respect de la vie privée et performance afin de fournir à ses clients un service de distribution de flyers de qualité. Dans ce mémoire, il nous était demandé de trouver une solution pour dénombrer les adresses auxquelles distribuer des flyers. Afin de rendre cela possible, il était nécessaire à Bpost de proposer une méthode relativement simple pour sélectionner la zone géographique dans laquelle les flyers seront distribués. Le principal critère à respecter était de ne pas permettre aux utilisateurs de découvrir une zone dans laquelle se trouveraient moins de 80 adresses. Cette contrainte se fonde sur la lecture et l'interprétation du RGPD faite par Bpost. Nous avons également été tenus de respecter d'autres contraintes d'efficacité concernant les centres de distribution et les segments d'activité auxquels appartiennent les adresses sélectionnées afin de faciliter les procédures liées à ce service. Le plan a, dans un premier temps, été recouvert de polygones grâce à un diagramme de Voronoï en utilisant les adresses comme germes. Nous avons ensuite fusionné ces polygones jusqu'à atteindre le seuil de 80 adresses préalablement fixé, et ce, tout en respectant les critères imposés. L'algorithme que nous avons construit, codé en Python, s'inspire de celui de Casper et de sa structure pyramidale pour former plusieurs niveaux ainsi que de son fonctionnement bottom-up pour la sélection des adresses à proprement parler. L'utilisation de ces niveaux étant sujette à de potentielles attaques, nous avons également envisagé la possibilité de n'utiliser que le dernier niveau. Les résultats que nous avons obtenus sont dans les deux cas satisfaisants. Bien entendu, la précision se détériore quelque peu lorsque nous n'utilisons que le dernier niveau. Ceci étant, nous pouvons tout de même envisager l'utilisation de cette version si le risque d'attaque est jugé trop important. L'objectif de fournir une solution respectueuse de l'anonymat et aussi précise que possible à Bpost afin de dénombrer le nombre d'adresses se trouvant dans un périmètre donné autour d'un point est atteint.
(eng)
In a context of growing mistrust of large companies and their data management, Bpost wishes to combine privacy and performance in order to provide its customers with a quality flyer distribution service. In this master thesis, we were asked to find a solution to count the addresses to distribute flyers to. In order to make this possible, it was necessary for Bpost to propose a relatively simple method to select the geographical area in which the flyers will be distributed. The main criterion to be met was not to allow users to discover an area with less than 80 addresses. This constraint is based on Bpost's reading and interpretation of the GPDR. We have also had to comply with other efficiency constraints regarding the distribution centres and activities segments to which the selected addresses belong in order to facilitate the procedures related to this service. The plan was first covered with polygons using a Voronoi diagram using the addresses as germs. We then merged these polygons until we reached the threshold of 80 addresses previously set, while respecting the criteria imposed. The algorithm we have built, coded in Python, is inspired by Casper's algorithm and its pyramidal structure to form several levels as well as its bottom-up operation for the actual address selection. As the use of these levels is subject to potential attacks, we also considered the possibility of using only the last level. The results we have obtained are satisfactory in both cases. Of course, the accuracy deteriorates somewhat when we use only the last level. However, we can still consider using this version if the risk of attack is considered too high. The objective of providing Bpost with a solution that respects anonymity and is as precise as possible in order to count the number of addresses in a given area around a point is achieved.
Bibliographic reference |
Teugels, Simon. Amélioration des zones d'adresses chez Bpost. Ecole polytechnique de Louvain, Université catholique de Louvain, 2019. Prom. : Nijssen, Siegfried. |
Permanent URL |
http://hdl.handle.net/2078.1/thesis:19532 |