Sujet de thèse IFSTTAR

 

English version

Fiche détaillée :

Titre : Fusion de données multi-sources pour l’analyse de la mobilité

Laboratoire principal - Référent principal COSYS - GRETTIA  -  COME Etienne      tél. : +33 181668718 
Directeur du laboratoire principal OUKHELLOU Latifa  -  
Laboratoire 2 - Référent COSYS - LICIT  -  FURNO angelo  -  
Spécialité de la thèse Mathématiques appliqués - Informatique
Axe 1 - COP2017 - Transporter efficacement et se déplacer en sécurité
Site principal Marne-la-Vallée
Etablissement d'inscription UNIVERSITE PARIS-EST
Ecole doctorale MATHEMATIQUES ET SCIENCES ET TECHNOLOGIES DE L'INFORMATION ET DE LA COMMUNICATION (MSTIC)
Directeur de thèse prévu OUKHELLOU Latifa  -  Université Gustave Eiffel  -  COSYS - GRETTIA
Co-directeur de thèse prévu EL FAOUZI Nour-Eddin  -  Université Gustave Eiffel  -  COSYS - LICIT-ECO7
Type de financement prévu Contrat doctoral  - Ifsttar

Résumé

Cette thèse explore la génération et l'utilisation de données sûres et précises pour décrire la mobilité des personnes en environnement urbain. Une attention particulière est donnée aux matrices Origine-Destination (OD) obtenues à partir des données de téléphonie mobile, qui décrivent les flux de population entre les zones d'une ville. Ces données sont caractérisées par de gros volumes, qui nécessitent des solutions de traitement légères, et une grande variété, impliquant un risque pour la vie privée des personnes effectuant des déplacements peu communs.

Dans une première partie, nous développons un algorithme pour garantir efficacement la k-anonymisation de telles matrices OD par généralisation et suppression. Notre méthode implémente une contrainte dure sur le nombre de déplacements pouvant être supprimés, afin de maintenir la représentativité des données.
La généralisation spatiale est formalisée comme un problème de sac à dos avec arbre de dépendances, dont le dual peut être résolu efficacement à l'aide du "Some Breakpoints Algorithm".
Nous étudions également les propriétés de la relaxation du problème, qui ne garantit pas un nombre maximum de déplacements supprimés mais plutôt un niveau maximum de généralisation. Nous comparons nos approches à une variété de méthodes d'anonymisation de l'état de l'art sur une collection de matrices OD à grande échelle.

Dans une deuxième partie, nous proposons deux étapes pour générer des déplacements synthétiques plus réalistes à l'aide de matrices OD dynamiques.
Dans un premier temps, nous calibrons la répartition temporelle des déplacements effectués dans la journée en la formalisant comme un problème de population hiérarchique. Dans un second temps, nous tirons les emplacements d'activité en utilisant les matrices OD comme probabilités de transition dans un modèle graphique probabiliste.
Nous illustrons un écueil dans l'estimation d'un tel modèle lors de la mise en œuvre de contraintes d'agendas, telles que le fait que toutes les activités "Domicile" doivent avoir lieu au même endroit. Ces contraintes créent des cycles dans les graphes, qui invalident l'utilisation directe des matrices OD comme estimateurs du maximum de vraisemblance. Nous remplaçons cet estimateur par une adaptation heuristique, et nous proposons plusieurs structures de graphes correspondant à différents compromis entre le respect des matrices OD et le respect des enquêtes. Cela permet de donner une mesure quantitative des écarts entre les matrices OD et les enquêtes de transport, dont l'existence est connue mais difficile à mesurer comme les deux sources ne décrivent pas les mêmes objets.

Ce travail s'inscrit dans le contexte de l'apparition de sources passives dans les études de transports, qui collectent des informations sur les voyageurs sans intervention de leur part et généralement à leur insu.
Elles apportent des informations précieuses sur la dynamique des trajets en raison de leur taux de pénétration inégalé, mais constituent également une responsabilité éthique en raison de leur potentiel de contrôle sur la population. En garantissant une anonymisation à toute épreuve des données et en illustrant leur utilisation dans la synthèse de demande de déplacement, nous visons à répondre au problème de la vie privée tout en les exploitant pour produire un aperçu réaliste et exhaustif des transports urbains.

Mots-clefs: Mobility, OD matrices, Anonymization, Generalization and suppression, Synthetic travel demand, Probabilistic graph models.
Liste des sujets
Candidatures fermées