Sujet de thèse IFSTTAR |
English versionFiche détaillée :
Titre : Apports de l'intelligence artificielle générative pour la détection d’événements critiques dans l’épisode de conduite d’un deux-roues électrique
Laboratoire principal - Référent principal SATIE - BOUBEZOUL Abderrahmane tél. : +33 181668321 Directeur du laboratoire principal KHATIR Zoubir - Spécialité de la thèse IA, Traitement et analyse de données Axe 1 - COP2017 - Transporter efficacement et se déplacer en sécurité Site principal Versailles-Satory Etablissement d'inscription UNIVERSITE PARIS - SACLAY Ecole doctorale STIC - Sciences et technologies de l'Information et de la Communication Directeur de thèse prévu BOUBEZOUL Abderrahmane - Université Gustave Eiffel - SATIE Type de financement prévu Contrat doctoral - Université Gustave Eiffel Résumé
L'intelligence artificielle (IA) générative offre de nombreuses promesses, tout en soulevant des questions quant à son utilité et à ses performances dans ses multiples applications. Cette thèse se concentre sur l’apport de l’IA générative à la sécurité routière, en se focalisant plus particulièrement sur la sécurité des deux-roues électriques.
En France, la population cycliste ne cesse de croître, accompagnée d’une augmentation significative des déplacements (+13 % en 2022 par rapport à 2021 et +41 % par rapport à 2018). Cependant, cette croissance s’accompagne d’une hausse du nombre de cyclistes tués (+31 % entre 2022 et 2019). Les vélos à assistance électrique (VAE) sont de plus en plus concernés, avec une augmentation de 72 % des décès liés à cette catégorie entre 2019 (25 décès) et 2022 (43 décès). Concernant les cyclomoteurs, l’augmentation du parc de deux-roues motorisés entraîne une hausse des blessures parmi les utilisateurs, notamment chez les jeunes (14-17 ans) qui se protègent insuffisamment face aux risques inhérents à la conduite de ce type de véhicule (ONISR, 2020).
Malgré cette augmentation du nombre d’usagers, le corpus de données scientifiques sur ces pratiques et cette population reste limité. Une analyse de la littérature révèle un manque de connaissances approfondies sur leurs comportements et leurs interactions avec d’autres usagers en situations réelles, notamment les usagers vulnérables.
L’objectif principal de cette thèse est de développer une méthodologie à destination des chercheurs dans le domaine des transports pour étudier le comportement des conducteurs de deux-roues électriques (VAE et scooters électriques) dans des situations à risque. Ces situations résultent souvent d’actions inappropriées, influencées par divers facteurs : expérience de conduite, état émotionnel (fatigue, frustration), dynamique du véhicule, infrastructure routière et conditions environnementales (météo, état de la chaussée, densité du trafic). Détecter ces situations à risque est un défi majeur, particulièrement pour les deux-roues, en raison de l’instabilité du véhicule et de la fragilité du conducteur, qui nécessitent une anticipation constante de l’évolution de l’environnement de conduite.
Cette thèse s’inscrit dans la continuité d’autres travaux axés sur la détection d’événements critiques dans la conduite des deux-roues. Des thèses antérieures, comme celles d’Attal (2015) et Diop (2022), ont exploré des approches basées sur l’apprentissage automatique non supervisé et la détection d’anomalies pour identifier les événements critiques à partir de données sur la dynamique des véhicules (accéléromètres, gyromètres) et leur contexte (GPS).
Dans le cadre du projet 2RLS, financé par la DSR, une étude a été menée pour améliorer les connaissances sur les utilisateurs de VAE et de scooters électriques en libre-service, sur leurs pratiques et les risques associés. Une expérimentation réalisée à Paris avec 19 participants sur un parcours de 10 km a permis de collecter des données hétérogènes : vidéos 360°, enregistrements audio, mesures accélérométriques et gyroscopiques, et données GPS.
L’objectif principal de cette thèse est d’exploiter cette masse de données en s’appuyant sur les récentes avancées en intelligence artificielle, notamment l’IA générative, pour détecter les événements critiques au cours de la conduite des deux-roues électriques. Une méthodologie intégrant des modèles de langage et de vision (LLM et VLM) sera développée pour analyser l’environnement de conduite capturé par des caméras 360°. Cette méthodologie combinera des techniques avancées de traitement d’images et de vidéos, telles qu’une méthode de sparsification des tokens vidéo, afin d’optimiser le traitement des grandes quantités de données générées. Les modèles VLM permettront une interprétation précise des scènes visuelles et la reconnaissance des objets, tandis que les LLM analyseront le contexte et comprendront les interactions complexes entre les différents éléments de l’environnement routier. Les informations extraites par les VLM, couplées aux données dynamiques du véhicule, permettront d’évaluer les risques associés aux interactions entre usagers de la route. Par exemple, un trafic dense et une chaussée mouillée représentent un risque accru d'freinage brutal ou d'accident. La présence d'un obstacle sur la route entraîne une augmentation du risque de collision en fonction de la densité du trafic.
Références:
1. Radford et al., 2021. CLIP: Connecting Vision and Language via Contrastive Learning – Propose une méthode d’apprentissage qui relie des images à des descriptions textuelles, permettant de reconnaître des objets et des scènes complexes.
2. Li, J., Li, D., Xiong, C., & Hoi, S. (2022, June). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning (pp. 12888-12900). PMLR.
3. Dosovitskiy et al., 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale – Utilisation de Transformers pour interpréter les scènes visuelles complexes, applicable à l'analyse de scènes routières.
4. Khan, S., Naseer, M., Hayat, M., Zamir, S. W., Khan, F. S., & Shah, M. (2022). Transformers in vision: A survey. ACM computing surveys (CSUR), 54(10s), 1-41.
5. L. H., Zhang, P., Zhang, H., Yang, J., Li, C., Zhong, Y., ... & Gao, J. (2022). Grounded language-image pre-training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10965-10975).
6. Zhang, J., Huang, J., Jin, S., & Lu, S. (2024). Vision-language models for vision tasks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence.
Mots-clefs: IA, LLM, VLM, Sécurité,, Deux roues électriques
Liste des sujets |
N'oubliez pas de contacter préalablement le référent ou le Directeur du laboratoire
|