Ce projet porte sur l’étude et le développement de modèles génératifs capables de reproduire des distributions à queues lourdes, en particulier celles issues de champs de pluie observés par radar. Les modèles génératifs actuels — VAEs, GANs et modèles de diffusion — excellent sur des données complexes comme les images ou les vidéos, mais leurs garanties théoriques reposent généralement sur des hypothèses incompatibles avec les distributions lourdes, qui caractérisent notamment les événements de pluie extrême. Or, la modélisation et la génération réaliste de ces extrêmes sont essentielles, notamment dans un contexte de changement climatique où leur fréquence est appelée à augmenter.
Plusieurs travaux récents ont tenté d’adapter les modèles génératifs à ces distributions atypiques : de nouvelles variantes de VAEs ont été proposées pour mieux explorer les extrêmes, et des versions « heavy-tailed » de modèles de diffusion ou de GANs montrent des résultats empiriques encourageants. Toutefois, ces approches manquent encore de garanties théoriques, et leur capacité à générer des champs spatio-temporels de pluie reste largement ouverte. L’objectif de la thèse est donc double : (1) établir des garanties théoriques pour la capacité des modèles génératifs à approximer des distributions à queues lourdes, en adaptant ou en développant de nouvelles techniques d’analyse ; (2) proposer des architectures et des schémas d’apprentissage spécifiquement conçus pour ces distributions.
Dans ce cadre, plusieurs pistes seront explorées : définir de nouveaux a priori dans les espaces latents et améliorer les encodeurs/décodeurs des VAEs ; s’inspirer des modèles de diffusion latente pour combiner autoencodeurs et processus de diffusion sur un espace latent adapté ; ou encore identifier les propriétés clés des architectures permettant de capturer correctement le comportement en queue.
Les méthodes développées seront appliquées à la génération de champs de pluie spatio-temporels haute résolution. Deux jeux de données radar serviront de référence : l’un issu d’une région allemande relativement homogène, l’autre provenant des Alpes suisses, caractérisé par une forte non-stationnarité due au relief. La thèse vise ainsi à concevoir de nouveaux modèles génératifs à la fois théoriquement fondés et réellement utilisables pour la simulation d’événements pluviométriques extrêmes, avec des applications importantes en urbanisme, assurance, et gestion du risque climatique.