Ce projet porte sur l’amélioration de l’efficacité du calcul pour l’estimation des paramètres dans des modèles géostatistiques spatio-temporels complexes. La géostatistique vise à modéliser des phénomènes naturels évoluant dans l’espace et le temps, et les processus gaussiens sont largement utilisés pour prédire ces phénomènes à des endroits non observés, tout en quantifiant l’incertitude des prédictions. Si les modèles classiques reposent sur des fonctions de covariance paramétriques simples, des avancées récentes ont introduit des modèles fondés sur des équations aux dérivées partielles stochastiques (SPDE), mieux adaptés pour représenter des mécanismes physiques tels que l’advection ou la diffusion. Ces modèles deviennent encore plus flexibles lorsqu’ils sont étendus à des contextes non stationnaires, dans lesquels les propriétés du processus varient dans l’espace et le temps.
Toutefois, l’estimation des paramètres par maximum de vraisemblance devient rapidement coûteuse lorsque la quantité de données augmente, un problème particulièrement marqué pour les données spatio-temporelles à haute résolution. Bien que la discrétisation par éléments finis des SPDE produise des matrices creuses qui accélèrent le calcul de la vraisemblance, l’optimisation reste difficile pour des modèles complexes ou non stationnaires. À l’inverse, ces modèles sont relativement faciles à simuler, ce qui ouvre la voie à une stratégie alternative : l’inférence par simulation, ou inférence amortie. Cette approche consiste à simuler un grand nombre de champs spatio-temporels avec paramètres connus, puis à entraîner des réseaux neuronaux soit à estimer directement ces paramètres, soit à approximer la vraisemblance, ce qui permet ensuite une inférence très rapide.
La thèse explorera plusieurs pistes complémentaires pour relever ces défis. Une première consiste à utiliser la différentiation automatique afin d’optimiser la vraisemblance de modèles spatio-temporels complexes basés sur des SPDE, tout en développant des paramétrisations flexibles pour la non-stationnarité. Une deuxième piste s’appuie sur un stage préliminaire utilisant des réseaux de neurones graphes (GNN) pour l’inférence de paramètres dans des champs spatiaux ; l’objectif sera d’étendre cette approche au cadre spatio-temporel, ce qui nécessite des architectures capables de capturer les structures de voisinage dans l’espace et le temps, ainsi que de gérer un nombre de paramètres beaucoup plus élevé.
D’autres approches pourront également être envisagées, notamment des modèles hybrides combinant réseaux neuronaux et processus gaussiens, l’inférence variationnelle, ou encore des méthodes bayésiennes. Le projet inclura une comparaison approfondie des différentes méthodes selon leur coût computationnel, leur précision et leur capacité à passer à l’échelle, ainsi que des applications à des données réelles issues des sciences de l’environnement, telles que le rayonnement solaire, la vitesse du vent ou la qualité de l’air. L’objectif final est de proposer des méthodes rapides et fiables pour l’estimation de modèles spatio-temporels riches et physiquement réalistes, utiles tant pour la recherche méthodologique que pour les applications concrètes.