Cours
L'École comportera à la fois des cours tutoriaux, ainsi que des sessions ouvertes permettant aux participants de présenter leurs travaux et de confronter leurs idées.

L'emploi du temps détaillé de l'École sera prochainement disponible.


Programme prévisionnel


1. Introduction aux outils de géométrie différentielle et optimisation en traitement des données (5h)
Conférencier : P.A. Absil (University of Louvain, Belgium)

Les outils de géométrie différentielle et optimisation seront abordés via deux applications : la séparation aveugle de sources par analyse en composantes indépendantes et le filtrage collaboratif par complétion de matrice de rang faible.

Une façon d'aborder l'analyse en composantes indépendantes est de choisir une fonction de contraste qui mesure le "niveau de dépendance" entre des signaux. Le problème consiste alors à trouver les combinaisons linéaires des signaux mesurés qui minimisent la fonction de contraste ; il s'agit donc d'un problème d'optimisation. En outre, il est raisonnable de supposer que le niveau de dépendance entre des signaux ne dépend pas de l'intensité de ces signaux ; le problème d'optimisation a donc une invariance qui est adéquatement prise en compte en imposant une normalisation ou en considérant des classes d'équivalences. La normalisation mène à travailler sur une sous-variété, et l'approche par classes d'équivalences mène à travailler sur une variété quotient. Dans les deux cas, l'espace de recherche du problème d'optimisation est donc une variété, objet central de de la géométrie différentielle.

La complétion de matrice de rang faible se prête à un cheminement similaire. On dispose d'une matrice dont certaines entrées sont inconnues et on veut prédire ces entrées en exploitant l'hypothèse que la matrice est approximativement de rang faible. Une façon de formuler le problème est de chercher, parmi les matrices de rang fixé r, celle qui est la plus proche (par exemple au sens des moindres carrés) des entrées connues ; il s'agit donc d'un problème d'optimisation. En outre, il est connu que l'ensemble des matrices de rang fixé admet une structure de variété, ce qui permet d'exploiter, ici aussi, des outils de géométrie différentielle.

2. Géométrie de l’information et ses applications (5h)
Conférencier : F. Nielsen (Sony Computer Science Laboratories Inc & Ecole Polytechnique)

In this course, you will learn the foundations of Information Geometry [1] and its applications in information sciences: Statistics, information theory, machine learning (including deep learning), signal processing and imaging [2]. We will also present other geometries dealing with families of probability distributions [3] to compare with information geometry. Outline:

  1. Bird's-eye view of information geometry (history, main concepts and use of information projections)
  2. Background
  3. * Statistics (mathematical framework: bias, consistency, Fisher information, MLE, Cramer-Rao lower bound, exponential families) * Information theory (Entropy, Kullback-Leibler divergence and MaxEnt) * Distances (statistical distances and parameter distances) * Geometry (algebraic tensor spaces and affine differential geometry)
  4. Dualistic structure of information manifolds [1]
    • Fisher-Rao Riemannian geometry
    • Dual connections and metric-compatible dual-parallel transport
    • Expected alpha geometry
    • alpha geometry from divergences
    • Dually flat spaces Bregman/Hessian manifolds (Voronoi diagrams, proximity data-structures, minimum enclosing balls)
    • Information projections
  5. Applications of information geometry in information sciences : Clustering, Hypothesis testing, Classification, Deep learning, Signal processing
  6. Advanced topics : (rau,tau) embeddings, biduality, Conformal geometry, Deformed exponential families, Optimal transport and information geometry, Affine immersions and geometric divergence

3. Statistiques géométriques et leurs applications aux formes anatomiques (5h)
Conférencier : X. Pennec (INRIA Sophia Antipolis)

En anatomie computationelle, on s'intéresse à la modélisation statistique des formes anatomiques. On cherche a décrire la forme moyenne et ses variations dans une population de manière à quantifier les variations ou les évolutions normales et pathologies. Ces formes sont décrites par des ensembles de points, des courbes, des surfaces, des images, des déformations dont on veut modéliser la distribution statistique au sein de la population. Ces objets géométriques appartiennent toutefois en général à des espaces non-linéaires alors que les statistiques ont été essentiellement développées dans un cadre euclidien. Cet exposé mets l'accent sur les bases géométriques qui ont permis des avancées récentes en statistiques géométriques.

Les espaces de formes sont la plupart du temps localement euclidiens, et une mesure de distance infinitésimale (une métrique) permet de les munir d'une structure de variété Riemannienne. Celle-ci permet de mesurer des directions, des angles, des distance intrinsèques et les plus courts chemins géodésiques, généralisant ainsi la géométrie de l'espace à des espaces courbes dont la sphère ou la selle de cheval sont les exemples les plus simples. Sur cette base, on peut redéfinir des notions statistiques consistantes. Par exemple, la moyenne de Fréchet est l'ensemble des points minimisant la somme du carré des distances aux observations. Cette reformulation de la notion de moyenne permet également d'étendre de nombreux algorithmes de traitement d'image à des images à valeur dans un variété. C'est la cas de l'imagerie du tenseur de diffusion (DTI) dont chaque voxel mesure une matrice de covariance (imagerie du tenseur de diffusion ou DTI). On peut ainsi établir des algorithmes bien posés d'interpolation, de filtrage, de diffusion et de restauration de données manquantes par l'utilisation de moyennes pondérées.

Du point de vue statistique, on s'intéressera à l'estimation empirique de la moyenne dans les variétés. Le développement asymptotique du théorème limite central met en évidence une modulation importante de la vitesse de convergence avec la courbure. Un développement non-asymptotique en forte concentration montre également un bias lié au gradient de courbure. Ces effets de la courbure pouvant changer radicalement l'estimation sont important à prendre en cas de forte courbure. On abordera ensuite les généralisations de l'analyse en composante principale sur les variétés: l'analyse en composante principale dans l'espace tangent (tPCA) maximise la variance expliquée, tandis que l'analyse en composantes géodésiques principales (PGA) minimise la variance non-expliquée par la projection dans un sous-espace totalement géodésique au point moyen. Pour réduire l'importance de ce point central, on défini les sous-espaces barycentriques comme le lieu des moyennes pondérées de k+1 points, généralisant ainsi aux variétés la notion d'espace affine engendré par ces points. Les espaces barycentriques peuvent être naturellement imbriqués en ajoutant ou en enlevant des points de référence pour constituer une hiérarchie de sous espaces proprement imbriqués (un drapeau dans le cas linéaire). Cette vision conduit à reformuler l'ACP comme une optimisation dans l'espace des drapeaux (analyse en sous-espaces barycentriques). Ces notions seront illustrées sur des espaces a courbure constante et sur une application en imagerie cardiaque.

Enfin, nous aborderons les statistiques sur des groupes de déformation. L'usage de métrique Riemanniennes invariantes à droite sur les groupes de difféomorphismes a notamment donné naissance au cadre LDDMM (Large deformation Diffeomorphic Metric Mapping). L'invariance n'est toutefois que partielle, car la métrique ne peut pas être à la fois invariante à droite et à gauche, ce qui induit un défaut de symétrie : la moyenne de l'inverse d'un ensemble de déformations n'est pas l'inverse de la moyenne de ces déformations. En changeant la structure Riemannienne pour une structure plus faible (on parle d'espace à connexion affine) mais symétrique, on peut toutefois continuer à définir des géodésiques même en l'absence d'une distance. Ces géodésiques sont maintenant des lignes droites et non plus des plus courts chemins mais on peut encore définir une moyenne locale. Dans un groupe de transformation, la structure la plus invariante est donnée par la connexion de Cartan-Schouten, et ses géodésiques sont les translations des sous-groupe a un paramètre. On justifie ainsi l'usage des champs de vecteurs stationnaires très efficaces en pratique pour paramétrer des difféomorphismes. Le cadre statistique obtenu sera illustré avec la modélisation de l'atrophie du cerveau au cours du temps dans la maladie d'Alzheimer.

4. Estimation récursive sur les variétés Riemanniennes (2h)
Conférencier : S. Said (Université de Bordeaux)

La présentation de 2h sera divisée en deux parties de longueurs égales.

La première partie reviendra sur l’utilisation de la géométrie Riemannienne et de la géométrie de l’information en traitement des données. Le but sera d’expliquer comment ces deux domaines fournissent aux traiteurs de données des algorithmes qui sont intrinsèques et invariants, et qui ont donc une moindre complexité et une meilleure robustesse. Egalement, cette partie introduira quelques notions de base en géométrie Riemannienne (métriques, fonctions distance, courbure, géodésiques, volume et intégration, et notions intuitives sur la topologie), en mettant l’accent sur les exemples les plus connus en traitement de données, comme les espaces de matrices de covariance, les espaces de Grassmann, …

La deuxième partie est une introduction à l’estimation récursive sur les variétés Riemanniennes. On a recours à l’estimation récursive afin d’exploiter des jeux de données très grands, inaccessibles aux algorithmes d’estimation habituels, à moins d’utiliser des moyens de calculs très importants. L’idée est d’utiliser des algorithmes qui traitent chaque échantillon une seule fois, avant de passer aux autres, et qui demandent donc beaucoup moins de ressources calculatoires. Le but sera de se familiariser avec les notions fondamentales de l’estimation récursive (méthode de l’équation différentielle, fonctions de Lyapunov), et d’apprendre à calibrer un algorithme d’estimation récursive afin d’obtenir une performance optimale (c’est-à-dire équivalente à un algorithme qui n’a pas la contrainte d’être récursif).

Le lien entre les deux parties sera fait à travers deux cas d’école : le calcul du barycentre Riemannien et l’estimation des lois de mélange sur les variétés. Ces deux problèmes mettent en avant des phénomènes qui ont un intérêt très général, comme le rôle du cut-locus, et les questions d’identifiabilité pour les modèles de mélange.

5. Bornes de Cramér-Rao intrinsèques et matrices de covariance (2h)
Conférencier : A. Renaux (Université Paris Saclay)

L’inégalité de Cramér-Rao, basée sur l’information de Fisher, est un outil classique en traitement statistique du signal mais qui peut cacher quelques subtilités afin d’être appliquée correctement en pratique. Dans ce cours qui ne requière que quelques bases en estimation paramétrique, nous commencerons par présenter cette inégalité dans sa forme la plus simple (c’est-à-dire dans le contexte euclidien) puis nous présenterons les différentes formes de cette inégalité accessible dans la littérature et en quoi elles sont utiles. Enfin, nous nous intéresserons au contexte non-euclidien pour revisiter un problème jusqu’à lors considéré comme classique (mais qui nous apportera son lot de surprises) à savoir l’estimation de la matrice de covariance d’un vecteur gaussien.

6. Les structures élémentaires de la géométrie de l'information et la métrique de Fisher-Koszul-Souriau : exemples d'applications pour le signal radar (2h)
Conférencier : F. Barbaresco (Thales)

L’exposé sera structuré en 2 parties. Dans la 1ère partie, nous exposerons une fondation de la géométrie de l’information basée sur les travaux mathématiques du géomètre et algébriste Jean-Louis Koszul sur l’étude des domaines bornés symétriques, et les travaux du physicien Jean-Marie Souriau sur la thermodynamique des groupes de Lie en mécanique géométrique statistique. Dans la 2nd partie, nous illustrons ces outils dans le cas du traitement de signaux radar temporels ou spatio-temporels stationnaires ou non-stationnaires pour le traitement micro-Doppler pour la reconnaissance d’objet à parties mobiles, le traitement Doppler pour la segmentation et le filtrage des échos parasités pour la détection d’objet lentement mobiles. Nous illustrerons également les outils pour le traitement adaptatif spatio-temporel et pour le pistage d’objets fortement manœuvrants.