Séminaire Mensuel / Monthly seminar

Prochain séminaires : mardi 14 février (Evry)

Next seminars: February 14, 2012.

14h00 : Franck Picard (LBBE, Lyon)

"Ondelettes et modeles mixtes pour la classification non supervisee de courbes".

Un nombre croissant de domaines scientifiques s'interessent aux donnees comportant beaucoup de mesures repetees pour chaque individu. Ce type de donnees peut etre vu comme une extension des donnees longitudinales en grande dimension et le cadre naturel de modelisation est alors l'analyse fonctionnelle pour laquelle les unites de base sont les courbes. Notre objectif est de realiser une classification non supervisee de ces courbes en presence de variabilite inter-individuelle.  Les approches existantes sont fondees sur les splines (James et Sugar (2003)). Cependant, ces modeles ne permettent pas de prendre en compte des fonctions presentant des irregularites et leur utilisation est limitee a des donnees de faible dimension.

Nous proposons une nouvelle procedure de classification de courbes non-supervisee fondee sur une decomposition en ondelettes des signaux. Nous introduisons un effet aleatoire prenant en compte la variabilite inter-individuelle et grace a une modelisation appropriee dans le domaine des ondelettes, nous nous assurons que les effets fixes et aleatoires appartiennent au meme espace fonctionnel (espace de Besov, Antoniadis et Sapatinas~(2007)). Ainsi nous obtenons un modele de melange Gaussien multivarie dont les composantes se s'ecrivent comme des modeles lineaires mixtes.

Nous proposons une procedure en deux etapes. Nous commençons par une etape de reduction de dimension basee sur les techniques de seuillage des ondelettes et sur les tests multiples. La taille consequente des donnees rend cette etape fondamentale et notre but est de selectionner les coefficients les plus informatifs pour la classification. Ensuite, une procedure de classification est appliquee sur les coefficients selectionnes : l'algorithme EM est utilise pour avoir une estimation des parametres par maximum de vraisemblance et predire conjointement les classes des individus et les effets individuels.

Les proprietes de notre procedure sont validees par une etude de simulation approfondie. Nous illustrons ensuite notre methode sur des donnees issues de la biologie moleculaire (donnees omics) comme les donnees CGH ou les donnees de spectrometrie de masse. Notre procedure est disponible dans le package R curvclust.

 


Précédents séminaires/Previous seminars