14h00 : Nathalie Krell (Université de Rennes)
"Inférence statistique pour une population structurée et gouvernée par un terme de transport et un terme de fragmentation".
On s'intéresse à l'évolution structurée en taille pour un modèle de bactéries Escherichia coli et cela à travers différentes échelles. La taille du système évolue selon une équation de transport fragmentation: chaque individu croit avec un certain taux de transport et se divise en deux bactéries filles, selon un processus de fragmentation binaire dont le taux de division dépend de la taille de la bactérie et est inconnu. Macroscopiquement le système est bien approché par une EPD et la résolution statistiques se fait grâce à un problème inverse (confère le travail de M. Doumic, M. Hoffmann, P. Reynaud-Bouret et V. Rivoirard). Dans ce travail on s'est intéressé au point de vue microscopique qui permet d'introduire plus de dépendance et qui correspond à la réalité des observations. Cette analyse est complexe car elle se ramène à l'étude d'un processus évoluant dans $\mathbb{R}^{+^{\mathbb{N}}}$. Grâce à des techniques analogues à celle développées pour l'étude des fragmentations aléatoires, il existe une "many to one formula" qui permet de relier l'étude du processus complet à celle d'un PDMP (processus de Markov déterministe par morceaux) qui représente l'évolution d'une bactérie marquée aléatoirement. Grâce à l'étude de ce PDMP, on peut montrer que les deux points de vues sont bien compatibles. Cette nouvelle approche permet d'améliorer les vitesses obtenues précédemment par M. Doumic, M. Hoffmann, P. Reynaud-Bouret et V. Rivoirard.
C'est un travail en cours avec M. Doumic (INRIA & Paris 6), M. Hoffmann (ENSAE-CREST & Université Paris-Est) et L. Robert (INSERM).
11h00 : Lenka Zdeborova (Institut de Physique Théorique Orsay)
"Asymptotic analysis of the stochastic block model for modular networks".
In this talk we extend our previous work on the stochastic block model, a commonly used generative model for social and biological networks, and the problem of inferring functional groups or communities from the topology of the network. We use the cavity method of statistical physics to obtain an asymptotically exact analysis of the phase diagram. We describe in detail properties of the detectability/undetectability phase transition and the easy/hard phase transition for the community detection problem. Our analysis translates naturally into a belief propagation algorithm for inferring the group memberships of the nodes in an optimal way, i.e., that maximizes the overlap with the underlying group memberships, and learning the underlying parameters of the block model. Finally, we apply the algorithm to two examples of real-world networks and discuss its performance.
14h00 : Franck Picard (LBBE, Lyon)
"Ondelettes et modeles mixtes pour la classification non supervisee de courbes".
Un nombre croissant de domaines scientifiques s'interessent aux donnees comportant beaucoup de mesures repetees pour chaque individu. Ce type de donnees peut etre vu comme une extension des donnees longitudinales en grande dimension et le cadre naturel de modelisation est alors l'analyse fonctionnelle pour laquelle les unites de base sont les courbes. Notre objectif est de realiser une classification non supervisee de ces courbes en presence de variabilite inter-individuelle. Les approches existantes sont fondees sur les splines (James et Sugar (2003)). Cependant, ces modeles ne permettent pas de prendre en compte des fonctions presentant des irregularites et leur utilisation est limitee a des donnees de faible dimension.
Nous proposons une nouvelle procedure de classification de courbes non-supervisee fondee sur une decomposition en ondelettes des signaux. Nous introduisons un effet aleatoire prenant en compte la variabilite inter-individuelle et grace a une modelisation appropriee dans le domaine des ondelettes, nous nous assurons que les effets fixes et aleatoires appartiennent au meme espace fonctionnel (espace de Besov, Antoniadis et Sapatinas~(2007)). Ainsi nous obtenons un modele de melange Gaussien multivarie dont les composantes se s'ecrivent comme des modeles lineaires mixtes.
Nous proposons une procedure en deux etapes. Nous commençons par une etape de reduction de dimension basee sur les techniques de seuillage des ondelettes et sur les tests multiples. La taille consequente des donnees rend cette etape fondamentale et notre but est de selectionner les coefficients les plus informatifs pour la classification. Ensuite, une procedure de classification est appliquee sur les coefficients selectionnes : l'algorithme EM est utilise pour avoir une estimation des parametres par maximum de vraisemblance et predire conjointement les classes des individus et les effets individuels.
Les proprietes de notre procedure sont validees par une etude de simulation approfondie. Nous illustrons ensuite notre methode sur des donnees issues de la biologie moleculaire (donnees omics) comme les donnees CGH ou les donnees de spectrometrie de masse. Notre procedure est disponible dans le package R curvclust.
14h00 : Jean-Baka Domelevo Entfellner (LIRMM, Montpelier)
"Combinaison de modèles phylogénétiques et longitudinaux pour l'analyse des séquences biologiques : reconstruction de HMM profils ancestraux".
La modélisation statistique de séquences homologues par HMM profils laisse de côté l'information phylogénétique reliant les séquences. Nous proposons ici des modèles combinant efficacement analyse longitudinale (séquences protéiques vues comme des enchaînements d'acides aminés) et verticale (séquences vues comme étant le produit d'une évolution le long des branches d'un arbre phylogénétique). De tels modèles appartiennent à la famille des phylo-HMM, introduite dans le courant des années 1990 (Mitchison & Durbin). Notre objectif étant la détection d'homologues distants dans les bases de données, nous décrivons une méthodologie de dérivation complète des paramètres des phylo-HMM profils basée sur la phylogénie : les modèles que nous proposons sont des HMM de reconstruction ancestrale, issus d'un processus d'inférence phylogénétique des positions conservées, des probabilités d'émission de caractères sur les états Match et Insertion, ainsi que des probabilités de transition entre états du HMM. Nous suggérons notamment une nouvelle modélisation pour l'évolution des transitions entre états du HMM, ainsi qu'un modèle de type Ornstein-Uhlenbeck pour l'évolution des longueurs des insertions. Contraintes évolutives et contraintes longitudinales sont ainsi simultanément prises en compte. Le processus d'apprentissage développé a été implémenté et testé sur une base de données de familles de séquences homologues, mettant en évidence des gains à la fois en termes de vraisemblance accrue des homologues distants et en termes de performance lorsqu'il s'agit de détecter ceux-ci dans les grandes bases de données protéiques.
15h15 : Vincent Ducroq (Génétique et Génomique Bovine, GABI, INRA Jouy-en-Josas)
"Sélection génomique chez les bovins laitiers : méthodes et résultats en France"
Chez les trois principales races laitières françaises de bovins laitiers, la sélection génomique révolutionne complètement l’organisation de l’amélioration génétique. Des évaluations génomiques reposant sur les performances des filles de milliers de taureaux génotypés sur une puce 54k sont calculées (presque) tous les mois depuis Octobre 2008. Elles succèdent à une évaluation assistée par marqueurs basée sur un modèle linéaire mixte estimant des effets d’haplotypes. Ceux-ci avaient été choisis sur la base d’une recherche de QTL par analyse de liaison et de déséquilibre de liaison (LDLA).
Différentes méthodes d’évaluation génomique ont été comparées dans le cadre du programme ANR AMASGEN. Elles se répartissent entre méthodes classiques dérivées du BLUP, diverses méthodes Bayésiennes et des méthodes de sélection de variables. L’approche sur SNP donnant en général les meilleurs résultats a été l’Elastic Net. Mais nous avons pu améliorer légèrement ceux-ci en regroupant les SNP retenus par l'Elastic Net en haplotypes de SNP et en y ajoutant les haplotypes de QTL détectés par LDLA. On combine ainsi les avantages de l'évaluation génomique et de l'évaluation assistée par marqueurs. On décrira le contexte, la démarche suivie, les perspectives et les problèmes non résolus.
15h15 : Eric Kolaczyk (Boston University)
Multi-Attribute Networks and the Impact of Partial Information on Inference and Characterization
Association networks represent systems of interacting elements, where a link between two different elements indicates a sufficient level of similarity between element attributes. While in reality relational ties between elements can be expected to be based on similarity across multiple attributes, the vast majority of work to date on association networks involves ties defined with respect to only a single attribute. We propose an approach for the inference of multi-attribute association networks from measurements on continuous attribute variables, using canonical correlation and a hypothesis-testing strategy. Within this context, we then study the impact of partial information on multi-attribute network inference and characterization, when only a subset of attributes is available. We examine through a combination of analytical and numerical techniques the implications of the choice and number of node attributes on the ability to detect network links and, more generally, to estimate higher-level network summary statistics, such as node degree, clustering coefficients, and measures of centrality. We consider in detail the case of two attributes and discuss generalization of our findings to more than two attributes. Our work is motivated by and illustrated within the context of gene/protein regulatory networks in human cancer cells.
Joint work with Natallia Katenka.
11h : Josée Dupuis (Boston University)
Meta-analysis of genome-wide association results allowing for gene-by-environment interactions
Despite the success of genome-wide association scans (GWAS) in identifying trait associated loci, most discoveries to date explain only a small portion of the total heritability. Part of the missing heritability may be due to gene-by-environment effects that are not included in typical GWAS. I introduce a methods to jointly meta-analyze the main and environmental interaction effects of a genetic variant on a trait of interest. I also present results from application of the method to mapping genes influencing fasting insulin levels, a trait related to type 2 diabetes, by incorporating gene-by-body mass index interaction.
14h : Christophe Biernacki (Université de Lille)
A block regression approach for simultaneous clustering and variables selection: application to genetic data
Genome Wide Association (GWA) studies have proved the implication of numerous single nucleotides polymorphisms (SNP) in the etiology of common diseases. Nevertheless, only a small part of the expected heritability of those diseases is explained by the most significantly associated SNPs. Many researches that have been lately investigating this missing heritability have considered interactions between genes and/or environmental factors as a plausible and promising explanation. Considering all if not a large number (hundreds of thousands) of variants altogether stresses the problem of the high dimensionality that most regression-based methods cannot afford. To solve this issue one either reduces the number of variants to be analyzed (shrinkage approaches) or groups them according to a certain similarity. We introduce here a regression model that simultaneously clusterizes the variants sharing close effect size while selecting the most informative clusters. The estimation of the model parameters is proposed under a frequentist framework by maximizing the likelihood of the model parameters. Our method is not based on pre-existent structures over the variants like the group LASSO [1], but achieves the variants clustering through the estimation of a vector of discrete parameters. The latter step, which is basically of combinatorial complexity, is now solved using algorithms that are quadratic with respects to the number of variants. The challenges of this research rely then on finding efficient algorithms for the clustering part. The EM-like approaches and their stochastic versions now implemented, have shown good properties (bias and prediction) when compared to LASSO, RIDGE and Elastic-net on simulations [2]. A more complete simulations study is in progress that will include most recent methods like OSCAR [3], Sparse PLS regression [4], group and cooperative LASSO [5]. The optimal number of groups is now selected using the cross-validation. A first application on real data concerning a small genomic region was achieved. This primary analysis gave consistent result with classical regression estimates in terms of variables election. The analysis of GWA data will doubtless be the forthcoming and most exciting step.
(joint work with L. Yengo and J. Jacques).
References:
[1] R. Tibshirani. Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc B., Vol. 58, No. 1, pages 267-288). 1996
[2] L. Yengo, J. Jacques and C. Biernacki. A block regression approach for simultaneous clustering and variables selection: application to genetic data. JOBIM 2011.
[3] H. Bondelland B. Reich, Simultaneous regression shrinkage, variable selection and supervised clustering of predictors with OSCAR. Biometrics, 64:115-123, 2008.
[4] K.A. Lê Cao , D. Rossouw D, C. Robert-Granié and P. Besse. A sparse PLS for variable selection when integrating omics data. Stat Appl Genet Mol Biol.< 2008.
[5] J. Chiquet, Y. Grandvalet and C. Charbonnier. Sparsity with sign-coherent groups of variables via the cooperative-Lasso. (in submission).
11h : Bin Yu (univ. Berkeley)
Spectral clustering and the high-dimensional Stochastic Block Model
In recent years network analysis have become the focus of much research in many fields including biology, communication studies, economics, information science, organizational studies, and social psychology. Communities or clusters of highly connected actors form an essential feature in the structure of several empirical networks. Spectral clustering is a popular and computationally feasible method to discover these communities.
The Stochastic Block Model is a social network model with well defined communities. This talk will give conditions for spectral clustering to correctly estimate the community membership of nearly all nodes. These asymptotic results are the first clustering results that allow the number of clusters in the model to grow with the number of nodes, hence the name high-dimensional.
If time allows, I will also present on-going work on directed spectral clustering for networks whose edges are directed, including the enron data as an example.
14h : Gilles Celeux, INRIA Saclay, France
Model-based cluster analysis for transcriptomic data
Cluster analysis is an important task for analyzing transcriptomic data. This communication is aiming to present model-based cluster analysis tools to deal properly with such data. It will present joint works with M.-L. Martin-Magniette (INRA), C. Maugis (INSA Toulouse) and A. Rau (INRIA). After a presentation of the mixture model, we will present tools for variable selection for clustering with Gaussian mixtures (Maugis et al. 2009 a, b). Applications on transcriptome datasets of Arabidopsis thaliana, extracted from the database catdb will be presented to highlight the interest of specifying different roles for the variables in a cluster analysis. In a second part of the talk, we will present preliminary results for mixture models devoted to clustering RNA-seq data sets such as Poisson, lognormal or negative binomial mixtures. The possibility to deal with inflated-zero data will be also considered for such count data. The pro and con of each mixture model will be discussed from numerical experiments. Finally, a discussion on the interests and limitations of mixture models to deal with transcriptomic data will conclude the talk.
References
C. Maugis, G. Celeux and M.-L. Martin-Magniette Variable selection for Clustering with Gaussian Mixture Models, Biometrics, 53, 3872-3882, (2009a).
C. Maugis, G. Celeux and M.-L. Martin-Magniette Variable selection in model-based clustering: A general variable role modeling, / Computational Statistics and Data Analysis, 65, 701-709, (2009b).
14h : Mikael Falconnet (Institut für Mathematische Statistik, Münster, Germany)
Autour de modèles d'évolution de séquences d'ADN avec influence du voisinage et/ou translocations
Dans la première partie de l'exposé, j'introduirai une classe de modèles d'évolution de séquences d'ADN étudiée par Bérard, Gouéré et Piau, et qui prend en compte l'effet de la méthylation des dinucléotides CpG dans le génome. Ensuite, j'expliquerai comment il est possible de fournir un estimateur du temps écoulé entre deux séquences homologues ayant évolué sous ce modèle, ainsi qu'un intervalle de confiance asymptotique. Enfin, je terminerai en exposant la construction d'un modèle d'évolution de séquences d'ADN qui prend en compte des possibilités de translocations, en énonçant les résultats que nous avons actuellement avec Nina Gantert sur l'ergodicité du modèle et ceux que nous aimerions avoir.
14h : Charles Bouveyron (Université Paris 1, Panthéon-Sorbonne)
Classification générative des données de grande dimension
La classification générative a du faire face ces dernières années à l'augmentation de la dimension des données et au fléau de la dimension qui lui est associée. Aprés une brève introduction à la classification générative, l'exposé passera tout d'abord en revue les méthodes récentes de classification dédiées aux données de grande dimension. Quelques avancées récentes seront ensuite présentées, concernant notamment la sélection de dimensions intrinséques et le clustering dans un sous-espace discriminant.
14h : David Causeur (Département de Mathématiques Appliquées, Agrocampus Ouest)
Large scale signicance testing in gene expression studies under dependence
High-throughput biotechnologies such as microarray allows the simultaneous measurements of thousands of
gene transcriptional variations along with a variable of interest, which can be a genotype or any other controlled
experimental condition. Such experiments are usually conducted to identify genes or modules of genes which
characterize most the relationship with the variable of interest. A simple dierential analysis is usually the rst
step to draw a list of interesting genes in which the expected false discovery proportion is controlled.
Stability of multiple testing procedures can however be aected by an expression heterogeneity which can
be due to unmodelled genetic, environmental or technological factors. This has been demonstrated by many
authors (see Leek and Storey 2007, 2008, Friguet et al., 2009 and Blum et al., 2010) for the ranking of genes
in dierential analysis. We propose to identify components of heterogeneity in gene expressions using a factor
model (see Friguet et al., 2009) and show that this leads to a better reproducibility of gene ranking and a better
stability of the error rates. We present extensions of our method to model selection in supervised classication
and inference on gene networks with gaussian graphical models.
Références
[1] Blum Y., Le Mignon G., Lagarrigue S., and Causeur D. (2010). A Factor Model to Analyze Heterogeneity in
Gene Expression, BMC Bioinformatics, 11{368.
[2] Friguet, C. and Kloareg, M. and Causeur, D. (2009). A factor model approach to multiple testing under
dependence, Journal of the American Statistical Association, 104 (488), 1406{1415.
[3] Leek, J. T. and Storey, J. (2007). Capturing heterogeneity in gene expression studies by Surrogate Variable
Analysis, PLoS Genetics, 3, e161.
[4] Leek, J. T. and Storey, J. (2008) A general framework for multiple testing dependence, Proceedings of the
National Academy of Sciences, 105, 18718{18723.
14h : Michael Blum (TIMC-IMAG, Grenoble)
Approximate Bayesian Computation: a Nonparametric Perspective
Approximate Bayesian Computation is a family of likelihood-free inference techniques that are well-suited to models defined in terms of a stochastic generating mechanism. In a nutshell, ABC consists in computing a distance between simulated and observed summary statistics and weighting the simulations according to this distance. Here, we derive the asymptotic bias and variance of the standard estimators of the posterior distribution which are based on rejection sampling and linear adjustment. Additionally, we introduce an original estimator of the posterior distribution based on quadratic adjustment and we show that its bias contains a fewer number of terms than the estimator with linear adjustment. We find that the estimators with adjustment can achieve better performance when there is a nearly homoscedastic relationship between the summary statistics and the parameter of interest. To make this relationship as homoscedastic as possible, we propose to use transformations of the summary statistics. In different examples borrowed from the population genetics and epidemiological literature, we show the potential of the methods with adjustment and of the transformations of the summary statistics.
11h : Kousuke Hanada (RIKEN Plant Science Center, Kanagawa, Japan)
Functional analysis of small coding genes with coding potential in plant genome (A. thaliana and O. sativa)
Some of small coding genes play a significant role in various aspects of either plant development or stress response. However, it is believed that such the genes tend not to be identified because of the conservative nature of prediction algorithms. Using our recently published pipeline to infer small coding genes specifically, we identified novel 7,442 and 28,883 small coding genes with high coding potential in Arabidopsis thaliana and Oryza sativa genomes. Toward functional analysis of these small coding genes, we developed microarray to examine the expression of identified small coding genes, and generated expression profiles in various organs and various stress condition. Currently, we focused on small coding genes with high expression, high homology in other plant genomes and peptide hormone-like amino acid compositions in A. thaliana and O. sativa. Throughout the over-expression analysis of some focused genes, we identified phenotypic changes. These preliminary results indicate that some of our identified small coding genes are functional.
1. Hanada K, Akiyama K, Sakurai T, Toyoda T, Shinozaki K and Shiu SH. sORF finder: a program package to identify small open reading frames (sORFs) with high coding potential. Bioinformatics. 2010 26(3):399-400.
2. Hanada K, Zhang X, Borevitz JO, Li WH, Shiu SH*: A large number of novel coding small open reading frames in the intergenic regions of the Arabidopsis thaliana genome are transcribed and/or under purifying selection. Genome Res 2007, 17(5):632-640.
14h30 : Franck Picard (LBBE, Lyon)
Statistical mapping of replication origins in the human genome
DNA replication is a process whose influence on genome organization is still a matter of debate. Mapping replication origins is a challenging task from the experimental point of view, but the development of new high throughput protocols has allowed a systematic characterization of replication origins in humans. In October 2008, Cadoret et al. (PNAS 105(41):15837-15842) used amplification of DNA short nascent strands that were hybridized on a microarray covering ENCODE regions. This constituted the first high resolution map of replication origins in HeLa cells, with the identification of 10 times more origins that previously known. As these experiments are based on DNA enrichment microarrays, origins could be identified by finding peaks in the signal. Statistical techniques that were used in this work were very conservative to prevent from false positive origins, leading to a lack of power. We propose first to re-investigate these data using advanced statistical techniques to identify new origins. We use non-parametric wavelet-based techniques to find relevant peaks in the data, with the use of a structural intensity criterion to find relevent discontinuities in the signal. This technique allows us to identify new origins that share similar biological properties compared with previously identified origins. This work leads to interesting statistical perspectives in terms of model selection, non-parametric regression. In a second part, we will investigate new replication origins data (on a different cell line) that come from deep sequencing. The statistical question shifts towards the identification of exceptional accumulation of reads along the sequence, and we propose to use scan statistics for this purpose. This work is still under investigation but we will discuss preliminary bological conclusions on these new sets of human replication origins.
14h : John Rhodes (University of Fairbanks, Alaska)
Phylogenetic Models
The goal of molecular phylogenetics is to infer evolutionary trees from sequence data collected from different taxa. After a brief
survey of the main approaches to phylogenetic inference, we will focus on some of the models most commonly used, their shortcomings, and
various attempts to improve on them. The talk should be accessible to those who have had little previous exposure to phylogenetics.
14h : Niels Richard Hansen, University of Copenhagen
Penalized MLE for multivariate point process models with applications to genome organization
To model the organization of transcription regulatory elements along the genome we have considered the use of multivariate point process models. We have, in particular, used the multivariate, nonlinear Hawkes process. This model class fits into a general framework of generalized linear point process models, which we present.
We show a new theoretical result on the minimization of the penalized minus-log-likelihood function over a Sobolev space, which in a special
case gives that the solution is in an explicit finite dimensional subspace and in general gives an infinite dimensional descent algorithm.
For the nonlinear Hawkes process the parameters of interest are infinite dimensional linear filter functions, and in the talk we discuss different practical modeling strategies involving basis expansions and reproducing kernels. We illustrate the talk with applications to genome organization based on data from ChIP-chip and ChIP-seq experiments.
15h : Pierre Neuvial, Berkeley University
Detecting and calling DNA copy number aberrations in cancer samples from genotyping microarrays.
Genotyping microarrays (SNP arrays) are a tool of choice for DNA copy number studies in cancer research, as they quantify both Total Copy
Numbers (TCN) and Allelic Imbalances (AI). I will discuss statistical issues raised by the analysis of this type of data and illustrate them
on ovarian and brain cancer data from the Cancer Genome Atlas (TCGA).
I will show that various types of copy number changes can be detected from both TCN and AI with comparable statistical power, which
motivates the construction of a joint (TCN, AI) segmentation method. I will also discuss the influence of tumor ploidy and normal
contamination (the presence of normal cells in the tumor sample) on detection and calling of CN aberrations.
14h : Emmanuel Viennet, Université Paris 13, France
Analyse des réseaux sociaux : problématiques pour la fouille de données
L'étude des réseaux sociaux a récemment connu un essor remarquable, avec le développement de nouvelles méthodes d'analyse et de fouille de données. De nombreuses applications industrielles produisent des données structurées en réseaux : sites Web 2.0, opérateurs de télécommunications, etc. Les problèmes posés sont très variés et vont de la catégorisation de documents (ou de messages) à la détection de communautés d'utilisateurs, en passant par les systèmes de recommandation et le "marketing viral".
L'analyse des réseaux sociaux pose des problèmes difficiles, comme la modélisation des interactions "sociales", la fouille de données structurées (graphes, textes, données hétérogènes) et la prise en compte de l'évolution temporelle des réseaux. De plus, les applications génèrent souvent des volumes de données très importants, avec des graphes comptant plusieurs dizaines des millions de noeuds, ce qui pose de sérieuses restrictions sur les algorithmes utilisables.
Dans cet exposé, nous présenterons ce domaine de recherche et décrirons quelques problématiques et exemples pouvant intéresser les statisticiens.
14h : Cécile Low-Kam, Univ. Montpellier 2, France.
Estimation de l'ordre d'une chaîne de Markov cachée à émissions de la famille exponentielle
Nous cherchons à estimer l'ordre (le nombre d'états cachés) d'un modèle de Markov caché, lorsque aucune borne n'est connue à priori sur cet ordre, et lorsque la distribution des états observables appartient à la famille exponentielle. Nous présentons deux estimateurs dans la lignée de ceux proposés par Gassiat et Boucheron (2003), et Chambaz et al. (2008). L'un est une version pénalisée de l'estimateur de maximum de vraisemblance, et l'autre une version pénalisée de l'estimateur de mélange bayésien introduit par Liu et Narayan (1994). Nous prouvons également la consistance de ces estimateurs.
(Travail en collaboration avec André Mas)
14h : Robin Ryder, Cérémade - Université Dauphine, France.
Modèles phylogénétiques de la diversification des langues
La diversification des langues est un processus aléatoire semblable en bien des points à l'évolution biologique. On modélisera la diversification des données lexicales, et plus spécifiquement du vocabulaire dit « de base », par un processus stochastique sur un arbre phylogénétique.On se concentra sur la famille des langues Indo-Européennes. L'âge du dernier ancêtre commun de ces langues est sujet à controverse et les problèmes de datation de langues anciennes sont donc particulièrement intéressante. On estimera la topologie de l'arbre phylogénétique, l'âge des langues ancestrales et les paramètres du modèle à l'aide de méthodes MCMC. Le modèle présenté incorpore plusieurs aspects spécifiques à la diversification des langues, tels l'hétérogénéité des taux de diversification ou le processus d'observation des données, et on montrera que les phénomènes d'emprunt de mots ne biaisent pas nos résultats. Enfin, on analysera deux jeux de données afin d'estimer l'âge du Proto-Indo-Européen.
(Travail en collaboration avec Geoff Nicholls).
14h : Sarah Behrens, Max Planck Institute for Molecular Genetics, Berlin.
Studying the evolution of promoters: a waiting time problem
While the evolution of coding DNA sequences has been intensively studied over the past decades, the evolution and structure of regulatory DNA sequences still remain poorly understood. However, there is growing body of experimental evidence that promoter sequences are highly dynamic and that significant changes in gene regulation can occur on a microevolutionary time scale.
In order to give a probabilistic explanation for the rapidness of cis-regulatory evolution, we have addressed the following question: how long do we have to wait until a a given transcription factor (TF) binding site (a given k-mer or a set of k-mers) emerges at random through the evolutionary process of single nucleotide mutations?
Using a Markovian model of sequence evolution, we can exactly compute the expected waiting time until a TF binding site is newly created in a promoter sequence of a given length. The evolutionary rates of nucleotide substitution are estimated from a multiple species alignment (Homo sapiens, Pan troglodytes and Macaca mulatta). Since the CpG methylation deamination process (CG!TG and CG!CA) is the predominant evolutionary substitution process, we have also incorporated these neighbor dependent substitution rates into our model.
As a result, we obtain expected waiting times for every k-mer, 3 <= k <= 10. Therewith, we can identify TF binding sites which can be easily generated during evolution and those which are not very ”convenient” to ”wait for”. For example, ’CCCTG’ is the fastest emerging 5-mer with an expected waiting time of 82 million years (Myrs) to appear in one promoter of length 1 kb and approximately 4,000 years to occur in at least one of all the human promters, while ’ATATA’ is the slowest emerging 5-mer (338 Myrs for one promoter; 17,000 years for appearance in at least one of all the human promoters). For 10-mers, the average expected waiting time is 96 billion years for one promoter and around 5 Myr for all promoters - suggesting that in terms of time, it is more favorable to create several short TF binding sites instead of one long TF binding site.
Our results indicate that new TF binding sites can indeed appear on a small evolutionary time scale and that the CpG methylation deamination process probably is one of the driving forces in generating new TF binding sites. Our approach of calculating waiting times for TF binding sites in dependency of their length and composition sheds new light on the process of TF binding site emergence and therefore extends the previous knowledge about the dynamics of promoter sequence evolution.
(joint work with Martin Vingron).
15h30 : Wilson Toussile, Laboratoire de Mathématique d'Orsay.Variables selection in unsupervized classification by mixture using genotypic data
We propose a variable selection procedure in model-based clustering using multilocus genotype data. Indeed, it may happen that some loci are not relevant for clustering into statistically different populations. Inferring the number K of clusters and the relevant clustering subset S of loci is seen as a model selection problem. The competing models are compared using penalized maximum likelihood criteria. Under weak assumptions on the penalty function, we prove the consistency of the resulting estimator
. An associated algorithm named Mixture Model for Genotype Data (MixMoGenD) has been implemented using c++ programming language and is available on http://www.math.u-psud.fr/~toussile. To avoid an exhaustive search of the optimum model, we propose a modified Backward-Stepwise algorithm, which enables a better search of the optimum model among all possible cardinalities of S. We present numerical experiments on simulated and real datasets that highlight the interest of our loci selection procedure.
(collaboration avec E. Gassiat). Ref : http://www.springerlink.com/content/r7k02q167120xl64/
11h : John Bunge, Department of Statistical Science, Cornell University.
Recent Developments in Statistical Analysis of Biodiversity.
I will discuss recent developments, some yet unpublished, in statistical analysis of biodiversity. These include objective (noninformative) Bayesian methods, with a remarkable result regarding objective priors; a new approach based on ratios of successive frequency counts, which can be analyzed in many cases with a simple weighted linear regression model; and finite-mixture models, which are implemented in our new software package CatchAll. I will describe applications to metagenomic data from environmental microbial surveys (terrestrial and aquatic), and challenges related to incorporation of covariates such as time, location, biogeochemical conditions, etc.
11h : Hanna Döring, Ruhr-Universität Bochum, Germany.
Asymptotics for subgraph counts in random graphs.
We prove a moderate deviation principle for subgraph count statistics of Erdös-Rényi random graphs. This is done via an estimation of the log-Laplace transform and the Gärtner-Ellis theorem. We obtain upper bounds on the upper tail probabilities of the number of occurrences of small subgraphs.
The method of proof is used to show supplemental moderate deviation principles for a class of symmetric statistics, including non-degenerate U-statistics with independent or Markovian entries.
(In collaboration with Peter Eichelsbacher)
14h30 : Frédéric Dayan, Université de Nice.
Gene regulation in response to graded hypoxia: The non-redundant roles of the oxygen sensors PHD and FIH in the HIF pathway.
HIF, being the master protein involved in adaptation to low pO2, plays a ma jor role in many physiological and pathological phenomena: development, inflammation, ischemia and cancer. PHD and FIH are the two oxygen sensors
that regulate the HIF pathway. Here we model the regulatory dynamics in an oxygen gradient by a system of differential
equations. A part of the work consists in a qualitative analysis, driven independently of the values of the parameters,
which explains the non-redundant functional roles of FIH and PHD. In a second part, we use biological experiments to
fit the model in a physiologically relevant context and run simulations. Simulation results are confronted with success to
independent biological experiments. The combination of biological data and mathematical analysis stresses that FIH is a
fine modulator determining whether a given gene should be induced in mildly or in strongly hypoxic areas. Moreover it gives access to other functional predictions that are not directly accessible by pure experiments, for instance the stoechiometry of prolyl-hydroxylation on HIF, and the switch-like properties of the system.
10h : Elizabeth Ford, Oxford University
Bounds for convergence for the degree distribution of Barabasi-Albert random graphs
Barabasi-Albert random graph models are a class of models that are often used to model social networks. It has been shown that such models have an asymptotic scale-free degree distribution as the size of the graph tends to infinity.
We compare the evolution of Barabasi-Albert random graphs to species and genus sizes in Yule's model for evolution. We couple the models and apply Stein's method to obtain total variation distance bounds between the degree distributions of Barabasi-Albert random graphs of a given size and the Yule-Simon (scale-free) distribution.
11h : Alain Franc, UMR Biodiversité Gènes et Communautés, INRA Bordeaux
Macro-écologie et populations microbiennes
14h : Xavier Gendre, Université de Nice
Sélection de modèle et estimation d'une composante en régression additive
Etant donné un vecteur aléatoire Y de moyenne s et de matrice de covariance quelconque et connue à une constante multiplicative sigma près, nous proposons d'estimer s par sélection de modèle. Les résultats sont établis sous l'hypothèse d'un bruit gaussien et sous des hypothèses de moment pour sigma connu ou inconnu. Nous les appliquons ensuite au cadre de la régression additive afin d'estimer une composante de la fonction de régression.
14h : Simona Grusea, LATP, Université de Provence
Approximation de Poisson composée et tests statistiques pour la détection de régions génomiques conservées.
Nous présentons une approximation de Poisson composée pour calculer des probabilités impliquées dans des tests statistiques pour la significativité des régions génomiques conservées entre deux espèces différentes. On considère le cas des régions génomiques conservées trouvées par une approche de type région de référence. Un aspect important de notre démarche est le fait de prendre en compte l’existence des familles multigéniques. Nous obtenons des résultats de convergence pour l’erreur de notre approximation en utilisant la méthode de Stein-Chen pour l’approximation de Poisson composée. Nous présentons aussi quelques applications sur des données biologiques.
15h : Samis Trevezas, Université de Compiègne
Etude de l'estimation du Maximum de Vraisemblance dans des modèles Semi-Markoviens et Semi-Markoviens Cachés avec Applications.
Les modèles semi-markoviens cachés (MSMC) constituent une généralisation des modèles markoviens cachés. En fait, les temps de séjour dans les états cachés peuvent suivre une loi quelconque et non nécessairement géométrique. L'exposé commence par une étude de l'estimation du maximum de vraisemblance exacte des chaînes semi-markoviennes (CSM) finies. Il s'agit d'une estimation basée sur une seule trajectoire dont la longueur tend vers l'infini, ainsi que sur plusieurs trajectoires censurées à un instant fixe, dont le nombre tend vers l'infini.
Ensuite, l'étude du modèle semi-markovien est étendue au MSMC, en particulier, au MSMC général avec dépendance des temps de récurrence en arrière. Du point de vue théorique, la convergence et la normalité asymptotique de l'EMV, dans le cas où le support des lois des temps de séjour conditionnelles pour les états cachés est fini, sont montrées. Et, du point de vue appliqué, une version améliorée de l'algorithme EM (Estimation-Maximisation) et une version stochastique de cet algorithme (SAEM) sont proposées, afin de trouver l'EMV pour les MSMC non paramétriques. Des exemples numériques sont également présentés pour ces deux algorithmes.
Enfin, des perspectives de ce travail sont proposées, comme par exemple, l'estimation des îlots de bases CpG dans les chaînes d'ADN.
14h : Patricia Reynaud-Bouret, ENS Paris
Estimation adaptative dans le modèle de Hawkes.
Les processus de Hawkes sont des processus ponctuels qui peuvent permettre de modéliser les distances favorisées ou évitées entre occurrences d'un même phénomène le long du génome. Dans cet exposé, nous montrerons comment des techniques de sélection de modèle permettent de réaliser une estimation adaptative de la fonction de reproduction (ou fonction profil). Nous nous attacherons plus particulièrement aux estimations par constantes par morceaux, le problème principal étant alors de choisir la famille d'intervalles sur laquelle réaliser l'estimation. Vu la nature du problème biologique, on s'attend a ce que la fonction de reproduction soit très irrégulière avec de grandes plages nulles et de brusques variations à des distances précises. La famille d'intervalles choisie devra donc être fondamentalement irrégulière, ce qui empêche d'utiliser les critères de type AIC. Nous nous intéresserons donc à des estimateurs par projection pénalisée et à la calibration théorique et pratique de la pénalité en fonction de la complexité de la famille de modèles.
14h : Etienne Roquain, Université Paris 6, LPMA
p-values pondérées et contrôle du FDR.
Dans le contexte du test multiple, nous cherchons à optimiser la procédure de Benjamini et Hochberg [1], en proposant une façon particulière de pondérer les p-values. Nous obtenons une procédure qui contrôle le false discovery rate (FDR) et qui dépend d'une information a priori sur les données. Des simulations montrent que lorsque cet a priori est correct, la nouvelle procédure améliore celle de [1]. Nous proposons également une application sur des données de puces à ADN.
14h: Fabrice Touzain, LORIA, Nancy
Recherche des sites de fixation des sous-unités sigma de l'ARN polymérase dans des génomes bactériens par approche comparative en suivant des critères statistiques.
Les Sites de Fixation des sous-unités (ou Facteurs) Sigma (SFFS) sont indispensables à la première étape de l'expression d'un gène: l'initiation de la transcription. Ils sont généralement composés de deux boîtes, dites -35 et -10 en référence à la leur position par rapport au site d'initiation de la transcription (point +1). Je présenterai une nouvelle approche pour l'identfication des SFFS. Elle compare deux génomes bactériens phylogénétiquement apparentés. La méthode, appelée
SIGffRid (pour SIGma Factor Finder using R'MES to select Input Data) analyse des paires de régions promotrices de gènes orthologues. Elle utilise la sur-représentation statistique dans les génomes complets comme critère de sélection de chaque boîte potentielle (-35 ou -10). Les paires de boîtes conservées sont alors groupées en utilisant des paires
de courtes graines (l'une d'elle pouvant présenter des gaps), en autorisant la variabilité de l'espacement qui les sépare. Les motifs sont ensuite étendus suivant des considérations statistiques (événement rare si l'on considère sa fréquence d'apparition attendue). Un test statistique distinct (ratio de vraisemblance ou LRT) évalue la significativité de la sur-représentation des motifs générés dans les régions amonts par rapport au reste du génome. Cet algorithme a été
appliqué aux paires de génomes bactériens apparentés de Streptomyces coelicolor A3(2) et Streptomyces avermitilis. Les recoupements avec les SFFS bien définis du régulon SigR dans S. coelicolor ont validé l'algorithme. D'autres SFFS sont également trouvés, pour HrdB, BldN, ou les promoteurs induits par un rayonnement UV, suggérant un certain
nombre de nouvelles cibles pour ces facteurs sigma. Deux consensus de SFFS peu ou non connus sont proposés. Des résultats tout aussi prometteurs sont obtenus chez Bacillus subtilis et Bacillus licheniformis où les consensi des motifs reconnus par les facteurs sigma SigA et SigW sont particulièrement bien définis par la méthode.
14h: David Hunter, Penn State University et Université d'Orléans
Exponential random graphs models
14h: Didier Piau, Université Joseph Fourier, Grenoble
Sur quelques modèles d'évolution avec influence du voisinage
On modélise couramment l'évolution par mutations des séquences d'ADN en supposant que chaque site évolue indépendamment des autres, selon un noyau markovien plus ou moins sophistiqué. Pourtant, les biologistes savent bien que l'identité des voisins immédiats d'un site modifie sensiblement les taux de mutation en ce site. Je présenterai une classe de modèles d'évolution qui incorpore ces effets, certaines de ses propriétés mathématiques et, si le temps le permet, quelques unes des nombreuses questions qui restent ouvertes à son sujet.
14h: Nathalie Peyrard, INRA, MIA Toulouse
Long-range correlations improve understanding the influence of network structure on per contact dynamics
(travail en collaboration avec Alain Franc et Ulf Dieckmann)
Models of infectious diseases are characterized by a phase transition between extinction and persistence. A challenge in contemporary epidemiology is to understand how the geometry of a host's interaction network influences disease dynamics close to the critical point of such a transition. Here we address this challenge with the help of moment closures. Traditional moment closures (like mean field, pair or Bethe approximations), however, do not provide satisfactory predictions close to such critical points. We therefore introduce a new method for incorporating longer-range correlations into existing closures. Our method is technically simple, remains computationally tractable, and significantly improves the approximation's performance. Our extended closures thus provide an innovative tool for quantifying the influence of interaction networks on spatially or socially structured disease dynamics. In particular, we examine the effects of a network's clustering coefficient, as well as of new geometric measures, such as a network's square clustering coefficients. We compare the relative performance of different closures from the literature, with or without our long-range extension. In this way, we demonstrate that the normalized version of the Bethe approximation -- extended to incorporate long-range correlations according to our method -- is an especially good candidate for studying influences of network structure. Our numerical results highlight the importance of the clustering coefficient and the square clustering coefficient for predicting disease dynamics at low and intermediate values of transmission rate, and demonstrate the significance of path redundancy for disease persistence.
14h : Pierre Neuvial , Institut Curie et Laboratoire de Probabilités et Modèles Aléatoires, P7
Propriétés asymptotiques de procédures de contrôle du False Discovery Rate
Dans le contexte des tests d'hypothèses multiples, nous nous intéressons aux procédures de contrôle du FDR. Le FDR (False Discovery Rate) est l'espérance de la proportion de faux positifs parmi les hypothèses rejetées, appelée FDP pour False Discovery Proportion.
Nous introduisons un formalisme général permettant de calculer la loi asymptotique du FDP lorsque le nombre d'hypothèses testées tend vers l'infini. Nous étudions la procédure de Benjamini et Hochberg [1], ainsi que des variantes assurant un contrôle moins conservateur du FDR.
Références
[1] Y. Benjamini and Y. Hochberg. Controlling the false discovery rate : A practical and powerful approach to multiple testing. Journal of the Royal Statistical Society, Series B, 57(1), 1995.
14h : Christophe Giraud, INRA Jouy
Estimation de graphes gaussien par sélection de modèles
Les graphes gaussiens ont été proposés pour modéliser les réseaux d'interactions entres gènes et/ou protéines. Nous présenterons un petit travail théorique sur l'estimation de graphes gaussiens par minimisation d'un risque empirique pénalisé. Nous nous concentrerons sur le cas défavorable où la taille $n$ de l'échantillon est inférieure au nombre $p$ de cofacteurs. Nous nous intéresserons d'une part à la "complexité" maximale des graphes que l'on peut espérer estimer, et d'autre part à la taille minimale de la pénalité permettant d'éviter le phénomène de "sur-adaptation". Nous proposerons ensuite un choix particulier de pénalité et établirons une inégalité de type "oracle" pour l'estimateur résultant. Pour finir, nous présenterons quelques simulations numériques mettant en oeuvre la méthode proposée ainsi que des variantes (plus économes en temps de calcul).
14h: Jean-Stéphane Varré, LIFL, Lille
Calcul de P-valeur efficace et exact pour un motif PWM
Les matrices poids-position (PWMs : Position Weighted Matrices) sont des représentations probabilistes de signaux dans les séquences biologiques. On les trouve fréquemment pour représenter un motif approché à la fois dans les séquences nucléiques et protéiques. Par exemple les matrices sont utilisées pour représenter des sites de fixation de facteurs de transcription. Des banques de données existent telles que Jaspar et Transfac. Une matrice poids-position M est donnée sous la forme d’une matrice de taille m × |A| de réels où m est la longueur de la matrice et A l’alphabet sur lequel est écrit la séquence. Chaque valeur M (i, x) de la matrice donne le score associé à la lettre x de A pour la position i dans [1, m]. La matrice est utilisée classiquement afin de rechercher dans une séquence de A* les occurrences de celle-ci. Etant donné un mot u de A^m, le score de M sur u est défini comme la somme des scores de chaque lettre de u. On décide ensuite si il y a ou non occurrence en comparant le score de la matrice sur u à un seuil de score α préalablement défini. Habituellement ce seuil de score est calculé grˆace à une fonction P-valeur qui indique la significativité d’une occurrence en fonction de son score. La P-valeur représente la probabilité de l’ensemble des mots dont le score est plus grand que α pour la matrice M.
Dans l’exposé, nous nous intéresserons à deux probl`emes. D’une part nous décrirons un
algorithme de localisation d’un grand ensemble de matrices dans une séquence. D’autre part nous discuterons du calcul de la P-valeur.
11h : Sophie Lèbre, Evry SG - Gaëlle Lelandais, Paris 7 EBGM
Inférence de réseaux homogènes par morceaux pour l'étude de la réponse transcriptionnelle de la levure S. cerevisiae en présence d'un composé toxique
De manière à décrire le plus finement possible la réponse transcriptionnelle de la levure S. cerevisiae en présence d'un composé toxique dans le milieu de culture, des analyses comparatives du transcriptome ont été réalisées entre des cellules en présence de bénomyl (produit antimitotique) dans différents contextes génétiques (souche sauvage versus souches délétantes pour un facteur de transcription).
La possibilité d'une action chronologique des différents facteurs de transcription impliqués dans cette réaction a été mise en évidence par Lucau-Danila et al (2005). Pour étudier ce phénomène temporel, nous proposons de modéliser l'effet des facteurs de transcription par un réseau bayésien dont la structure varie au cours du temps.
Nous considérons ainsi un modèle de régression à ruptures multiples. Chaque rupture marque un changement des paramètres du modèle de régression, c'est-à-dire de la façon dont un niveau d'expression dépend des facteurs de transcription. En utilisant des méthodes MCMC à sauts réversibles, nous développons une procédure permettant d'estimer simultanément la position des points de rupture et la structure du réseau au sein de chaque phase.
Les premiers résultats obtenus nous ont permis de mettre en évidence un effet différé du facteur de transcription YAP1 sur certains gènes cibles.
11h : Julien Fayolle, LRI
Comptages des occurences d'un nombre fini de mots
Nous comptons le nombre d'occurrences dans un texte de chacun des mots d'un ensemble fini quelconque. Les objets que nous manipulons sont les séries génératrices et d'autres objets analytiques. Nous utilisons une technique combinatoire appelée « inclusion-exclusion » pour déterminer la série génératrice multivariée des textes comptés selon leur longueur et selon le nombre d'occurrences de chacun des motifs d'un ensemble fini. Le principe d'inclusion-exclusion repose sur la décomposition combinatoire d'un texte en amas, c'est-à-dire en blocs d'occurrences se recouvrant. La complexité des différents calculs est ensuite regardée.
(Travail commun avec Frédérique Bassino, Julien Clément et Pierre Nicodème.)
11h : Romain Rivière, U.Montreal,
Algorithmes de graphes pour la recherche de blocs de construction pertinents pour la modélisation 3D des ARN.
La fonction biologique des structures d'ARN est liée à leurs structures spatiales. Le problème de la modélisation tridimensionnelle d'une structure d'ARN se réduit à un problème combinatoire sur des graphes, qui reste très coûteux en temps de calcul. Une meilleur sélection des blocs de construction primordiaux permettrait d'augmenter grandement la taille des problèmes étudiés. Dans cet exposé, je présente une méthode de sélection de blocs de construction primordiaux et développe principalement 3 points de cette approche:
- Une énumération efficace de tous les sous-graphes induits connexes d'un graphe permet une recherche de blocs sans a priori.
- Un étiquetage canonique des sous-graphes permet de manipuler les blocs comme des séquences.
- Un problème de hitting set permet de sélectionner les blocs de construction primordiaux.
Je termine en proposant un ensemble de blocs de construction pertinent issus d'une structure d'ARN ribosomal de H. marismortui.
11h : Virginie Bernard, URGV - UM INRA CNRS
Organisation topologique des séquences régulatrices et activité transcriptionnelle chez Arabidopsis
résumé
11h : Adeline samson
Estimation dans les modèles mixtes définis par systèmes différentiels: application à la modélisation de l'infection par le VIH
résumé
14h : Gerton Lunter, Oxford
An Irreversible Context-dependent Substitution Model
résumé
15h : Marie-Luce Taupin, Paris 5
Estimation semi-paramétrique du risque instantané dans un modèle avec erreurs sur les covariables
résumé
11h: Antoine Chambaz, Paris 5
Une approche MDL des chaines de Markov cachèes à émissions gaussienne ou poissonienne ; application à l'estimation de l'ordre
résumé
11h : Gesine Reinert, Department of Statistics, Oxford University
Statistics for Watts-Strogatz Small Worlds
résumé
14h : Nicolas Brunel, Paris Dauphine
titre
résumé
15h : Christian Houdré, Georgia Institute of Technology
Lois limites pour quelques problemes de plus longues sous-suites croissantes ou communes
résumé
11h : Marc Lavielle, Universités Paris 5 et Paris 11, INRIA Futurs
Détection de ruptures et sélection de modèles
résumé
11h : Laurent Bréhélin, LIRM Montpellier
Une approche bayésienne pour la classification de cinétiques d'expression de gènes
résumé
11h : Ana Arribas-Gil, Université Orsay
Parameter estimation in pair hidden Markov models
résumé
14h : Florence Forbes, INRIA Rhône-Alpes
Champs de Markov cachés et fusion de données individuelles et pairées pour l'identification de groupes de gènes
résumé
11h : Peggy Cenac, INRIA Rocquencourt
Test de structure de séquences biologiques basé sur la Chaos Game Representation
résumé
11h : Wojciech Pieczynski, INT, Evry
Estimation et restauration de sequences par chaines de Markov triplet
résumé
14h : Sébastien Hergalant, LORIA Nancy
Classification non supervisée par HMM de sites de fixation de facteurs de transcription chez les bactéries actinomycètes
résumé
11h: Brigitte Mangin, Unité de Biométrie et Intelligence Artificielle, INRA, Toulouse
Déséquilibre de liaison et cartographie fine
résumé