Cuvelier, Etienne
[FUNDP]
(eng)
Functional data analysis is the part of data analysis which is interested specifically by the functional data. Functional data arise naturally in the study of many phenomenons, and are any continuous phenomenon which can be measured for any values of a varying parameter, this parameter can be the time, but not in all the cases. The study of functional data could become mainstream due to the increasing interest for the data analysis of streaming data, which become ubiquitous in our networked world. But a specificity of functional data is that they belong to an infinite dimensional space, which increases the difficulty to define certain concepts, like the probability distribution of a functional random variable. However probability distributions are be valuable tools, because they can be seen as the Swiss army knife of the data analysis: they are used in many procedures: unsupervised classification by mixture decomposition, Bayesian supervised classification, regression functions, statistical inference... Then, there were a strong interest to develop probability distributions for functional data, and this is the cornerstone of this thesis: the definition, the construction and the use in the data analysis framework, of probability distributions directly defined in the infinite dimensional space of functional data.
We define a new kind of probability distributions, called QAMML distributions, in mixing two close concepts: Archimedean copulas and Quasi-arithmetic means. QAMML distributions, directly defined in the infinite dimensional space of functional data, need also the definition of an adapted kind of density, and for this we use a directional differential called the Gateaux differential.
Our approach is not only a theoretical one, because we use these new tools, in data analysis of functional and symbolic data, simply like a “plug-in” in two existing methods: the unsupervised classification by mixture decomposition and the Bayesian supervised classification. We use also the QAMML distributions to build functional confidence intervals.
(fre)
Les données fonctionnelles deviennent de nos jours de plus en plus courantes. Ces données peuvent résulter des mesures répétées d’un phénomène au cours du temps, mais aussi lors de la variation d’un paramètre non temporel, comme par exemple une longueur d’onde. Ces données sont l’objet de l’Analyse de Données Fonctionnelles. De telles données peuvent aussi avoir une origine statistique, comme lorsqu’on veut « résumer » le contenu d’une variable en utilisant sa distribution de probabilité, comme c’est le cas en Analyse de Données Symboliques.
Si ce type de données est souvent stocké sous forme discrétisée, c’est à dire sous forme multivariée, ces données sont par nature de dimension infinie. L’approche classique qui, consiste à appliquer des techniques multivariées aux versions discrétisées de ces données, donne lieu à un paradoxe : la minimisation de la perte d’informations lors du stockage, par augmentation de la finesse de discrétisation, est confrontée au fléau de la dimension, à savoir la raréfaction des données lors de l’augmentation de la dimensionnalité. La mise au point d’outils directement conçus pour ce type de données spécifiques que sont les données fonctionnelles est donc impérative. Mais l'infinité dimensionnelle de celles-ci rend difficile la mise au point de ce type d’outils, et c'est particulièrement vrai lors de la construction d’un incontournable en analyse de données : la notion de distribution de probabilité d'une variable aléatoire fonctionnelle.
Dans cette thèse, nous nous attachons, tout en restant dans le cadre de l’analyse de données, à définir et construire une classe de distributions de probabilités directement définies dans l’espace de dimension infinie dans lequel sont plongées les données fonctionnelles. Cette classe de distributions, dénommées QAMML, est développée en associant un générateur de copule Archimédienne à une moyenne quasi-arithmétique.
Cette nouvelle famille de distributions de probabilités pour données fonctionnelles, nécessite aussi de définir un nouveau type de densité de probabilité, ce que nous faisons en utilisant la dérivée directionnelle de Gâteaux.
Notre approche n’est pas uniquement théorique, car nous illustrons l’utilité de ces distributions en analyse de données en « injectant », telles quelles, les distributions QAMML dans deux algorithmes initialement conçus dans le cadre de l’analyse multivariée: la classification non supervisée par décomposition de mélange et la classification supervisée bayésienne. Nous illustrons aussi l’usage de ces distributions en statistique en construisant des intervalles de confiance fonctionnels. Ces trois « illustrations » sont réalisées sur des données réelles.
Bibliographic reference |
Cuvelier, Etienne. QAMML: Probability Distributions For Functional Data. Prom. : Noirhomme-Fraiture, Monique |
Permanent URL |
http://hdl.handle.net/2078.2/24880 |