Mathieu Sauvenier - Identification and Inference in High-Dimensional Econometric Models

ESPO Louvain-La-Neuve, Mons

21 avril 2023

14h

Louvain-la-Neuve

Center For Operations Research and Econometrics (CORE) - Room B-135

Le Recteur de l'Université catholique de Louvain fait savoir que

Mathieu Sauvenier

soutiendra publiquement sa dissertation pour l'obtention du grade de Doctorat en sciences économiques et de gestion

“Identification and Inference in High-Dimensional Econometric Models”

Abstract

Big data sets are often called high-dimensional data sets in statistical literature. In a linear regression model, for instance, high dimensionality means that the number of covariates is greater than the number of observations. In a multivariate time series framework, high dimensionality refers to situations where many time series are studied jointly.

The thesis contributes to the development of statistical analysis of both high-dimensional cross-sectional data and high-dimensional time series. The contributions relate both to the theoretical and to the empirical analysis of high-dimensional data.

For high-dimensional cross-sections, we provide new results concerning the modeling, the selection, the estimation and the statistical testing of hypothesis in a high-dimensional linear sparse model.

Chapter 2 establishes the connection between the Best Subset Selection and the Generalized Eigenvalue Problem in the context of high dimensional sparse linear regression. The chapter identifies the direction of the parameter of interest with the generalized eigenspace associated with the only nonnull generalized eigenvalue of a pair of measurable matrices. Based on this result, the chapter also introduces a new estimator for which the minimax convergence and a central limit theorem are established. Simulation results highlight the superiority of the suggested estimator over existing methods.

Chapter 3 provides a goodness-of-fit test for variable selection in high-dimensional sparse linear models. This test is implemented using a Multiple-splitting Projection Test procedure and is designed to minimize a moment condition that is proven to reflect the sparsity constraint. The chapter demonstrates the test's power through Monte Carlo experiments and applies it to the problem of nowcasting the quarterly Belgian GDP via monthly time series.

Chapter 6 briefly discusses high-dimensional data modelling from a more fundamental perspective and provides an early exploration of the connections between existing theoretical setups.

For high-dimensional time series data we provide results for modeling and estimating the time varying second order structure of high-dimensional zero-mean processes through the definition, the identification and the estimation of a new class of multivariate multiscale models for locally stationary processes.

Chapter 4 defines the class of cross-correlation wavelet functions and studies some of its important properties. The chapter then defines a new class of multivariate locally stationary wavelet processes and identifies the asymptotic representation of the time-varying second order structure of a vector time series in the space of the cross-correlation of wavelet functions.

Chapter 5 studies the estimation of the representation of the second order structure of a vector time series in the space of cross-correlation of wavelet functions. An estimator is presented, and its convergence is established. The chapter also presents an economic application of the method that studies the time varying coordination between Saudi Arabia and the rest of OPEC in oil production by providing new measurements not reliant on the assumption of stationarity.

Résumé

Dans la littérature statistique, les grands ensembles de données (Big Data) sont souvent appelés données à haute dimension. Dans un modèle de régression linéaire, par exemple, la haute dimensionnalité signifie que le nombre de covariables est supérieur au nombre d'observations. Dans le cadre de séries temporelles multivariées, la haute dimensionnalité réfère à des situations où de nombreuses séries temporelles sont étudiées conjointement.

La thèse contribue au développement de l'analyse statistique des données transversales à haute dimension et des séries temporelles à haute dimension. Les contributions concernent à la fois l'analyse théorique et l'analyse empirique des données à haute dimension.

Pour les données transversales à haute dimension, nous fournissons de nouveaux résultats concernant la modélisation, la sélection, l'estimation et le test statistique d’hypothèses dans un modèle linéaire parcimonieux à haute dimension.

Le chapitre 2 établit le lien entre deux importants problèmes en statistique. Le chapitre identifie la direction du paramètre d'intérêt avec l'espace propre généralisé associé à la seule valeur propre généralisée non nulle d'une paire de matrices mesurables. Sur la base de ce résultat, le chapitre introduit également un nouvel estimateur pour lequel la convergence minimax et un théorème central limite sont établis. Des simulations mettent en évidence la supériorité de l'estimateur proposé par rapport à des compétiteurs directs.

Le chapitre 3 propose un test de la qualité de l’ajustement d’une sélection de variables dans les modèles linéaires parcimonieux de haute dimension. Ce test minimise une condition de moment dont il est prouvé qu'elle reflète la contrainte de parcimonie. Le chapitre démontre la puissance du test à travers des expériences de Monte Carlo et l'applique au problème de la prévision immédiate du PIB belge via des séries temporelles mensuelles.

Le chapitre 6 discute brièvement la modélisation des données à haute dimension d'un point de vue plus fondamental.

Pour les données de séries temporelles à haute dimension, nous fournissons des résultats pour la modélisation et l'estimation de la structure du second ordre, variant dans le temps, des processus à moyenne nulle à haute dimension par la définition, l'identification et l'estimation d'une nouvelle classe de modèles à ondelettes pour les processus multivarié localement stationnaires.

Le chapitre 4 définit la classe des fonctions d'ondelettes de corrélation croisée et étudie certaines de ses propriétés importantes. Il définit ensuite une nouvelle classe de processus d'ondelettes multivariés localement stationnaires et identifie la représentation asymptotique de leur structure de second ordre dans l'espace des fonctions d’ondelettes de corrélation croisée.

Le chapitre 5 étudie l'estimation de la représentation de la structure de second ordre d'une série temporelle multivariée dans l'espace des fonctions d’ondelettes de corrélation croisée. Un estimateur est présenté et sa convergence est établie. Le chapitre présente également une application de la méthode à un problème économique lié à l’organisation du marché du pétrole.

Membres du jury

Prof. Sébastien Van Bellegem (UCLouvain), promoteur
Prof. Francesca Monti (UCLouvain), présidente du jury
Prof. Christian Hafner (UCLouvain), secrétaire du jury
Prof. Anna Simoni (ENSAE)
Prof. Germain Van Bever (UNamur)

Categories Events: