# en fr Penalization and data reduction of auxiliary variables in survey sampling Pénalisation et réduction de la dimension des variables auxiliaires en théorie des sondages

en fr Penalization and data reduction of auxiliary variables in survey sampling Pénalisation et réduction de la dimension des variables auxiliaires en théorie des sondages

1 IMB - Institut de Mathématiques de Bourgogne Dijon

Abstract : Survey sampling techniques are quite useful in a way to estimate population parameterssuch as the population total when the large dimensional auxiliary data setis available. This thesis deals with the estimation of population total in presenceof ill-conditioned large data set.In the first chapter, we give some basic definitions that will be used in thelater chapters. The Horvitz-Thompson estimator is defined as an estimator whichdoes not use auxiliary variables. Along with, calibration technique is defined toincorporate the auxiliary variables for sake of improvement in the estimation ofpopulation totals for a fixed sample size.The second chapter is a part of a review article about ridge regression estimationas a remedy for the multicollinearity. We give a detailed review ofthe model-based, design-based and model-assisted scenarios for ridge estimation.These estimates give improved results in terms of MSE compared to the leastsquared estimates. Penalized calibration is also defined under survey sampling asan equivalent estimation technique to the ridge regression in the classical statisticscase. Simulation results confirm the improved estimation compared to theHorvitz-Thompson estimator.Another solution to the ill-conditioned large auxiliary data is given in terms ofprincipal components analysis in chapter three. Principal component regression isdefined and its use in survey sampling is explored. Some new types of principalcomponent calibration techniques are proposed such as calibration on the secondmoment of principal component variables, partial principal component calibrationand estimated principal component calibration to estimate a population total. Applicationof these techniques on real data advocates the use of these data reductiontechniques for the improved estimation of population totals

Résumé : Les enquêtes par sondage sont utiles pour estimer des caractéristiques d-une populationtelles que le total ou la moyenne. Cette thèse s-intéresse à l-étude detechniques permettant de prendre en compte un grand nombre de variables auxiliairespour l-estimation d-un total.Le premier chapitre rappelle quelques définitions et propriétés utiles pour lasuite du manuscrit : l-estimateur de Horvitz-Thompson, qui est présenté commeun estimateur n-utilisant pas l-information auxiliaire ainsi que les techniques decalage qui permettent de modifier les poids de sondage de facon à prendre encompte l-information auxiliaire en restituant exactement dans l-échantillon leurstotaux sur la population.Le deuxième chapitre, qui est une partie d-un article de synthèse accepté pourpublication, présente les méthodes de régression ridge comme un remède possibleau problème de colinéarité des variables auxiliaires, et donc de mauvais conditionnement.Nous étudions les points de vue -model-based- et -model-assisted- dela ridge regression. Cette technique qui fournit de meilleurs résultats en termed-erreur quadratique en comparaison avec les moindres carrés ordinaires peutégalement s-interpréter comme un calage pénalisé. Des simulations permettentd-illustrer l-intérêt de cette technique par comparaison avec l-estimateur de Horvitz-Thompson.Le chapitre trois présente une autre manière de traiter les problèmes de colinéaritévia une réduction de la dimension basée sur les composantes principales. Nousétudions la régression sur composantes principales dans le contexte des sondages.Nous explorons également le calage sur les moments d-ordre deux des composantesprincipales ainsi que le calage partiel et le calage sur les composantes principalesestimées. Une illustration sur des données de l-entreprise Médiamétrie permet deconfirmer l-intérêt des ces techniques basées sur la réduction de la dimension pourl-estimation d-un total en présence d-un grand nombre de variables auxiliaires

Keywords : Survey sampling Multicollinearity Ridge regression Penalized calibration Model-based estimator Model-assisted estimator Horvitz-Thompson estimator Principal component calibration

Mots-clés : Sondage Colinéarité Régression ridge Calage pénalisé Estimateur assisté par un modèle Estimateur basé sur un modèle Estimateur de Horvitz-Thompson Calage sur composantes principales

Source: https://hal.archives-ouvertes.fr/