en fr Statistical learning methods for bipartite ranking Méthodes dapprentissage statistique pour le scoring Report as inadecuate




en fr Statistical learning methods for bipartite ranking Méthodes dapprentissage statistique pour le scoring - Download this document for free, or read online. Document in PDF available to download.

1 LTCI - Laboratoire Traitement et Communication de l-Information

Abstract : Bipartite ranking is a statistical issue consisting in sorting objects lying in a multidimensional feature space, randomly associated with binary labels, so that positive instances appear on top of the list with highest probability. This research work aims at developing a tree-induction ranking method based on a top-down recursive partitioning strategy and leading to a scoring function summarized by a rooted, binary, left-right oriented tree graph. In order to improve the flexibility of this learning method, we introduce a partition-based procedure involving complex and adaptive splitting rules. We then tackle the classical issue of model selection and propose two penalization-based procedures providing the best ranking tree for prediction. Finally, in order to reduce the instability of ranking trees and increase their accuracy, we propose to adapt two re-sampling and aggregating procedures introduced by Breiman in the classification and regression contexts: bagging 1996 and random forests 2001. An empirical comparison between several versions of this ranking algorithm and state-of-the-art scoring methods is provided. We also present the results output on industrial objectivization data. Last but not least, we introduce a two-stage testing procedure aiming at solving the two-sample problem in a multidimensional setting, based on the proposed ranking algorithm and on one-dimensional rank tests.

Résumé : Cette thèse porte sur le développement d-une méthode non-paramétrique pour l-apprentissage supervisé de règles d-ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l-espace des observations et généralise la notion d-arbre de décision au problème de l-ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d-apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l-algorithme, de scinder l-espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l-ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l-instabilité des arbres d-ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d-agrégation de règles de prédiction ré-échantillonnées : le bagging Breiman, 1996 et les forêts aléatoires Random Forests, Breiman, 2001. Une étude empirique comparative entre différentes configurations de l-algorithme et quelques méthodes de l-état de l-art est présentée, ainsi que l-application à la problématique industrielle de l-objectivation des prestations d-un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d-homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel.

en fr

Keywords : decision tree ROC curve pruning resampling aggregation

Mots-clés : ordonnancement ranking scoring arbre de décision courbe COR élagage ré-échantillonnage agrégation





Author: Marine Depecker -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents