Logiciel CORExpress - Régressions par composantes corrélées (CCR) - Sigma Plus
CORExpress
Régressions par
composantes corrélées
et sélection de variables
Régression par composantes corrélées (CCR)
La régression par composantes corrélées (CCR) constitue un cadre général pour
l'élaboration d'un modèle de régression à K composantes. Elle a été développée
par Dr. Jay Magidson. La première composante est une moyenne de tous les effets
directs de chacun des prédicteurs. Ainsi, cette première composante CCR est
équivalente à la méthode Naïve Bayes et aux généralisations de cette approche.
La méthode Naïve Bayes est meilleure que les méthodes de régression usuelles
dans le cas de données de grandes dimensions (voir Bickel et Levina, 2004 et
Dudoit et al., 2002).
La deuxième composante, corrélée avec la première, améliore la prévision du
modèle à une composante en capturant les effets des variables suppresseurs puis
chaque composante additionnelle améliore encore cette prévision. Les variables
suppresseurs constituent habituellement les prédicteurs les plus importants et
sont fréquentes en pratique. Malheureusement, les variables suppresseurs
sont automatiquement exclues par les méthodes de criblage actuellement utilisées,
une mauvaise pratique commentée ci-dessous par Magidson et Wassmann. De plus, les effets de ces variables
suppresseurs sont très sous-estimés par les modèles Naïve Bayes. Ainsi, pour les
données de grandes dimensions, les modèles CCR contenant de 2 à 4 composantes
sont généralement plus performants que les modèles traditionnels et Naïve Bayes.
Importance des variables suppresseurs pour les prévisions
Hanczar, et al. (2007) ont montré que les paires de gènes
synergétiques sont courantes dans l'expression des gènes et que lorsqu'elles sont
présentes dans un modèle, elles permettent une meilleure discrimination entre un
tissu cancéreux et un tissu normal.
Magidson et Wassmann (2010) ont montré que la raison pour laquelle les
paires de gènes de Hanczar prédisent mieux est qu'un gène de la paire est une
variable suppresseur et que l'inclusion d'une ou de plusieurs variables
suppresseurs parmi les prédicteurs du modèle améliore la qualité des prévisions
et la fiabilité des modèles.
Les variables suppresseurs également appelées “proxy genes” en génomique (Magidson
et Wassmann,
2010), n'ont pas d'effets directs, mais améliore les prévisions en accroissant
les effets d'un ou de plusieurs gènes associés ayant des d'effets directs,
appelés “prime genes”.
Magidson et Wassmann ont montré que les variables suppresseurs sont souvent des
prédicteurs importants, sinon les plus importants, dans la plupart des modèles
de prévision.
Malgré l'importante littérature documentant les effets importants de ces
variables suppresseurs (par exemple Horst, 1941, Lynn, 2003, Friedman et Wall, 2005),
la plupart des méthodes de criblage n'utilisent pas de variables suppresseurs
avant le développement des modèles,
ce qui conduit à des modèles sous-optimaux. Cela inclut plusieurs approches
usuelles comme le pré-criblage suggéré par Bair et al. (2006) et la procédure SIS proposée
par Fan et Lv (2008). A la lumière des résultats de Hanczar et al et de Magidson
et Wassmann, il semble que l'exclusion des "proxy genes" peut être comparée à “jeter
le bébé avec l'eau de la baignoire”.
Même s'ils ne font pas référence directement aux variables suppresseurs, Fan et Lv (2008)
reconnaissent l'importance de ces variables et la défaillance de la procédure SIS
à les inclure dans les prédicteurs sélectionnés. Pour remédier à cette
défaillance, ils proposent une version itérative de la méthode SIS, appelée ISIS,
et montrent que ISIS accepte plus facilement l'inclusion de variables
suppresseurs en utilisant des données simulées dans ISIS, méthode qui a été
critiquée car elle utilise trop de paramètres de réglages (Buhlmann, 2008).
Procédure innovante pour la sélection des prédicteurs
"With PLS I have never been able to predict correctly the low octane indices
... With CCR I discover for the first time that it is possible by selecting the
good predictors."
Michel Tenenhaus, Ph.D. - Professeur émérite - HEC Paris
Les méthodes CCR incluent également une procédure de sélection des prédicteurs,
qui a montré son efficacité en excluant les prédicteurs sans intérêt et
accessoires et en améliorant la performance prédictive des modèles sur de
nouvelles données (voir dans la page Téléchargement les tutoriels 1 et 2).
Pour un modèle à K composantes, cette procédure de sélection élimine à chaque
étape la variable la moins importante, l'importance
étant évaluée comme la valeur absolue du coefficient standardisé de la variable. CORExpress
permet l'élimination de plusieurs prédicteurs à la fois. Par défaut, 1% des
prédicteurs est éliminé à chaque étape, jusqu'à ce qu'il ne reste plus que 100 prédicteurs,
ensuite l'élimination se fait un par un. Cette fonctionnalité est utile
lorsqu'il y a un grand nombre de prédicteurs. Voir dans la page
Téléchargement le tutoriel 3 pour un exemple dans lequel les 10 meilleurs
prédicteurs parmi 3000 prédicteurs candidats sont sélectionnés en seulement
quelques secondes.
Vous pouvez nom seulement préciser le nombre minimum de prédicteurs désiré mais
également le nombre maximum de prédicteurs à sélectionner. Supposons que vous
débutiez avec 10000 prédicteurs. Si vous éliminez les prédicteurs 1 à 1, mais
précisez un maximum de 20 prédicteurs, vous obtiendrez le meilleur modèle
contenant entre 1 et 20 prédicteurs. Ainsi, le résumé en pied de la fenêtre des
résultats ainsi que le graphique associé n'afficheront que les résultats des
modèles comprenant entre 1 et 20 prédicteurs.
Graphiques interactifs
Bien que le R2 soit la statistique usuelle pour
mesurer la qualité de prévision en régression linéaire (CCR-Linear),
l'exactitude (ACC) et l'aire sous la courbe ROC (AUC) sont les
statistiques correspondantes utilisées dans les régressions ayant une variable à
expliquer dichotomique, régression logistique (CCR-Logistic) ou analyse
discriminante linéaire (CCR-LDA). Un graphique spécial courbe ROC / nuage de
points est disponible pour l'analyse discriminante linéaire permettant la
modification interactive du seuil pour le classement des observations et pour la
validation de la performance sur les données de base et les données de
validation, lorsqu'elles sont disponibles.
Validation croisée à M blocs
L'utilisation de la validation croisée à M
blocs pour déterminer les valeurs optimales des paramètres de réglage est une
pratique courante. Elle est utilisée par exemple pour obtenir la valeur optimale
du paramètre lambda dans la régression pénalisée lasso. Dans CORExpress, cette
technique est utilisée pour optimiser deux paramètres de réglage, P et K. Cela
est réalisé de façon efficace pour chaque composante séparément. En pratique,
cette procédure est très rapide car les utilisateurs évaluent en général un
petit nombre de modèles dont le nombre de composantes K est inférieur à 10
quelque soit le nombre de prédicteurs P.
Tableau de comptages des prédicteurs sélectionnés
Pour les besoins de la
validation croisée, les utilisateurs peuvent également préciser le nombre R de
répétitions des M blocs. Un tableau affichant les nombres de fois où chacun des
prédicteurs a été sélectionné est fourni lorsque l'algorithme de sélection pas à
pas est mis en oeuvre avec la validation croisée pour compléter
les statistiques données par défaut concernant la sélection du nombre de prédicteurs
et la liste des prédicteurs particuliers à inclure dans le modèle.
Pour chaque répétition des M blocs, ce tableau de comptages indique le nombre
total de fois où chaque prédicteur a été sélectionné pour être inclus dans le modèle,
avec un maximum de M dans le cas où il a été sélectionné indépendamment du bloc
exclu lors de la validation croisée. Les prédicteurs sans intérêt et accessoires
ont des comptages proches de 0 ou inférieurs à M pour chaque répétition. Voir les tutoriels pour des exemples.