Accueil > Logiciels > Analyses statistiques > CORExpress > Fonctionnalités    

Logiciel CORExpress - Régressions par composantes corrélées (CCR) - Sigma Plus

statistical_innovation.gif

CORExpress

Régressions par composantes corrélées
et sélection de variables

statistical_innovation.gif


Régression par composantes corrélées (CCR)

La régression par composantes corrélées (CCR) constitue un cadre général pour l'élaboration d'un modèle de régression à K composantes. Elle a été développée par Dr. Jay Magidson. La première composante est une moyenne de tous les effets directs de chacun des prédicteurs. Ainsi, cette première composante CCR est équivalente à la méthode Naïve Bayes et aux généralisations de cette approche. La méthode Naïve Bayes est meilleure que les méthodes de régression usuelles dans le cas de données de grandes dimensions (voir Bickel et Levina, 2004 et Dudoit et al., 2002).

La deuxième composante, corrélée avec la première, améliore la prévision du modèle à une composante en capturant les effets des variables suppresseurs puis chaque composante additionnelle améliore encore cette prévision. Les variables suppresseurs constituent habituellement les prédicteurs les plus importants et sont fréquentes en  pratique. Malheureusement, les variables suppresseurs sont automatiquement exclues par les méthodes de criblage actuellement utilisées, une mauvaise pratique commentée ci-dessous par Magidson et Wassmann. De plus, les effets de ces variables suppresseurs sont très sous-estimés par les modèles Naïve Bayes. Ainsi, pour les données de grandes dimensions, les modèles CCR contenant de 2 à 4 composantes sont généralement plus performants que les modèles traditionnels et Naïve Bayes.

Importance des variables suppresseurs pour les prévisions

Hanczar, et al. (2007) ont montré que les paires de gènes synergétiques sont courantes dans l'expression des gènes et que lorsqu'elles sont présentes dans un modèle, elles permettent une meilleure discrimination entre un tissu cancéreux et un tissu normal. Magidson et Wassmann (2010) ont montré que la raison pour laquelle les paires de gènes de Hanczar prédisent mieux est qu'un gène de la paire est une variable suppresseur et que l'inclusion d'une ou de plusieurs variables suppresseurs parmi les prédicteurs du modèle améliore la qualité des prévisions et la fiabilité des modèles.

Les variables suppresseurs également appelées “proxy genes” en génomique (Magidson et Wassmann, 2010), n'ont pas d'effets directs, mais améliore les prévisions en accroissant les effets d'un ou de plusieurs gènes associés ayant des d'effets directs, appelés “prime genes”. Magidson et Wassmann ont montré que les variables suppresseurs sont souvent des prédicteurs importants, sinon les plus importants, dans la plupart des modèles de prévision.

Malgré l'importante littérature documentant les effets importants de ces variables suppresseurs (par exemple Horst, 1941, Lynn, 2003, Friedman et Wall, 2005), la plupart des méthodes de criblage n'utilisent pas de variables suppresseurs avant le développement des modèles, ce qui conduit à des modèles sous-optimaux. Cela inclut plusieurs approches usuelles comme le pré-criblage suggéré par Bair et al. (2006) et la procédure SIS proposée par Fan et Lv (2008). A la lumière des résultats de Hanczar et al et de Magidson et Wassmann, il semble que l'exclusion des "proxy genes" peut être comparée à “jeter le bébé avec l'eau de la baignoire”.

Même s'ils ne font pas référence directement aux variables suppresseurs, Fan et Lv (2008) reconnaissent l'importance de ces variables et la défaillance de la procédure SIS à les inclure dans les prédicteurs sélectionnés. Pour remédier à cette défaillance, ils proposent une version itérative de la méthode SIS, appelée ISIS, et montrent que ISIS accepte plus facilement l'inclusion de variables suppresseurs en utilisant des données simulées dans ISIS, méthode qui a été critiquée car elle utilise trop de paramètres de réglages (Buhlmann, 2008).

Procédure innovante pour la sélection des prédicteurs

"With PLS I have never been able to predict correctly the low octane indices ... With CCR I discover for the first time that it is possible by selecting the good predictors."

Michel Tenenhaus, Ph.D. - Professeur émérite - HEC Paris

Les méthodes CCR incluent également une procédure de sélection des prédicteurs, qui a montré son efficacité en excluant les prédicteurs sans intérêt et accessoires et en améliorant la performance prédictive des modèles sur de nouvelles données (voir dans la page Téléchargement les tutoriels 1 et 2). Pour un modèle à K composantes, cette procédure de sélection élimine à chaque étape la variable la moins importante, l'importance étant évaluée comme la valeur absolue du coefficient standardisé de la variable. CORExpress permet l'élimination de plusieurs prédicteurs à la fois. Par défaut, 1% des prédicteurs est éliminé à chaque étape, jusqu'à ce qu'il ne reste plus que 100 prédicteurs, ensuite l'élimination se fait un par un. Cette fonctionnalité est utile lorsqu'il y a un grand nombre de prédicteurs. Voir dans la page Téléchargement le tutoriel 3 pour un exemple dans lequel les 10 meilleurs prédicteurs parmi 3000 prédicteurs candidats sont sélectionnés en seulement quelques secondes.

Vous pouvez nom seulement préciser le nombre minimum de prédicteurs désiré mais également le nombre maximum de prédicteurs à sélectionner. Supposons que vous débutiez avec 10000 prédicteurs. Si vous éliminez les prédicteurs 1 à 1, mais précisez un maximum de 20 prédicteurs, vous obtiendrez le meilleur modèle contenant entre 1 et 20 prédicteurs. Ainsi, le résumé en pied de la fenêtre des résultats ainsi que le graphique associé n'afficheront que les résultats des modèles comprenant entre 1 et 20 prédicteurs.

Graphiques interactifs

Bien que le R2 soit la statistique usuelle pour mesurer la qualité de prévision en régression linéaire (CCR-Linear), l'exactitude (ACC) et l'aire sous la courbe ROC (AUC) sont  les statistiques correspondantes utilisées dans les régressions ayant une variable à expliquer dichotomique, régression logistique (CCR-Logistic) ou analyse discriminante linéaire (CCR-LDA). Un graphique spécial courbe ROC / nuage de points est disponible pour l'analyse discriminante linéaire permettant la modification interactive du seuil pour le classement des observations et pour la validation de la performance sur les données de base et les données de validation, lorsqu'elles sont disponibles.

Validation croisée à M blocs

L'utilisation de la validation croisée à M blocs pour déterminer les valeurs optimales des paramètres de réglage est une pratique courante. Elle est utilisée par exemple pour obtenir la valeur optimale du paramètre lambda dans la régression pénalisée lasso. Dans CORExpress, cette technique est utilisée pour optimiser deux paramètres de réglage, P et K. Cela est réalisé de façon efficace pour chaque composante séparément. En pratique, cette procédure est très rapide car les utilisateurs évaluent en général un petit nombre de modèles dont le nombre de composantes K est inférieur à 10 quelque soit le nombre de prédicteurs P.

Tableau de comptages des prédicteurs sélectionnés

Pour les besoins de la validation croisée, les utilisateurs peuvent également préciser le nombre R de répétitions des M blocs. Un tableau affichant les nombres de fois où chacun des prédicteurs a été sélectionné est fourni lorsque l'algorithme de sélection pas à pas est mis en oeuvre avec la validation croisée pour compléter les statistiques données par défaut concernant la sélection du nombre de prédicteurs et la liste des prédicteurs particuliers à inclure dans le modèle. Pour chaque répétition des M blocs, ce tableau de comptages indique le nombre total de fois où chaque prédicteur a été sélectionné pour être inclus dans le modèle, avec un maximum de M dans le cas où il a été sélectionné indépendamment du bloc exclu lors de la validation croisée. Les prédicteurs sans intérêt et accessoires ont des comptages proches de 0 ou inférieurs à M pour chaque répétition. Voir les tutoriels pour des exemples.


Envoyer message

Plan du site    Contact