Pratique des Biostatistiques
Dernière modification: 22 novembre 2010

La régression pas à pas (stepwise)

La question qui suit généralement l'approche par la régression multiple est de choisir parmi les variables X le plus petit nombre d'entre elles qui explique au mieux la variabilité de Y.

Une méthode courante est une régression itérative qui inclut d’abord dans le modèle la variable qui propose le meilleur coefficient de détermination. Ensuite, celle qui améliore le plus le coefficient de détermination et ainsi de suite.

Alternativement, toutes les variables sont entrées dans le modèle et les variables sont progressivement exclues, en fonction de celles qui contribuent le moins au modèle.

Il faut noter que la seconde variable qui entre dans le modèle n’est pas forcément celle qui présente, à elle seule, le second meilleur coefficient de détermination avec Y. Sinon, la solution serait triviale. En effet, X1 et X2 peuvent être très corrélées, voire quasi redondantes. Dans ce cas la qualité du modèle ne sera pas améliorée. C’est donc la variable qui contribue le plus à réduire la variabilité résiduelle, du modèle en voie d’élaboration qui sera sélectionnée à chaque étape.