Pratique des Biostatistiques
Dernière modification: 22 novembre 2010

Objectifs

La régression multiple est la suite logique de la régression simple vue lors des statistiques descriptives à deux dimensions et dans l'ANOVA1.

Le but de la régression multiple est de déterminer le modèle mathématique permettant d’expliquer au mieux la variabilité d’une variable Y en fonction, non plus de une, mais de plusieurs variables X1, X2, X3 etc...

Exemple: expliquer la variabilité de la taille de truites adultes (Y) en fonction de la température des bassins d'élevage (X1), du pH de l'eau (X2), de la teneur en protéines de leurs aliments (X3), etc... le tout simultanément.

Tout comme pour la régression simple, il existe plusieurs modèles de régressions multiples:

Le modèle linéaire est une équation qui oriente une droite dans un hyper-espace qui a autant de dimensions qu'il y a de variables ( Y, X1, X2, X3 = 4 dimensions). C'est le modèle de régression multiple le plus simple :

Y = B0 + B1X1 + B2X2 + B3X3 + ...

Le terme B0 est l'ordonnée à l'origine, c'est-à-dire la valeur de Y lorsque toutes les variables Xi sont nulles.

Les modèles non-linéaires (exponentiels, logarithmiques, etc...) sont très complexes, et sortent du cadre de ce cours. Ils ne seront donc pas abordés.

Cas particulier :

Le modèle polynomial est un modèle de régression simple car il ne concerne que deux variables (X et Y) mais qui sera néanmoins détaillé ici car son mode de calcul est similaire à celui de la régression multiple.

Le modèle polynomial ne concerne qu'une seule variable X, mais qui sera élevé à plusieurs puissances croissantes. Cette équation permet de tracer une courbe qui aura autant de points d’inflexion qu’il y a de degrés au polynôme :

Y = B0 + B1X + B2X2 + B3X3 + ....