Pratique des Biostatistiques
Dernière modification: 22 novembre 2010

Conceptualiser la régression multiple à deux variables X

Utilisons le même genre de démarche pour conceptualiser les fondements de la régression multiple, et détaillons les différents modes de régressions multiples linéaires.

Régression linéaire multiple à deux variables X

Prenons notre modèle de régression précédent (Y=2+0,6X) et rajoutons une variable aléatoire normale X2.
Le modèle devient donc par exemple: Y=2+0,6X1+1,2X2

Rappel : Régression linéaire multiple à deux variables aléatoires: Modèle : Y=B0+B1X1+B2X2
Le modèle idéal d'une régression linéaire multiple à deux variables X est un plan dans un espace à 3 dimensions (X1,X2,Y).
Prenons un exemple ou Y=2+0,6X1+1,2X2.
Ce modèle décrit la projection dans l'espace d'un plan défini par les deux droites d'équations :
Y=2+0,6X1 dans le référentiel (X1,Y).
Y=2+1,2X2 dans le référentiel (X2,Y).
Lorsque X1 et X2 sont des variables aléatoires normales, les points se répartissent sur le plan selon l'intégration de deux distributions normales, et sont donc d'autant plus nombreux qu'on se rapproche du point dont les coordonnées sont (mX1;mX2;mY).

La distribution des points sur le plan est donc influencée par les paramètres de distribution des X1 et X2, c'est-à-dire par une variabilité horizontale à deux dimensions.

Dans notre premier exemple X1 et X2 sont des variables normales de paramètres μ=0 et σ=1. Dans ce cas le nuage de points est rond.

Dans notre second exemple X1 et X2 n'ont pas le même écart-type σ: Dans ce cas le nuage de points est de forme ovale.

En conditions expérimentales, la distribution n'est jamais idéale. Des erreurs de mesures, des imprécisions, et des sources de variabilité d'origines diverses viennent s'ajouter au modèle normal. Dans ce cas les points ne se distribuent plus selon un plan parfait, mais selon un nuage, d'autant plus proche du plan parfait que ces variabilités supplémentaires sont faibles.
Ces sources supplémentaires de variabilité, si X1, X2, et Y sont mesurés, influencent la distribution des points horizontalement si elles s'appliquent à X1 et X2, et verticalement si elles concernent Y.

Dans notre exemple, pour simplifier les choses, nous avons résumé ces sources de variabilité supplémentaire en une variable aléatoire qui disperse les points verticalement par rapport au plan selon un modèle normal de paramètres μ=0 et σ=0,5.

Pour bien conceptualiser ceci en 3D le même nuage de points est illustré sous deux perspectives différentes, la seconde étant dans l'axe du plan du modèle idéal: on voit alors que les points ne sont plus uniquement dans le plan, mais se répartissent de part et d'autres pour former un nuage en 3D.

Lorsque la variable X1 est fixée, ici aux valeurs -3, -2, -1, 0, 1, 2, et 3, le nuage de points se résume à des tranches de variabilité. .
Lorsque les deux variables X1 et X2 sont de valeurs fixées, le nuage de points se résume à des colonnes de variabilité.
Le but de la régression est donc, face à une situation expérimentale, de chercher à quantifier ces sources de variabilités additionnelles verticales et horizontales, de manière à retrouver quel serait le modèle mathématique qui caractériserait au mieux la distribution des points si ces variabilités additionnelles, inévitables en conditions expérimentales, n'existaient pas.

Régression non-linéaire multiple à deux variables X

Dans la régression multiple le modèle est considéré comme non-linéaire à partir du moment où la distribution des points dans au moins une des dimensions ne suis pas un modèle linéaire

Exemples de régressions multiples non-linéaires
Les modèles non-linéaires étant fort nombreux nous nous contenterons ici de donner deux exemples de représentation graphique de cas de régression non-linéaire.

Premier exemple : la relation entre Y et X1 suit un modèle linéaire, celle entre Y et X2 un modèle logarithmique.
Y= 1+0,6X1 + log(X2).

Deuxième exemple : les deux variables X ont une relation logarithmique avec Y.
Y= 1+log(X1) + log(X2).