Régression dans l'ANOVA 1

Outils pédagogiques complémentaires

Définition de la technique et conditions d'application

Une expérience fait parfois intervenir une série statistique à deux dimensions, c'est-à-dire 2 séries d'observations X et Y couplées. Lorsqu'au moins une des 2 variables est aléatoire, il est possible de considérer ces 2 variables simultanément au moyen d'une régression.

2 variables aléatoires X = abondance d'une récolte (variable aléatoire)
Y = nombre de jours d'ensoleillement (variable aléatoire)
1 variable aléatoire et une variable contrôlée X = température fixée (variable contrôlée)
Y = nombre de graines germées (variable aléatoire)

Cas étudié dans le cadre de ce cours:

Dans le cadre de ce cours, seul le cas où X est une variable contrôlée (non aléatoire, c'est-à-dire dont les valeurs sont fixées par l'expérimentateur) sera considéré.

Conditions d'utilisation de la régression dans l'ANOVA :
 

Condition 1:

Les valeurs prises par la variable X doivent être fixées sans erreur par l'expérimentateur.

Condition 2

X étant une variable contrôlée, on peut considérer Y comme fonction de X, mais non le contraire :

TeX Embedding failed!

Condition 3:

Pour chaque valeur Xi de X, il existe une population de valeurs Yi distribuée normalement, de moyenne µi et de variance σ2 homogène c'est-à-dire constante quelle que soit la valeur de X :

TeX Embedding failed!

Condition 4:

Les moyennes µi correspondant aux valeurs Yi sont situées sur une droite dont les paramètres sont β0 et β1 telle que :

TeX Embedding failed!
avec β0, l'ordonnée à l'origine et β1, la pente

,

Condition 5:

Les variables aléatoires Yi sont indépendantes.

Exemple et interprétation en statistiques descriptives

Supposons que l'on réalise une expérience portant sur l'étude de la pression sanguine (Y variable aléatoire) en fonction de l'âge (X variable contrôlée):

Lorsque l'âge des patients augmente, observe-t-on un accroissement de leur pression sanguine?

Cet accroissement répond-il à un modèle linéaire?

Age
20
30
40
50
60
70
valeurs
120
123
134
130
142
145
125
120
128
137
136
138
121
126
127
135
139
141
118
125
131
133
141
148

Ce que nous savons déjà:

Une simple analyse descriptive permet déjà de tirer les conclusions suivantes:

  1. Le coefficient de corrélation r vaut environ 0,94. L'interprétation est la suivante: "Si la relation entre X et Y est de type linéaire, elle est croissante, car r est positif. De plus, comme r est très proche de 1, on peut supposer que le nuage de points est très concentré autour de la droite de régression. Il est cependant impossible de tirer une conclusion ferme et définitive sur la linéarité de la relation tant que le graphique n'a pas été réalisé (méthode empirique), ou qu'un test sur la linéarité de la relation n'a pas été effectué (méthode statistique)."  
  2. Le coefficient de détermination R2 vaut environ 0,88. L'interprétation est la suivante: "Si la relation entre X et Y est de type linéaire, le modèle mathématique Y=aX+b peut expliquer à lui seul 88% de la variabilité observée en Y. Les 12% restants représentent les erreurs de mesures et toutes les imprécisions engendrées lors de l'expérience. Comme au point précédent, sans la visualisation graphique de l'expérience, ou un test statistique sur la linéarité, il est impossible d'affirmer avec certitude que la relation est bien linéaire."
  3. Grâce à la représentation graphique (diagramme de dispersion), nous pouvons voir que le modèle linéaire semble bien adapté à la répartition des points, mais rien ne nous prouve que c'est ce modèle qui explique au mieux la distribution des points.

Pression systolique (Y aléatoire) en fonction de l'âge du patient (X fixe)

En réalisant une ANOVA suivie d'une régression,  il est possible de tester la linéarité et la non-linéarité de la relation entre X et Y.

 

Analyse de la régression dans l'ANOVA

L'analyse de la régression dans l'ANOVA est une méthode de calcul qui permet de découper la variabilité expliquée (factorielle) en deux parties.

  1.  La première partie contient la variabilité expliquée par le modèle linéaire (SCEreg).
  2. La seconde partie contient la variabilité expliquée par la non linéarité de la relation (SCEnl)

SCEF=SCEreg + SCEnl

Le principe de la régression dans l'ANOVA est de tester ces deux parties de la variabilité factorielle (variabilité due à la régression et variabilité non linéaire) par rapport à la variabilité résiduelle. Cette décomposition n'est réalisable que si le facteur ou critère de classification de l'ANOVA est un critère quantitatif ordonné (voir conditions d'applications).

  SCE dl CM F observé F tables
TOTALE SCET N-1      
Régression SCEreg 1 CMreg  TeX Embedding failed! Fdl reg; dlR; 0,95 ou 0,99
non linéaire SCEnl na-2 CMnl TeX Embedding failed! Fdl nl; dlR; 0,95 ou 0,99
RESIDUELLE SCER N-na CMR    

Test sur la régression :

Si le F observé pour la régression est supérieur au F des tables pour 1 dl (correspondant aux degrés de liberté de la variabilité due à la régression) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que lorsqu'on applique le modèle linéaire µi=β0+β1Xi entre la pression sanguine et l'âge, la pente β1 est non nulle. Le signe de la pente correspond au signe de la somme des produits des écarts (SPE) ou de la covariance. Dans cet exemple, on peut dire que la pression sanguine augmente avec l'âge.

Dans les graphiques ci-dessous le résultat de ce test est symbolisé par la droite noire en pointillés. Lorsque le test est non-significatif, la droite a une pente nulle; lorsqu'il est significatif, elle a une pente différente de zéro, illustrée ici par une pente de 40 degrés en positif. 

Test sur la non-linéarité :

Si le F observé pour l'aspect non linéaire est supérieur au F des tables pour (na-2) dl (correspondant aux degrés de liberté de la variabilité non linéaire) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que la distribution des Y s'écarte significativement du modèle linéaire, et qu' il vaudrait mieux recourir à une relation non-linéaire pour décrire Y en fonction de X.

Dans les graphiques ci-dessous, le résultat de ce test est symbolisé par le trait bleu. Lorsque le test est non significatif, cela signifie que la droite suffit à décrire la relation de Y en fonction de X (régression linéaire simple). Lorsque le test est significatif, cela signifie que les points s'écartent significativement de la droite et donc que l'équation mathématique caractérisant au mieux Y en fonction de X est de type non-linéaire.

Explication graphique :

    Régression: CMreg/CMR
    Non Significatif :
La droite utilisée a
une pente nulle
Significatif :
La droite utilisée a
une pente non nulle

Non linéarité:
CMnl/CMR

Non Significatif :
Il n'y a pas d'écarts significatifs par rapport à la droite:

le modèle idéal peut être considéré comme linéaire.

Significatif :
Il y a des écarts significatifs
par rapport à la droite:

le modèle idéal peut être considéré comme non linéaire.

Attention: Dans le cas de résultat significatif pour la non-linéarité, la courbe dessinée ici n'est qu'un des multiples exemples possibles. Dans ce cas l'étape suivante est de déterminer parmi tous les modèles non-linéaires (exponentiel, logarithmique, puissance, inverse, etc...) celui qui est le mieux adapté (et le plus simple) à la distribution des points.

Calcul avec MS Excel

 
SCE
dl
CM
F observé
F tables
TOTALE SCET N-1      
FACTORIELLE
SCEF
na-1
CMF
CMF/CMR
Fdl F; dlR; 1-alpha
Régression
1
CMreg
CMreg/CMR
Fdl reg; dlR; 1-alpha
non linéaire
na-2
CMnl
CMnl/CMR
Fdl nl; dlR; 1-alpha
RESIDUELLE
SCER
N-na
CMR
   

En plus de ce tableau, il est nécessaire de calculer:

  1. SPE
  2. SCEx

SCE reg

La somme des carrés d'écarts de la variabilité due à la régression se calcule de la manière suivante:

TeX Embedding failed!

NB: Cette formule ne nécessite pas de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) .

top


SCE nl

La somme des carrés d'écarts de la variabilité non linéaire se calcule de la manière suivante:

TeX Embedding failed!

 


SPE

La somme des produits d'écarts se calcule de la manière suivante:

= SOMME((zone des X-moyenne des X)*(zone des Y-moyenne des Y))

NB: Cette formule nécessite de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) !

top


SCEx

La somme des carrés des écarts de X se calcule dans Excel de deux manières différentes:

1: Si pour chaque Xi correspond un série de Yij:

Votre tableau de données est alors organisé comme ceci:

X1
X2
X3
X4
Y11
Y21
Y31
Y31
Y12
Y22
Y32
Y32
...
...
...
...

Dans ce cas la formule à utiliser est : =ni*SOMME.CARRES.ECARTS(zone des X)

2: Si chaque Xi est répété à chaque ligne, et lui correspond un et un seul Y ij:

Votre tableau de données est alors organisé comme ceci:

Xi
Yij
X1
Y11
X1
Y12
X1
Y13
X1
Y14
X2
Y21
X2
Y22
...
...

Dans ce cas la formule à utiliser est : =SOMME.CARRES.ECARTS(zone des X)