Analyse de la variance à un critère

Analyse de la variance à un critère de classification: ANOVA 1

Outils pédagogiques complémentaires

Définition

L'analyse de la variance à un critère de classification (ANOVA I) a pour but la comparaison des moyennes de nA populations, à partir d'échantillons aléatoires et indépendants prélevés dans chacune d'elles. Ces populations sont en général des variantes (ou niveaux na) d'un facteur contrôlé (ou facteur A) de variation.

Conditions 

  1. le paramètre étudié suit une distribution normale
  2. les variances des populations sont toutes égales (HOMOSCEDASTICITE)
  3. les échantillons sont prélevés aléatoirement et indépendamment dans les populations
  4. le facteur ou critère est dit fixe quand les niveaux du facteur sont fixés par l'expérimentateur

Procédure de calcul d'une ANOVA 

  1. Déterminer si les échantillons varient de la même manière (vérifier l'hypothèse d'homoscedasticité)
  2. Si les variances sont homogènes, les moyennes peuvent être comparées

Remarque

Bien que le terme "analyse de variance" l'indique, l'objectif final de l'ANOVA est de comparer des moyennes et non pas des variances. Cependant, la technique utilisée recourt à des comparaisons de variances.

Homoscédasticité: Test de Hartley

Le test de Hartley est utilisé pour comparer des variances calculées à partir d'échantillons possédant des nombres identiques d'individus.

Rappel : la réalisation de ce test a été détaillée au module 125 page 2 .

Dans le cas d'une ANOVA, le test de Hartley est utilisé pour vérifier que tous les échantillons d'une expérience (s'ils ont des nombres d'individus identiques) ont des variances qui sont comparables. Ceci est indispensable pour s'assurer que les échantillons proviennent de populations à variances égales, et que si le facteur de variation utilisé dans l'expérience a eu un effet sur les données, il a bien induit une modification de moyenne, mais pas de variance.

ANOVA: Variable de Fisher

Le test de Fisher est utilisé lorsque qu'il faut comparer 2 variances de deux échantillons possédant des nombres différents d'individus.

Rappel : la réalisation de ce test a été détaillée au module 125 page 3.

Dans le cas d'une ANOVA, le test de Fisher est utilisé pour comparer deux carrés moyens car les carrés moyens sont des variances, et qu'ils ont en général des nombres de degrés de liberté différents (ils sont donc calculés à partir de nombres d'individus différents).

Dans le cas d'une ANOVA1 le seul rapport de carrés moyens est :

TeX Embedding failed!

On verra par la suite (régression dans l'ANOVA, ANOVA2, ANOVA multiples) qu'il peut y avoir d'autres rapports de carrés moyens à comparer en utilisant ce test.

Hypothèses

H0: toutes les moyennes sont identiques
H1: au moins une des moyennes est différente des autres

Le calcul:

Si vous utilisez MS Excel, le plus simple est de réaliser un tableau tel que:

 
SCE
dl
CM
Fobservé
Fthéorique
Total
SCET
N-1
   
dlF et dlR
factoriel
SCEF
na-1
SCEF/dlF
CMF/CMR
alpha 5%
résiduel
SCER
N-na
SCER/dlR
 
alpha 1%
  • SCET =SOMME.CARRES.ECARTS(individus de l'expérience)
  • SCEF =ni*SOMME.CARRES.ECARTS(moyennes des échantillons)
  • SCER =(ni-1)*SOMME(toutes les variances)
  • Fthéorique : trouver sa valeur soit en utilisant les tables, soit en utilisant la fonction MS Excel suivante : =INVERSE.LOI.F(alpha;dlF;dlR))
  • Il est possible aussi de calculer la probabilité d'observer une valeur de F aussi grande: P[F > Fobservé] en utilisant la fonction MS Excel loi.F(Fobservé, dlF;dlR). Si la probabilité est inférieure à alpha, on rejette l'égalité des moyennes. Cette probabilité estime de façon directe la probabilité d'erreur de type I.

La fonction de somme des carrés d'écarts est disponible dans MS Excel via le bouton fx (coller une fonction) dans la catégorie "statistique", chercher la fonction SOMME.CARRES.ECARTS(série de données)

Convention d'écriture:

  • N est le nombre total d'observations tous échantillons confondus
  • na est le nombre d'échantillons comparés
  • ni est le nombre d'individus par échantillon

Remarques:

  1. SCER =SCET-SCEF (premier niveau de vérification du tableau d'ANOVA)
  2. le CMR est aussi égal à la moyenne des variances (second niveau de vérification du tableau d'ANOVA)

Seuil de signification:

Dans les tables, il faut aller rechercher:

F dlfactoriel; dlrésiduel; (1-alpha)

Le test d'ANOVA est unilatéral (voir Dagnelie, Théorie et Méthodes statistiques, vol. 2): on ne s'intéresse qu'aux valeurs de F (=CMF/CMR) significativement supérieures à 1: La variabilité induite par le facteur (CMF) est-elle plus grande que la variabilité résiduelle (CMR) ?

Conclusion du test:

Lorsque le Fobservé est supérieur ou égal au Fthéorique (F des tables), ou encore si P[F > Fobservé] est inférieure à alpha, il y a rejet de l'hypothèse nulle H0: on rejette l'égalité des moyennes. Cela implique que l'on a réussi à mettre en évidence la présence d'au moins une moyenne différente des autres.

Fobs ≥ Ftables ou P [F > Fobservé] < alpha, RH0

  • S (ou *) signifie RH0 pour un alpha de 5%
  • SS (ou **) signifie RH0 pour un alpha de 1%
  • SSS (ou ***) signifie RH0 pour un alpha de 0,1%

On ne peut cependant pas dire avec précision la ou lesquelles des moyennes est ou sont différente(s) des autres. Pour pouvoir localiser les différences entre moyennes, il est nécessaire d'effectuer des analyses complémentaires telles que les contrastes de Scheffé ou les contrastes orthogonaux (si ces derniers sont justifiés).

Récapitulatif

Illustrons les trois sommes des carrés des écarts intervenant dans l'ANOVA sur base d'un exemple d'une expérience regroupant 18 vaches réparties en 3 échantillons de 6 individus.

SCET : Somme des carrés des écarts totaux

Elle reflète les écarts existant entre chaque individu de l'expérience et la moyenne générale, peu importe l'échantillon auquel les individus appartiennent.
Elle représente la variabilité totale au sein de l'expérience.

Degrés de libertés : N-1 (N=nombre total d'individus dans l'expérience.)
Dans notre exemple dlSCET=18-1=17

Calcul dans Excel ou OpenOffice:
=SOMME.CARRES.ECARTS(série des données).

SCEF : Somme des carrés des écarts factoriels

Elle reflète les écarts existant entre les moyennes de chaque échantillon et celle de l'expérience.
Elle représente la variabilité due aux différences entre échantillons, et donc la variabilité due à l'existence d'un facteur de variation.

Degrés de libertés : na-1 (na=nombre d'échantillons dans l'expérience.)
Dans notre exemple dlSCEF=3-1=2

Calcul dans Excel ou OpenOffice:
=ni*SOMME.CARRES.ECARTS(série des moyennes des échantillons)
avec ni = nombre d'individus par échantillon.

SCER : Somme des carrés des écarts résiduels

Elle reflète les écarts existant entre chaque individu et la moyenne de son propre échantillon.
Elle représente la variabilité existant au sein des échantillons, c'est-à-dire celle qui ne peut être expliquée par la présence du facteur de variation.

Degrés de libertés : N-na
Dans notre exemple dlSCER=18-3=15

Calcul dans Excel ou OpenOffice:
=(ni-1)*SOMME(série des variances des échantillons).

Exercices

1. Dans une expérience portant sur des moutons, on observe l'effet d'une injection d'hormone sur la croissance pondérale. L'accroissement de poids (en kg) après trois semaines est mesuré chez un groupe témoin, et sur 3 groupes recevant une dose croissante de l'hormone. Ci-dessous, voici ce qui est mis à votre disposition:

  Doses    
  Témoin 0,5 1 2    
Moyennes 3,05 4,60 5,63 6,13  4,85 moyenne générale
Variances 0,31 0,21 0,19 0,19  0,23 moyenne des variances
  • Complétez le tableau ci-dessous.

      SCE dl CM Fobs
    Totale 76,62 47    
    Factorielle 66,68 ? ? ?
    Résiduelle 9,94 ? ?  
  • Quelle est la taille d'un échantillon ?

  • Quelles conclusions pouvez-vous en tirer?


2. Une industrie pharmaceutique désire tester trois stimulants de l'appétit (S1, S2, S3) en mesurant la capacité d'absorption de nourriture chez le rat. Quatre groupes de 12 rats sont constitués: le premier servant de témoin, les trois autres recevant respectivement les stimulants S1, S2 et S3. On mesure la quantité de nourriture (en kg) ingérée sur un mois. Ci-dessous, voici ce qui est mis à votre disposition:

  Témoin S1 S2 S3    
Moyennes 2,90 4,11 5,14 5,56 4,42 moyenne générale
Variances 2,11 0,99 0,35 1,05 1,13 moyenne des variances
  SCE dl CM Fobs
Totale 100,34 47    
Factorielle 50,69 3 16,90 14,97
Résiduelle 49,66 44 1,13  

Quelles conclusions pouvez-vous en tirer?


3. Un ornithologue s'intéresse à l'évolution d'une espèce d'oiseaux répartie dans trois sites géographiquement distincts A, B et C, et plus particulièrement aux différences morphologiques engendrées par les mécanismes d'isolement. A cet effet, il a mesuré la longueur des ailes (en mm) de 10 oiseaux capturés sur chaque site. Les barrières géographiques ont-elles engendré des différences morphologiques sur cette espèce? On considère que les variances des échantillons sont comparables. Ci-dessous, voici ce qui est mis à votre disposition:

  A B C    
Moyennes 71,2 74,4 72,6 72,73 moyenne générale
Variance résiduelle 4,31    
  • Complétez le tableau suivant.
      SCE dl CM Fobs
    Totale 167,84 29    
    Factorielle 51,47 2 ? ?
    Résiduelle 116,37 27 ?  
  • Quelles conclusions pouvez-vous en tirer? 

4. Pour fixer les quotas laitiers, on souhaite réaliser une estimation de la production laitière annuelle du cheptel de la Région Wallonne. Cette production varie évidemment d'un animal à l'autre, mais aussi, vraisemblablement, d'une région à l'autre. L'expérimentateur décide de prospecter trois régions: la Hesbaye, le Condroz et les Ardennes. Dans chaque région, il recueille les statistiques de production de dix vaches, prises au hasard dans différentes exploitations. Ci-dessous, voici ce qui est mis à votre disposition:

  Hesbaye Condroz Ardennes    
Moyennes 3714,8 4400,4 5157,4 4424,2 moyenne générale
Variances 696291,5 1184127,4 1244629,8 1041682,9 moyenne des variances
  • Complétez le tableau suivant:
      SCE dl CM Fobs
    Totale 38539408,8 29    
    Factorielle 10413970,4 ? ? ?
    Résiduelle ? ? ?  
  • Quelles conclusions pouvez-vous en tirer?

5. Un hydrobiologiste s'intéresse à la teneur en phosphates de quatre lacs. Il effectue dans chaque lac 5 mesures indépendantes de la concentration en phosphates (microgrammes par litre). Analysez les résultats.

  Lac 1 Lac 2 Lac 3 Lac 4    
Moyennes 101,8 112,2 109,6 114,2 109,45 moyenne générale
Variances 22,7 18,7 19,3 14,7 18,85 moyenne des variances
  SCE dl CM Fobs
Totale 744,95 19    
Factorielle 443,35 3 147,78 7,84
Résiduelle 301,6 16 18,85  

Quelles conclusions pouvez-vous en tirer?


6. Lors d'une étude sur l'effet de la teneur en calcium dans la nourriture des brebis, le poids frais (en g) du muscle semi-tendineux est mesuré sur les animaux de six groupes:
A : pas d'apport de sels minéraux
B,C,D : trois rations de sels minéraux sous forme de supplément
E,F : deux rations additionnées à la nourriture.
Ci-dessous, voici ce qui est mis à votre disposition:

  A B C D E F    
Moyennes 41,46 55,51 56,36 46,21 62,57 61,29 53,90 moyenne générale
Variances 198,01 287,11 120,84 318,48 69,26 145,73

189,90

moyenne des variances
  SCE dl CM Fobs
Totale ? ?    
Factorielle 2465,97 ? ? ?
Résiduelle ? ? ?  

Quelles conclusions pouvez-vous en tirer?


7. Douze parcelles de terrain sont divisées aléatoirement en 3 groupes. Le premier sert de témoin, les deux autres sont fertilisés respectivement avec les engrais A et B. On effectue une mesure de rendement sur chaque parcelle. Ci-dessous, voici ce qui est mis à votre disposition: 

  Témoin A B    
Moyennes 61 70 73 68 moyenne générale
Variances 20,67 14 17,33 17,33 moyenne des variances
  SCE dl CM Fobs
Totale 468 11    
Factorielle 312 2 156 9
Résiduelle 156 9 17,33  

Quelles conclusions pouvez-vous en tirer?

 

Contrastes de Scheffé

Outils pédagogiques complémentaires

Technique et définition

Cette méthode (contrastes de Scheffé) de comparaison des moyennes est peu sensible à la non normalité et à l'inégalité des variances comparées. Elle est applicable même dans le cas où les effectifs des échantillons ne sont pas tous égaux (Scheffé 1953). C'est une méthode peu puissante (capacité à rejeter l'hypothèse nulle à bon escient) mais elle garantit un risque d'erreur de type I limité à alpha pour l'ensemble des comparaisons réalisées.

Définition

On appelle contraste toute combinaison linéaire des moyennes des nA populations.

TeX Embedding failed!

Où les ci sont des constantes liées par la relation

TeX Embedding failed!

Exemple:  TeX Embedding failed! est un contraste car la somme des coefficients ci (+1 et -1) est nulle.

S'il n'y a que 2 coefficients +1 et -1,  il s'agit d'un test de comparaison de moyennes 2 à 2 (Scheffé simple). Soit les deux moyennes testées sont identiques (H0: TeX Embedding failed! ) soit elles sont différentes (H1: TeX Embedding failed!).

Principe

Les contrastes de Scheffé simples permettent de tester si la différence entre deux moyennes est significativement différente de 0. Pour cela, la différence observée est comparée en valeur absolue à une valeur seuil appelée PPDS ou la Plus Petite Différence Significative.

 
moyenne 1
moyenne 2
moyenne 3
moyenne 1
0
   
moyenne 2
moy1-moy2
0
 
moyenne 3
moy1-moy3
moy2-moy3
0

Chaque différence entre deux moyennes est comparée à la PPDS.

Si la différence est plus grande que la PPDS, on considère que l'écart séparant les deux échantillons est significatif ou hautement significatif suivant le alpha utilisé pour déterminer la valeur de la PPDS.

Scheffé simple

L'utilisation des contrastes de SCHEFFE sur MS Excel se réalise comme suit:

Aligner les moyennes de l'expérience
 
moyenne 1
moyenne 2
moyenne 3
moyenne 1
     
moyenne 2
     
moyenne 3
     

 

Réaliser les différences entre les moyennes 2 à 2
 
moyenne 1
moyenne 2
moyenne 3
moyenne 1
m1-m1
m2-m1
m3-m1
moyenne 2
m1-m2
m2-m2
m3-m2
moyenne 3
m1-m3
m2-m3
m3-m3

Ampoule pour éviter d'avoir à traiter des valeurs négatives vous pouvez employer la fonction Excel =ABS(votre calcul) qui transforme le résultat de votre calcul en une valeur absolue.

 
moyenne 1
moyenne 2
moyenne 3
moyenne 1
ABS(m1-m1)
ABS(m2-m1)
ABS(m3-m1)
moyenne 2
ABS(m1-m2)
ABS(m2-m2)
ABS(m3-m2)
moyenne 3
ABS(m1-m3)
ABS(m2-m3)
ABS(m3-m3)

 

Calculer la PPDS (Plus Petite Différence Significative)

TeX Embedding failed!


Ce qui équivaut à faire dans Excel:

= RACINE(INVERSE.LOI.F(alpha,dlF,dlR)*(na-1)*2*(CMR/ni))

où vous devez remplacer alpha, dlF, dlR, na, CMR et ni par leur valeur respective.

ATTENTION: selon les versions et les réglages d'Excel le séparateur de alpha et des dl est parfois une virgule, parfois un point-virgule.

A la place de la formule INVERSE.LOI.F(alpha,dlF,dlR) vous pouvez aussi déterminer dans les tables la valeur de F à utiliser.

Calculez les PPDS qui correspondent à un alpha de 5% et de 1% (NDLR: valeur à rentrer dans Excel: 0,05 et 0,01).

Conclusion du test de SCHEFFE:

Lorsqu'une des différences est plus grande que la PPDS, cela signifie que les 2 moyennes comparées sont différentes de façon significative, ou hautement significative, selon que la PPDS utilisée est celle calculée pour alpha=5% ou celle calculée pour alpha=1%.

 

Exemple de conclusion du test de SCHEFFE:
 
moyenne 1
moyenne 2
moyenne 3
moyenne 1
0    
moyenne 2
S 0  
moyenne 3
nS SS 0

 

Les contrastes de SCHEFFE mettent en évidence une différence significative entre les échantillons 1 et 2 ainsi qu'une différence très significative entre les échantillons 2 et 3. Les échantillons 1 et 3 possèdent des moyennes comparables.

distances entre échantillons non significative, significative ou hautement significative

 

 

Scheffé groupé

Pourquoi regrouper?

Le groupement lors de l'analyse des contrastes de Scheffé permet d'augmenter la puissance du test et de se poser a posteriori des questions plus élaborées. Elle s'utilise principalement quand certains niveaux du facteur peuvent être regroupés selon une certaine logique. Dans le cas du Scheffé groupé, le contraste TeX Embedding failed! contient en général plus de 2 coefficients ci non nuls.

Méthodologie:

Lors d'une étude sur l'effet de la teneur en calcium dans la nourriture des brebis, le poids frais (g) du muscle semi-tendineux est quantifié sur 6 groupes de 7 animaux, chaque groupe recevant du calcium à une dose et un type d'administration qui lui sont spécifiques.

 
Témoin
Additif
Comprimé
Liquide
 
dose 1
dose 2
dose 1
dose 2
moyenne
140,0
143,4
145,1
139,3
147,6
147,9
variance
3,0
7,0
3,2
5,7
5,6
3,8

 

Le test de Hartley est non significatif: la condition d'homoscédasticité est donc remplie.

L'ANOVA 1 est significative: au moins une des moyennes de poids diffère.
Il est donc intéressant d'étudier les contrastes de Scheffé de manière groupée.

Scheffé groupé

H0: les deux groupes comparés sont de moyenne égale
H1: les deux groupes comparés ont des moyennes différentes

 
Témoin
140,0
Additif
Comprimé
139,3
Liquide
L
Σci2
PPDS
groupé
Ccl
 
dose 1
143,4
dose 2
145,1
dose 1
147,6
dose 2
147,9
Q1
5
-1
-1
-1
-1
-1
-23,3
30
15,7
*
Q2
0
2
2
2
-3
-3
-30,9
30
15,7
*
Q3
0
-1
-1
2
0
0
-9,9
6
7,0
*

Les questions:

Q1: Y a-t-il un effet significatif de l'administration de calcium sur le poids des muscles?
Q2: L'administration du calcium sous forme liquide a-t-elle un effet différent de l'administration de Ca sous une autre forme?
Q3: L'administration du Ca sous forme de comprimé a-t-elle un effet différent sur le poids des muscles par rapport à l'administration sous forme d'additif?

Les coefficients des contrastes sont déterminés en fonction des hypothèses nulles (absence d'effets) correspondant aux questions posées.

Pour Q1, H0: m1 = (m2+m3+m4+m5+m6)/5 ou 5m1-1m2-1m3-1m4-1m5-1m6 = 0
Pour Q2, H0: (m2+m3+m4)/3 = (m5+m6)2 ou 2m2+2m3+2m4-3m5-3m6 = 0
Pour Q3, H0: m4 = (m2+m3)/2 ou -1m2-1m3+2m4 = 0

Remarquons que les contrastes de Scheffé simples peuvent se ramener à des contrastes de Scheffé groupés ou il n'y a que deux coefficients  +1 et -1 affectant les deux moyennes à comparer.

Les calculs:

L

TeX Embedding failed!

PPDS groupé

TeX Embedding failed!

 

Les conclusions:

  • si |L| > PPDS: RH0
  • si |L|< PPDS: AH0

Q1: nous observons un effet significatif de l'administration de calcium sur les poids des muscles et ce, quelle que soit la méthode d'administration
Q2: nous constatons que les effets de l'apport en calcium sont significativement plus élevés lorsqu'il est fourni sous forme liquide par rapport aux additifs et aux comprimés
Q3: nous constatons que l'effet sur le poids des muscles est significativement plus important lorsque l'apport se fait sous forme d'additifs par rapport aux apports sous forme de comprimés

Formules utiles dans Excel:

Afin d'alléger les calculs dans Excel, utilisez de préférence les formules "prêtes à l'emploi" disponibles via le bouton "coller une fonction" (fx).

ABS(...) permet de faire calculer la valeur absolue

SOMMEPROD(matrice1; matrice2) permet de calculer une somme de produits de valeurs provenant de 2 matrices de données distinctes (exemple: matrice1= valeur1; valeur2 et matrice2= valeur3; valeur4. Suivant la formule, on calcule (valeur1*valeur3+valeur2*valeur4)

SOMME.CARRES(série de données) permet de calculer la somme des carrés des valeurs sélectionnées

Contrastes orthogonaux

Technique et définition

Technique

Cette méthode de comparaison des moyennes (contrastes orthogonaux) est plus puissante que la méthode des contrastes de Scheffé. Comme cette dernière, elle est applicable même dans le cas où les effectifs des échantillons ne sont pas tous égaux.

Définition

La plupart des expériences sont réalisées dans le but de répondre à une ou plusieurs questions précises. Chacune des questions posées constitue un contraste l.

On appelle contraste toute combinaison linéaire des moyennes des nA populations.

TeX Embedding failed!

Où les ci sont des constantes liées par la relation

TeX Embedding failed!

Afin que les différents contrastes à tester ne soient pas redondants, il est nécessaire qu'ils soient indépendants. Dans ce cas, ils sont dits "ORTHOGONAUX".

Deux contrastes lp et lq sont orthogonaux si et seulement si le produit scalaire de leurs coefficients cpi et cqi est nul.
cp1cq1+cp2cq2+...+cpnAcqnA = 0

 

Quelques considérations:

Dans une expérience comportant nA échantillons, il y a (nA-1) contrastes orthogonaux entre eux. Ils sont en général définis a priori avant même l'obtention des résultats.

Une expérience contenant r contrastes l1, l2, ... et lr forment un ensemble de contrastes mutuellement orthogonaux si, et seulement si, ils sont orthogonaux 2 à 2.

Exemple

Supposons qu'une entreprise pharmaceutique souhaite tester deux médicaments A et B pour voir s'ils ont une influence sur la croissance pondérale de moutons. Pour chacun des médicaments, deux doses (dose 1 et dose 2) sont testées.

L'expérimentateur va construire une expérience comme suit:

 
MEDICAMENT A
MEDICAMENT B
TEMOIN
DOSE 1
DOSE 2
DOSE 1
DOSE 2

Comme il y a 5 échantillons (nA), il y a donc 4 questions (nA-1) non redondantes à se poser:

 

  1. Les médicaments A et B ont-ils un effet sur la croissance pondérale des moutons?
  2. Le médicament B a-t-il le même effet que le médicament A?
  3. La dose du médicament A a-t-elle une importance sur croissance pondérale des animaux testés?
  4. La dose du médicament B a-t-elle une importance sur croissance pondérale des animaux testés?

1°) Les médicaments A et B ont-ils un effet sur la croissance pondérale des moutons?

 
MEDICAMENT A
MEDICAMENT B
TEMOIN
DOSE 1
DOSE 2
DOSE 1
DOSE 2
+4
-1
-1
-1
-1

Pour répondre à cette question, l'expérimentateur va imputer aux différentes moyennes de l'expérience une valeur ci de manière à opposer les résultats des différents médicaments au résultat obtenu avec le témoin.

top


2°) Le médicament B a-t-il le même effet que le médicament A?

 
MEDICAMENT A
MEDICAMENT B
TEMOIN
DOSE 1
DOSE 2
DOSE 1
DOSE 2
0
+1
+1
-1
-1

Pour répondre à cette question, l'expérimentateur va imputer aux 2 moyennes correspondant au médicament A une valeur ci telle qu'elle va opposer à celles imputées aux moyennes du médicament B.

top


3°) La dose du médicament A a-t-elle une importance sur la croissance pondérale des animaux testés?

 
MEDICAMENT A
MEDICAMENT B
TEMOIN
DOSE 1
DOSE 2
DOSE 1
DOSE 2
0
+1
-1
0
0

Pour répondre à cette question, l'expérimentateur va imputer à la moyenne correspondant à la dose 1 du médicament A une valeur ci telle qu'elle va opposer à celle imputée à la moyenne de la dose 2 de ce même médicament A.

top


4°) La dose du médicament B a-t-elle une importance sur croissance pondérale des animaux testés?

 
MEDICAMENT A
MEDICAMENT B
TEMOIN
DOSE 1
DOSE 2
DOSE 1
DOSE 2
0
0
0
+1
-1

Pour répondre à cette question, l'expérimentateur va imputer à la moyenne correspondant à la dose 1 du médicament B une valeur ci telle qu'elle va opposer à celle imputée à la moyenne de la dose 2 de ce même médicament B.

Calculs

   
MEDICAMENT A
MEDICAMENT B
TeX Embedding failed!
TeX Embedding failed!
D2
F obs
conclure
 
TEMOIN
DOSE 1
DOSE 2
DOSE 1
DOSE 2
         
c1
+4
-1
-1
-1
-1
 
20
     
c2
0
+1
+1
-1
-1
 
4
     
c3
0
+1
-1
0
0
 
2
     
c4
0
0
0
+1
-1
 
2
     

Quelques remarques

Ti

Les Ti (pour i = 1, 2, ..., nA) correspondent aux totaux. Ainsi, T1 résulte de la somme des valeurs de l'échantillon 1 ou encore au produit suivant:

moyenne1*ni avec ni le nombre d'individus dans un échantillon



Calculer TeX Embedding failed!

 

TeX Embedding failed! représente la somme de toutes les valeurs d'un échantillon ou encore la moyenne*nombre de valeurs contenues dans l'échantillon.

NB dans excel: TeX Embedding failed!=SOMME(zone des constantes ci pour un contraste*zone des Ti)

ATTENTION: POMME ENTER (sur Mac) et CTRL SHIFT ENTER (sur pc)



Calculer TeX Embedding failed!

TeX Embedding failed! représente la somme des carrés des constantes posées pour un contraste ci (ou question) (exemple: pour le contraste c1: 42+(-1)2+(-1)2+(-1)2+(-1)2=20

NB dans excel: TeX Embedding failed!=SOMME((zone des constantes des contrastes ci)^2 )

ATTENTION: POMME ENTER et CTRL SHIFT ENTER (sur pc)

 



D2

D2 correspond au calcul suivant:

TeX Embedding failed!

NB dans excel: D2=valeur de la somme des ciTi pour un contraste^2 / (taille d'un échantillon*somme des constantes ci^2 d'un contraste)



Calculer un F observé

Lorsque toutes ces valeurs sont calculées, il faut reprendre chaque D2 et le comparer avec le CMR de l'ANOVA



 

Répondre aux questions (contrastes) posées

Les F observés sont ensuite comparés à une valeur F des tables pour 1 degré de liberté et (N-nA) degrés de libertés pour un intervalle de confiance de 0,95 ou 0,99.

Si la valeur observée est plus grande que la valeur des tables, cela signifie qu'il y a un effet pour la question posée.



Remarques relatives au F tables 1 dl; (N-nA) dl; 0,95 ou 0,99

Pourquoi 1 dl?

En réalité, la variabilité expliquée (FACTORIELLE) dépend de (nA-1) dl. Il y a autant de questions a priori (contrastes) qu'il y a de degrés de liberté pour la FACTORIELLE.

Les contrastes orthogonaux permettent donc de décomposer cette variabilité expliquée en (nA-1) "morceaux".

Pourquoi (N-nA) dl?

Vous comparez un "morceau" de la variabilité expliquée (FACTORIELLE) à la variabilité non expliquée (RESIDUELLE)

Régression dans l'ANOVA 1

Outils pédagogiques complémentaires

Définition de la technique et conditions d'application

Une expérience fait parfois intervenir une série statistique à deux dimensions, c'est-à-dire 2 séries d'observations X et Y couplées. Lorsqu'au moins une des 2 variables est aléatoire, il est possible de considérer ces 2 variables simultanément au moyen d'une régression.

2 variables aléatoires X = abondance d'une récolte (variable aléatoire)
Y = nombre de jours d'ensoleillement (variable aléatoire)
1 variable aléatoire et une variable contrôlée X = température fixée (variable contrôlée)
Y = nombre de graines germées (variable aléatoire)

Cas étudié dans le cadre de ce cours:

Dans le cadre de ce cours, seul le cas où X est une variable contrôlée (non aléatoire, c'est-à-dire dont les valeurs sont fixées par l'expérimentateur) sera considéré.

Conditions d'utilisation de la régression dans l'ANOVA :
 

Condition 1:

Les valeurs prises par la variable X doivent être fixées sans erreur par l'expérimentateur.

Condition 2

X étant une variable contrôlée, on peut considérer Y comme fonction de X, mais non le contraire :

TeX Embedding failed!

Condition 3:

Pour chaque valeur Xi de X, il existe une population de valeurs Yi distribuée normalement, de moyenne µi et de variance σ2 homogène c'est-à-dire constante quelle que soit la valeur de X :

TeX Embedding failed!

Condition 4:

Les moyennes µi correspondant aux valeurs Yi sont situées sur une droite dont les paramètres sont β0 et β1 telle que :

TeX Embedding failed!
avec β0, l'ordonnée à l'origine et β1, la pente

,

Condition 5:

Les variables aléatoires Yi sont indépendantes.

Exemple et interprétation en statistiques descriptives

Supposons que l'on réalise une expérience portant sur l'étude de la pression sanguine (Y variable aléatoire) en fonction de l'âge (X variable contrôlée):

Lorsque l'âge des patients augmente, observe-t-on un accroissement de leur pression sanguine?

Cet accroissement répond-il à un modèle linéaire?

Age
20
30
40
50
60
70
valeurs
120
123
134
130
142
145
125
120
128
137
136
138
121
126
127
135
139
141
118
125
131
133
141
148

Ce que nous savons déjà:

Une simple analyse descriptive permet déjà de tirer les conclusions suivantes:

  1. Le coefficient de corrélation r vaut environ 0,94. L'interprétation est la suivante: "Si la relation entre X et Y est de type linéaire, elle est croissante, car r est positif. De plus, comme r est très proche de 1, on peut supposer que le nuage de points est très concentré autour de la droite de régression. Il est cependant impossible de tirer une conclusion ferme et définitive sur la linéarité de la relation tant que le graphique n'a pas été réalisé (méthode empirique), ou qu'un test sur la linéarité de la relation n'a pas été effectué (méthode statistique)."  
  2. Le coefficient de détermination R2 vaut environ 0,88. L'interprétation est la suivante: "Si la relation entre X et Y est de type linéaire, le modèle mathématique Y=aX+b peut expliquer à lui seul 88% de la variabilité observée en Y. Les 12% restants représentent les erreurs de mesures et toutes les imprécisions engendrées lors de l'expérience. Comme au point précédent, sans la visualisation graphique de l'expérience, ou un test statistique sur la linéarité, il est impossible d'affirmer avec certitude que la relation est bien linéaire."
  3. Grâce à la représentation graphique (diagramme de dispersion), nous pouvons voir que le modèle linéaire semble bien adapté à la répartition des points, mais rien ne nous prouve que c'est ce modèle qui explique au mieux la distribution des points.

Pression systolique (Y aléatoire) en fonction de l'âge du patient (X fixe)

En réalisant une ANOVA suivie d'une régression,  il est possible de tester la linéarité et la non-linéarité de la relation entre X et Y.

 

Analyse de la régression dans l'ANOVA

L'analyse de la régression dans l'ANOVA est une méthode de calcul qui permet de découper la variabilité expliquée (factorielle) en deux parties.

  1.  La première partie contient la variabilité expliquée par le modèle linéaire (SCEreg).
  2. La seconde partie contient la variabilité expliquée par la non linéarité de la relation (SCEnl)

SCEF=SCEreg + SCEnl

Le principe de la régression dans l'ANOVA est de tester ces deux parties de la variabilité factorielle (variabilité due à la régression et variabilité non linéaire) par rapport à la variabilité résiduelle. Cette décomposition n'est réalisable que si le facteur ou critère de classification de l'ANOVA est un critère quantitatif ordonné (voir conditions d'applications).

  SCE dl CM F observé F tables
TOTALE SCET N-1      
Régression SCEreg 1 CMreg  TeX Embedding failed! Fdl reg; dlR; 0,95 ou 0,99
non linéaire SCEnl na-2 CMnl TeX Embedding failed! Fdl nl; dlR; 0,95 ou 0,99
RESIDUELLE SCER N-na CMR    

Test sur la régression :

Si le F observé pour la régression est supérieur au F des tables pour 1 dl (correspondant aux degrés de liberté de la variabilité due à la régression) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que lorsqu'on applique le modèle linéaire µi=β0+β1Xi entre la pression sanguine et l'âge, la pente β1 est non nulle. Le signe de la pente correspond au signe de la somme des produits des écarts (SPE) ou de la covariance. Dans cet exemple, on peut dire que la pression sanguine augmente avec l'âge.

Dans les graphiques ci-dessous le résultat de ce test est symbolisé par la droite noire en pointillés. Lorsque le test est non-significatif, la droite a une pente nulle; lorsqu'il est significatif, elle a une pente différente de zéro, illustrée ici par une pente de 40 degrés en positif. 

Test sur la non-linéarité :

Si le F observé pour l'aspect non linéaire est supérieur au F des tables pour (na-2) dl (correspondant aux degrés de liberté de la variabilité non linéaire) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que la distribution des Y s'écarte significativement du modèle linéaire, et qu' il vaudrait mieux recourir à une relation non-linéaire pour décrire Y en fonction de X.

Dans les graphiques ci-dessous, le résultat de ce test est symbolisé par le trait bleu. Lorsque le test est non significatif, cela signifie que la droite suffit à décrire la relation de Y en fonction de X (régression linéaire simple). Lorsque le test est significatif, cela signifie que les points s'écartent significativement de la droite et donc que l'équation mathématique caractérisant au mieux Y en fonction de X est de type non-linéaire.

Explication graphique :

    Régression: CMreg/CMR
    Non Significatif :
La droite utilisée a
une pente nulle
Significatif :
La droite utilisée a
une pente non nulle

Non linéarité:
CMnl/CMR

Non Significatif :
Il n'y a pas d'écarts significatifs par rapport à la droite:

le modèle idéal peut être considéré comme linéaire.

Significatif :
Il y a des écarts significatifs
par rapport à la droite:

le modèle idéal peut être considéré comme non linéaire.

Attention: Dans le cas de résultat significatif pour la non-linéarité, la courbe dessinée ici n'est qu'un des multiples exemples possibles. Dans ce cas l'étape suivante est de déterminer parmi tous les modèles non-linéaires (exponentiel, logarithmique, puissance, inverse, etc...) celui qui est le mieux adapté (et le plus simple) à la distribution des points.

Calcul avec MS Excel

 
SCE
dl
CM
F observé
F tables
TOTALE SCET N-1      
FACTORIELLE
SCEF
na-1
CMF
CMF/CMR
Fdl F; dlR; 1-alpha
Régression
1
CMreg
CMreg/CMR
Fdl reg; dlR; 1-alpha
non linéaire
na-2
CMnl
CMnl/CMR
Fdl nl; dlR; 1-alpha
RESIDUELLE
SCER
N-na
CMR
   

En plus de ce tableau, il est nécessaire de calculer:

  1. SPE
  2. SCEx

SCE reg

La somme des carrés d'écarts de la variabilité due à la régression se calcule de la manière suivante:

TeX Embedding failed!

NB: Cette formule ne nécessite pas de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) .

top


SCE nl

La somme des carrés d'écarts de la variabilité non linéaire se calcule de la manière suivante:

TeX Embedding failed!

 


SPE

La somme des produits d'écarts se calcule de la manière suivante:

= SOMME((zone des X-moyenne des X)*(zone des Y-moyenne des Y))

NB: Cette formule nécessite de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) !

top


SCEx

La somme des carrés des écarts de X se calcule dans Excel de deux manières différentes:

1: Si pour chaque Xi correspond un série de Yij:

Votre tableau de données est alors organisé comme ceci:

X1
X2
X3
X4
Y11
Y21
Y31
Y31
Y12
Y22
Y32
Y32
...
...
...
...

Dans ce cas la formule à utiliser est : =ni*SOMME.CARRES.ECARTS(zone des X)

2: Si chaque Xi est répété à chaque ligne, et lui correspond un et un seul Y ij:

Votre tableau de données est alors organisé comme ceci:

Xi
Yij
X1
Y11
X1
Y12
X1
Y13
X1
Y14
X2
Y21
X2
Y22
...
...

Dans ce cas la formule à utiliser est : =SOMME.CARRES.ECARTS(zone des X)

L'ANOVA 1 aléatoire

Outils pédagogiques complémentaires
Syllabus: 
Exercices en tableurs: 

Principe

L'ANOVA 1 est dite aléatoire lorsque le facteur ou critère de classification est aléatoire. Dans ce cas, les niveaux du facteur sont choisis aléatoirement parmi une infinité de niveaux possibles. Cela s'applique, entre autres, aux échantillonnages à 2 niveaux, c'est-à-dire aux expériences où plusieurs mesures (appelées réplicats) sont réalisées par individu (facteur de classification).

Dans ce type d'expérience, l'étude des contrastes est inappropriée car ce qui intéresse l'expérimentateur n'est pas de comparer les niveaux du facteur entre eux (car ils sont choisis de façon aléatoire) mais bien de prendre en compte la variabilité due au facteur en comparaison avec la variabilité résiduelle. Cela peut, par exemple, lui permettre de déterminer le nombre de réplicats et d'individus optimaux pour une expérience ultérieure.

Exemple:

Pour étudier le poids des hommes, on effectue 4 pesées sur 5 hommes pris au hasard dans la population.

mesure
homme1
homme 2
homme 3
homme 4
homme 5
1
80,0
93,2
78,3
85,1
97,2
2
80,5
93,8
78,1
84,9
97,5
3
79,8
92,9
78,6
85,0
97,1
4
80,2
93,4
78,2
85,3
97,4
moyenne
80,125
93,325
78,300
85,075
97,300
variance
0,089
0,142
0,047
0,029
0,033

Premier niveau d'échantillonnage ou facteur de classification: les individus : le poids est une variable qui suit une distribution normale au sein de la population masculine. La variabilité du poids des hommes dans la population est représentée par TeX Embedding failed!. Elle peut être estimée à partir de la variabilité factorielle.

Deuxième niveau d'échantillonnage : les mesures : les 4 mesures (4 réplicats) prises sur un même individu ne seront pas exactement les mêmes, et se distribuent elles aussi selon une distribution normale, mais qui n'est pas la même que celle des individus. La variabilité des mesures est représentée par TeX Embedding failed!. Elle peut être estimé à partir de la variabilité résiduelle.

Variabilité totale = variabilité des hommes + variabilité des réplicats
Soit, TeX Embedding failed!

Calculs

Les calculs de l'ANOVA 1 aléatoire sont les mêmes que lors de la réalisation de l'ANOVA 1 fixe.

Estimation des variances:

variance du premier niveau d'échantillonnage: TeX Embedding failed!

variance du deuxième niveau d'échantillonnage: TeX Embedding failed!

Intervalle de confiance: TeX Embedding failed!
Ce qui peut être résumé en : TeX Embedding failed!

Estimation du nombre optimal d'unités pour chaque niveau d'échantillonnage

Pour ce calcul on doit d'abord calculer celui du deuxième niveau d'échantillonnage, car cette valeur est nécessaire pour calculer celui du premier niveau.

Nombre d'unités au deuxième niveau d'échantillonnage:

soit le nombre de réplicats nécessaires : TeX Embedding failed!

Ca : coût de l'individu

C : coût du réplicat

Nombre d'unités au premier niveau d'échantillonnage:

soit le nombre d'individus nécessaires pour garantir la signification d'une différence Δ (pour une confiance et une puissance de 95%) :

TeX Embedding failed!

Exercice

Pour déterminer le taux de catalase dans le foie de rat, un expérimentateur prélève le foie de 4 rats et réalise 5 dosages sur chaque foie

rat 1
rat 2
rat 3
rat 4
113.33
114.42
130.37
127.17
119.05
111.89
133.19
128.5
117.95
113.75
130.04
125.44
124.84
105.93
130.96
125.11
103.36
116.2
137.36
121.01
  1. Réalisez l'analyse de la variance, sans oublier de vérifier la condition d'homoscédasticité au préalable.
  2. Déterminez l'intervalle de confiance à 95%
  3. Sachant que le prix du rat est 1000 fois plus important que le prix du réplicat, déterminez le nombre de rats à prendre et le nombre de réplicats à faire dans cette étude
  4. En tenant compte des données précédentes et en supposant que l'on veuille mettre en évidence l'effet d'une drogue diminuant la catalase d'au moins 5% avec les risques d'erreur ne dépassant pas 5%, calculez le nombre approximatif de rats à inclure dans l'expérience