L'analyse de la variance à un critère de classification (ANOVA I) a pour but la comparaison des moyennes de nA populations, à partir d'échantillons aléatoires et indépendants prélevés dans chacune d'elles. Ces populations sont en général des variantes (ou niveaux na) d'un facteur contrôlé (ou facteur A) de variation.
Bien que le terme "analyse de variance" l'indique, l'objectif final de l'ANOVA est de comparer des moyennes et non pas des variances. Cependant, la technique utilisée recourt à des comparaisons de variances.
Le test de Hartley est utilisé pour comparer des variances calculées à partir d'échantillons possédant des nombres identiques d'individus.
Rappel : la réalisation de ce test a été détaillée au module 125 page 2 .
Dans le cas d'une ANOVA, le test de Hartley est utilisé pour vérifier que tous les échantillons d'une expérience (s'ils ont des nombres d'individus identiques) ont des variances qui sont comparables. Ceci est indispensable pour s'assurer que les échantillons proviennent de populations à variances égales, et que si le facteur de variation utilisé dans l'expérience a eu un effet sur les données, il a bien induit une modification de moyenne, mais pas de variance.
Le test de Fisher est utilisé lorsque qu'il faut comparer 2 variances de deux échantillons possédant des nombres différents d'individus.
Rappel : la réalisation de ce test a été détaillée au module 125 page 3.
Dans le cas d'une ANOVA, le test de Fisher est utilisé pour comparer deux carrés moyens car les carrés moyens sont des variances, et qu'ils ont en général des nombres de degrés de liberté différents (ils sont donc calculés à partir de nombres d'individus différents).
Dans le cas d'une ANOVA1 le seul rapport de carrés moyens est :
TeX Embedding failed! |
On verra par la suite (régression dans l'ANOVA, ANOVA2, ANOVA multiples) qu'il peut y avoir d'autres rapports de carrés moyens à comparer en utilisant ce test.
H0: toutes les moyennes sont identiques
H1: au moins une des moyennes est différente des autres
Si vous utilisez MS Excel, le plus simple est de réaliser un tableau tel que:
SCE
|
dl
|
CM
|
Fobservé
|
Fthéorique
|
|
Total
|
SCET
|
N-1
|
dlF et dlR
|
||
factoriel
|
SCEF
|
na-1
|
SCEF/dlF
|
CMF/CMR
|
alpha 5%
|
résiduel
|
SCER
|
N-na
|
SCER/dlR
|
alpha 1%
|
La fonction de somme des carrés d'écarts est disponible dans MS Excel via le bouton fx (coller une fonction) dans la catégorie "statistique", chercher la fonction SOMME.CARRES.ECARTS(série de données)
Convention d'écriture:
Remarques:
Dans les tables, il faut aller rechercher:
F dlfactoriel; dlrésiduel; (1-alpha)
Le test d'ANOVA est unilatéral (voir Dagnelie, Théorie et Méthodes statistiques, vol. 2): on ne s'intéresse qu'aux valeurs de F (=CMF/CMR) significativement supérieures à 1: La variabilité induite par le facteur (CMF) est-elle plus grande que la variabilité résiduelle (CMR) ?
Lorsque le Fobservé est supérieur ou égal au Fthéorique (F des tables), ou encore si P[F > Fobservé] est inférieure à alpha, il y a rejet de l'hypothèse nulle H0: on rejette l'égalité des moyennes. Cela implique que l'on a réussi à mettre en évidence la présence d'au moins une moyenne différente des autres.
Fobs ≥ Ftables ou P [F > Fobservé] < alpha, RH0
On ne peut cependant pas dire avec précision la ou lesquelles des moyennes est ou sont différente(s) des autres. Pour pouvoir localiser les différences entre moyennes, il est nécessaire d'effectuer des analyses complémentaires telles que les contrastes de Scheffé ou les contrastes orthogonaux (si ces derniers sont justifiés).
Illustrons les trois sommes des carrés des écarts intervenant dans l'ANOVA sur base d'un exemple d'une expérience regroupant 18 vaches réparties en 3 échantillons de 6 individus.
Elle reflète les écarts existant entre chaque individu de l'expérience et la moyenne générale, peu importe l'échantillon auquel les individus appartiennent.
Elle représente la variabilité totale au sein de l'expérience.
Degrés de libertés : N-1 (N=nombre total d'individus dans l'expérience.)
Dans notre exemple dlSCET=18-1=17
Calcul dans Excel ou OpenOffice:
=SOMME.CARRES.ECARTS(série des données).
Elle reflète les écarts existant entre les moyennes de chaque échantillon et celle de l'expérience.
Elle représente la variabilité due aux différences entre échantillons, et donc la variabilité due à l'existence d'un facteur de variation.
Degrés de libertés : na-1 (na=nombre d'échantillons dans l'expérience.)
Dans notre exemple dlSCEF=3-1=2
Calcul dans Excel ou OpenOffice:
=ni*SOMME.CARRES.ECARTS(série des moyennes des échantillons)
avec ni = nombre d'individus par échantillon.
Elle reflète les écarts existant entre chaque individu et la moyenne de son propre échantillon.
Elle représente la variabilité existant au sein des échantillons, c'est-à-dire celle qui ne peut être expliquée par la présence du facteur de variation.
Degrés de libertés : N-na
Dans notre exemple dlSCER=18-3=15
Calcul dans Excel ou OpenOffice:
=(ni-1)*SOMME(série des variances des échantillons).
1. Dans une expérience portant sur des moutons, on observe l'effet d'une injection d'hormone sur la croissance pondérale. L'accroissement de poids (en kg) après trois semaines est mesuré chez un groupe témoin, et sur 3 groupes recevant une dose croissante de l'hormone. Ci-dessous, voici ce qui est mis à votre disposition:
Doses | ||||||
Témoin | 0,5 | 1 | 2 | |||
Moyennes | 3,05 | 4,60 | 5,63 | 6,13 | 4,85 | moyenne générale |
Variances | 0,31 | 0,21 | 0,19 | 0,19 | 0,23 | moyenne des variances |
Complétez le tableau ci-dessous.
SCE | dl | CM | Fobs | |
Totale | 76,62 | 47 | ||
Factorielle | 66,68 | ? | ? | ? |
Résiduelle | 9,94 | ? | ? |
Quelle est la taille d'un échantillon ?
Quelles conclusions pouvez-vous en tirer?
2. Une industrie pharmaceutique désire tester trois stimulants de l'appétit (S1, S2, S3) en mesurant la capacité d'absorption de nourriture chez le rat. Quatre groupes de 12 rats sont constitués: le premier servant de témoin, les trois autres recevant respectivement les stimulants S1, S2 et S3. On mesure la quantité de nourriture (en kg) ingérée sur un mois. Ci-dessous, voici ce qui est mis à votre disposition:
Témoin | S1 | S2 | S3 | |||
Moyennes | 2,90 | 4,11 | 5,14 | 5,56 | 4,42 | moyenne générale |
Variances | 2,11 | 0,99 | 0,35 | 1,05 | 1,13 | moyenne des variances |
SCE | dl | CM | Fobs | |
Totale | 100,34 | 47 | ||
Factorielle | 50,69 | 3 | 16,90 | 14,97 |
Résiduelle | 49,66 | 44 | 1,13 |
Quelles conclusions pouvez-vous en tirer?
3. Un ornithologue s'intéresse à l'évolution d'une espèce d'oiseaux répartie dans trois sites géographiquement distincts A, B et C, et plus particulièrement aux différences morphologiques engendrées par les mécanismes d'isolement. A cet effet, il a mesuré la longueur des ailes (en mm) de 10 oiseaux capturés sur chaque site. Les barrières géographiques ont-elles engendré des différences morphologiques sur cette espèce? On considère que les variances des échantillons sont comparables. Ci-dessous, voici ce qui est mis à votre disposition:
A | B | C | |||
Moyennes | 71,2 | 74,4 | 72,6 | 72,73 | moyenne générale |
Variance résiduelle | 4,31 |
SCE | dl | CM | Fobs | |
Totale | 167,84 | 29 | ||
Factorielle | 51,47 | 2 | ? | ? |
Résiduelle | 116,37 | 27 | ? |
4. Pour fixer les quotas laitiers, on souhaite réaliser une estimation de la production laitière annuelle du cheptel de la Région Wallonne. Cette production varie évidemment d'un animal à l'autre, mais aussi, vraisemblablement, d'une région à l'autre. L'expérimentateur décide de prospecter trois régions: la Hesbaye, le Condroz et les Ardennes. Dans chaque région, il recueille les statistiques de production de dix vaches, prises au hasard dans différentes exploitations. Ci-dessous, voici ce qui est mis à votre disposition:
Hesbaye | Condroz | Ardennes | |||
Moyennes | 3714,8 | 4400,4 | 5157,4 | 4424,2 | moyenne générale |
Variances | 696291,5 | 1184127,4 | 1244629,8 | 1041682,9 | moyenne des variances |
SCE | dl | CM | Fobs | |
Totale | 38539408,8 | 29 | ||
Factorielle | 10413970,4 | ? | ? | ? |
Résiduelle | ? | ? | ? |
5. Un hydrobiologiste s'intéresse à la teneur en phosphates de quatre lacs. Il effectue dans chaque lac 5 mesures indépendantes de la concentration en phosphates (microgrammes par litre). Analysez les résultats.
Lac 1 | Lac 2 | Lac 3 | Lac 4 | |||
Moyennes | 101,8 | 112,2 | 109,6 | 114,2 | 109,45 | moyenne générale |
Variances | 22,7 | 18,7 | 19,3 | 14,7 | 18,85 | moyenne des variances |
SCE | dl | CM | Fobs | |
Totale | 744,95 | 19 | ||
Factorielle | 443,35 | 3 | 147,78 | 7,84 |
Résiduelle | 301,6 | 16 | 18,85 |
Quelles conclusions pouvez-vous en tirer?
6. Lors d'une étude sur l'effet de la teneur en calcium dans la nourriture des brebis, le poids frais (en g) du muscle semi-tendineux est mesuré sur les animaux de six groupes:
A : pas d'apport de sels minéraux
B,C,D : trois rations de sels minéraux sous forme de supplément
E,F : deux rations additionnées à la nourriture.
Ci-dessous, voici ce qui est mis à votre disposition:
A | B | C | D | E | F | |||
---|---|---|---|---|---|---|---|---|
Moyennes | 41,46 | 55,51 | 56,36 | 46,21 | 62,57 | 61,29 | 53,90 | moyenne générale |
Variances | 198,01 | 287,11 | 120,84 | 318,48 | 69,26 | 145,73 |
189,90 |
moyenne des variances |
SCE | dl | CM | Fobs | |
---|---|---|---|---|
Totale | ? | ? | ||
Factorielle | 2465,97 | ? | ? | ? |
Résiduelle | ? | ? | ? |
Quelles conclusions pouvez-vous en tirer?
7. Douze parcelles de terrain sont divisées aléatoirement en 3 groupes. Le premier sert de témoin, les deux autres sont fertilisés respectivement avec les engrais A et B. On effectue une mesure de rendement sur chaque parcelle. Ci-dessous, voici ce qui est mis à votre disposition:
Témoin | A | B | |||
Moyennes | 61 | 70 | 73 | 68 | moyenne générale |
Variances | 20,67 | 14 | 17,33 | 17,33 | moyenne des variances |
SCE | dl | CM | Fobs | |
Totale | 468 | 11 | ||
Factorielle | 312 | 2 | 156 | 9 |
Résiduelle | 156 | 9 | 17,33 |
Quelles conclusions pouvez-vous en tirer?
Cette méthode (contrastes de Scheffé) de comparaison des moyennes est peu sensible à la non normalité et à l'inégalité des variances comparées. Elle est applicable même dans le cas où les effectifs des échantillons ne sont pas tous égaux (Scheffé 1953). C'est une méthode peu puissante (capacité à rejeter l'hypothèse nulle à bon escient) mais elle garantit un risque d'erreur de type I limité à alpha pour l'ensemble des comparaisons réalisées.
On appelle contraste toute combinaison linéaire des moyennes des nA populations.
TeX Embedding failed! |
Où les ci sont des constantes liées par la relation
TeX Embedding failed! |
Exemple: TeX Embedding failed! est un contraste car la somme des coefficients ci (+1 et -1) est nulle.
S'il n'y a que 2 coefficients +1 et -1, il s'agit d'un test de comparaison de moyennes 2 à 2 (Scheffé simple). Soit les deux moyennes testées sont identiques (H0: TeX Embedding failed! ) soit elles sont différentes (H1: TeX Embedding failed!).
Les contrastes de Scheffé simples permettent de tester si la différence entre deux moyennes est significativement différente de 0. Pour cela, la différence observée est comparée en valeur absolue à une valeur seuil appelée PPDS ou la Plus Petite Différence Significative.
moyenne 1
|
moyenne 2
|
moyenne 3
|
|
moyenne 1
|
0
|
||
moyenne 2
|
moy1-moy2
|
0
|
|
moyenne 3
|
moy1-moy3
|
moy2-moy3
|
0
|
Chaque différence entre deux moyennes est comparée à la PPDS.
Si la différence est plus grande que la PPDS, on considère que l'écart séparant les deux échantillons est significatif ou hautement significatif suivant le alpha utilisé pour déterminer la valeur de la PPDS.
L'utilisation des contrastes de SCHEFFE sur MS Excel se réalise comme suit:
moyenne 1
|
moyenne 2
|
moyenne 3
|
|
moyenne 1
|
|||
moyenne 2
|
|||
moyenne 3
|
moyenne 1
|
moyenne 2
|
moyenne 3
|
|
moyenne 1
|
m1-m1
|
m2-m1
|
m3-m1
|
moyenne 2
|
m1-m2
|
m2-m2
|
m3-m2
|
moyenne 3
|
m1-m3
|
m2-m3
|
m3-m3
|
pour éviter d'avoir à traiter des valeurs négatives vous pouvez employer la fonction Excel =ABS(votre calcul) qui transforme le résultat de votre calcul en une valeur absolue.
moyenne 1
|
moyenne 2
|
moyenne 3
|
|
moyenne 1
|
ABS(m1-m1)
|
ABS(m2-m1)
|
ABS(m3-m1)
|
moyenne 2
|
ABS(m1-m2)
|
ABS(m2-m2)
|
ABS(m3-m2)
|
moyenne 3
|
ABS(m1-m3)
|
ABS(m2-m3)
|
ABS(m3-m3)
|
Calculer la PPDS (Plus Petite Différence Significative)
TeX Embedding failed! |
Ce qui équivaut à faire dans Excel:
= RACINE(INVERSE.LOI.F(alpha,dlF,dlR)*(na-1)*2*(CMR/ni))
où vous devez remplacer alpha, dlF, dlR, na, CMR et ni par leur valeur respective.
ATTENTION: selon les versions et les réglages d'Excel le séparateur de alpha et des dl est parfois une virgule, parfois un point-virgule.
A la place de la formule INVERSE.LOI.F(alpha,dlF,dlR) vous pouvez aussi déterminer dans les tables la valeur de F à utiliser.
Calculez les PPDS qui correspondent à un alpha de 5% et de 1% (NDLR: valeur à rentrer dans Excel: 0,05 et 0,01).
Conclusion du test de SCHEFFE:
Lorsqu'une des différences est plus grande que la PPDS, cela signifie que les 2 moyennes comparées sont différentes de façon significative, ou hautement significative, selon que la PPDS utilisée est celle calculée pour alpha=5% ou celle calculée pour alpha=1%.
moyenne 1
|
moyenne 2
|
moyenne 3
|
|
moyenne 1
|
0 | ||
moyenne 2
|
S | 0 | |
moyenne 3
|
nS | SS | 0 |
Les contrastes de SCHEFFE mettent en évidence une différence significative entre les échantillons 1 et 2 ainsi qu'une différence très significative entre les échantillons 2 et 3. Les échantillons 1 et 3 possèdent des moyennes comparables.
Le groupement lors de l'analyse des contrastes de Scheffé permet d'augmenter la puissance du test et de se poser a posteriori des questions plus élaborées. Elle s'utilise principalement quand certains niveaux du facteur peuvent être regroupés selon une certaine logique. Dans le cas du Scheffé groupé, le contraste TeX Embedding failed! contient en général plus de 2 coefficients ci non nuls.
Lors d'une étude sur l'effet de la teneur en calcium dans la nourriture des brebis, le poids frais (g) du muscle semi-tendineux est quantifié sur 6 groupes de 7 animaux, chaque groupe recevant du calcium à une dose et un type d'administration qui lui sont spécifiques.
Témoin
|
Additif
|
Comprimé
|
Liquide
|
|||
dose 1
|
dose 2
|
dose 1
|
dose 2
|
|||
moyenne
|
140,0
|
143,4
|
145,1
|
139,3
|
147,6
|
147,9
|
variance
|
3,0
|
7,0
|
3,2
|
5,7
|
5,6
|
3,8
|
Le test de Hartley est non significatif: la condition d'homoscédasticité est donc remplie.
L'ANOVA 1 est significative: au moins une des moyennes de poids diffère.
Il est donc intéressant d'étudier les contrastes de Scheffé de manière groupée.
Scheffé groupé
H0: les deux groupes comparés sont de moyenne égale
H1: les deux groupes comparés ont des moyennes différentes
Témoin
140,0 |
Additif
|
Comprimé
139,3 |
Liquide
|
L
|
Σci2
|
PPDS
groupé |
Ccl
|
|||
dose 1
143,4 |
dose 2
145,1 |
dose 1
147,6 |
dose 2
147,9 |
|||||||
Q1
|
5
|
-1
|
-1
|
-1
|
-1
|
-1
|
-23,3
|
30
|
15,7
|
*
|
Q2
|
0
|
2
|
2
|
2
|
-3
|
-3
|
-30,9
|
30
|
15,7
|
*
|
Q3
|
0
|
-1
|
-1
|
2
|
0
|
0
|
-9,9
|
6
|
7,0
|
*
|
Les questions:
Q1: Y a-t-il un effet significatif de l'administration de calcium sur le poids des muscles?
Q2: L'administration du calcium sous forme liquide a-t-elle un effet différent de l'administration de Ca sous une autre forme?
Q3: L'administration du Ca sous forme de comprimé a-t-elle un effet différent sur le poids des muscles par rapport à l'administration sous forme d'additif?
Les coefficients des contrastes sont déterminés en fonction des hypothèses nulles (absence d'effets) correspondant aux questions posées.
Pour Q1, H0: m1 = (m2+m3+m4+m5+m6)/5 ou 5m1-1m2-1m3-1m4-1m5-1m6 = 0
Pour Q2, H0: (m2+m3+m4)/3 = (m5+m6)2 ou 2m2+2m3+2m4-3m5-3m6 = 0
Pour Q3, H0: m4 = (m2+m3)/2 ou -1m2-1m3+2m4 = 0
Remarquons que les contrastes de Scheffé simples peuvent se ramener à des contrastes de Scheffé groupés ou il n'y a que deux coefficients +1 et -1 affectant les deux moyennes à comparer.
Les calculs:
L |
|
||
PPDS groupé |
|
Les conclusions:
Q1: nous observons un effet significatif de l'administration de calcium sur les poids des muscles et ce, quelle que soit la méthode d'administration
Q2: nous constatons que les effets de l'apport en calcium sont significativement plus élevés lorsqu'il est fourni sous forme liquide par rapport aux additifs et aux comprimés
Q3: nous constatons que l'effet sur le poids des muscles est significativement plus important lorsque l'apport se fait sous forme d'additifs par rapport aux apports sous forme de comprimés
Formules utiles dans Excel:
Afin d'alléger les calculs dans Excel, utilisez de préférence les formules "prêtes à l'emploi" disponibles via le bouton "coller une fonction" (fx).
ABS(...) permet de faire calculer la valeur absolue
SOMMEPROD(matrice1; matrice2) permet de calculer une somme de produits de valeurs provenant de 2 matrices de données distinctes (exemple: matrice1= valeur1; valeur2 et matrice2= valeur3; valeur4. Suivant la formule, on calcule (valeur1*valeur3+valeur2*valeur4)
SOMME.CARRES(série de données) permet de calculer la somme des carrés des valeurs sélectionnées
Cette méthode de comparaison des moyennes (contrastes orthogonaux) est plus puissante que la méthode des contrastes de Scheffé. Comme cette dernière, elle est applicable même dans le cas où les effectifs des échantillons ne sont pas tous égaux.
La plupart des expériences sont réalisées dans le but de répondre à une ou plusieurs questions précises. Chacune des questions posées constitue un contraste l.
On appelle contraste toute combinaison linéaire des moyennes des nA populations.
TeX Embedding failed! |
Où les ci sont des constantes liées par la relation
TeX Embedding failed! |
Afin que les différents contrastes à tester ne soient pas redondants, il est nécessaire qu'ils soient indépendants. Dans ce cas, ils sont dits "ORTHOGONAUX".
Deux contrastes lp et lq sont orthogonaux si et seulement si le produit scalaire de leurs coefficients cpi et cqi est nul.
cp1cq1+cp2cq2+...+cpnAcqnA = 0
Dans une expérience comportant nA échantillons, il y a (nA-1) contrastes orthogonaux entre eux. Ils sont en général définis a priori avant même l'obtention des résultats.
Une expérience contenant r contrastes l1, l2, ... et lr forment un ensemble de contrastes mutuellement orthogonaux si, et seulement si, ils sont orthogonaux 2 à 2.
Supposons qu'une entreprise pharmaceutique souhaite tester deux médicaments A et B pour voir s'ils ont une influence sur la croissance pondérale de moutons. Pour chacun des médicaments, deux doses (dose 1 et dose 2) sont testées.
L'expérimentateur va construire une expérience comme suit:
MEDICAMENT A
|
MEDICAMENT B
|
|||||
TEMOIN
|
DOSE 1
|
DOSE 2
|
DOSE 1
|
DOSE 2
|
Comme il y a 5 échantillons (nA), il y a donc 4 questions (nA-1) non redondantes à se poser:
1°) Les médicaments A et B ont-ils un effet sur la croissance pondérale des moutons?
MEDICAMENT A
|
MEDICAMENT B
|
|||||
TEMOIN
|
DOSE 1
|
DOSE 2
|
DOSE 1
|
DOSE 2
|
||
+4
|
-1
|
-1
|
-1
|
-1
|
Pour répondre à cette question, l'expérimentateur va imputer aux différentes moyennes de l'expérience une valeur ci de manière à opposer les résultats des différents médicaments au résultat obtenu avec le témoin.
2°) Le médicament B a-t-il le même effet que le médicament A?
MEDICAMENT A
|
MEDICAMENT B
|
|||||
TEMOIN
|
DOSE 1
|
DOSE 2
|
DOSE 1
|
DOSE 2
|
||
0
|
+1
|
+1
|
-1
|
-1
|
Pour répondre à cette question, l'expérimentateur va imputer aux 2 moyennes correspondant au médicament A une valeur ci telle qu'elle va opposer à celles imputées aux moyennes du médicament B.
3°) La dose du médicament A a-t-elle une importance sur la croissance pondérale des animaux testés?
MEDICAMENT A
|
MEDICAMENT B
|
|||||
TEMOIN
|
DOSE 1
|
DOSE 2
|
DOSE 1
|
DOSE 2
|
||
0
|
+1
|
-1
|
0
|
0
|
Pour répondre à cette question, l'expérimentateur va imputer à la moyenne correspondant à la dose 1 du médicament A une valeur ci telle qu'elle va opposer à celle imputée à la moyenne de la dose 2 de ce même médicament A.
4°) La dose du médicament B a-t-elle une importance sur croissance pondérale des animaux testés?
MEDICAMENT A
|
MEDICAMENT B
|
|||||
TEMOIN
|
DOSE 1
|
DOSE 2
|
DOSE 1
|
DOSE 2
|
||
0
|
0
|
0
|
+1
|
-1
|
Pour répondre à cette question, l'expérimentateur va imputer à la moyenne correspondant à la dose 1 du médicament B une valeur ci telle qu'elle va opposer à celle imputée à la moyenne de la dose 2 de ce même médicament B.
MEDICAMENT A
|
MEDICAMENT B
|
TeX Embedding failed! |
TeX Embedding failed!
|
D2
|
F obs |
conclure
|
||||
TEMOIN
|
DOSE 1
|
DOSE 2
|
DOSE 1
|
DOSE 2
|
![]() |
|||||
c1 |
+4
|
-1
|
-1
|
-1
|
-1
|
20
|
||||
c2 |
0
|
+1
|
+1
|
-1
|
-1
|
4
|
||||
c3 |
0
|
+1
|
-1
|
0
|
0
|
2
|
||||
c4 |
0
|
0
|
0
|
+1
|
-1
|
2
|
Les Ti (pour i = 1, 2, ..., nA) correspondent aux totaux. Ainsi, T1 résulte de la somme des valeurs de l'échantillon 1 ou encore au produit suivant:
moyenne1*ni avec ni le nombre d'individus dans un échantillon
TeX Embedding failed! représente la somme de toutes les valeurs d'un échantillon ou encore la moyenne*nombre de valeurs contenues dans l'échantillon.
NB dans excel: TeX Embedding failed!=SOMME(zone des constantes ci pour un contraste*zone des Ti)
ATTENTION: POMME ENTER (sur Mac) et CTRL SHIFT ENTER (sur pc)
TeX Embedding failed! représente la somme des carrés des constantes posées pour un contraste ci (ou question) (exemple: pour le contraste c1: 42+(-1)2+(-1)2+(-1)2+(-1)2=20
NB dans excel: TeX Embedding failed!=SOMME((zone des constantes des contrastes ci)^2 )
ATTENTION: POMME ENTER et CTRL SHIFT ENTER (sur pc)
D2 correspond au calcul suivant:
TeX Embedding failed! |
NB dans excel: D2=valeur de la somme des ciTi pour un contraste^2 / (taille d'un échantillon*somme des constantes ci^2 d'un contraste)
Lorsque toutes ces valeurs sont calculées, il faut reprendre chaque D2 et le comparer avec le CMR de l'ANOVA
Les F observés sont ensuite comparés à une valeur F des tables pour 1 degré de liberté et (N-nA) degrés de libertés pour un intervalle de confiance de 0,95 ou 0,99.
Si la valeur observée est plus grande que la valeur des tables, cela signifie qu'il y a un effet pour la question posée.
En réalité, la variabilité expliquée (FACTORIELLE) dépend de (nA-1) dl. Il y a autant de questions a priori (contrastes) qu'il y a de degrés de liberté pour la FACTORIELLE.
Les contrastes orthogonaux permettent donc de décomposer cette variabilité expliquée en (nA-1) "morceaux".
Vous comparez un "morceau" de la variabilité expliquée (FACTORIELLE) à la variabilité non expliquée (RESIDUELLE)
Une expérience fait parfois intervenir une série statistique à deux dimensions, c'est-à-dire 2 séries d'observations X et Y couplées. Lorsqu'au moins une des 2 variables est aléatoire, il est possible de considérer ces 2 variables simultanément au moyen d'une régression.
2 variables aléatoires | X = abondance d'une récolte (variable aléatoire) |
Y = nombre de jours d'ensoleillement (variable aléatoire) | |
1 variable aléatoire et une variable contrôlée | X = température fixée (variable contrôlée) |
Y = nombre de graines germées (variable aléatoire) |
Cas étudié dans le cadre de ce cours:
Dans le cadre de ce cours, seul le cas où X est une variable contrôlée (non aléatoire, c'est-à-dire dont les valeurs sont fixées par l'expérimentateur) sera considéré.
Les valeurs prises par la variable X doivent être fixées sans erreur par l'expérimentateur.
X étant une variable contrôlée, on peut considérer Y comme fonction de X, mais non le contraire :
TeX Embedding failed! |
Pour chaque valeur Xi de X, il existe une population de valeurs Yi distribuée normalement, de moyenne µi et de variance σ2 homogène c'est-à-dire constante quelle que soit la valeur de X :
TeX Embedding failed! |
Les moyennes µi correspondant aux valeurs Yi sont situées sur une droite dont les paramètres sont β0 et β1 telle que :
TeX Embedding failed! |
,
Les variables aléatoires Yi sont indépendantes.
Supposons que l'on réalise une expérience portant sur l'étude de la pression sanguine (Y variable aléatoire) en fonction de l'âge (X variable contrôlée):
Lorsque l'âge des patients augmente, observe-t-on un accroissement de leur pression sanguine?
Cet accroissement répond-il à un modèle linéaire?
Age |
20
|
30
|
40
|
50
|
60
|
70
|
valeurs |
120
|
123
|
134
|
130
|
142
|
145
|
125
|
120
|
128
|
137
|
136
|
138
|
|
121
|
126
|
127
|
135
|
139
|
141
|
|
118
|
125
|
131
|
133
|
141
|
148
|
Ce que nous savons déjà:
Une simple analyse descriptive permet déjà de tirer les conclusions suivantes:
Pression systolique (Y aléatoire) en fonction de l'âge du patient (X fixe)
En réalisant une ANOVA suivie d'une régression, il est possible de tester la linéarité et la non-linéarité de la relation entre X et Y.
L'analyse de la régression dans l'ANOVA est une méthode de calcul qui permet de découper la variabilité expliquée (factorielle) en deux parties.
SCEF=SCEreg + SCEnl
Le principe de la régression dans l'ANOVA est de tester ces deux parties de la variabilité factorielle (variabilité due à la régression et variabilité non linéaire) par rapport à la variabilité résiduelle. Cette décomposition n'est réalisable que si le facteur ou critère de classification de l'ANOVA est un critère quantitatif ordonné (voir conditions d'applications).
SCE | dl | CM | F observé | F tables | |
TOTALE | SCET | N-1 | |||
Régression | SCEreg | 1 | CMreg | TeX Embedding failed! | Fdl reg; dlR; 0,95 ou 0,99 |
non linéaire | SCEnl | na-2 | CMnl | TeX Embedding failed! | Fdl nl; dlR; 0,95 ou 0,99 |
RESIDUELLE | SCER | N-na | CMR |
Si le F observé pour la régression est supérieur au F des tables pour 1 dl (correspondant aux degrés de liberté de la variabilité due à la régression) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que lorsqu'on applique le modèle linéaire µi=β0+β1Xi entre la pression sanguine et l'âge, la pente β1 est non nulle. Le signe de la pente correspond au signe de la somme des produits des écarts (SPE) ou de la covariance. Dans cet exemple, on peut dire que la pression sanguine augmente avec l'âge.
Dans les graphiques ci-dessous le résultat de ce test est symbolisé par la droite noire en pointillés. Lorsque le test est non-significatif, la droite a une pente nulle; lorsqu'il est significatif, elle a une pente différente de zéro, illustrée ici par une pente de 40 degrés en positif.
Si le F observé pour l'aspect non linéaire est supérieur au F des tables pour (na-2) dl (correspondant aux degrés de liberté de la variabilité non linéaire) et (N-na) dl (correspondant aux degrés de liberté de la variabilité résiduelle), cela signifie que la distribution des Y s'écarte significativement du modèle linéaire, et qu' il vaudrait mieux recourir à une relation non-linéaire pour décrire Y en fonction de X.
Dans les graphiques ci-dessous, le résultat de ce test est symbolisé par le trait bleu. Lorsque le test est non significatif, cela signifie que la droite suffit à décrire la relation de Y en fonction de X (régression linéaire simple). Lorsque le test est significatif, cela signifie que les points s'écartent significativement de la droite et donc que l'équation mathématique caractérisant au mieux Y en fonction de X est de type non-linéaire.
Régression: CMreg/CMR | |||
Non Significatif : La droite utilisée a une pente nulle |
Significatif : La droite utilisée a une pente non nulle |
||
Non linéarité: |
Non Significatif : Il n'y a pas d'écarts significatifs par rapport à la droite: le modèle idéal peut être considéré comme linéaire. |
![]() |
![]() |
Significatif : Il y a des écarts significatifs par rapport à la droite: le modèle idéal peut être considéré comme non linéaire. |
![]() |
![]() |
Attention: Dans le cas de résultat significatif pour la non-linéarité, la courbe dessinée ici n'est qu'un des multiples exemples possibles. Dans ce cas l'étape suivante est de déterminer parmi tous les modèles non-linéaires (exponentiel, logarithmique, puissance, inverse, etc...) celui qui est le mieux adapté (et le plus simple) à la distribution des points.
En plus de ce tableau, il est nécessaire de calculer:
SCE reg
La somme des carrés d'écarts de la variabilité due à la régression se calcule de la manière suivante:
TeX Embedding failed! |
NB: Cette formule ne nécessite pas de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) .
SCE nl
La somme des carrés d'écarts de la variabilité non linéaire se calcule de la manière suivante:
TeX Embedding failed! |
SPE
La somme des produits d'écarts se calcule de la manière suivante:
= SOMME((zone des X-moyenne des X)*(zone des Y-moyenne des Y))
NB: Cette formule nécessite de demander le calcul en mode itératif ( "pomme+enter" sous mac, "ctrl+shift+enter" sous Windows) !
SCEx
La somme des carrés des écarts de X se calcule dans Excel de deux manières différentes:
1: Si pour chaque Xi correspond un série de Yij:
Votre tableau de données est alors organisé comme ceci:
X1
|
X2
|
X3
|
X4
|
Y11
|
Y21
|
Y31
|
Y31
|
Y12
|
Y22
|
Y32
|
Y32
|
...
|
...
|
...
|
...
|
Dans ce cas la formule à utiliser est : =ni*SOMME.CARRES.ECARTS(zone des X)
2: Si chaque Xi est répété à chaque ligne, et lui correspond un et un seul Y ij:
Votre tableau de données est alors organisé comme ceci:
Xi
|
Yij
|
X1
|
Y11
|
X1
|
Y12
|
X1
|
Y13
|
X1
|
Y14
|
X2
|
Y21
|
X2
|
Y22
|
...
|
...
|
Dans ce cas la formule à utiliser est : =SOMME.CARRES.ECARTS(zone des X)
L'ANOVA 1 est dite aléatoire lorsque le facteur ou critère de classification est aléatoire. Dans ce cas, les niveaux du facteur sont choisis aléatoirement parmi une infinité de niveaux possibles. Cela s'applique, entre autres, aux échantillonnages à 2 niveaux, c'est-à-dire aux expériences où plusieurs mesures (appelées réplicats) sont réalisées par individu (facteur de classification).
Dans ce type d'expérience, l'étude des contrastes est inappropriée car ce qui intéresse l'expérimentateur n'est pas de comparer les niveaux du facteur entre eux (car ils sont choisis de façon aléatoire) mais bien de prendre en compte la variabilité due au facteur en comparaison avec la variabilité résiduelle. Cela peut, par exemple, lui permettre de déterminer le nombre de réplicats et d'individus optimaux pour une expérience ultérieure.
Exemple:
Pour étudier le poids des hommes, on effectue 4 pesées sur 5 hommes pris au hasard dans la population.
mesure
|
homme1
|
homme 2
|
homme 3
|
homme 4
|
homme 5
|
1
|
80,0
|
93,2
|
78,3
|
85,1
|
97,2
|
2
|
80,5
|
93,8
|
78,1
|
84,9
|
97,5
|
3
|
79,8
|
92,9
|
78,6
|
85,0
|
97,1
|
4
|
80,2
|
93,4
|
78,2
|
85,3
|
97,4
|
moyenne
|
80,125
|
93,325
|
78,300
|
85,075
|
97,300
|
variance
|
0,089
|
0,142
|
0,047
|
0,029
|
0,033
|
Premier niveau d'échantillonnage ou facteur de classification: les individus : le poids est une variable qui suit une distribution normale au sein de la population masculine. La variabilité du poids des hommes dans la population est représentée par TeX Embedding failed!. Elle peut être estimée à partir de la variabilité factorielle.
Deuxième niveau d'échantillonnage : les mesures : les 4 mesures (4 réplicats) prises sur un même individu ne seront pas exactement les mêmes, et se distribuent elles aussi selon une distribution normale, mais qui n'est pas la même que celle des individus. La variabilité des mesures est représentée par TeX Embedding failed!. Elle peut être estimé à partir de la variabilité résiduelle.
Variabilité totale = variabilité des hommes + variabilité des réplicats
Soit, TeX Embedding failed!
Les calculs de l'ANOVA 1 aléatoire sont les mêmes que lors de la réalisation de l'ANOVA 1 fixe.
variance du premier niveau d'échantillonnage: TeX Embedding failed!
variance du deuxième niveau d'échantillonnage: TeX Embedding failed!
Intervalle de confiance: TeX Embedding failed!
Ce qui peut être résumé en : TeX Embedding failed!
Pour ce calcul on doit d'abord calculer celui du deuxième niveau d'échantillonnage, car cette valeur est nécessaire pour calculer celui du premier niveau.
soit le nombre de réplicats nécessaires : TeX Embedding failed!
Ca : coût de l'individu
C : coût du réplicat
soit le nombre d'individus nécessaires pour garantir la signification d'une différence Δ (pour une confiance et une puissance de 95%) : TeX Embedding failed!
Pour déterminer le taux de catalase dans le foie de rat, un expérimentateur prélève le foie de 4 rats et réalise 5 dosages sur chaque foie
rat 1
|
rat 2
|
rat 3
|
rat 4
|
---|---|---|---|
113.33
|
114.42
|
130.37
|
127.17
|
119.05
|
111.89
|
133.19
|
128.5
|
117.95
|
113.75
|
130.04
|
125.44
|
124.84
|
105.93
|
130.96
|
125.11
|
103.36
|
116.2
|
137.36
|
121.01
|