Pratique des Biostatistiques
Dernière modification: 8 août 2011

Test de comparaison de 2 moyennes : 2 échantillons indépendants

 

Principe:

Un expérimentateur désire comparer les moyennes (m1 et m2) de deux échantillons composés d'individus distincts: les individus de l'échantillon 1 ne sont pas les mêmes que ceux de l'échantillon 2! Les deux échantillons sont indépendants.

La question est: les deux échantillons proviennent-ils d'une seule population de moyenne µ ou proviennent-ils de deux populations distinctes de moyennes µ1 et µ2?

Cette analyse peut être réalisée par une ANOVA I à deux niveaux.

Les hypothèses

Hypothèse nulle H0

Les moyennes des échantillons appartiennent à une seule population de référence de moyenne Mx.

TeX Embedding failed!

Hypothèse alternative H1

  • Les moyennes des échantillons appartiennent à 2 populations distinctes. La population 1 a une moyenne µ1 supérieure à la moyenne µ2 de la population 2.
    TeX Embedding failed!
  • ou encore: Les moyennes des échantillons appartiennent à 2 populations distinctes. La population 1 a une moyenne µ1 inférieure à la moyenne µ2 de la population 2.
    TeX Embedding failed!
  • ou encore: Les moyennes des échantillons appartiennent à 2 populations distinctes. La population 1 a une moyenne µ1 différente de la moyenne µ2 de la population 2.
    TeX Embedding failed!
     

Calculer la valeur observée:

Cas 1: les variances des populations 1 et 2 sont connues:

La réduction de la différence des moyennes des échantillons peut se faire par le calcul d'une valeur de Z observé dont la formule est la suivante:

TeX Embedding failed!

Où m1 et m2 sont les moyennes des 2 échantillons; TeX Embedding failed! et TeX Embedding failed! sont les variances des 2 populations 1 et 2; n1 et n2 sont les tailles respectives des échantillons 1 et 2.

Trouvez dans les tables de Z, la ou les valeurs seuil en tenant compte de alpha et de H1.

  • AH0 : Les échantillons de moyenne m1 et m2 appartiennent à une seule population de référence dont la moyenne est µ.
  • RH0 : Les échantillons de moyenne m1 et m2 n'appartiennent pas à la même population de référence dont la moyenne est µ mais appartiennent à 2 populations distinctes dont les moyennes respectives µ1 et µ2 sont telles que µ1 est plus grande OU plus petite OU différente par rapport à µ2.

Cas 2: les variances des populations 1 et 2 sont inconnues:

Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée les variances des populations de référence TeX Embedding failed! et TeX Embedding failed! sont inconnues. On peut néanmoins estimer ces dernières à partir des variances des échantillons, TeX Embedding failed! et TeX Embedding failed!.

Une question préalable doit être posée: La variabilité des 2 échantillons est-elle comparable, homogène? En d'autres termes, il faut vérifier l'égalité des variances des 2 populations étudiées, c'est-à-dire l'homoscédasticité. En effet si les variances sont hétérogènes, la différence de variances risque d'être confondue avec une différence de moyennes.

2.1: Test sur l'homogénéité des variances des échantillons comparés
  • Hypothèse nulle: Les variances des populations comparées sont homogènes.
    TeX Embedding failed!
  • Hypothèses alternatives pour 2 variances:
    • La variance 1 est plus grande que la variance 2.
      TeX Embedding failed!
    • La variance 2 est plus grande que la variance 1.
      TeX Embedding failed!
    • La variance 2 est différente la variance 1.
      TeX Embedding failed!

Pour réaliser ce test, l'expérimentateur établit le rapport entre la variance maximale et la variance minimale. Ce rapport est une valeur appelée F observé que l'on peut comparer avec une valeur F des tables de Fisher (voir Module 125 : page 3 : Test de Fisher).

TeX Embedding failed!
si TeX Embedding failed! est plus grande que TeX Embedding failed!.

L'expérimentateur va ensuite comparer cette valeur à une valeur théorique des tables de F de Fisher-Snedecor. En général, on utilise un test bidirectionnel avec une confiance de 95% (alpha=0,05). Le seuil est donc fixé à TeX Embedding failed!.

L'expérimentateur doit sélectionner la table où P(F < f) = 0,975.
Les degrés de liberté du numérateur (n1-1) dl correspondent à ceux de l'échantillon dont la variance est la plus grande. Ils permettent de rentrer en tête de colonne dans la table.
Les degrés de liberté du dénominateur (n2-1) dl correspondent à ceux de l'échantillon dont la variance est la plus petite. Ils permettent de rentrer en tête de ligne dans la table.

Fthéorique;(n1-1)dl;(n2-1)dl;0,975

  • AH0 si Fobservé est plus petit que Fthéorique: Les variances des populations d'où sont issues les échantillons sont considérées comme homogènes et l'expérimentateur peut alors envisager de comparer les moyennes des populations d'où sont issus les échantillons.
  • RH0 si Fobservéest plus grand que Fthéorique : Les variances des populations d'où sont issues les échantillons sont considérées comme hétérogènes. Il est alors IMPOSSIBLE de comparer par la suite les moyennes pour des échantillons dont les variances ne sont pas homogènes. Dans de nombreux cas, une transformation X'=log(x) ou X'=racine(x) permet d'homogénéiser les variances.
2.2: Test de comparaison des moyennes des 2 populations d'où proviennent les 2 échantillons

CONDITION: Ce test d'hypothèses portant sur les moyennes n'est possible QUE SI l'homogénéité des variances des populations a été confirmée par le test détaillé au point précédent

Les hypothèses H0 et H1 sont celles décrites plus haut.

L'expérimentateur va ensuite calculer une valeur de t observé: Dans cette formule, par rapport à celle du Z observé détaillée ci dessus, on remplacera TeX Embedding failed! et TeX Embedding failed! par une seule variance appelée "variance résiduelle" Sr² obtenue à partir des variances des deux échantillons TeX Embedding failed! et TeX Embedding failed!.

TeX Embedding failed!
avec
TeX Embedding failed!

Où m1 et m2 sont les moyennes des 2 échantillons; S2r est la variance résiduelle ; n1 et n2 sont les tailles respectives des échantillons 1 et 2, TeX Embedding failed! et TeX Embedding failed! sont les variances respectives des deux échantillons 1 et 2.

Ensuite, il reste à trouver dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss), la ou les valeurs seuil en tenant compte de alpha et de H1. La valeur de t de Student nécessite aussi la détermination d'un certain nombre de degrés de liberté. Pour trouver la ou les valeurs seuil, il faut donc rechercher:

tseuil;(n1+n2-2) degrés de liberté

Où "seuil" peut être (1-α) ou α ou (1-α/2) ou (α/2) en fonction de l'hypothèse alternative; n1 et n2 les tailles des 2 échantillons.

  • AH0 : Les échantillons 1 et 2 appartiendraient, jusqu'à preuve du contraire, à des populations dont les moyennes µ1 et µ2 seraient égales.
  • RH0 : Les échantillons 1 et 2 appartiennent à deux populations dont les moyennes µ1 et µ2 seraient différentes (OU µ1 plus petite OU plus grande que µ2).