Inférence statistique

Intervalles de confiance

Outils pédagogiques complémentaires

Intervalles de confiance pour l'estimation d'un paramètre de population

Pourquoi estimer des paramètres?

Dans la plupart des situations concrètes où l'application des biostatistiques est nécessaire, il est rare que les données de la population concernée par l'étude soient connues pour toute une série de raisons déjà abordées au module 10.

Il est souvent nécessaire d'estimer un paramètre caractérisant la population à partir des données observées (échantillon).


Précision de l'estimation : intervalle de confiance

Un paramètre estimé n'a cependant aucune valeur si la précision de l'estimation réalisée n'est pas connue. Ceci peut être réalisé:

  • soit en calculant l'erreur standard;
  • soit en déterminant, autour de la valeur estimée, un intervalle dont on a de bonnes raisons de croire qu'il contient la "vraie" valeur du paramètre recherché : un intervalle de confiance.

Exemple :

Imaginons que, pour une moyenne d'échantillon de 25 cm, nous calculions que son intervalle de confiance à 95% aille de 20 à 30 cm.
Cela signifie qu'il y a 95% de chance que la vraie valeur de la moyenne de la population soit comprise entre 20 et 30 cm, et que sa valeur la plus probable (sur base des données expérimentales observées) est 25 cm.

Intervalle de confiance et risque d'erreur :

Pour définir cet intervalle de confiance, nous devons d'abord déterminer quels sont les risques d'erreurs que nous pourrions accepter.
Classiquement ce risque d'erreur (alpha : α) est fixé arbitrairement et les valeurs les plus courantes sont 5%, 1% ou 0,1%.
Les confiances généralement utilisées seront donc de 1-α = 95%, 99%, ou 99,9%.

La confiance (1-α) étant centrée, l'erreur α se répartit de part et d'autre : α/2 à gauche, et α/2 à droite.

Si on reprend notre exemple précédent (Mx=25cm, intervalle de confiance à 95% qui va de 20 à 30 cm) cela signifie que nous avons encore 5% de chance que la moyenne "vraie" soit en dehors de l'intervalle 20-30 cm. Ce risque d'erreur se répartit en 2,5% de chance que la moyenne "vraie" soit inférieure à 20cm, et 2,5% de chance qu'elle soit supérieure à 30cm.

Intervalle de confiance de la moyenne lorsque la variance de la population est connue

La moyenne d'un échantillon (Mx), étant une variable aléatoire, est rarement égale à la moyenne réelle de la population (μ) dont l'échantillon est issu. Elle s'en rapproche d'autant plus que la taille de l'échantillon (n) est grande.
A partir de Mx, on peut définir un intervalle Mx ± ε  (ε représentant idéalement une très petite valeur) qui a de grandes chances de contenir la moyenne réelle (μ) dela population.

La distribution d'échantillonnage de la moyenne Mx, de paramètres (μ;TeX Embedding failed!), cf. module 70, permet de délimiter autour de Mx une zone dans laquelle μ a, par exemple, 95% de chance de se trouver.

Estimation d'ε :

Lorsque la variance de la population (σ2) est connue, ε est calculé à partir de la valeur de z correspondant à la confiance utilisée: TeX Embedding failed!

avec TeX Embedding failed! la valeur de Z dont la probabilité de lui être inférieur est de TeX Embedding failed!.

Estimation de l'intervalle de confiance à 95% :

Estimation précise :

Lorsque la confiance vaut 95%,  TeX Embedding failed! vaut Z0,975=1,96.

L'intervalle de confiance va donc de  TeX Embedding failed! à TeX Embedding failed!

Estimation approximative :

Lorsque la confiance est de 95%, z = 1,96. On peut donc l'approximer à z=2, et considérer que l'intervalle à 95% a une longueur d'approximativement 4 fois l'erreur type de la moyenne. Dans la distribution d'échantillonnage de la moyenne, celle-ci étant centrée sur μ, la moyenne d'un échantillon a 95% de chance d'être situé dans l'intervalle μ + 2 TeX Embedding failed!.

Pour un échantillon prélevé au hasard, on peut calculer l'intervalle de confiance à 95% de la moyenne. σ et n étant également connus, les limites de cet intervalle peuvent être facilement calculées :

Supposons, dans la distribution tronquée, que Mx est la plus petite possible, puis qu'elle est la plus grande possible :

On constate que la moyenne μ se trouve toujours comprise dans l'intervalle Mx ± 2 fois l'erreur type.

La moyenne μ reste inconnue, mais elle se trouve dans des limites connues. Le risque qu'elle se trouve en dehors de ces limites est de 5% si l'intervalle de confiance a été fixé pour une confiance de 95%.

Intervalle de confiance de la moyenne lorsque la variance de la population est estimée

Lorsque la variance de la population (σ2) est inconnue, elle est estimée par celle de l'échantillon (S2), et l'erreur type de la moyenne est alors estimée par : TeX Embedding failed!.

Ceci signifie que, selon l'échantillon, la longueur de l'intervalle de confiance sera différente, car elle dépend de n (nombre d'individus dans l'échantillon) et de S (écart-type de l'échantillon).

Pour tenir compte de cette estimation de la variance, la longueur de l'intervalle de confiance est calculée à partir de la distribution de la variable t de Student.

TeX Embedding failed!
avec TeX Embedding failed!, la valeur de t en dessous de laquelle il y a TeX Embedding failed! % des individus.

Si le nombre d'observations disponibles pour estimer la variance est faible, la longueur de l'intervalle de confiance à 95% sera en général beaucoup plus grande que 4 erreurs types.
Par exemple, pour n = 3, la limite supérieure est un t2; 0,975 = 4,303, la longueur de l'intervalle est donc de +/- 8 fois l'erreur type de la moyenne. Plus le nombre d'observations augmente dans l'échantillon, plus la longueur de l'intervalle de confiance se rapproche de 4 erreurs types

Pour obtenir une confiance de 99%, avec un échantillon de taille n = 3, la limite supérieure est un t2; 0,995 = 9,925. L'intervalle de confiance sera donc égal à Mx +/- 10 TeX Embedding failed!.

Exemple

Le dosage de protéines de 4 échantillons récoltés au hasard dans le stock de lait d'une laiterie donne les statistiques suivantes :

Mx=30 g/l et S2= 16 (g/l)2

La variable mesurée est supposée normale : X v.a. N ( μ,σ2 ).

Que peut-on dire de la moyenne réelle de la teneur en protéines du stock de la laiterie ?

L'expérimentateur se doute que le paramètre µ ne vaut pas exactement 30g/l. Il peut cependant affirmer que la moyenne la teneur en protéines du stock doit se trouver dans l'intervalle, la valeur de  ε dépendant du niveau de confiance choisi et de l'erreur type de la moyenne :
30 ±  ε

Dans notre exemple S = 4 g/l, n = 4 et la variable t a 3 degrés de liberté (d.l.). La borne supérieure de l'intervalle à 95% se trouve dans les tables : t3; 0,975 = 3,18

L'erreur type estimée = TeX Embedding failed! g/l et ε = 3,18 x 2 = 6,36 g/l.

La moyenne de la teneur en protéines du stock de la laiterie est donc comprise entre les limites 30 g/l ± 6,36 g/l soit entre 23,64 g/l et 36,36 g/l.

La confiance dans cette estimation est de 95%. Autrement dit, il y a 5% de risque que la moyenne réelle de la teneur en protéines du stock soit moins de 23,64 g/l ou plus de 36,36 g/l .

Intervalle de confiance d'une proportion

Principe général :

Le principe de l'intervalle de confiance d'un paramètre d'une population est toujours le même. La formulation générale en est :

L'intervalle de confiance = statistique de l'échantillon ± ε.

La probabilité que le paramètre de population soit situé dans cet intervalle est la confiance. ε est d'autant plus grand que la confiance souhaitée est élevée.

Cas particulier d'une proportion :

L'intervalle de confiance d'une proportion π est P ± ε avec

TeX Embedding failed!

Exemple :

Dans le cas d'une contamination d'un grand cheptel bovin par la bactérie Brucella abortus, un vétérinaire observe 53 avortements pour 134 vaches gestantes.
Quel risque d'avortement peut -il prédire dans le cheptel ?

Proportion : 53/134 = 0,40

Pour une confiance de 95% la borne supérieure de Z0,975 = 1,96

TeX Embedding failed!

Le risque d'avortement dans le cheptel a 95 chances sur 100 d'être compris entre 0,317 et 0,483.

Intervalle de confiance d'un dénombrement

Principe général :

Le principe de l'intervalle de confiance d'un paramètre d'une population est toujours le même. La formulation générale en est :

L'intervalle de confiance du paramètre = statistique de l'échantillon ± ε.

La probabilité que la paramètre de population soit réellement dans l'intervalle de confiance est la confiance. ε est d'autant plus grand que la confiance souhaitée est élevée.

Cas particulier d'un dénombrement :

L'intervalle de confiance d'un dénombrement = x ± ε  (approximation d'une loi de poisson par une variable normale)

TeX Embedding failed!

Exemple :

Un géologue mesure une radioactivité de 150 dpm dans un prélèvement de roche. Que peut-il dire de la valeur réelle de la radioactivité ?

Exactement : la valeur de z = 1,96

TeX Embedding failed!

Approximativement : la valeur de Z est arrondie à 2.

TeX Embedding failed!

La radioactivité réelle a 95 chances sur 100 d'être comprise entre 125 et 175 dpm.

Intervalle de confiance de la pente d'une droite de régression

Dans le cadre complexe des régressions, nous n'aborderons ici que le cas particulier de la régression linéaire, dont les principes de base ont été définis dans le module 20 : Statistiques descriptives à deux dimensions. On abordera plus particulièrement le cas d'une régression à X fixé, tel que décrit dans le module 170 : Régression dans l'ANOVA 1.

Régression linéaire à X fixé :

Dans ce cas particulier, les conditions d'inférence sur la droite de régression sont strictes.

Condition 1 :

Les valeurs prises par la variable X doivent être fixées sans erreur par l'expérimentateur.

Condition 2 :

X étant une variable contrôlée (valeurs fixées par l'expérimentateur), on peut considérer Y comme fonction de X, mais pas le contraire : Y=f(X)

Condition 3:

Pour chaque valeur Xi de X, il existe une population de valeurs Yi distribuée normalement, de moyenne µi et de variance σ2 homogène c'est-à-dire constante quelle que soit la valeur de X :

Yi v.a.N(µi2 )

Condition 4:

Les moyennes µi correspondant aux valeurs Yi sont situées sur une droite dont les paramètres sont β0 et β1 telle que :

µi01.Xi

avec β0 l'ordonnée à l'origine et β1 la pente.

Dans ces conditions, l'intervalle de confiance de β1 = B1 ± ε avec TeX Embedding failed!
avec  TeX Embedding failed!
et  TeX Embedding failed! 

avec :

  • CMr = carré moyen résiduel
  • SCEr = somme des carrés des écarts résiduels
  • yo = y observé
  • ym = y estimé par l'équation de la régression pour le même x que le yo
  • ye = yo - ym

Exemple

Un démographe estime la croissance de la population pensionnée d'un quartier, année par année sur 5 ans :

Yo = 26%, 32%, 40%, 44%, 55% :

 

Sur base du modèle linéaire Ym = Bo + B1.X, il estime une croissance de 7,00 % par an (B1).

Tables : t3 ;0,975 = 3,18

TeX Embedding failed!

L'accroissement réel annuel (confiance = 95%) est donc compris entre 5,24 et 8,76%

Principes du test d'hypothèses

Outils pédagogiques complémentaires

Concept du test d'hypothèses

Tout expérimentateur est amené à se poser la question suivante:

La valeur obtenue dans un échantillon est-elle conforme à un modèle établi? Ou encore, cette valeur est-elle probable, étant donné un modèle supposé.

Par exemple, si la moyenne réelle de la pression sanguine de la population était de 120 mm Hg, est-il normal (probable) d'obtenir une moyenne d'échantillon de 140 mm Hg?

En disant cela on introduit la notion de test d'hypothèses.

Seuil de signification:

L'expérimentateur est amené à établir, suivant un seuil de confiance arbitraire, une limite (ou 2 limites) afin de séparer ce qu'il considère comme des valeurs conformes "probables" (la zone de confiance) et des valeurs non conformes "peu probables" (la zone d'erreur de type I). Cette limite s'appelle le seuil de signification. En termes de variable normale réduite et de test unidirectionnel, le seuil de signification a pour valeur, Z1-alpha, c'est-à-dire la valeur de la table de Z qui correspond à une probabilité de 1-alpha (test de conformité d'une moyenne à un standard avec variance connue).


Seuil de signification

Pour répondre à cette question, l'expérimentateur va devoir définir arbitrairement une limite (une frontière) entre la conformité (en vert) ou événements probables et la non conformité à un modèle (en rouge) ou événements peu probables.

L'expérimentateur peut ainsi définir 3 types de limites selon l'hypothèse à tester:

Test unidirectionnel à droite

 

Seuil: Z1-α
Confiance: 1-α 

L'expérimentateur désire tester si la statistique de l'échantillon est significativement supérieure à celle attendue : "L'individu mesuré ou la moyenne de l'échantillon sont-ils conformes (probables) ou significativement plus grands (peu probables) que prévus par le modèle?"

Test unidirectionnel à gauche

Seuil: Zα
Confiance: 1-α

L'expérimentateur désire tester si la statistique de l'échantillon est significativement inférieure à celle attendue: "L'individu mesuré ou la moyenne de l'échantillon sont-ils conformes (probables) ou significativement plus petits (peu probables) que prévus par le modèle?"

Test bidirectionnel

          Seuils: TeX Embedding failed! et TeX Embedding failed!
          Confiance: 1-α

L'expérimentateur désire tester si la statistique de l'échantillon est significativement différente de celle attendue, soit trop petite soit trop grande: "L'individu mesuré ou la moyenne de l'échantillon sont-ils conformes ou non (soit plus grands ou plus petits) au modèle?"  

La zone correspondant à l'erreur de type I

En rouge :

Elle constitue une zone de faible probabilité fixée par l'expérimentateur. En général, elle équivaut à 5%, 1% voire 0,1% de la surface totale sous la courbe de Gauss.

Pour qu'une mesure ou une moyenne se retrouve dans cette zone, il faut que sa valeur soit très éloignée du centre de la distribution µ (ou 0 si on travaille avec une variable normale réduite) au point de dépasser la valeur seuil xa.

Si tel est le cas, on suppose qu'il y a beaucoup de chances que cette mesure (ou cette moyenne) n'ait pas été obtenue par hasard (comme il y a moins de alpha chances d'obtenir une telle valeur). On en déduit que la mesure (ou la moyenne) provient d'une autre population (population 1) que celle prévue par le modèle H0, où la valeur observée est beaucoup plus probable. En décidant que le modèle H0 est invalide il y a cependant alpha % de chances de se tromper. Comme cet alpha est fixé par l'expérimenteur, le risque encouru ou erreur de type I est connu et peut être très petit.

La zone de confiance

En vert :

Une valeur comprise dans cette zone de confiance est considérée par l'expérimentateur comme une valeur tout à fait conforme au modèle H0 décrivant la population d'origine centrée sur la moyenne µ. La valeur est considérée comme probable et la différence observée par rapport à la moyenne µ du modèle H0 peut être atttribuée au hasard résultant de l'échantillonnage aléatoire.

Cette zone représente 95%, 99% voire 99,9% de la surface de la courbe de Gauss. La distance qui sépare la valeur observée de la moyenne µ du modèle H0 n'est pas suffisante  pour être considérée comme non conforme ou "improbable" (car inférieure à la distance séparant µ du seuil de signification).

Dans cette zone, l'expérimentateur doit admettre que la valeur observée est conforme à la population centrée sur µ.  Ce n'est pas pour autant que le modèle H0 est validé mais il n'a pas réussi à démontrer le contraire, c'est-à-dire que l'échantillon proviendrait d'une autre population centrée sur une autre moyenne.

La procédure à suivre dans un test d'hypothèses

1. Savoir d'où l'on part et ce qu'on souhaite démontrer

Un expérimentateur a mesuré un chevaine de 3 ans et veut le comparer à la population de chevaines de 3 ans centrée sur µ. Son point de départ est de dire que l'individu est conforme à cette population: c'est l'hypothèse nulle H0. Ce qu'il veut démontrer est SOIT:

  1. que le poisson mesuré est plus petit que prédit par la normale et appartient à une population centrée sur µ1 plus petite que µ (en vert)
    Dans ce cas, on peut poser les hypothèses suivantes: H0: µ = µ1 et H1: µ1 inférieure à µ. Il s'agira alors d'un test unidirectionnel à gauche.
  2. que le poisson mesuré est plus grand que prédit par la normale et appartient à une population centrée sur µ1 plus grande que µ (en bleu)
    Dans ce cas, on peut poser les hypothèses suivantes: H0: µ = µ1 et H1: µ1 supérieure à µ. Il s'agira alors d'un test unidirectionnel à droite.
  3. que le poisson mesuré est ou plus grand ou plus petit (différent) que prédit par le modèle et appartient à une population centrée sur µ1 plus grande OU plus petite que µ (en orange)
    Dans ce cas, on peut poser les hypothèses suivantes: H0: µ = µ1 et H1: µ1 différente de µ. Il s'agira alors d'un test bidirectionnel.

Le choix de l'hypothèse alternative H1 se fait en fonction des connaissances a-priori ou scientifiques de l'expérimentateur (par exemple, conditions d'élevage favorables ou défavorables) et NON en fonction de la valeur observée qui peut être inférieure ou supérieure à la valeur attendue simplement par le jeu de l'échantillonnage aléatoire.

2. Convertir la valeur observée en une valeur réduite

L'expérimentateur a obtenu une taille pour le poisson capturé (ou une taille moyenne s'il en a capturé plusieurs). Pour faciliter sa prise de décision (Accepter le fait que ce poisson est normal [acceptation de H0 = AH0] ou non [rejet de H0 = RH0]), il va réduire la valeur observée en une valeur réduite (z réduit, t réduit, ...).

 

3. Rechercher dans les tables réduites correspondantes la ou les valeurs seuil:

En fonction du alpha déterminé par l'expérimentateur et de l'hypothèse H1 choisie, il va définir un seuil de signification particulier.

  1. Test unidirectionnel à gauche: Zα
  2. Test unidirectionnel à droite: Z1-α
  3. Test bidirectionnel: TeX Embedding failed! ou TeX Embedding failed!

Exemple

Soit une différence à mettre en évidence pour un alpha de 5% (test bidirectionnel: il y a donc 2 seuils à trouver Z0,025 et z0,975) .

Dans la table, on localise la valeur la plus proche de 0,975 afin de trouver z0,975. Le z trouvé dans les tables est de 1,96. Par symétrie, on peut déduire le z0,025: -1,96

Conclusion du test

En comparant la valeur réduite des observations (z observé) avec la valeur seuil trouvée dans les tables, l'expérimentateur peut tirer une conclusion à son test.

Exemple

Soit une valeur de z observée de -1,84 pour un test bidirectionnel avec un alpha de 5%. Dans ce cas, -1,84 est compris entre -1,96 et 1,96. La valeur étant comprise entre les deux valeurs seuils, elle est considérée comme "normale". Cela revient à dire que la probabilité d'obtenir une valeur (1,84) aussi éloignée de 0 est plus grande que 5%. On considère donc que l'événement est probable sous H0 et que la valeur observée est due au hasard de l'échantillonnage.

La conclusion au test est la suivante: La différence entre la mesure observée et la valeur attendue peut être attribuée au hasard de l'échantillonnage. Par conséquent, on accepte l'hypothèse nulle (AH0).

Si la valeur observée n'était pas comprise entre -1,96 et 1,96, l'expérimentateur aurait pu conclure que la mesure observée était trop différente de la normale ou trop peu probable sous H0 (< 5%). Par conséquent,  il aurait rejeté l'hypothèse nulle (RH0).

 

Remarque

Dans le cas d'un test bidirectionnel, RH0 signifie bien sûr la mise en évidence d'une différence de la valeur observée par rapport à la normale MAIS on peut aller plus loin. En effet, pour un même alpha MAIS pour un test unidirectionnel, on aura aussi un RH0. L'expérimentateur pourra donc dire qu'il y a une différence de la mesure mais aussi que celle-ci est plus grande ou plus petite que la normale.

Attention: La conclusion inverse n'est pas vraie. Ce n'est pas parce qu'on rejette l'hypothèse nulle (RH0) dans un test unidirectionnel avec un alpha déterminé qu'il y a rejet de l'hypothèse nulle (RH0) pour un test bidirectionnel avec le même alpha.

Exercices

1. Un écologiste étudie une population de chauves-souris de l'espèce Grand Rhinolophe. D'après la littérature, il sait que l'envergure de ces chiroptères obéit à une distribution normale dont la moyenne est de 375 mm pour une variance de 225 mm2.

Cet écologiste capture un individu dont la taille est de 350 mm. Cet individu est-il considéré comme conforme ou bien est-il significativement différent de ce que prévoit le modèle?


2. Un biologiste étudie l’envergure du Grand Rhinolophe. Dans la littérature, il trouve que l’envergure moyenne théorique µ est de 375 mm et la variance de 225 mm2.

  • Dans cette population, on capture un individu dont l'envergure est de 404,5 mm. Cette envergure est-elle anormalement grande pour la population de Grand Rhinolophe (alpha = 5%) ?
  • Dans cette population, on capture un individu dont l'envergure est de 409 mm. Cette envergure est-elle plus grande que celle attendue dans la population de Grand Rhinolophe (alpha = 5%) ? Qu'en est-il avec un intervalle de confiance de 99% ?
  • On a capturé une chauve-souris dans un ancien clocher désaffecté. Divers paramètres ont été mesurés. Vous disposez des moyennes et des écarts-types de ces paramètres pour la population de Grands Rhinolophes. Cet individu fait-il partie de cette population ou bien appartient-il à une population de chauves-souris significativement ou très significativement plus grande? Si non, en combien de points (énoncez-les) diffère-t-il de la population de Grands Rhinolophes?
      µ σ Xobservé Zobservé Z0,95 Z0,99 Conclusion
                   
    Poids 26 4,5 35        
    Longueur oreille 23 1,5 25,2        
    Longueur avant-bras 57,5 1,75 58        
    Longueur tête-corps 64 3,5 72        
    Envergure 375 12,5 404,1        

Risques d'erreurs

Outils pédagogiques complémentaires
Simulations: 

Le modèle H0

Lors d'un test d'hypothèses, l'expérimentateur doit choisir entre 2 hypothèses H0 et H1. La statistique lui fournit un outil de décision basé sur les probabilités.

Si le modèle H0 est correct (modèle H0), 2 zones de probabilité sont définies

  1. alpha (ou erreur de type I): la probabilité de considérer la moyenne observée comme non conforme ou zone d'événements peu probables sous H0
  2. 1-alpha (ou confiance): la probabilité de considérer la moyenne observée comme conforme ou zone d'événements probables sous H0

Si la moyenne observée est comprise dans la zone alpha, l'expérimentateur peut tirer une conclusion:

1. Voir un effet qui n'existe pas:


TOUS LES INDIVIDUS SOUS CETTE COURBE SONT CONFORMES

Si la moyenne observée de l'échantillon est comprise dans la zone alpha, cela peut signifier que l'échantillon est constitué fortuitement d'individus normaux dont la taille est exceptionnelle. La moyenne ainsi obtenue est peu probable mais toujours possible sous la courbe. Dans ce cas, l'expérimentateur va conclure erronément que l'échantillon n'appartient pas à la population centrée sur µ.

2. Voir un effet qui existe:

Si la moyenne observée de l'échantillon est comprise dans la zone alpha, cela peut signifier aussi que l'échantillon est constitué d'individus appartenant à une population de moyenne (µ1) distincte de µ (en rouge: cas où il existe une population centrée sur une moyenne µ1 plus grande que µ). L'expérimentateur en conclut que si il observe une telle moyenne c'est qu'elle provient d'une autre distribution (par exemple centrée sur µ1) où cette valeur est beaucoup plus probable.

Le modèle H1

Le modèle H1 est représenté ici à droite du modèle Ho.

Dans le cas présent: H1 (µ1 supérieur à µ), représente un accroissement hypothétique du paramètre étudié, déplaçant ainsi la courbe à droite. Attention, il y a une différence fondamentale entre le modèle H0, qui est centré sur une moyenne µ connue et le modèle H1, centré sur une moyenne µ1 inconnue.

Ce modèle H1 est donc représenté à un endroit tout à fait arbitraire.

Le seuil de signification définit sous la courbe deux zones distinctes:

  1. une zone où l'expérimentateur ne voit pas un effet qui existe réellement : c'est l'erreur de type II, représentée par β.
  2. une zone où l'expérimentateur voit un effet qui existe réellement : c'est la puissance, représentée par (1-β).

En fonction de la position de la distribution H1 (µ1 proche de µ ou éloigné de µ), la probabilité de l'erreur de type II (β) peut être grande (proche de 100%) ou petite (proche de 0%). Comme la distribution H1 n'est jamais connue, la probabilité de l'erreur de type II n'est jamais connue, contrairement à la probabilité de l'erreur de type I (au maximum, égale à alpha). C'est la raison pour laquelle on dit qu'un test est non significatif quand on accepte l'H0 car on a aucune idée du risque d'erreur associé à cette décision. Par contre, on dira que le test est significatif quand on rejette H0 car on connait la probabilité de se tromper (au maximum, égale à alpha et bien souvent inférieure à alpha si la valeur observée est loin de la valeur seuil).

L'expérimentateur cherchera donc à maximiser la puissance d'un test, c'est-à-dire à rejeter H0 à bon escient et à favoriser les conditions expérimentales qui augmentent cette puissance.

Objectif de l'expérimentateur

L'objectif de l'expérimentateur sera de mettre toutes les chances de son côté afin de voir le plus souvent possible un effet si cet effet existe réellement. Il va devoir jouer sur certains facteurs pour diminuer le recouvrement des deux courbes.

Non optimisé

  • alpha: 5%
  • confiance: 95%
  • béta: 85%
  • puissance: 15%

En d'autres termes, l'expérimentateur devra augmenter la puissance (1-β) le plus possible (bien souvent entre 80% et 99%) et donc diminuer la probabilité de ne pas mettre en évidence un effet qui existe réellement (l'erreur de type II β) à un minimum (bien souvent entre 20% et 1%) sans modifier la confiance du test du test.

Optimisé

  • alpha: 5%
  • confiance: 95%
  • béta: 1%
  • puissance: 99%

Animation

Optimisation d'une expérience

Supposons qu'un laboratoire pharmaceutique demande à l'un de ses chercheurs de montrer qu'une molécule X provoque une augmentation de la pression sanguine chez le rat.

L'employé doit mettre toutes les chances de son côté pour démontrer cet accroissement de la pression sanguine, pour cela, il peut contrôler les paramètres suivants s'ils existent :

  PARAMETRE

COMMENT LE

MODIFIER ?

EFFET MODIFIABLE?
1 µ1 Augmenter la dose du médicament Augmentation de la distance entre les modèles
2 Variance de la population Cibler au mieux la population (rats mâles de 3 mois non stressés) Resserrement des courbes autour de leur moyenne
3 Taille d'échantillon Augmenter la taille de l'échantillon Resserrement des courbes autour de leur moyenne
4 alpha Augmenter alpha Augmentation de RH0 même si pas d'effet à observer

Optimisation d'une expérience: modifier µ1

Comment optimiser une expérience pour voir un effet le plus souvent possible?

1. Modifier µ1:

Il est parfois possible de modifier la moyenne µ1 de la distribution H1. Dans le cas d'un médicament, en augmentant la dose du médicament X (pour autant que cela soit faisable et réaliste), l'expérimentateur peut amplifier l'effet du médicament si le médicament a réellement un effet: il y aura un déplacement de la distribution H1 vers la droite.

Il en résulte une diminution de la superposition des deux courbes et donc une augmentation de la puissance. Dans le schéma ci-dessus, la puissance reste faible (< 50%) et l'erreur bêta encore assez élevée (> 50%).

Optimisation d'une expérience: diminuer la variabilité (variance) des données

Comment optimiser une expérience pour voir un effet le plus souvent possible?

2. Diminuer la variabilité (variance) des données

Dans l'expérience portant sur l'effet d'une substance X sur la pression sanguine des rats, il est possible de diminuer la variance des données en sélectionnant par exemple, un lot de rats homogènes.

Le sexe, l'âge, le poids, le stress, la provenance des animaux jouent sur la pression sanguine et entraînent une grande variabilité des données. En sélectionnant un lot de rats homogènes (par exemple, rats mâles de 3 mois non stressés,...), on va diminuer la variabilité des données et il sera plus facile de voir si la substance a réellement un effet sur la pression sanguine. L'implication graphique de cette diminution de la variance se traduit par un resserrement de la courbe de Gauss autour de la moyenne.

Il en résulte une diminution de la superposition des deux courbes et donc une augmentation de la puissance.

exemple: variance pour tous les rats = 225 [mm de Hg]2; variance pour des rats mâles de 3 mois non stressés = 25 [mm de Hg]2

Optimisation d'une expérience: augmenter la taille de l'échantillon

Comment optimiser une expérience pour voir un effet le plus souvent possible?

3. Augmenter la taille de l'échantillon

L'augmentation de la taille de l'échantillon a un effet similaire à celui observé lorsque l'expérimentateur réduit la variance des données. C'est le facteur que l'expérimentateur peut le plus facilement modifier, du moins en théorie.

Le théorème central limite nous apprend que la distribution d'échantillonnage des moyennes obéit à une distribution normale centrée sur µ et dont la variance est TeX Embedding failed!.

Il existe de nombreux programmes et algorithmes pour calculer la taille optimale de l'échantillon selon le plan expérimental. Pour ne pas devoir augmenter de manière exagérée la taille de l'échantillon à traiter, il est recommandé d'optimiser préalablement la distance entre µ et µ1 (si cela est possible) et de réduire au maximum la variabilité des données (homogénéité des facteurs expérimentaux) avant d'augmenter la taille de l'échantillon.

Supposons le test d'hypothèses suivant:

  • H0: µ = µ1 = 120
  • H1: µ1 > 120
  • Confiance 95%
CAS Paramètres

taille minimale de n pour

une puissance de 99% et une confiance de 95%

1

µ1=122

TeX Embedding failed! =225

887 rats
2

µ1=124

TeX Embedding failed! =225

222 rats
3

µ1=122

TeX Embedding failed! =25

99 rats
4

µ1=124

TeX Embedding failed! =25

25 rats

NB: L'expérimentateur ne peut déterminer la taille optimale de son échantillon pour avoir une puissance donnée qu'à condition de fixer la différence minimale (µ-µ1) qu'il désire mettre en évidence. La moyenne réelle µ1 reste inconnue, mais la différence µ-µ1 peut être inintéressante en dessous d'un certain seuil (par exemple, pas d'effet biologique si la différence est trop petite).

TeX Embedding failed!

 

Optimisation d'une expérience: augmenter alpha

Comment optimiser une expérience pour voir un effet le plus souvent possible?

4. Augmenter alpha

Pour diminuer le recouvrement entre les distributions H0 et H1, l'expérimentateur pourrait être tenté d'augmenter la surface alpha afin d'accroître la puissance (1-β). Cette pratique n'est cependant pas recommandée. En effet, l'expérimentateur se doit de diminuer parallèlement les 2 types d'erreur, alpha et beta car il ne sait jamais au préalable quelle est la décision correcte (AH0 ou RH0).

L'expérimentateur délimite arbitrairement un intervalle de confiance (1-α) et une erreur de type I (α) mais par définition alpha doit être petit.

Soit il n'y a pas d'effet :

En augmentant alpha, l'expérimentateur rejettera plus souvent l'hypothèse nulle à tort.

Soit il y a un effet :

Si on réalise un test avec un grand alpha :

  • En cas de RH0, la confiance est faible, le risque d'erreur de type I est grand (= alpha).
  • En cas d'AH0, le risque d'erreur II est toujours inconnu.

 

En conclusion:

Si la valeur observée se retrouve dans la zone de rejet de l'hypothèse nulle, cela veut dire que:

  1. l'expérimentateur a obtenu une valeur observée qui est très éloignée de la moyenne de la population de référence. La probabilité de l'obtenir par hasard dans cette population de référence est très faible mais pas impossible (probabilité < alpha)
  2. La valeur observée est trop éloignée de la moyenne de la population de référence et l'expérimentateur en déduit qu'elle n'a pas été obtenue par hasard et, que par conséquent, le modèle H1 est très vraisemblable.

Remarques:

  1. Si un expérimentateur réduit la surface alpha pour diminuer la probabilité d'erreur de type I, cela entraîne une diminution de la puissance.
  2. Si un expérimentateur fixe un alpha nul, il considérera toujours une valeur observée même anormale comme conforme.

    Par exemple, si le alpha est très petit, le seuil de signification à atteindre pour considérer le poids d'un individu comme trop élevé est pratiquement impossible à atteindre. Le poids d'un sumo risque d'être assimilé à un poids tout à fait habituel chez un homme adulte alors qu'il devrait être considéré comme un obèse.

  3. L'erreur de type I (alpha) résulte donc d'un compromis

    • alpha ne doit pas être trop grand. Si on rejette H0, il faut avoir une grande confiance en sa décision ou une probabilité d'erreur de type I faible (= alpha).

    • alpha ne doit pas être trop petit car s'il y a un effet à voir, le seuil de signification risque d'être impossible à atteindre vu son éloignement par rapport à la moyenne de la population de référence.

       

 

Exercices

1. Comparaison de dépenses en soins de santé entre deux pays

Des études de consommation ont été réalisées en Irlande et en Angleterre. Les dépenses en services médicaux et dépenses de santé représentaient, en 1985, respectivement 1,5% et 1% de la consommation totale des ménages. Sachant qu'en Europe, la variation des dépenses en services médicaux et dépenses de santé est de 1,9 (%²), combien de ménages doit-on étudier (alpha = 5%) dans ces deux pays pour montrer, dans 99% des cas, que la consommation totale en Irlande est supérieure à celle obtenue en Angleterre?


2. Etude d'un médicament hypertenseur

Soit une expérience portant sur l'étude d'un médicament hypertenseur expérimental. L'expérience est menée sur des rats de laboratoire dont on connait la pression sanguine habituelle: (120±15) mm de mercure.
L'effet attendu doit être plus grand que 124 mm de mercure (effet obtenu avec un médicament commercialisé depuis des années et bien caractérisé).

  • De combien d'individus a-t-on besoin pour voir un effet dans 99% des cas sachant que l'intervalle de confiance est de 95%?
  • Qu'en est-il avec une population de rats homogènes (même âge et même sexe) pour laquelle la variance est de 25mm²?

Tests d'hypothèses simples relatifs aux variances

Homoscédasticité

Les tests d'hypothèses relatifs aux variances ont pour but de vérifier l'homoscédasticité de deux ou plusieurs échantillons.

Homoscédasticité ?

Homoscédasticité signifie "qui a une dispersion identique": vient du grec σκεδαση, skedasê qui signifie "dissipation", "dispersement".

Statistique de test

Dans le cas des tests d'homoscédasticité vus dans ce site, la statistique de test est le rapport entre les deux variances comparées : TeX Embedding failed! avec TeX Embedding failed!.

Quel test utiliser ?

Il existe plusieurs tests possibles en fonction des situations expérimentales rencontrées.

Dans le cadre de ce site nous nous limiterons au test de Hartley et au test de Fisher.

Le test de Hartley est utilisé lorsqu'on a plus de 2 échantillons composés d'un nombre identique d'individus (ex : 10 échantillons de 5 individus)

Le test de Fisher est utilisé lorsqu'on dispose de 2 échantillons de tailles différentes (n1 ≠ n2) ou de même taille.

Lorsqu'il y a plus de 2 échantillons avec des nombre d'individus, le test de Bartlett doit être utilisé (non vu dans le cadre du ce site)

Test de Hartley

Test de l'homogénéité des variances dans le cas où le test concerne des variances d'échantillons de même taille. Dans le cas du test de Hartley, le nombre d'échantillons n'est pas limité.

Hypothèses

H0: les variances des populations où sont prélevés les echantillons sont égales
H1: au moins une des variances est différente des autres

Statistique de test

La valeur à calculer est :

TeX Embedding failed!

Réalisation du test

Lire dans la table de Hartley (disponible sous le lien "Tables" de la bannière de ce site) la valeur Hthéorique telle que :

H table pour k dl; r dl; 1-alpha

  • k est le nombre de groupes comparés
  • r=n-1; c'est-à-dire le nombre de d.l. des variances étudiées, avec n = nombre d'individus par échantillon.
  • en général, 1-alpha = 0,95

Comparer le Hthéorique ainsi obtenu avec le Hobservé calculé précédemment.

Conclusions

Si Hobservé est plus grand que le Hthéorique : la conclusion = rejet de l'hypothèse nulle (RH0): cela signifie que les variances des échantillons sont trop différentes pour considérer que les variances des populations sont homogènes.

Si Hobservé est plus petit que le Hthéorique : la conclusion = acceptation de l'hypothèse nulle (AH0) : cela signifie que les variances ont des valeurs suffisamment proches pour qu'on accepte l'idée qu'elles soient toutes homogènes.

Test de Fisher

Test d'homogénéité de 2 variances:  échantillons de même taille ou de taille différente.

Hypothèses

H0: les variances des 2 populations où sont prélévés les échantillons sont égales
H1: les variances sont différentes

Statistique de test

La valeur à calculer est :

TeX Embedding failed!

Réalisation du test

Lire dans la table de Fisher (disponible sous le lien "Tables" de la bannière de ce site) la valeur F théorique telle que :

Fthéorique = F k dl; r dl; 0,95 , c'est-à-dire la valeur des tables de Fisher pour k et r degrés de libertés, et pour une confiance de 95%.

avec :

k= nmax-1 où nmax=nombre d'individus dans l'échantillon d'où provient la plus grande des deux variances;

r= nmin-1 où nmin=nombre d'individus dans l'échantillon d'où provient la plus petite des deux variances;

Comparer le F théorique ainsi obtenu avec le F observé calculé précédemment.

Conclusions

Si F observé est plus grand que le F théorique : la conclusion = rejet de l'hypothèse nulle (RH0): cela signifie que les variances des 2 échantillons sont trop différentes pour considérer les variances de population homogènes.

Si F observé est plus petit que le F théorique : la conclusion = acceptation de l'hypothèse nulle (AH0) : cela signifie que les deux variances ont des valeurs suffisamment proches pour qu'on accepte l'idée qu'elles soient homogènes.

Tests d'hypothèses simples relatifs aux moyennes

Outils pédagogiques complémentaires

Principe

Les tests d'hypothèses permettent de comparer des populations entre elles au moyen d'échantillons ou encore de comparer un échantillon avec une population de référence...

Types de tests d'hypothèses

Les tests d'hypothèses permettent de comparer des populations entre elles au moyen d'échantillons ou encore de comparer un échantillon avec une population de référence...

Dans le cadre de ces travaux pratiques, nous envisagerons trois types de tests d'hypothèses :

  1. test de comparaison d'une moyenne à un standard (1 échantillon)
  2. test de comparaison de 2 moyennes : 2 échantillons indépendants
  3. test de comparaison de 2 moyennes : 2 échantillons non indépendants ou observations pairées

Les tests 2 et 3 peuvent être également traités par l'ANOVA.

Les hypothèses

Quel que soit le type de tests (voir ci-dessus), on formule l'hypothèse de référence que les moyennes comparées proviennent d'une seule population de moyenne µ. Il s'agit de l'hypothèse de départ appelée "hypothèse nulle" (H0) qui pourra s'écrire comme suit dans le cas d'une comparaison de deux moyennes:

TeX Embedding failed!


Le contraire de l'hypothèse nulle est qu'une des populations possède une moyenne plus grande, plus petite ou tout simplement différente par rapport à l'autre population. Il s'agit de l'"hypothèse alternative" (H1) qui pourra s'écrire comme suit:

TeX Embedding failed!
ou TeX Embedding failed!
ou encore TeX Embedding failed!

 Les statistiques aident l'expérimentateur à choisir entre l'hypothèse nulle et l'hypothèse alternative

 

Réalisation du test

Réduction des moyennes observées:
En considérant l'hyptohèse nulle vraie, la (les) moyenne(s) mx obtenue(s) pour (les) l'échantillon(s) peu(ven)t être réduite(s) en une valeur observée (z observée ou t observée). Celle-ci peut ensuite être comparée à une valeur seuil (z table ou t table).

Recherche d'une limite arbitraire, une valeur seuil:

La valeur seuil va déterminer sous la courbe de Gauss réduite des zones distinctes: une zone probable suivant H0 et une zone peu probable suivant H0. Cette valeur seuil est déterminée par la valeur de alpha, choisie arbitrairement à 5%, 1% ou 0,1%. Le alpha choisi détermine donc une zone de valeurs de z ou de t peu probables sous H0.

Comparer la valeur réduite observée à la valeur seuil trouvée dans les tables:

Si l'hypothèse alternative H1 est " µ2 plus grand que  µ1"

Lorsque la valeur observée (Z observée ou t observée) est plus grande que la valeur seuil (Z(1-alpha) ou t(1-alpha)), l'H0 est rejetée. La valeur observée est trop différente de la valeur attendue sous H0 pour considérer qu'elle est due au hasard de l'échantillonnage.

Dans le cas d'un rejet de H0 (RH0), l'expérimentateur aura réussi à démontrer que les moyennes observées sont telles que µ2 est vraisemblablement plus grande que  µ1. Comme la valeur de alpha choisie par l'expérimentateur est faible (maximum 5%), un RH0 signifie que la distance qui sépare les moyennes comparées est trop grande pour être simplement due au hasard. Le risque de se tromper lorsqu'on rejette RH0 est au maximum égal à alpha et si la valeur de z ou de t est très éloignée de la valeur seuil , la probabilité de se tromper est de loin inférieure à alpha. Dans ce cas, l'expérimentateur est quasiment "certain" que µ2 est bien plus grand que µ1.

Dans le cas d'une acceptation de H0 (AH0), rien ne permet à l'expérimentateur de dire que les moyennes sont différentes. Cette AH0 doit être considérée par l'expérimentateur comme une expérience non interprétable ou "non significative". A la différence de la "quasi certitude" au sujet de la conclusion tirée quand RH0, dans le cas d'une AH0, rien ne permet à l'expérimentateur d'être certain que les moyennes comparées sont effectivement identiques.

 

Si l'hypothèse alternative H1 est " µ2 plus petit que  µ1"

Lorsque la valeur observée (Z observée ou t observée) est plus petite que la valeur théorique (Z(alpha) ou t(alpha)), alors H0 est rejetée (RH0).

Dans le cas d'un rejet de H0 (RH0), l'expérimentateur peut affirmer que  µ2 est plus petit que  µ1 avec une probabilité de se tromper de alpha (maximum 5%).

Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur n'a pas réussi à démontrer que  µ2 est plus petite que  µ1. La différence observée entre les moyennes d'échantillon pourrait s'expliquer par le jeu aléatoire de l'échantillonnage.

Si l'hypothèse alternative H1 est " µ2 différent de  µ1"

Lorsque la valeur observée (Z observée ou t observée) est SOIT plus petite que la valeur théorique (Z(alpha/2) ou t(alpha/2)), SOIT plus grande que la valeur théorique (Z(1-alpha/2) ou t(1-alpha/2)), alors H0 est rejetée (RH0).

Dans le cas d'un rejet de H0 (RH0), l'expérimentateur peut affirmer que µ2 est différent de µ1 avec une probabilité de se tromper de alpha (maximum 5%).

Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur n'a pas réussi à démontrer que  µ2 est différent de µ1. La différence observée entre les moyennes d'échantillon pourrait s'expliquer par le jeu aléatoire de l'échantillonnage.

Test de comparaison d'une moyenne d'un échantillon par rapport à une population standard

Principe:

Un échantillon est prélevé et sa moyenne est calculée (mx). Cet échantillon provient-il d'une population 1 déterminée de moyenne µ1 ou bien appartient-il à une seconde population appelée population 2 de moyenne µ2? Autrement dit, cet échantillon est-il conforme à la population d'origine?

Les hypothèses:

Hypothèse nulle H0:

La moyenne de l'échantillon appartient à la population de référence de moyenne µ1.

TeX Embedding failed!

Hypothèse alternative H1:

  • L'échantillon appartient à une population dont la moyenne µ2 est supérieure à la moyenne µ1 de la population de référence.
    TeX Embedding failed!
  • ou encore: L'échantillon appartient à une population dont la moyenne µ2 est inférieure à la moyenne µ1 de la population de référence.
    TeX Embedding failed!
  • ou encore: L'échantillon appartient à une population dont la moyenne µ2 est différente de la moyenne µ1 de la population de référence.
    TeX Embedding failed!

Calculer la valeur observée:

Cas 1: la variance de la population de référence est connue:

La réduction de la moyenne de l'échantillon peut se faire par le calcul d'une valeur de Z observée dont la formule est la suivante:

TeX Embedding failed!

Où mx est la moyenne de l'échantillon; µ1 est la moyenne de la population de référence; TeX Embedding failed!  est la variance de la population de référence; n est la taille de l'échantillon.

Dans la table de Z, on trouve la (les) valeur(s) seuil(s) en tenant compte de alpha et du sens de l'hypothèse alternative (test uni- ou bi-directionnel).

  • AH0 : L'échantillon de moyenne mx appartient à la population de référence dont la moyenne est µ1.
  • RH0 : L'échantillon de moyenne mx n'appartient pas à la population de référence dont la moyenne est µ1 mais à une population dont la moyenne µ2 est plus grande OU plus petite que celle de la population de référence de moyenne µ1.

Cas 2: la variance de la population de référence est inconnue:

Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée car il nous manque la valeur de la variance de la population de référence TeX Embedding failed!.

Cependant, il est possible d'adapter cette formule en estimant TeX Embedding failed! par la variance TeX Embedding failed! de l'échantillon. La variable réduite ainsi obtenue n'est plus une variable z mais une variable t avec n-1 degrés de liberté .

TeX Embedding failed!

Où mx est la moyenne de l'échantillon; µ1 est la moyenne de la population de référence; TeX Embedding failed! est la variance de l'échantillon, estimateur de la variance de la population (autrement dit la TeX Embedding failed! ); n est la taille de l'échantillon.

Pour trouver la ou les valeurs seuil, il faut donc rechercher la valeur t dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss) en tenant compte de alpha (ou 1-alpha) et du nombre de dégrés de liberté:

tseuil;(n-1) degrés de liberté

Où "seuil" dépend du alpha choisi et du sens de l'hypothèse alternative; n est la taille de l'échantillon.

  • AH0 : L'échantillon de moyenne mx appartiendrait à la population de référence dont la moyenne est µ1 jusqu'à preuve du contraire.
  • RH0 : L'échantillon de moyenne mx n'appartient pas à la population de référence dont la moyenne est µ1 mais à une population dont la moyenne µ2 est plus grande OU plus petite que celle de la population de référence, dont la moyenne est µ1. 

Test de comparaison de 2 moyennes : 2 échantillons indépendants

 

Principe:

Un expérimentateur désire comparer les moyennes (m1 et m2) de deux échantillons composés d'individus distincts: les individus de l'échantillon 1 ne sont pas les mêmes que ceux de l'échantillon 2! Les deux échantillons sont indépendants.

La question est: les deux échantillons proviennent-ils d'une seule population de moyenne µ ou proviennent-ils de deux populations distinctes de moyennes µ1 et µ2?

Cette analyse peut être réalisée par une ANOVA I à deux niveaux.

Les hypothèses

Hypothèse nulle H0

Les moyennes des échantillons appartiennent à une seule population de référence de moyenne Mx.

TeX Embedding failed!

Hypothèse alternative H1

  • Les moyennes des échantillons appartiennent à 2 populations distinctes. La population 1 a une moyenne µ1 supérieure à la moyenne µ2 de la population 2.
    TeX Embedding failed!
  • ou encore: Les moyennes des échantillons appartiennent à 2 populations distinctes. La population 1 a une moyenne µ1 inférieure à la moyenne µ2 de la population 2.
    TeX Embedding failed!
  • ou encore: Les moyennes des échantillons appartiennent à 2 populations distinctes. La population 1 a une moyenne µ1 différente de la moyenne µ2 de la population 2.
    TeX Embedding failed!
     

Calculer la valeur observée:

Cas 1: les variances des populations 1 et 2 sont connues:

La réduction de la différence des moyennes des échantillons peut se faire par le calcul d'une valeur de Z observé dont la formule est la suivante:

TeX Embedding failed!

Où m1 et m2 sont les moyennes des 2 échantillons; TeX Embedding failed! et TeX Embedding failed! sont les variances des 2 populations 1 et 2; n1 et n2 sont les tailles respectives des échantillons 1 et 2.

Trouvez dans les tables de Z, la ou les valeurs seuil en tenant compte de alpha et de H1.

  • AH0 : Les échantillons de moyenne m1 et m2 appartiennent à une seule population de référence dont la moyenne est µ.
  • RH0 : Les échantillons de moyenne m1 et m2 n'appartiennent pas à la même population de référence dont la moyenne est µ mais appartiennent à 2 populations distinctes dont les moyennes respectives µ1 et µ2 sont telles que µ1 est plus grande OU plus petite OU différente par rapport à µ2.

Cas 2: les variances des populations 1 et 2 sont inconnues:

Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée les variances des populations de référence TeX Embedding failed! et TeX Embedding failed! sont inconnues. On peut néanmoins estimer ces dernières à partir des variances des échantillons, TeX Embedding failed! et TeX Embedding failed!.

Une question préalable doit être posée: La variabilité des 2 échantillons est-elle comparable, homogène? En d'autres termes, il faut vérifier l'égalité des variances des 2 populations étudiées, c'est-à-dire l'homoscédasticité. En effet si les variances sont hétérogènes, la différence de variances risque d'être confondue avec une différence de moyennes.

2.1: Test sur l'homogénéité des variances des échantillons comparés
  • Hypothèse nulle: Les variances des populations comparées sont homogènes.
    TeX Embedding failed!
  • Hypothèses alternatives pour 2 variances:
    • La variance 1 est plus grande que la variance 2.
      TeX Embedding failed!
    • La variance 2 est plus grande que la variance 1.
      TeX Embedding failed!
    • La variance 2 est différente la variance 1.
      TeX Embedding failed!

Pour réaliser ce test, l'expérimentateur établit le rapport entre la variance maximale et la variance minimale. Ce rapport est une valeur appelée F observé que l'on peut comparer avec une valeur F des tables de Fisher (voir Module 125 : page 3 : Test de Fisher).

TeX Embedding failed!
si TeX Embedding failed! est plus grande que TeX Embedding failed!.

L'expérimentateur va ensuite comparer cette valeur à une valeur théorique des tables de F de Fisher-Snedecor. En général, on utilise un test bidirectionnel avec une confiance de 95% (alpha=0,05). Le seuil est donc fixé à TeX Embedding failed!.

L'expérimentateur doit sélectionner la table où P(F < f) = 0,975.
Les degrés de liberté du numérateur (n1-1) dl correspondent à ceux de l'échantillon dont la variance est la plus grande. Ils permettent de rentrer en tête de colonne dans la table.
Les degrés de liberté du dénominateur (n2-1) dl correspondent à ceux de l'échantillon dont la variance est la plus petite. Ils permettent de rentrer en tête de ligne dans la table.

Fthéorique;(n1-1)dl;(n2-1)dl;0,975

  • AH0 si Fobservé est plus petit que Fthéorique: Les variances des populations d'où sont issues les échantillons sont considérées comme homogènes et l'expérimentateur peut alors envisager de comparer les moyennes des populations d'où sont issus les échantillons.
  • RH0 si Fobservéest plus grand que Fthéorique : Les variances des populations d'où sont issues les échantillons sont considérées comme hétérogènes. Il est alors IMPOSSIBLE de comparer par la suite les moyennes pour des échantillons dont les variances ne sont pas homogènes. Dans de nombreux cas, une transformation X'=log(x) ou X'=racine(x) permet d'homogénéiser les variances.
2.2: Test de comparaison des moyennes des 2 populations d'où proviennent les 2 échantillons

CONDITION: Ce test d'hypothèses portant sur les moyennes n'est possible QUE SI l'homogénéité des variances des populations a été confirmée par le test détaillé au point précédent

Les hypothèses H0 et H1 sont celles décrites plus haut.

L'expérimentateur va ensuite calculer une valeur de t observé: Dans cette formule, par rapport à celle du Z observé détaillée ci dessus, on remplacera TeX Embedding failed! et TeX Embedding failed! par une seule variance appelée "variance résiduelle" Sr² obtenue à partir des variances des deux échantillons TeX Embedding failed! et TeX Embedding failed!.

TeX Embedding failed!
avec
TeX Embedding failed!

Où m1 et m2 sont les moyennes des 2 échantillons; S2r est la variance résiduelle ; n1 et n2 sont les tailles respectives des échantillons 1 et 2, TeX Embedding failed! et TeX Embedding failed! sont les variances respectives des deux échantillons 1 et 2.

Ensuite, il reste à trouver dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss), la ou les valeurs seuil en tenant compte de alpha et de H1. La valeur de t de Student nécessite aussi la détermination d'un certain nombre de degrés de liberté. Pour trouver la ou les valeurs seuil, il faut donc rechercher:

tseuil;(n1+n2-2) degrés de liberté

Où "seuil" peut être (1-α) ou α ou (1-α/2) ou (α/2) en fonction de l'hypothèse alternative; n1 et n2 les tailles des 2 échantillons.

  • AH0 : Les échantillons 1 et 2 appartiendraient, jusqu'à preuve du contraire, à des populations dont les moyennes µ1 et µ2 seraient égales.
  • RH0 : Les échantillons 1 et 2 appartiennent à deux populations dont les moyennes µ1 et µ2 seraient différentes (OU µ1 plus petite OU plus grande que µ2). 

Test de comparaison de deux moyennes (observations pairées)

Principe:

Un expérimentateur dispose d'une série d'observations associées par paires ou par couples. Par exemple, une expérience a été menée sur des rats. Ils ont été pesés avant et après un traitement hautement énergétique. A chaque individu de l'expérience est associée une pesée avant et après le traitement. Les données "avant" et "après" ne sont pas indépendantes et ne constituent donc pas des échantillons indépendants.

Pour traiter ce genre de test, l'expérimentateur doit considérer la différence de chaque couple de données. Toutes ces différences forment un échantillon dont on peut calculer la moyenne mD et la variance TeX Embedding failed!.

A partir de ce moment, l'expérimentateur dispose d'une seule série de n observations, supposée par H0 prise dans une population de moyenne µD, de variance inconnue estimée par TeX Embedding failed!, et souhaite éprouver H1 (µD > 0) et/ou H1 (µD < 0).

Remarque: ce test peut aussi être réalisé par la technique de l'ANOVA II, avec un critère fixe à deux niveaux croisés et un critère aléatoire à n niveaux.

Les hypothèses

Hypothèse nulle (H0)

TeX Embedding failed!
La moyenne des différences est égale à TeX Embedding failed! ou est nulle.

NB: En général delta vaut 0; il est rare que l'on souhaite tester une différence particulière, non nulle, mais c'est néanmoins réalisable.

Hypothèse alternative H1:

  • TeX Embedding failed!
    La moyenne des différences de la population de référence est plus grande que 0.
  • TeX Embedding failed!
    La moyenne des différences de la population de référence est plus petite que 0.
  • TeX Embedding failed!
    La moyenne des différences de la population de référence est non nulle.

Calculer la valeur observée:

La réduction de la moyenne des différences peut se faire par le calcul d'une valeur de t observé dont la formule est la suivante:

TeX Embedding failed!

mD est la moyenne des différences des données pairées; TeX Embedding failed! est la variance des différences des données pairées; n est le nombre de couples de données.

Trouvez dans les tables de t, la ou les valeurs seuil(s), en tenant compte d'alpha pour un test unidirectionnel ou bidirectionnel. Le nombre de degrés de liberté à employer est (n-1) dl où n est le nombre de couples de données.

tseuil, (n-1) dl; (1-α/2)

  • AH0 : La moyenne des différences de la population de référence est nulle.
  • RH0 : La moyenne des différences de la population de référence est non nulle.

ANalysis Of VAriance (ANOVA)

La réalisation d'un test d'Analyse de la Variance est une matière complexe, qui fera l'objet de plusieurs autres modules indépendants.

Pour savoir si vous devez ou non les parcourir, veuillez vous référer au programme de votre section ou de votre finalité.

  1. L'ANOVA 1 (module 140): principe, conditions d'utilisation, mise en oeuvre, interprétation et comparaison préalable des variances
  2. Tests complémentaires:
    1. Contrastes de Scheffé (module 150)
    2. Contrastes orthogonaux (module 160)
  3. La régression dans l'ANOVA1 (module 170)
  4. L'ANOVA 1 aléatoire (module 180)
  5. L'ANOVA et les critères de classification (module 190)
  6. L'ANOVA2 croisée fixe (module200)
  7. L'ANOVA et les modèles (module 210)

Formulaire relatif aux tests d'hypothèses: les moyennes

Comparer une moyenne à un standard

  Si la variance de la population standard (VARx) est connue Si la variance de la population standard (VARx) est inconnue
  TeX Embedding failed! TeX Embedding failed!
  H0: M1 = M2 = Mx
H1: M1 plus grand que M2 Z tables; (1-alpha) t tables; (n-1) dl; (1-alpha)
H1: M1 plus petit que M2 Z tables; (alpha) t tables; (n-1) dl; (alpha)
H1: M1 différent de M2

Z tables; (alpha/2)

Z tables;(1-alpha/2)

t tables; (n-1) dl; (alpha/2)

t tables;(n-1) dl; (1-alpha/2)


Comparer 2 moyennes d'échantillons provenant de 2 populations indépendantes:

  Si les variances des populations (VAR1 et VAR2) sont connues Si les variances des populations (VAR1 et VAR2) sont inconnues
  TeX Embedding failed!

TeX Embedding failed!
avec
TeX Embedding failed!

  H0: M1 = M2 = Mx
H1: M1 plus grand que M2 Z tables; (1-alpha) t tables; (n1+n2-2) dl; (1-alpha)
H1: M1 plus petit que M2 Z tables; (alpha) t tables; (n1+n2-2) dl; (alpha)
H1: M1 différent de M2

Z tables; (alpha/2)

Z tables;(1-alpha/2)

t tables; (n1+n2-2) dl; (alpha/2)

t tables;(n1+n2-2) dl; (1-alpha/2)


Comparer deux moyennes (observations pairées)

La variance de la population (VARD) est toujours inconnue
TeX Embedding failed!
H0: MD = delta
La moyenne des différences de la population de référence est nulle.

H1: MD est différente de delta
La moyenne des différences de la population de référence est non nulle.

t tables, (n-1) dl; (1-alpha/2) avec n nombre de couples

 

Hypothèses et prise de décision

Hypothèse nulle

H0: M1 = M2 = Mx

Hypothèses alternatives

H1: M1 plus grand que M2

AH0 si

  • Z observé plus petit que Z (1-alpha)
  • t observé plus petit que t (1-alpha)

RH0 si

  • Z observé plus grand que Z (1-alpha)
  • t observé plus grand que t (1-alpha)

H1: M1 plus petit que M2

AH0 si

  • Z observé plus grand que Z (alpha)
  • t observé plus grand que t (alpha)

RH0 si

  • Z observé plus petit que Z (alpha)
  • t observé plus petit que t (alpha)

H1: M1 différent de M2


AH0 si

  • Z observé compris entre Z (alpha/2) et Z (1-alpha/2)
  • t observé compris entre t (alpha/2) et t (1-alpha/2)

RH0 si

  • Z observé plus grand que Z (1-alpha/2)
  • t observé plus grand que t (1-alpha/2)

ou

  • Z observé plus petit que Z (alpha/2)
  • t observé plus petit que t (alpha/2)

Exercices

1. Un laboratoire étudie l'influence d'un contraceptif X sur un groupe de 18 femmes de 25 ans. Chez la femme, au "jour 14 " du cycle menstruel, une augmentation de la concentration en LH (Luteinizing Hormone) induit l'ovulation. A ce stade précis, la concentration en LH est une v.a.N(14,5; 5,0625). Pour l'échantillon de 18 femmes, on obtient une moyenne de 13,03 mIU/ml et une variance de 6,32 (mIU/ml)². La prise du contraceptif X a-t-elle une influence (significative (alpha =5%) ou hautement significative (alpha =1%)) sur la concentration en LH et sur l'ovulation ?


2. Des études comparatives sur la fécondité des femmes au sein de la communauté européenne ont été menées sur des femmes de 40 ans. Pour cela, un statisticien a réalisé deux échantillons: l'un (de 100 femmes) en France, l'autre (de 80 femmes), en Belgique. Il a obtenu une moyenne de 1,78 enfants / femme et une somme de carrés d'écarts (SCE) de 427,68 (enfants / femme)² pour l'échantillon français et une moyenne de 2,12 enfants / femme et une SCE de 281,24 (enfants / femme)² pour l'échantillon belge. Les femmes françaises sont-elles moins fécondes que leurs homologues belges?


3. Dans une fabrication de boulons pour machines, l'ingénieur du contrôle-qualité trouve qu'un échantillon de taille n = 100 est nécessaire pour détecter des changements fortuits de 0,5mm dans la longueur moyenne du boulon fabriqué. Supposons qu'il souhaite une précision plus grande pour détecter un changement de 0,1mm seulement, avec les mêmes erreurs de type I et II. De combien doit-il augmenter la taille de son échantillon ? (c'est facile si on reformule le problème en terme d'intervalles de confiance. Pour construire un intervalle de confiance 5 fois plus précis, de combien doit-on augmenter la taille de l'échantillon ?)


4. Des études de consommation ont été réalisées en Irlande et en Angleterre. Les dépenses en services médicaux et dépenses de santé représentaient, en 1985, respectivement 1,5% et 1% de la consommation totale des ménages. Sachant qu'en Europe, la variation des dépenses en services médicaux et dépenses de santé est de 1,9 (%²), combien de ménages doit-on étudier (alpha = 5%) dans ces deux pays pour montrer, dans 99% des cas, que la consommation totale en Irlande est supérieure à celle obtenue en Angleterre ?


5. Pour deux catégories différentes de raisins (catégorie 1 et catégorie 2), on a observé l’acidité (pH) de 7 et de 11 grappes respectivement. On remarque que l’échantillon de la catégorie 1 a une acidité moyenne de 3.556 (variance 0.011) et celle de l’échantillon de la catégorie 2 est de 3.477 (variance 0.007). Testez si la différence est significative.


6. Un procédé de fabrication courant a produit des millions de tubes T.V., dont la durée de vie moyenne est µ=1200 heures et l’écart-type σ = 300 heures. Un nouveau procédé, estimé meilleur par le bureau d’études, fournit un échantillon de 100 tubes avec une moyenne de 1265. Bien que cet échantillon fasse apparaître le nouveau procédé comme meilleur, s’agit-il d’un coup de chance de l’échantillonnage?


7. Un enseignant réalise la même interrogation dans deux groupes de 17 étudiants d’une même section. Le groupe A obtient une moyenne sur 20 de 13,1 ± 4,16 et le groupe B obtient une moyenne de 10.8 ± 1,92. Les deux groupes sont-ils de force équivalente (avec un alpha de 5%)? Un troisième groupe (groupe C) de cette section de 17 individus est également testé et la moyenne obtenue vaut 9.8 ± 3.86. Le groupe C est-il moins fort que le groupe A (avec un alpha de 5% et de 1%)? En est-il de même par rapport au groupe B (avec un alpha de 5% et de 1%)?


8. Un étudiant en biologie clinique désire comparer deux méthodes d'analyse des triglycérides sur 10 patients. Une moitié de chaque prélèvement est testée par la méthode A et il note une concentration moyenne de triglycérides de 102.3 mg/dl pour une variance de 7.68 (mg/dl)². L'autre moitié est testée par la méthode B et il observe une concentration moyenne de 107.5 mg/dl pour une variance de 6.23 (mg/dl)². En moyenne la différence enregistrée dans l'échantillon de 10 patients est de 3.75 mg/dl pour une variance de 13.2 (mg/dl)². Ces deux méthodes donnent-elles des résultats comparables avec un seuil de signification de 5%? Sinon, qu'en est-il à 1%?


9. Un biologiste teste 2 techniques de mesure de température sur un troupeau de 30 vaches. La première technique utilise un thermomètre conventionnel au mercure et la seconde utilise un appareil à détection infrarouge à distance. Les 2 techniques donnent respectivement 38.7 ± 0.54 °C et 38.9 ± 0.64°C. La différence moyenne entre les deux techniques est de 0.16 ± 0.44°C. Quelles conclusions pouvez-vous tirer?


10. Un physiologiste étudie l'influence du cadmium sur le taux de glucose dans le sang. Il remplit 2 bassins avec d'une part de l'eau de distribution et d'autre part de l'eau de distribution à laquelle on a ajouté une dose de 0.01mg de Cd par litre. 18 truites sont disposées dans ces 2 bassins et le taux de glucose dans le sang est mesuré après 2 heures d'incubation. Les résultats sont représentés dans le tableau ci-dessous:

 

bassin sans Cd ajouté

bassin avec 0.01mg Cd/l

différence avec/sans Cd

moyenne

86.6

91.2

4.6

variance

5.1

8.3

3.2

Les variances attendues dans le bassin sans Cd étant de 5 et de 10 dans le bassin traité, le cadmium augmente-t-il la glycémie chez les truites (faire le test avec un seuil de signification de 5% et de 1%)?


11. Apparentée aux races anglaises KERRY, DEVON, JERSEY, GUERNESEY, la race BRETONNE PIE NOIRE a été façonnée par le climat et le sol bretons. Cette race est exploitée en Bretagne et dans les départements limitrophes. Elle reste, parmi les races françaises, une de celles ayant le mieux conservé ses caractères originels, l’impact des croisements ayant été faible au siècle dernier. 

De récents croisements ont été réalisés afin d'accroître ses performances au niveau de leur production de viande. Ci-dessous, voici les résultats des tests effectués sur des individus provenant du croisement de cette race avec une race déterminée.

  échantillon Pie-Noire échantillon croisé SCE
pie noire vs croisement 1

moyenne = 601,66
variance = 181,53
nb individus = 18

moyenne = 611,57
variance = 258,54
nb individus = 18

SCEF = 884,08
SCER = 7481,18
pie noire vs croisement 2

moyenne = 598,13
variance = 192,55
nb individus = 18

moyenne = 609,19
variance = 294,43
nb individus = 18

SCEF = 1101,68
pie noire vs croisement 3

moyenne =595,85
variance = 142,48
nb individus = 18

moyenne = 622,24
variance = 514,10
nb individus = 18

SCEF = 6263,96
SCER = 11161,87

Les différents croisements donnent-ils des résultats plus performants que la race pure (alpha de 5% et 1%)? [Note: considérer chaque ligne du tableau comme une nouvelle expérience]


12. Une industrie pharmaceutique désire tester trois stimulants de l'appétit (S1, S2, S3) en mesurant la capacité d'absorption de nourriture chez le rat. Quatre groupes de 12 rats sont constitués: le premier servant de témoin, les trois autres recevant respectivement les stimulants S1, S2 et S3. On mesure la quantité de nourriture (en kg) ingérée sur un mois. Que peut-on conclure?

 
Témoin
S1
S2
S3
Moyennes
2,90
4,11
5,14
5,56
Variances
2,11
0,99
0,35
1,05

On sait aussi que la variance factorielle est de 16,90 et la variance résiduelle est de 1,13.


13. Un ornithologue s'intéresse à l'évolution d'une espèce d'oiseaux répartie dans trois sites géographiquement distincts A, B et C, et plus particulièrement aux différences morphologiques engendrées par les mécanismes d'isolement. A cet effet, il a mesuré la longueur des ailes (en mm) de 10 oiseaux capturés sur chaque site. Les barrières géographiques ont-elles engendré des différences morphologiques sur cette espèce?

 
A
B
C
Moyennes
71,2
74,4
72,6


On sait que la variance résiduelle: 4,31. [On considère que les échantillons sont comparables au niveau de la variabilité entre échantillons]


14. Douze parcelles de terrain sont divisées aléatoirement en 3 groupes. Le premier sert de témoin, les deux autres sont fertilisés respectivement avec les engrais A et B. Les rendements observés sont les suivants. Les engrais affectent-ils la production?

  Témoin A B
Moyennes 61 70 73
Variances 20,6 14 17,3

On sait que la variance expliquée est de 156 et que la variance non expliquée est de 17,3.


15. Pour définir l'impact de la nature du sol sur la croissance d'une plante X, un botaniste a mesuré la hauteur des plantes pour 4 types de sol. Pour chaque type de sol, il disposait de 3 réplicats.

 

Type de sol

  I II III IV
  15 25 17 10
  9 21 23 13
  4 19 20 19
Moyennes 9,33 21,67 20,00 14,00
variances 30,33 9,33 9,00 21,00

Sachant que la variance expliquée par la nature du sol est de 96,31 et que la variance résiduelle est de 17,42, que peut-on conclure sur cette expérience?


16. Dans le cadre d'une étude écotoxicologique, la concentration en DDT et en ses dérivés a été mesurée chez des brochets de différents âges. Les résultats obtenus sont donnés, dans le tableau ci-dessous pour des échantillons de 11 individus chacun.

  2 ans 3 ans 4 ans 5 ans 6 ans
moyennes 0,18300 0,33763 0,45113 0,70738 1,19750
variances 0,00035 0,00106 0,00024 0,00045 0,00125

Sachant que la variance expliquée par l'âge des brochets est de 1,260770 et que la variance résiduelle est de 0,000672, que peut-on conclure sur cette étude?

Tests d'hypothèses simples relatifs aux fréquences (Chi²)

Outils pédagogiques complémentaires

Principe

Rappel:

    La loi du Χ2 est une loi dérivée de la loi normale. Très importante pour ses applications en statistiques, elle est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts.

    A partir de 3 degrés de liberté, les distributions Χ2 suivent une distribution en cloche caractérisée par une dissymétrie à gauche. La forme de la courbe est déterminée par le nombre de degrés de liberté. Le nombre de degrés de liberté dépend du nombre de catégories dans lesquelles les fréquences sont dénombrées. En effet, plus le nombre de degrés de liberté augmente, plus Χ2 tend vers une v.a. Normale et donc adopte une courbe en cloche.

Types de tests :

Dans le cadre de ce cours de statistiques élémentaires, nous ne nous préoccuperons que de deux types de tests différents:

  1. le test d'indépendance
  2. le test de conformité d'un échantillon à un standard

Test d'indépendance

Ce test s'applique lorsqu'on souhaite démontrer l'indépendance ou la dépendance de deux critères dans une expérience portant sur une v.a. discrète.

Soient plusieurs échantillons pouvant être classés selon un certain nombre de colonnes (critère 1) et de lignes (critère 2).

Exemple et pose des hypothèses

Contexte

Supposons la situation suivante: Au cours d'une enquête, on interroge 1 369 mères d'enfants nés avec au moins une malformation et 2 968 mères d'enfants nés sans malformation.

On constate que 35,06% des mères d'enfants nés avec au moins une malformation et 33,02% des mères d'enfants nés sans malformation fumaient.
Effectuez l'analyse statistique complète de ces résultats.

Hypothèses

Hypothèse initiale (hypothèse nulle H0): le fait d'avoir au moins une malformation à la naissance ne dépend pas du fait que la mère soit fumeuse ou non. Les deux critères sont indépendants.
Hypothèse alternative (H1): Les 2 critères "avoir un enfant avec au moins une malformation ou non " et "être issu une mère fumeuse ou non" sont dépendants (liés)

Remarque: Dans cet exemple, "être un enfant avec au moins une malformation ou normal" constitue 2 états du critère 1 et "être issu d'une mère non fumeuse ou fumeuse" constitue 2 états du critère 2. Il faut cependant noter que le nombre d'états de chaque critère n'est pas restreint à 2.

Méthode

Grâce aux données fournies par l'énoncé, il est possible de réaliser le tableau suivant:

valeurs observées
enfant avec au moins une malformation
enfant sans malformation
Total
mère fumeuse
480 980 1460
mère non fumeuse
889 1988 2877
Total 1369 2968 4337

Dans ce tableau, on retrouve les fréquences expérimentales mais aussi les totaux par lignes (1460 enfants sont nés de mères fumeuses contre 2877 de mères non fumeuses) et par colonnes (1369 enfants sont nés avec au moins une malformation contre 2968 enfants normaux) ainsi que le nombre total d'individus analysés dans l'expérience (4337).

En suivant le modèle H0 , il est possible d'estimer des valeurs théoriques sur base des valeurs expérimentales. La manière d'y parvenir est décrite dans le tableau suivant:

valeurs théoriques:
enfant avec au moins une malformation
enfant sans malformation
 
mère fumeuse
TeX Embedding failed!
TeX Embedding failed!
1460
mère non fumeuse
TeX Embedding failed!
TeX Embedding failed!
2877
 
1369
2968
4337

Pour mesurer, sur l'ensemble des catégories, la différence entre les fréquences observées et théoriques, on réduit les écarts suivant la méthode du Χ2:

TeX Embedding failed!

On obtient alors le tableau suivant:

 
enfant avec au moins une malformation
enfant sans malformation
 
mère fumeuse
TeX Embedding failed!
TeX Embedding failed!
 
mère non fumeuse
TeX Embedding failed!
TeX Embedding failed!
 
       

 

ou encore:

 
enfant avec au moins une malformation
enfant sans malformation
mère fumeuse
0,783
0,361
mère non fumeuse
0,397
0,183


Pour tirer une conclusion sur la dépendance (H1) ou l'indépendance (H0), on somme tous les Χ2 observés:

Χ2= 0,783 + 0,361 + 0,397 + 0,183 = 1,72

Et on compare ensuite cette valeur globale à une valeur des tables

Cette table est une table à double entrée:

  • L'entrée en ligne nécessite de connaître le nombre de degrés de liberté de l'expérience. Il se calcule de la manière suivante: (k-1).(r-1) avec k le nombre de colonnes et r le nombre de lignes.
  • L'entrée en colonne est déterminée par l'expérimentateur. C'est en effet lui qui détermine la confiance du test.

Conclusion de l'exemple:

Dans l'exemple, il n'y a que 2 lignes pour deux colonnes, soit (2-1)*(2-1) degrés de liberté. Supposons que l'on prenne un intervalle de confiance à 95% (alpha 5%), la valeur de chi-carré des tables est:

Χ2 1dl;0,95= 3,84

Le test est unilatéral à droite puisque le calcul du chi-carré observé génère uniquement des valeurs positives.

Si le chi-carré observé est plus grand que le chi-carré théorique au seuil alpha, alors on rejette l'hypothèse nulle (RH0).

Dans ce cas, on a un Χ2observé de 1,72. Cette valeur est inférieure à 3,84 (la valeur des tables). On accepte H0. Cela implique que les mères fumeuses n'ont pas plus ou moins de chance de donner naissance à un enfant avec au moins une malformation qu'une mère non fumeuse. Les deux critères sont indépendants, je n'ai pas réussi à le montrer.

Test de conformité à un standard

Ce test s'applique lorsqu'on possède une hypothèse qui prédit les fréquences, les pourcentages ou les proportions. Le but est de vérifier si les fréquences observées s'accordent avec les prévisions du modèle.

En règle générale, les données se représentent sous la forme d'un tableau de distribution de fréquences composé de k colonnes (ex: k échantillons à comparer) comparées à r lignes (r catégories ou classes inventoriées par échantillon).

Exemple et pose des hypothèses:

Le gène codant pour la couleur des yeux comprend plusieurs variants (allèles). Chaque allèle donne une couleur d'yeux bien déterminée. Les proportions des deux allèles sont de 75% de dominants (allèle yeux bruns) pour 25% de récessifs (allèle yeux bleus).

Hypothèse initiale (hypothèse nulle H0): L'allèle "yeux bruns" est dominant par rapport à l'allèle "yeux bleus". Les proportions suivent un modèle 25% "yeux bleus" contre 75% "yeux bruns".

Hypothèse alternative (H1): Le modèle de proportions 25% "yeux bleus" contre 75% "yeux bruns" n'est pas valable.

Méthode:

Un expérimentateur choisit 100 individus au hasard dans une population et trouve 32 individus aux yeux bleus contre 68 aux yeux bruns. Il dresse le tableau suivant et calcule les fréquences théoriques sur base de la taille de l'échantillon mis à sa disposition et des proportions décrites par le modèle H0:

  yeux bruns yeux bleus Total
fréquences observées 68 32 100

fréquences théoriques

75 25 100

Le calcul de chi-carré observé s'effectue en employant la formule:

TeX Embedding failed!
comme suit:

  yeux bruns yeux bleus Total
Chi carrés observés

TeX Embedding failed!

TeX Embedding failed!

2,613333333

Il faut comparer cette valeur observée à une valeur de chi-carré théorique de référence (un seuil de signification) dans des tables de référence. Cette table est une table à double entrée:

  • L'entrée en ligne nécessite de connaître les degrés de liberté de l'expérience. Il se calcule de la manière suivante: (k-1) avec k le nombre de colonnes (dans le test de conformité il n'y a qu'une ligne). Dans un cas simple comme celui présenté ici où il existe plusieurs classes (colonnes) mais une seule ligne, les degrés de liberté à employer sont (k-1).
  • L'entrée en colonne est déterminée par l'expérimentateur. C'est en effet lui qui détermine la confiance du test.

Dans l'exemple, il n'y a qu'une ligne pour deux colonnes, soit 1 degré de liberté. Supposons que l'on prenne un intervalle de confiance à 95% (alpha 5%), la valeur de chi-carré des tables est:

Χ2 1dl;0,95= 3,84

Le test est unilatéral à droite puisque le calcul du chi-carré observé génère uniquement des valeurs positives.

Si le chi-carré observé est plus grand que le chi-carré théorique, alors on rejette l'hypothèse nulle (RH0). Dans ce cas, on considère que le modèle 25% "yeux bleus" contre 75% "yeux bruns" (H0) n'est pas valide.

Conclusion de l'exemple:

Χ2 observé [=2,61333] ≤  Χ2 1dl;0,95[=3,84]

Le modèle décrit dans l'hypothèse nulle (H0) est plausible. On accepte H0. Jusqu'à preuve du contraire, la population obéit bien à une répartition 25% (allèle "yeux bleus") contre 75% (allèle "yeux bruns").

Exercices

1. Au cours d'une étude cas-témoin réalisée dans un hôpital, 317 patientes souffrant d'un cancer de l'endomètre ont été appariées à 317 patientes saines. La prise d'œstrogènes durant les 6 mois précédant le diagnostic a été déterminée. On a observé que 54 femmes saines et 152 femmes qui ont développé le cancer avaient pris des œstrogènes.
Faites l'analyse de ces proportions.


2. Au cours d'un essai clinique, 184 personnes ont reçu le médicament traditionnel et 103 personnes ont reçu un nouveau médicament. Avec le médicament traditionnel, on a observé 129 guérisons et avec le nouveau 80. Faites l'analyse des proportions. 


3. 2 000 personnes sont suivies pendant 20 ans, 800 sont fumeurs et 1200 non fumeurs. Au cours des 20 ans de suivi, on observe 100 cas de cancer: 90 chez les fumeurs, 10 chez les non fumeurs.
Effectuez l'analyse statistique.


4. Voici les fréquences des différents types de cultures selon le type de sol. Faites l'analyse de ce tableau: 

 
cultures de prairies
vignes et vergers
bois et broussailles
plaine
167
124
42
versant
10
30
80
sommet
11
0
16

5. Lors d'une étude sur la pollution bactérienne, la présence ou l'absence de salmonelles a été recensée à partir d'échantillons d'eau prélevés dans 3 bassins européens. Les analyses fournissent les résultats suivants: 

  Rhin Loire Seine
Présence de salmonelles 8 10 16
Absence de salmonelles 2 11 23

Peut-on affirmer que la Seine est moins polluée que le Rhin et la Loire?


6. Un vétérinaire recense 4 cas de brucellose dans un gros élevage extensif de moutons du Larzac comptant 1230 têtes. Ce résultat invalide-t-il de façon significative le modèle épidémiologique affirmant que la maladie ne touche en principe qu'un individu sur 1000? 


7. On a effectué le croisement de balsamines blanches avec des balsamines pourpres. En première génération, les fleurs sont toutes pourpres. On obtient en deuxième génération quatre catégories avec les effectifs suivants:

Couleur pourpre rose blanc-lavande blanc
Effectifs 1790 547 548 213

Peut-on accepter l'hypothèse de répartition mendélienne (9/16; 3/16; 3/16; 1/16)?


8. En général, on enregistre 15 naissances gémellaires sur 1000 naissances. En Suède, une étude a été menée sur 30000 femmes enceintes et 840 femmes ont donné naissance à des jumeaux. Peut-on considérer que la Suède est significativement "hors normes"?

 

Etudes épidémiologiques

Utilité / Intérêt

Une étude épidémiologique peut être réalisée afin de mettre en évidence un lien entre une maladie et un facteur de risque supposé.

Il existe plusieurs types d'études épidémiologiques dont les études de cohorte et les enquêtes cas-témoins.

Enquêtes cas-témoins

Deux groupes de personnes sont constitués: un groupe composé de personnes atteintes de la maladie et un groupe composé de personnes non-atteintes de la maladie (témoins). Le passé de chaque personne est analysé afin de déterminer si elle a été exposée au facteur de risque étudié.

Études de cohorte

Deux groupes de personnes sont constitués: le premier est composé de personnes exposées à un facteur de risque déterminé tandis que le second comporte des personnes non-exposées à ce facteur de risque. Ces personnes sont suivies durant un certain temps afin de constater si elles développent ou non la maladie étudiée.

Table de contingence

Principe

Les résultats d'une étude épidémiologique peuvent être représentés sous la forme d'une table de contingence.

Cette table de contingence est similaire à celle utilisée pour résoudre les exercices de probabilités au module 30, mais elle traite des fréquences plutôt que des probabilités.

Table de contingence avec des probabilités

  A A*  
B p(A∩B) p(A*∩B) p(B)
B* p(A∩B*) p(A*∩B*) p(B*)
  p(A) p(A*) 1

Table de contingence avec des fréquences

  A A*  
B n(A∩B) n(A*∩B) n(B)
B* n(A∩B*) n(A*∩B*) n(B*)
  n(A) n(A*) N


Notations

Soient l'évènement A "être malade" et l'évènement B "être exposé au facteur de risque", alors la table de contingence est adaptée et devient la suivante; avec:

  • a, le nombre de personnes malades et exposées;
  • b, le nombre de personnes non-malades et exposées;
  • c, le nombre de personnes malades et non-exposées;
  • d, le nombre de personnes non-malades et non-exposées;
  • e1, l'ensemble des personnes exposées;
  • e0, l'ensemble des personnes non-exposées;
  • m1, l'ensemble des personnes malades;
  • m0, l'ensemble des personnes non-malades;
  • N, l'ensemble de toutes les personnes de l'étude.
  Malade Non-malade  
Exposé a b e1
Non-exposé c d e0
  m1 m0 N

Cas particuliers

Dans une étude de cohorte, les valeurs m1 et m0 sont aléatoires. Elles ne sont donc pas indiquées au niveau de la table de contingence qui devient:

  Malade Non-malade  
Exposé a b e1
Non-exposé c d e0

Dans une enquête cas-témoins, ce sont les valeurs e1 et e0 qui sont aléatoires. Elles ne sont donc pas indiquées au niveau de la table de contingence qui devient:

  Malade Non-malade
Exposé a b
Non-exposé c d
  m1 m0

Risques absolus

Risque absolu chez les exposés (R1)

Le risque absolu chez les exposés est la probabilité qu'une personne soit malade sachant qu'elle est exposée au facteur de risque.
Il correspond donc au rapport entre le nombre de personnes malades et exposées et l'ensemble des personnes exposées au facteur de risque.

  Malade Non-malade  
Exposé a b e1
Non-exposé c d e0
  m1 m0 N

TeX Embedding failed!

Risque absolu chez les non-exposés (R0)

Le risque absolu chez les non-exposés est la probabilité qu'une personne soit malade sachant qu'elle n'est pas exposée au facteur de risque.
Il correspond donc au rapport entre le nombre de personnes malades et non-exposées et l'ensemble des personnes non-exposées au facteur de risque.

  Malade Non-malade  
Exposé a b e1
Non-exposé c d e0
  m1 m0 N

TeX Embedding failed!

Remarque

Etant donné que le calcul des risques absolus (R1 et R0) dépend de la fraction de sujets exposés ou non au facteur de risque, ils peuvent uniquement être déterminés dans le cadre d'une étude de cohorte.

Risque relatif et odds ratio

Risque relatif

Le risque relatif (RR) peut être calculé afin de mettre en évidence une association entre le facteur de risque et la maladie étudiée.
Il correspond au rapport des incidences de la maladie chez les personnes exposées (R1) et chez les personnes non-exposées (R0).

TeX Embedding failed!

Si le risque relatif est supérieur à 1, on suppose une association entre le facteur de risque et la maladie. Toutefois, un test de Χ² est nécessaire pour vérifier si cette association est significative.

Odds ratio

L'odds ratio correspond au rapport des cotes des risques absolus.

TeX Embedding failed!

Dans le cas où la maladie étudiée est rare, le calcul de l'odds ratio permet d'estimer la valeur du risque relatif. Toutefois, quand il y a une association entre le facteur de risque et la maladie, l'odds ratio sera toujours plus élevé que le risque relatif.

Remarque

Etant donné que le calcul du risque relatif dépend de la fraction de sujets exposés ou non au facteur de risque, il peut uniquement être déterminé dans le cadre d'une étude de cohorte. Lors d'une enquête cas-témoins, le risque relatif est estimé par le calcul de l'odds ratio.

Test de Chi²

Un test de Χ² est réalisé afin de vérifier si le risque relatif est significatif, autrement dit, si la probabilité d'être malade pour une personne exposée est significativement plus grande de celle d'être malade pour une personne non-exposée. Il s'agit d'un test d'indépendance comportant deux états pour chaque critère.

Hypothèse initiale (H0): RR=1. Cela signifie que la probabilité d'être malade pour une personne exposée n'est pas plus grande que la probabilité d'être malade pour une personne non-exposée; autrement dit, le fait d'être malade ne dépend pas de l'exposition ou non au facteur de risque.
Hypothèse alternative (H1): RR>1. Cela signifie que la probabilité d'être malade pour une personne exposée est supérieure à la probabilité d'être malade pour une personne non-exposée; autrement dit, il y a dépendance entre l'apparition de la maladie et l'exposition au facteur de risque.

La détermination du Χ² observé peut se faire selon la procédure détaillée au module 135 ou en utilisant la formule suivante.

TeX Embedding failed!

Le Χ² calculé peut alors être comparé à une valeur seuil (table de Χ²) pour 1 dl et une confiance de 95%, 99% ou 99,9%.

Intervalle de confiance du risque relatif

Le risque relatif étant une estimation, il est nécessaire de déterminer son intervalle de confiance.

Méthode de Miettinen

Cette méthode peut être appliquée aussi bien lors d'une étude de cohorte que lors d'une enquête cas-témoins.

Les limites inférieure (RRi) et supérieure (RRs) de l'intervalle de confiance sont déterminées au moyen de la formule suivante.

TeX Embedding failed!

Méthode de Katz

Cette méthode ne peut être appliquée que dans le cadre d'une étude de cohorte.

Les limites inférieure (RRi) et supérieure (RRs) de l'intervalle de confiance sont déterminées au moyen de la formule suivante.

TeX Embedding failed!

Méthode de Woolf

Cette méthode ne peut être appliquée que dans le cadre d'une enquête cas-témoins.

Les limites inférieure (RRi) et supérieure (RRs) de l'intervalle de confiance sont déterminées au moyen de la formule suivante.

TeX Embedding failed!

Risque attribuable

Le risque attribuable (RA), aussi appelé fraction étiologique, correspond à la proportion des cas qui seraient évités si le facteur de risque était absent.

TeX Embedding failed!

On note E, la proportion de sujets exposés dans la population. Si la maladie est rare, celle-ci peut être estimée par la proportion de personnes exposées parmi les personnes non-malades.

TeX Embedding failed!

Le risque attribuable peut également être calculé à partir de la formule suivante.

TeX Embedding failed!

Remarque

Le risque attribuable ne peut pas être déterminé dans le cadre d’une étude de cohorte. En effet, dans une telle étude, la proportion de sujets exposés dans la population n’est pas connue. L’exposition est un facteur arbitraire; c'est l'expérimentateur qui décide du nombre de personnes exposées dans son étude.

Tableau comparatif

  Etude de cohorte Enquête cas-témoins
Table de contingence
  Malade Non-malade  
Exposé a b e1
Non-exposé c d e0
  Malade Non-malade
Exposé a b
Non-exposé c d
  m1 m0
Risques absolus TeX Embedding failed! Ne peuvent être déterminés
Risque relatif TeX Embedding failed! Si la maladie est rare: TeX Embedding failed!
Χ2 TeX Embedding failed! TeX Embedding failed!
Limites intervalle de confiance  TeX Embedding failed!
TeX Embedding failed!
 TeX Embedding failed! 
TeX Embedding failed!
Risque attribuable Ne peut être déterminé TeX Embedding failed!

Exercices

Exercice 1

Afin d'étudier les risques de l'accouchement liés à l'age de la mère, une équipe de chercheurs a suivi 180 femmes camerounaises de plus de quarante ans et 532 agées entre vingt et trente ans. Parmi les femmes de plus de quarante ans, 29 ont dû accoucher par césarienne. Parmi les femmes plus jeunes, 53 ont eu recours à cette technique.

  1. De quel type d'étude épidémiologique s'agit-il ? Justifiez votre réponse.
  2. Présentez les résultats de l'étude sous forme d'un tableau.
  3. Si c'est possible, déterminez le risque absolu de césarienne chez les femmes de plus de quarante ans.
  4. Si c'est possible, déterminez le risque absolu de césarienne chez les femmes agées entre vingt et trente ans.
  5. Si c'est possible, déterminez le risque relatif. Est-il significatif ? Quel est son intervalle de confiance ?
  6. Le risque attribuable peut-il être calculé ? Si oui, quel est-il ? Si non, pourquoi ?

Exercice 2

Afin d'étudier les risques de l'accouchement liés à l'age de la mère, une équipe de chercheurs a suivi 180 femmes camerounaises de plus de quarante ans et 532 agées entre vingt et trente ans. 52 femmes ont donné naissance à un fœtus sans vie (=mortinatalité) dont 21 mères de plus de quarante ans.

  1. De quel type d'étude épidémiologique s'agit-il ? Justifiez votre réponse.
  2. Présentez les résultats de l'étude sous forme d'un tableau.
  3. Si c'est possible, déterminez le risque absolu de mortinatalité chez les femmes de plus de quarante ans.
  4. Si c'est possible, déterminez le risque absolu de mortinatalité chez les femmes agées entre vingt et trente ans.
  5. Le risque de mortinatalité est-il significativement plus élevé chez les femmes de plus de quarante ans que chez les femmes agées entre vingt et trente ?
  6. Quel est l'intervalle de confiance du risque relatif de mortinatalité ?
  7. Le risque attribuable peut-il être calculé ? Si oui, quel est-il ? Si non, pourquoi ?

Exercice 3

Afin de mettre en évidence un lien entre une exposition à des vapeurs de diesel et l'apparition d'un cancer des poumons, une équipe de chercheurs suédois a mené une étude sur 1042 personnes atteintes d'un cancer des poumons et 2364 personnes saines. Ils ont dénombrés respectivement 200 et 373 personnes ayant été exposées à des vapeurs de diesel.

  1. De quel type d'étude épidémiologique s'agit-il ? Justifiez votre réponse.
  2. Présentez les résultats de l'étude sous forme d'un tableau.
  3. Si c'est possible, déterminer les risques absolus chez les personnes exposées ou non-exposées aux vapeurs de diesel.
  4. Quel est le risque relatif de développer un cancer des poumons ? Est-il calculable directement ? Comment peut-on l'estimer ?
  5. Le risque relatif estimé est-il significatif ? Quel est son intervalle de confiance ?
  6. Quelle la proportion de cas de cancer des poumons qui serait évités si l'exposition aux vapeurs de diesel n'existait pas ?

Tests diagnostiques quantitatifs

Principe

Les tests diagnostiques quantitatifs s'appliquent lorsque la caractéristique observée est mesurable et est une variable continue (ex.: taux d'hormone dans le sang, taille d'une tumeur, ...). Dans ce cas, la précision du test dépend de la valeur seuil choisie (arbitrairement) pour distinguer les personnes malades des personnes saines.

Le graphique suivant représente la distribution des résultats possibles d'un test (ex.: dépistage de l'hypertension artérielle) chez les personnes "non-malades" (en vert) et chez les personnes "malades" (en rouge).

Les personnes présentant un test supérieur à une valeur seuil sont considérées comme positives au test, et donc supposées malades, tandis que celles présentant un résultat inférieur au seuil sont considérées comme négatives, et donc supposées non-malades.

On constate que certaines personnes sont considérées comme malades (car positives au test) alors qu'elles ne le sont pas en réalité; ce sont les faux positifs (FP, en vert foncé sur le graphique suivant). De même, certaines personnes sont considérées comme non-malades (car négatives au test) alors qu'elles sont malades; ce sont les faux négatifs (FN, en rouge foncé sur le graphique suivant).

Lorsque la valeur seuil choisie change, les nombres de vrais positifs, vrais négatifs, faux positifs et faux négatifs s'en trouvent modifiés, modifiant par conséquent les valeurs de sensibilité et de spécificité de ce test. Ainsi, pour chaque valeur seuil, il est possible de déterminer les valeurs de sensibilité et de spécificité correspondantes.

La relation entre la sensibilité et la spécificité du test, pour chacune des valeur seuil possible, peut être représentée sous forme d'un graphique: la courbe ROC.

Courbe ROC

La courbe ROC (receiver operating characteristic) est une représentation graphique de la relation qui existe entre la sensibilité et la spécificité d'un test pour chaque valeur seuil considérée.
L'inverse de la spécificité (1-Sp) se place en abscisse tandis que la sensibilité se trouve en ordonnée de ce graphique.

 

Si la discrimination entre malade et non-malade est parfaite, la courbe ROC se présente comme suit:

 

Si le test ne permet pas de discrimination entre malade et non-malade, la courbe ROC se présente comme une droite inclinée à 45°. Ce serait le cas d'un test dont le résultat est entièrement dû au hasard (une chance sur deux de ne pas se tromper).

Surface sous la courbe ROC

Pour pouvoir déterminer la validité d'un test diagnostique quantitatif, il est nécessaire de calculer la surface située sous la courbe ROC (Area Under the Curve). Celle-ci informe sur la probabilité que le résultat du test, face à deux personnes (une malade et une saine), permette de poser le diagnostic correct.

Ainsi, quand le test est parfaitement discriminant, la surface sous la courbe (AUC) vaut 1. Cela signifie donc que, face à deux personnes (une malade et l'autre non), le test permet de distinguer dans 100% des cas la personne malade de celle qui ne l'est pas.

 

A l'inverse, lorsque le test n'est pas discriminant, la probabilité de distinguer la personne malade de la personne saine est de 50% (hasard). Dans ce cas, la surface sous la courbe ROC est égale à 0,5.

 

Entre ces deux extrêmes, tous les cas sont possibles; la surface sous la courbe dépend de l'allure générale de la courbe et donc de la sensibilité et de la spécificité du test.

 

Le calcul de la surface sous la courbe ROC peut se faire au moyen de la formule suivante:

TeX Embedding failed!

Après avoir classé tous les sujets par ordre croissant (au moyen de leur valeur mesurée), W1 correspond à la somme des rangs des personnes malades (valeur de Wilcoxon). De plus, le calcul de la surface sous la courbe ROC tient compte du nombre de personnes malades (n1) et du nombre de personnes non-malades (n0).

Remarque: Le test de la somme des rangs de Wilcoxon est un test statistique non paramétrique permettant la comparaison de moyennes de deux échantillons non pairés.

Exercice

On analyse la validité du dépistage du cancer de la prostate par dosage de la PSA (prostatic specific antigen). Ce dosage est réalisé chez 15 patients: 9 malades et 6 sains. Les résultats suivants sont obtenus (dosage de la PSA exprimé en ng/ml):

  • malades: 2,7 – 3,0 – 4,0 – 4,6 – 5,4 – 5,5 – 6,4 – 8,2 – 10,1
  • sains: 0,7 – 1,2 – 1,5 – 3,8 – 5,1 – 6,2

Déterminer la validité de ce test de dépistage du cancer de la prostate au moyen du calcul de la surface sous la courbe ROC. Que signifie la valeur obtenue ?