Statistiques descriptives à deux dimensions

Outils pédagogiques complémentaires

Définir les statistiques descriptives à deux dimensions

On parle de statistiques à deux dimensions lorsqu'on étudie conjointement deux variables aléatoires, X et Y. On ne cherche plus à caractériser la distribution de chacune des variables, ce qui est du ressort des statistiques à une dimension, mais bien à caractériser leur distribution conjointe.

On se pose donc la question de savoir si la distribution d'une des variables influence ou non celle de l'autre.

Un exemple classique vous est donné à l'illustration ci-dessous: l'envergure et le poids de chauves-souris sont-ils distribués de manière dépendante ou indépendante l'un de l'autre ?

Une chauve-souris a-t-elle forcément un poids important lorsqu'elle a une grande envergure ?
Une chauve-souris a-t-elle forcément une grande envergure lorsqu'elle a un poids important ?

Diagramme de dispersion

Les statistiques à deux dimensions s'appliquent non plus aux valeurs de X et Y considérées de manière individuelle, mais bien aux couples (X;Y), qui représentent les deux mesures qui ont été réalisées sur un même individu.

Dans notre exemple, pour chaque chauve-souris, un couple (envergure; poids) a été mesuré.

L'ensemble de ces points est reporté sur un graphique à deux dimensions, type "nuage de points" ou diagramme de dispersion.

Propriétés du nuage de points et SPE

Le centre de gravité du nuage de points est un point fictif qui a pour coordonnées (moyenne des X; moyenne des Y).

Pour chaque point, on peut quantifier son écart par rapport à ce centre de gravité en réalisant le calcul du produit des écarts:

TeX Embedding failed!

Ce produit des écarts est positif pour les points situés dans les quadrants roses du graphique ci-dessus, et négatif s'ils sont situés dans les quadrants bleus. Le nuage de points schématisé dans le graphique ci-dessus a donc des PE majoritairement positifs.

En réalisant la somme de tous ces PE, je peux donc avoir une estimation de l'orientation du nuage de points par rapport à son centre de gravité.

SPE : Somme des Produits des Ecarts

Si la SPE est positive, comme c'est le cas ici, le nuage de points est orienté de manière ascendante dans le sens gauche-droite. Si la SPE du nuage de points est négative, c'est qu'il est orienté de manière descendante.

La SPE amène donc énormément d'informations sur le sens de la relation qui pourrait éventuellement exister entre X et Y.

Note: Dans certaines situations expérimentales il peut être intéressant de comparer des nuages de points provenant d'expériences différentes. Dans ce cas, on doit ramener les deux nuages de points dans une échelle comparable. Pour cela on réalise une réduction des variables X et Y respectives, selon les formules suivantes:

TeX Embedding failed!
TeX Embedding failed!

Le processus de réduction s'opère en retirant des coordonnées en X et en Y leur moyenne respective. Cela permet de repositionner les deux centres de gravité aux coordonnées identiques de (0;0). Pour éliminer la variabilité propre au contexte expérimental, les différences entre coordonnées (X ou Y) expérimentales et moyennes (de X ou de Y) sont divisées par l'écart-type (de X ou de Y). Par définition, comme les centres de gravité sont aux coordonnées (0;0), la somme des valeurs réduites pour chaque variable est nulle et les écart-types (ou variances) égaux à 1.

Covariance

La valeur de la SPE dépend du nombre de couples de valeurs X et Y. Si on divise la SPE par n, on obtient la covariance ou encore une mesure de la covariation des 2 variables X et Y.

TeX Embedding failed!

La covariance est donc le PE moyen du nuage de points. Elle est positive lorsque le nuage de points a une orientation ascendante, et négative lorsque ce nuage a une orientation descendante. Elle a pour unités, les unités de X multipliées par les unités de Y.

Coefficient de corrélation

Le coefficient de corrélation (noté r) est calculé à partir de la covariance:

TeX Embedding failed!

Le coefficient de corrélation quantifie l'intensité et le sens de la relation qui existe entre deux variables. C'est un nombre pur sans unités compris entre -1 et +1.

Si les deux variables varient indépendamment l'une de l'autre, sa valeur est de 0. Si les deux variables évoluent parallèlement (Y augmente lorsque X augmente), sa valeur sera positive, avec un maximum de 1 (lorsque l'évolution de Y est directement proportionnelle à celle de x). Si les deux variables évoluent à l'inverse l'une de l'autre, sa valeur sera négative, avec un minimum de -1.

Donc: TeX Embedding failed!

Le coefficient de corrélation entre X et Y dépend de la proximité des points autour de la droite et de l'orientation du nuage de points. Si les points sont tous alignés sur la droite, le coefficient de corrélation est égal à 1 en valeur absolue, pour autant que la pente de la droite soit différente de 0.

Régression et coefficient de détermination

Il est possible de quantifier la relation existant entre les variables X et Y en calculant l'équation de régression de Y en fonction de X

Régression linéaire :

Cette relation peut être linéaire ou non. Dans le cas du modèle linéaire l'équation de la régression est:

Modèle linéaire: TeX Embedding failed!

Les paramètres a (ordonnée à l'origine) et b (pente) peuvent être déterminés selon deux méthodes, la méthode des moindres carrés, ou celle des moindres rectangles, qui seront choisies en fonction du type de relation existant entre X et Y. Ces deux méthodes sont détaillées à la page suivante.

Lors de l'établissement d'une équation de régression, le coefficient de détermination (R²) détermine à quel point l'équation de régression est adaptée pour décrire la distribution des points.

Si le R² est nul, cela signifie que l'équation de la droite de régression détermine 0% de la distribution des points. Cela signifie que le modèle mathématique utilisé n'explique absolument pas la distribution des points.

Si le R² vaut 1, cela signifie que l'équation de la droite de régression est capable de déterminer 100% de la distribution des points. Cela signifie que le modèle mathématique utilisé, ainsi que les paramètres a et b calculés sont ceux qui déterminent la distribution des points.

Cela se traduit de manière graphique selon la relation suivante: plus le coefficient de détermination se rapproche de 0, plus le nuage de points est diffus autour de la droite de régression. Au contraire, plus le R² tend vers 1, plus le nuage de points se rapproche de la droite de régression. Quand les points sont exactement alignés sur la droite de régression, R²=1.

Donc: TeX Embedding failed!

Dans le cas où la méthode des moindres carrés est utilisée pour calculer l'équation, le R² est calculé selon la formule:

TeX Embedding failed!
TeX Embedding failed!

En fin de module, vous trouverez une animation devant vous permettre, nous l'espérons, de mieux saisir les subtilités relatives au R², mais aussi au r.

NOTE: le R² n'est le carré du coefficient de corrélation que dans le cas particulier de la régression linéaire. Dans les autres régressions (logarithmique, exponentielle, puissance, etc.) ce n'est pas le cas. C'est pour éviter cette confusion facile qu'on note habituellement le r du coefficient de corrélation en minuscule, et celui du coefficient de détermination R² en majuscule.

Droites des moindres carrés

La détermination de la pente (b) et de l'ordonnée à l'origine (a) selon la méthode des moindres carrés:

La méthode des moindres carrés est utilisée lorsqu'à priori une relation de cause à effet relie X à Y (lorsque la valeur de Y dépend de X). On distingue alors la variable expliquée Y et la variable explicative X. Dans ce cas, les valeurs de a et de b sont obtenues en minimisant les carrés des distances des points observés TeX Embedding failed! par rapport à la droite.

exemple: C'est parce que la température augmente (X ou variable explicative) que la vitesse de réaction chimique augmente (Y ou variable expliquée), et non l'inverse.

On utilise la droite des moindres rectangles lorsqu'aucune relation de cause à effet n'existe à priori de manière évidente entre X et Y. Dans ce cas, les valeurs de a et de b sont obtenues en minimisant les produits des distances des points observés TeX Embedding failed! et TeX Embedding failed! par rapport à la droite.

Intrapoler ou extrapoler ?

Un des intérêts d'une régression est qu'avec les paramètres a et b on peut estimer des valeurs de Y pour des valeurs de X qu'on n'a pas pu mesurer (car cela coûte cher, ou que c'est difficile à réaliser...).

Cependant, la précision de cette estimation d'une valeur de Y varie fort selon qu'elle est estimée à partir d'un X compris dans l'intervalle des mesures initiales (intrapolation) ou si elle est estimée à partir d'un X situé à l'extérieur de cet intervalle (extrapolation).

Intrapolation :

Intrapolation = Evaluation d'une variable dans les limites de l'échantillon.

L'intrapolation de la valeur de y correspondant à une valeur mesurée de x est d'autant plus fiable que la valeur x mesurée est proche de la moyenne des X et que l'équation de la droite a été établie avec un R² proche de 1.

Extrapolation :

Extrapolation = Evaluation d'une variable hors des limites de l'échantillon.

Extrapolation pertinente :

L'extrapolation est d'autant plus pertinente qu'elle est réalisée près des limites de l'échantillon.

Extrapolation aberrante :

L'extrapolation est d'autant moins fiable qu'on est loin des limites de l'échantillon car le modèle linéaire n'est plus forcément d'application.

Linéarisation de modèles non linéaires

Dans certaines situations expérimentales, la régression linéaire n'est pas appropriée: il faut donc rechercher d'autres modèles pour décrire la relation entre X et Y.

Certains modèles peuvent se ramener à un modèle linéaire par une transformation mathématique des valeurs de X et/ou Y.

Voici quelques modèles de régressions non-linéaires, et leurs transformations respectives pour obtenir une régression linéaire :

Modèle exponentiel: TeX Embedding failed!

Le modèle exponentiel se linéarise en calculant le logarithme népérien de y.

Exemple : Analyse de la croissance du nombre de campagnols par km carré en fonction du temps.

Modèle puissance: TeX Embedding failed!

Le modèle puissance se linéarise en calculant les logarithmes népériens de x et y.

Exemple : étude de la relation entre la taille et la masse de truites Farios.

Modèle double inverse: TeX Embedding failed!

Le modèle double inverse se linéarise en calculant les inverses de x et y : TeX Embedding failed! et TeX Embedding failed!.

Exemple : analyse de la relation entre la concentration en substrat et la vitesse de réaction d'une enzyme.

Récapitulatif

Choisissez l'onglet qui correspond au modèle dont vous souhaitez une animation.
Saisissez les points avec votre souris afin de modifier le nuage de points et observez la modification des paramètres statistiques, dont ceux de la regression linéaire. Soyez surtout attentifs aux conséquences que peut avoir un déplacement ou une rotation du nuage de points dans son ensemble sur le r, le R2 et les paramètres de la régression.
 

Ce qu'il faut en retenir:

Lorsque l'animation commence, les points sont alignés horizontalement. Si à partir de cette situation rectiligne vous effectuez une rotation du nuage de points, le r et le R² prennent une valeur de 1 (ou -1 pour le r selon le sens de rotation), car les points restent parfaitement alignés, et que la pente est non nulle.

En modifiant individuellement la position des points, on peut constater que le r et le R² dépendent aussi bien de l'inclinaison du nuage de points que du rapprochement des points avec la droite de régression.

En déplaçant horizontalement ou verticalement ce nuage de points, le r et le R² ne sont pas modifiés, car ils tiennent compte des écarts entre les points (via la SPE), et non des valeurs absolues des coordonnées (X;Y).

Saisissez les points avec votre souris afin de modifier le nuage de points et observez la modification des paramètres statistiques, dont ceux de la regression exponentielle. Soyez surtout attentifs aux conséquences que peut avoir un déplacement ou une rotation du nuage de points dans son ensemble sur le r, le R2 et les paramètres de la régression.
 

Ce qu'il faut en retenir

Dans ce modèle, le R² n'est plus le carré du r et ces deux paramètres n'évoluent plus forcément de manière parallèle. Le r est dépendant de l'inclinaison du nuage, et le R² de la capacité de l'équation de régression à déterminer la distribution des points.
Note: Une notion non vue au cours (et donc non matière d'examen) est le leverage, que vous pouvez afficher en cliquant sur la petite case dans le coin inférieur droit. Le leverage mesure l’influence potentielle d’un point sur la droite. Il est calculé pour chaque point à partir des valeurs de X seulement, selon la formule: TeX Embedding failed!. Pour chaque point, le leverage varie de TeX Embedding failed! à 1. Les points très éloignés de la moyenne ont un plus grand leverage: ils ont plus de poids sur la détermination des paramètres a et b de la régression que ceux qui sont proches de la moyenne. Dans l'animation, les cercles bleus ont un rayon proportionnel à 2000 fois la valeur de leur leverage, afin de les rendre visibles. Vous remarquerez que lorsqu'il y a deux points (le nombre de points peut se modifier dans le petit cadre: on peut faire afficher de 2 à 9 points), les deux leverages sont égaux. Pour bien saisir le mode de variation d'un leverage, nous vous conseillons une simulation à 3 points.