Dans une population de morues atlantiques, il est possible de prélever un échantillon d'individus. C'est cet échantillon qui sera décrit et qui servira de point de départ à une estimation (inférence) ultérieure sur la population.
Parmi les raisons justifiant un échantillonnage plutôt que de travailler sur la globalité de la population:
Il est impossible de pêcher TOUTES les morues de l'Atlantique pour en estimer le poids moyen...
La reproduction des grands pandas ne peut être étudiée qu'en captivité c'est-à-dire sur un nombre restreint d'individus.
Impossible de sacrifier la population belge de chauves-souris Grand Rhinolophe [200 individus] pour estimer la longueur moyenne de leur intestin grêle.
Même dans le cas où la population est limitée, on n'a pas le temps ni les moyens d'effectuer toutes les mesures: par exemple, demander l'avis des consommateurs à propos d'un nouveau produit prendrait trop de temps et nécessiterait des moyens financiers trop importants.
Supposons que l'on prélève dans les filets de ce chalutier 15 morues atlantiques. Celles-ci constituent l'échantillon.
Chaque individu est pesé (= mesure xi de la variable poids "X") et les résultats sont répertoriés ci-dessous.
Variable étudiée: poids en kg = 1 DIMENSION (X)
Une donnée = 1 mesure de poids (xi)
Individu 1 | Poids 1 | |
Individu 6 | Poids 6 | |
Individu 11 | Poids 11 |
Individu 2 | Poids 2 | Individu 7 | Poids 7 | Individu 12 | Poids 12 | ||
Individu 3 | Poids 3 | Individu 8 | Poids 8 | Individu 13 | Poids 13 | ||
Individu 4 | Poids 4 | Individu 9 | Poids 9 | Individu 14 | Poids 14 | ||
Individu 5 | Poids 5 | Individu 10 | Poids 10 | Individu 15 | Poids 15 |
La description de l'ensemble des données se poursuit par le classement des données, les mesures de la tendance centrale et de la dispersion.
TRI DES POISSONS EN FONCTION DE LEUR POIDS DANS PLUSIEURS CLASSES
Le nombre de classes dépend du nombre d'individus pêchés:
Un cas extrême est celui où la taille de l'échantillon tend vers l'infini. A ce moment, le nombre de classes possibles tend aussi vers l'infini. Chaque classe possède un intervalle (une base) infinitésimal. La surface d'un rectangle tend vers 0. On ne parlera plus de distribution de densités de fréquences relatives mais de distribution de densités de probabilités.
L'intervalle de classe (Li) est la distance séparant la limite supérieure de la limite inférieure de chaque classe.
Classe 1 | Classe 2 | Classe 3 | Classe 4 | Total | |
Fréquences | 3 | 5 | 5 | 2 | 15 |
Fréquences relatives | 0,2 | 0,33 | 0,33 | 0,13 | 1 |
Fréquences cumulées | 3 | 8 | 13 | 15 | x |
Fréquences relatives cumulées | 0,2 | 0,53 | 0,86 | 1 | x |
La moyenne arithmétique est la mesure de la tendance centrale la plus facile à calculer. Elle est obtenue par la division de la somme de toutes les valeurs de l'échantillon par la taille de l'échantillon (n). Cette mesure est sensible aux valeurs extrêmes.
Le mode détermine la valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe modale constitue la classe la plus fréquente. Dans l'exemple ci-dessus, les classes modales sont les classes 2 et 3 et contiennent 5 individus chacune.
La médiane est la valeur telle que 50% des observations de l'échantillon lui sont inférieures ou supérieures. Son calcul nécessite de classer les observations de la plus petite à la plus grande.
Pour illustrer les mesures de dispersion, prenons pour exemple un échantillon de 9 morues de l'Atlantique (Gadus morhua).
Pour cet échantillon de 9 morues, nous allons étudier la dispersion de la taille de ces poissons en calculant les paramètres suivants :
Pour commencer, mesurons la taille de ces 9 poissons, ainsi que la moyenne de ces tailles, qui vaut ici 65 cm :
Définition : L'amplitude (ou étendue) d'un échantillon est l'écart qui sépare la valeur la plus petite de la valeur la plus grande.
Formule : amplitude = valeur maximale - valeur minimale
Domaine : L'amplitude peut prendre des valeurs qui vont de 0 à l'infini.
Définition : La variance est le reflet numérique de la dispersion des valeurs autour de la moyenne.
Elle est obtenue à partir des écarts des valeurs par rapport à la moyenne.
Pour chaque valeur on calcule l'écart qui le sépare de sa moyenne arithmétique : TeX Embedding failed!
La somme de ces écarts est nulle. Elle ne peut donc être utilisée comme un estimateur mathématique de la dispersion des valeurs.
Pour chacun des écarts précédents, on calcule son carré. Ainsi pour chaque valeur on obtient une valeur positive, et leur somme n'est jamais nulle, sauf si les écarts sont nuls (valeurs égales à la moyenne).
Si on additionne tous ces carrés d'écarts :
Cela donne :
La somme des carrés des écarts (SCE) sera d'autant plus grande que les valeurs seront éloignées de la moyenne. C'est donc un bon estimateur de la dispersion des valeurs autour de la moyenne.
TeX Embedding failed! |
Cependant, à dispersion équivalente, la SCE sera toujours d'autant plus grande qu'il y aura un nombre important de valeurs. Pour que le paramètre de dispersion soit indépendant du nombre de valeurs, on calcule le carré moyen ou la variance.
Le carré moyen ou variance représente la surface moyenne des carrés d'écarts. C'est la SCE/n.
Elle caractérise la distribution des valeurs autour de la moyenne.
Elle est exprimée dans le carré des unités des valeurs, ici en cm2.
Formule : Elle se calcule en sommant les carrés des écarts (SCE = Somme de Carrés des Écarts), et en divisant cette somme par le nombre de valeurs.
TeX Embedding failed! |
Domaine : La variance est comprise entre 0 et l'infini.
A partir des données numériques d'un échantillon, il est aussi possible d'estimer la variance de la population d'où provient cet échantillon. Dans ce cas, la somme des carrés des écarts est divisée par n-1 et non par n. Quand le nombre d'observations est élevé, la division par n-1 ou par n n' a plus beaucoup d'importance.
TeX Embedding failed! |
La variance étant exprimée dans le carré des unités, on lui préfère souvent l'écart-type, ou racine carrée de la variance. L'écart-type a les mêmes unités que les données et que la moyenne.
Définition : L'écart-type représente l'écart quadratique moyen des valeurs par rapport à la moyenne.
Formule : L'écart-type (ET ou S) est la longueur du côté du carré moyen. Selon que l'on veut simplement décrire l'ensemble des données ou estimer l'écart-type de la population d'origine, on utilisera la racine carrée de la variance SCE/n ou SCE/(n-1)
TeX Embedding failed! |
Domaine : L'écart-type est compris entre 0 et l'infini.
Définition : Le coefficient de variation représente le rapport de l'écart-type par la moyenne.
Formule :
TeX Embedding failed! |
Domaine : Le coefficient de variation est compris entre 0 et l'infini.
Utilisation : Le CV est indépendant des unités de mesure. Il permet de comparer la dispersion de données exprimées dans des unités de mesure différentes (par exemple, poids exprimé en kg ou en gr). Il est également utilisé pour comparer la dispersion des mesures quelle que soit la valeur de la moyenne.
Ce T.P. sert à jeter les bases des statistiques descriptives. Il met en place les notions nécessaires à la compréhension des tests d'hypothèses de la fin du cours. Le but est donc de faire prendre conscience aux étudiants de l'importance capitale de cette matière. Contexte expérimental
À la demande de la Région Wallonne, une étude est menée afin de vérifier que les chauves-souris de l'espèce Grand Rhinolophe ne sont pas affectées par l'implantation d'une industrie polluante (pollution au plomb) à proximité de leur habitat.
Une recherche bibliographique a été réalisée et voici les résultats obtenus :
Pelage roussâtre sur le dos de l'adulte et plus gris chez le jeune. Face ventrale gris-blanc à blanc-jaunâtre.
Il s'agit du plus grand rhinolophe européen.
Il chasse dans les endroits boisés, le long des falaises, ou dans les jardins. Le vol est lent, papillonnant, avec de brèves glissades, à faible hauteur (de 30 cm à 3 m au-dessus du sol). Il se nourrit de grosses proies comme les papillons nocturnes et les coléoptères.
Cette espèce sédentaire atteint sa limite géographique nord approximativement au sillon Sambre et Meuse. Les déplacements entre les gîtes d'hiver et d'été dépassent rarement les 30 km.
Pour la reproduction, le grand rhinolophe a besoin de gîtes volumineux (plus de 100 m3) qu'il peut atteindre en vol direct et dans lesquels il peut évoluer facilement. Les colonies de reproduction peuvent atteindre plusieurs centaines d'individus qui se tiennent généralement à distance les uns des autres. Cette espèce est très souvent associée au vespertilion à oreilles échancrées.
Pour l'hivernage, il choisit des abris souterrains dont la température ambiante se situe entre 7 et 11°C. Il est extrêmement sensible aux dérangements.
Question 1 :
Dans un échantillon, pourquoi les individus sont-ils, en général, tous différents les uns des autres ?
Question 2 : Donnez un nom aux phénomènes suivants :
Situation 1 : J’ai prélevé une chauve-souris au hasard dans une population donnée et je l’ai déposée à 3 reprises sur la même balance. Je m’attendais à obtenir 3 fois le même poids, mais les valeurs obtenues sont très légèrement différentes.
Situation 2 : J’ai prélevé une chauve-souris au hasard dans une population donnée et je l’ai déposée sur une balance. Je sais que le poids obtenu ne sera jamais le poids réel de l’individu mais une approximation de ce poids.
Question 3 : Soit un échantillon de n chauves-souris capturées aléatoirement dans une population donnée. Dans la littérature scientifique, voici ce que l’on peut trouver :
Caractéristiques morphologiques
Question 3.1. : Quelles sont les mesures permettant de caractériser au mieux l’échantillon et leur équivalent au niveau de la population ? Nommez-les en expliquant les nuances ?
Question 3.2. : Dans le contexte expérimental décrit avant, que représentent les valeurs obtenues pour les caractéristiques morphologiques ?
Question 4 : Quelles sont les raisons pour lesquelles un échantillonnage est indispensable ?
Soit un échantillon de 15 chauves-souris de l’espèce " Grand Rhinolophe " capturées aléatoirement dans la population.
Question 5 : Comment représenter schématiquement un échantillon de chauves-souris pour lequel on a mesuré le poids de chaque individu ?
Question 6 : Pour le même échantillon, peut-on générer différents graphiques ? Pourquoi et quelles informations peut-on en tirer ? Ce nombre de graphiques possibles est-il illimité ? Dans l’exemple combien de classes peut-on former ?
Question 7 : On sait que l’envergure des chauves-souris est comprise entre 350 et 400 mm. Analysez les différentes situations qui vous sont proposées ci-dessous et découvrez le type de dénombrement employé :
Situation 1 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 87 % des individus constituant cet échantillon avaient une envergure inférieure à 390 mm.
Situation 2 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 8 individus de cet échantillon avaient une envergure comprise entre 350 et 370 mm.
Situation 3 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 20 % des individus constituant cet échantillon avaient une envergure comprise entre 360 et 370 mm.
Situation 4 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées et j’ai observé que 5 individus de cet échantillon avaient une envergure comprise entre 370 et 380 mm.
Situation 5 : J’ai réalisé 5 classes d’intervalles constants pour répartir les 15 chauves-souris capturées, quelle est la proportion de chauves-souris dont l’envergure est inférieure à 400 mm ?
Situation 6 : Dans quelles circonstances utilise-t-on des densités de fréquences relatives et pour quelles raisons les utilise-t-on ?
Question 8 : Soit un échantillon de 15 chauves-souris prélevées aléatoirement dans une population donnée. Quelles sont les valeurs permettant de décrire au mieux un échantillon ? Définissez-les.
Question 9 : Hors de ces valeurs permettant de décrire un échantillon et que vous venez de définir :
Question 10 : Soit un échantillon composé de 15 chauves-souris mâles et adultes de l’espèce X.
Question 11 : Où se positionne la médiane d’un échantillon de :