Classer les données

TRI DES POISSONS EN FONCTION DE LEUR POIDS DANS PLUSIEURS CLASSES

La classification des données xi (poids des morues pêchées) est obtenue en créant artificiellement des classes (ou catégories) d'individus.
Le nombre de classes dépend du nombre d'individus pêchés:
-
-
il ne peut être trop petit sous peine de perdre de l'information: 1 ou 2 classes contenant tous les individus de l'échantillon simplifie à outrance les données;
-
il ne peut être trop grand sous peine d'avoir trop de classes vides: pour un échantillon de 15 individus, réaliser 15 classes revient à avoir des classes ne contenant même pas un poisson.
Les classes possèdent toutes le même intervalle séparant leur limite inférieure et supérieure (dans l'exemple: l'intervalle de classe Li vaut 2 Kg):
-
-
classe 1: de 0 Kg inclus à 2 Kg exclus
-
classe 2: de 2 Kg inclus à 4 Kg exclus
-
classe 3: de 4 Kg inclus à 6 Kg exclus
-
classe 4: de 6 Kg inclus à 8 Kg exclus
La représentation graphique ou distribution des données sera différente en fonction de la façon dont le dénombrement des poissons est effectué par classe. L'axe des ordonnées peut être:
-
fréquence: nombre d'individus appartenant à une classe. Il est généralement noté ni . La somme des fréquences de toutes les classes est la taille de l'échantillon N.
-
fréquence cumulée: somme des fréquences de la classe étudiée et des fréquences des classes qui lui sont inférieures. La fréquence cumulée de la dernière classe vaut N (c'est-à-dire la somme des ni).
-
la fréquence relative: rapport entre la fréquence de la classe étudiée et la taille de l'échantillon. Nous étudions dans ce cas l'importance de la classe par rapport à la globalité de l'échantillon (exemple: 20% des individus de l'échantillon présenté dans la figure ci-dessus ont une envergure comprise entre 380 et 400 mm). La somme de toutes les fréquences relatives est égale à 1. Elle est notée TeX Embedding failed! et souvent exprimée en %.
-
la fréquence relative cumulée: somme des fréquences relatives de la classe étudiée et des classes qui lui sont inférieures. La fréquence relative cumulée de la dernière classe vaut 1 (ou 100%).
-
la densité de fréquences relatives : souvent employée pour que la surface de chaque rectangle de l'histogramme corresponde à la fréquence relative de la classe:
Surface d'un rectangle = hauteur x base = TeX Embedding failed! ou encore, après simplification des Li, la fréquence relative: TeX Embedding failed!.
Un cas extrême est celui où la taille de l'échantillon tend vers l'infini. A ce moment, le nombre de classes possibles tend aussi vers l'infini. Chaque classe possède un intervalle (une base) infinitésimal. La surface d'un rectangle tend vers 0. On ne parlera plus de distribution de densités de fréquences relatives mais de distribution de densités de probabilités.
L'intervalle de classe (Li) est la distance séparant la limite supérieure de la limite inférieure de chaque classe.