Soit le prix d’un pain de 2 €. Ce prix est quantifié par un nombre réel a qualifié ici de nombre scalaire (sans direction), ce qui le différenciera des vecteurs, qui expriment une direction dans un espace.
a = 2 est un scalaire
Soit la liste de prix suivante (€):
1 pain | 2 |
1 kg de jambon | 10 |
1 bac de bière | 12 |
1 bouteille d'eau | 1 |
1 vidange | -0,1 |
La suite de nombres qui représente les prix constitue un vecteur, c’est-à-dire une collection de nombres d’une seule ligne ou d’une seule colonne.
2 |
10 |
12 |
1 |
-0,1 |
Le vecteur a est un vecteur colonne.
2 | 10 | 12 | 1 | -0,1 |
Le vecteur a' est un vecteur ligne.
La transposition est l’opération qui consiste à transformer le vecteur colonne a en vecteur ligne a’ et réciproquement : a’’ = a .
Notez qu’à ce stade le vecteur est une simple collection de nombres et que sa nature dirigée n’est pas prise en considération.
Soit la liste de courses suivante :
2 | pains |
0,25 | kg jambon |
1 | bac de bière |
6 | bouteilles d’eau |
10 | Vidanges à rendre |
A partir de cette liste, on peut construire b le vecteur colonne et b' le vecteur ligne.
2 |
0,25 |
1 |
6 |
10 |
2 | 0,25 | 1 | 6 | 10 |
Le produit scalaire est l’opération qui consiste à effectuer la somme des produits des éléments de deux vecteurs.
Le produit scalaire b'a est la somme des produits des éléments de b’ par ceux de a.
Par définition, le vecteur situé à gauche est toujours un vecteur ligne et celui situé à droite est toujours un vecteur colonne.
Ceci implique que le nombre de colonnes de b’ doit être égal au nombre de lignes de a
|
2 | ||||
10 | |||||
12 | |||||
1 | |||||
-0,1 | |||||
2 | 0,25 | 1 | 6 | 10 | 23,5 |
Produit scalaire de b'a = TeX Embedding failed!
Le scalaire obtenu représente le prix à payer à la caisse du magasin.
Le produit scalaire est transitif pour autant que les vecteurs soient transposés et leur ordre inversé:
b’a = a’b
|
2 | ||||
0,25 | |||||
1 | |||||
6 | |||||
10 | |||||
2 | 10 | 12 | 1 | -0,1 | 23,5 |
Produit scalaire de a'b = TeX Embedding failed!
La forme quadratique est le produit scalaire particulier a’a . Il correspond à la somme des carrés des éléments de a.
2 | |||||
10 | |||||
12 | |||||
1 | |||||
-0,1 | |||||
2 | 10 | 12 | 1 | -0,1 | 249,01 |
Forme quadratique a'a = TeX Embedding failed!
Une matrice A de genre n x p est une collection de p vecteurs colonnes aj de n lignes ou de n vecteurs lignes a’i de p colonnes. Tous les éléments aij doivent être définis : la matrice ne peut pas contenir de « trous ».
Soit la liste de prix suivante dans les trois magasins M1, M2, M3 :
M1 | M2 | M3 | |
1 pain | 2 | 1,8 | 2,2 |
1 kg de jambon | 10 | 8 | 15 |
1 bac de bière | 12 | 11 | 12 |
1 bouteile d'eau | 1 | 0,7 | 1,5 |
1 vidange | -0,1 | -0,1 | -0,1 |
La matrice A de genre 5 x 3 reprend les prix de chaque article dans chaque magasin. La position de chaque élément aij est spécifique d’un article i et d’un magasin j.
2 | 1,8 | 2,2 |
10 | 8 | 15 |
12 | 11 | 12 |
1 | 0,7 | 1,5 |
-0,1 | -0,1 | -0,1 |
Sur le plan informatique, on peut considérer la matrice B de genre 6 x 4 qui reprend également l’intitulé des articles et des magasins.
M1 | M2 | M3 | |
1 pain | 2 | 1,8 | 2,2 |
1 kg de jambon | 10 | 8 | 15 |
1 bac de bière | 12 | 11 | 12 |
1 bouteille d'eau | 1 | 0,7 | 1,5 |
1 vidange | -0,1 | -0,1 | -0,1 |
Dans ce genre de matrice, on peut imaginer que certains éléments aij soient manquants. Si M3 ne vend pas de pain, l’élément a24 comprendra un code tel que "n.d." (non disponible ou non défini).
M1 | M2 | M3 | |
1 pain | 2 | 1,8 | n.d. |
1 kg jambon | 10 | 8 | 15 |
1 bac de bière | 12 | 11 | 12 |
1 bouteille d'eau | 1 | 0,7 | 1,5 |
1 vidange | -0,1 | -0,1 | -0,1 |
Toutefois cet exposé se limite à des matrices réelles (tous les aij sont des nombres réels).
La validité des calculs suppose que la valeur 0 signifie réellement une valeur réelle nulle et ne signifie pas : donnée non disponible.
La matrice A peut subir toutes les opérations des scalaires (somme, différence, division, multiplication, exponentiation…). Cette opération s’effectue sur chacun de ses éléments.
TeX Embedding failed! |
TeX Embedding failed! |
Les opérateurs peuvent être rangés dans des vecteurs, pour autant que le nombre de lignes ou de colonnes soit adapté.
TeX Embedding failed! |
TeX Embedding failed! |
La plupart des opérations matricielles ne sont possibles qu’entre des matrices de genres adaptés à l’opération.
La somme de deux matrices A et B implique que A et B soient toutes les deux de même genre n x p.
TeX Embedding failed! |
L’égalité de deux matrices A = B implique que aij= bij pour i, j, et donc n’est définie que si A et B sont toutes les deux de même genre n x p.
TeX Embedding failed! |
La matrice A de genre n x p peut être transposée en matrice A’ de genre p x n en transposant la collection des p vecteurs colonnes aj de n lignes en p vecteurs lignes a’i de n colonnes.
Une matrice A de 6 lignes sur 4 colonnes devient une matrice A' de 4 lignes sur 6 colonnes.
TeX Embedding failed! |
Une matrice carrée est une matrice où les nombres de lignes et de colonnes sont égaux. Leur genre est alors n x n ou p x p. Une matrice est dite symétrique dans le cas particulier où elle est identique à sa transposée: A = A’ (ce qui implique que A est forcément carrée).
TeX Embedding failed! |
Notez qu’une diagonale particulière apparaît en {aii}. Elle contient les seules valeurs de la matrice symétrique qui ne sont pas dupliquées. Les valeurs {aij} pour tous les i≠j se « reflètent en miroir » de part et d’autre de cette diagonale.
TeX Embedding failed! |
Le produit matriciel AB est la généralisation du produit scalaire entre les lignes de A et les colonnes de B.
Imaginons qu’une association de consommateurs teste le prix de 4 listes d’achats dans 3 magasins M1, M2, M3.
Client | 1 | 2 | 3 | 4 |
---|---|---|---|---|
Pain(s) | 2 | 0 | 10 | 0 |
Jambon (kg) | 0,3 | 3 | 0 | 6 |
Bac(s) de bière | 1 | 2 | 5 | 0 |
Bouteille(s) d'eau | 6 | 16 | 0 | 24 |
Vidange(s) à rendre | 0 | 0 | 0 | 0 |
Prix (€) | M1 | M2 | M3 |
---|---|---|---|
1 pain | 2 | 1,8 | 2,2 |
1 kg de jambon | 10 | 15 | 8 |
1 bac de bière | 12 | 11 | 12 |
1 bouteille d'eau | 1 | 1,5 | 0,8 |
1 vidange | -0,1 | -0,1 | -0,1 |
Soit A la matrice des quantités de genre 5 x 4 et B 5 x3 la matrice des prix unitaires.
TeX Embedding failed! |
Le prix à payer par chaque client dans chaque magasin est donné par le produit A’B = C
A’ : 4 x 5, B : 5 x 3, C : 4 x 3
TeX Embedding failed! |
La liste d’articles dans la liste d’achat doit forcément correspondre élément par élément à la liste d’articles dans la liste de prix : le nombre de colonnes de A doit être égal au nombre de lignes de B.
M1 | M2 | M3 | |
---|---|---|---|
Client 1 | 25 | 28.1 | 23.6 |
Client 2 | 70 | 91 | 60.8 |
Client 3 | 80 | 73 | 82 |
Client 4 | 84 | 126 | 67.2 |
La faisabilité d’un produit matriciel et le genre de la matrice produite se lit aisément en représentant les genres par un jeu de dominos :
A’ : 4 x 5
|
B : 5 x 3
|
|
![]() |
![]() |
les extrémités en contact correspondent:
le produit A'B est possible et la matrice produite aura pour genre les valeurs extérieures. |
![]() ![]() ![]() |
||
C : 4 x 3
|
||
B : 5 x 3
|
A’ : 4 x 5
|
|
![]() |
![]() |
les extrémités en contact ne correspondent pas : le produit BA' est impossible. |
Le produit matriciel n’est donc pas commutatif: A'B ≠ BA'. Par la contrainte du genre des partenaires, il ne pourrait l’être qu’entre matrices carrées, mais ce n’est pas le cas, sauf particularité.
Par contre la transposée du produit AB peut s’écrire B'A'= (AB)'
TeX Embedding failed! |
Les deux matrices à fond blanc sont interactives: vous pouvez changer les valeurs dans les cellules, et visualiser le résultat directement dans la matrice à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal
La matrice identité I est une matrice symétrique dont la diagonale principale est remplie de 1 et les autres éléments de 0. Elle joue dans le produit matriciel le même rôle que l’unité dans le produit entre scalaires:
TeX Embedding failed! |
TeX Embedding failed! |
TeX Embedding failed! |
Il est convenu que la matrice I a le genre qu’il faut pour que le produit soit défini. On constatera dans l’expression ci-dessus que la matrice I à droite de A n’est pas identique à la matrice I à gauche de A, sauf si A est carrée. La notation ne les distingue cependant pas.
Les deux matrices à fond blanc sont interactives: Vous pouvez changer les valeurs dans les cellules, et visualiser le résultat directement dans la matrice à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal
La matrice inverse de A, matrice carrée, est notée A-1 et joue dans le produit matriciel le même rôle que l’unité dans l’inverse entre scalaires :
TeX Embedding failed! |
TeX Embedding failed! |
Certaines matrices, dites singulières, ne peuvent pas s’inverser. C'est le cas des matrices dont une ligne ou colonne est une combinaison linéaire d’une autre.
Il existe une matrice A+ inverse généralisée, ou pseudo-inverse, de A non carrée et/ou singulière telle que TeX Embedding failed! bien que TeX Embedding failed!
Le calcul de la matrice inverse généralisée est lié à la diagonalisation de la matrice, vue dans le module consacré aux valeurs propres.
Examinons le produit A’A de la matrice A constituée des 3 vecteurs colonnes représentés en rouge, bleu et vert:
|
A | ||||||||||||||||
|
|
A'A | |||||||||||||||
A'
|
Tableau 8: 1 Coordonnées, norme et produit scalaire
de 3 vecteurs (représentation graphique ci-dessous)
La diagonale de la matrice correspond à la forme quadratique de chaque vecteur. En appliquant le théorème de Pythagore, la somme des carrés des coordonnées du vecteur correspond au carré de sa longueur (norme du vecteur). Noter le vecteur bleu de norme et de longueur égales à l’unité.
Le produit scalaire entre les vecteurs est lié au cosinus de l’angle formé par leur représentation géométrique sur la figure ci-dessous. Le seul qui nous intéresse ici est le produit scalaire nul entre les vecteurs rouge et vert, qui forment un angle droit.
Figure 8 : 1 Représentation géométrique des vecteurs de la table ci-dessus
Une matrice orthogonale C est une matrice carrée telle que C-1 = C’
Cette matrice nous intéresse dans la mesure où elle est capable d’effectuer une rotation orthogonale d’un jeu de vecteurs dans un espace.
Considérons le produit matriciel suivant :
C
|
|||||||||
|
|||||||||
|
|
||||||||
C'
|
Le produit donnant une matrice I , C’ est bien l’inverse de C.
Considérons à présent que les valeurs de C correspondent à la matrice
Cos(45°) |
Sin(45°) |
-Sin(45°) |
Cos(45°) |
Et regardons le résultat du produit CA , puis (CA)’(CA) :
|
A | |||||||||||||||||
C |
|
|
CA | |||||||||||||||
|
|
(CA)'(CA) |
Constatons que le produit (CA)’(CA) est IDENTIQUE au produit A’A ci-dessus. La longueur des vecteurs et les angles qu’ils forment entre eux sont IDENTIQUES.
Constatons sur le graphique la rotation de 45° du jeu de vecteurs :
Figure 8-2: Le produit de A par la matrice orthogonale C a donc effectué une rotation de 45° en préservant sans aucune distorsion de l’espace.
La rotation orthogonale joue un rôle essentiel en analyse mutlivariée.
Vous êtes invités à télécharger le fichier Excel pour généraliser cette constatation à différents angles.
La régression multiple est la suite logique de la régression simple vue lors des statistiques descriptives à deux dimensions et dans l'ANOVA1.
Le but de la régression multiple est de déterminer le modèle mathématique permettant d’expliquer au mieux la variabilité d’une variable Y en fonction, non plus de une, mais de plusieurs variables X1, X2, X3 etc...
Exemple: expliquer la variabilité de la taille de truites adultes (Y) en fonction de la température des bassins d'élevage (X1), du pH de l'eau (X2), de la teneur en protéines de leurs aliments (X3), etc... le tout simultanément.
Tout comme pour la régression simple, il existe plusieurs modèles de régressions multiples:
Le modèle linéaire est une équation qui oriente une droite dans un hyper-espace qui a autant de dimensions qu'il y a de variables ( Y, X1, X2, X3 = 4 dimensions). C'est le modèle de régression multiple le plus simple :
Y = B0 + B1X1 + B2X2 + B3X3 + ...
Le terme B0 est l'ordonnée à l'origine, c'est-à-dire la valeur de Y lorsque toutes les variables Xi sont nulles.
Les modèles non-linéaires (exponentiels, logarithmiques, etc...) sont très complexes, et sortent du cadre de ce cours. Ils ne seront donc pas abordés.
Le modèle polynomial est un modèle de régression simple car il ne concerne que deux variables (X et Y) mais qui sera néanmoins détaillé ici car son mode de calcul est similaire à celui de la régression multiple.
Le modèle polynomial ne concerne qu'une seule variable X, mais qui sera élevé à plusieurs puissances croissantes. Cette équation permet de tracer une courbe qui aura autant de points d’inflexion qu’il y a de degrés au polynôme :
Y = B0 + B1X + B2X2 + B3X3 + ....
Le but de la régression simple est de déterminer le modèle mathématique qui permet d'expliquer au mieux la variabilité d'une variable Y en fonction d'une variable X.
Exemple: expliquer la variabilité de la taille de truites adultes (Y) en fonction de la température des bassins d'élevage (X).
Pour bien conceptualiser la démarche effectuée lors de l'analyse de la régression, prenons le problème à l'envers, et tentons de comprendre quels sont les fondements théoriques de cette analyse.
Pour cela, partons du modèle linéaire et tentons d'expliquer la manière dont des points peuvent se distribuer expérimentalement.
Rappel : Régression linéaire simple: Une variable aléatoire X. Modèle : Y=B0+B1X | |
Le modèle idéal d'une régression linéaire simple est une droite dans un plan. Prenons un exemple ou Y=2+0,6X. |
![]() |
Lorsque X est une variable aléatoire normale, les points se projettent sur la trajectoire de la droite selon une distribution normale, et sont donc d'autant plus nombreux qu'on se rapproche du point dont les coordonnées sont (mX;mY). La distribution des points sur la droite est donc influencée par le mode de distribution des X, c'est à dire par une variabilité de type horizontal. Dans notre exemple X est une variable normale de paramètres μ=0 et σ=1. Le point de coordonnées (mX;mY) est symbolisé par le gros point rouge. |
![]() |
En conditions expérimentales, la distribution n'est jamais idéale. Des erreurs de mesures, des imprécisions, et des sources de variabilité d'origines diverses viennent s'ajouter au modèle normal. Dans ce cas les points ne se distribuent plus selon une droite parfaite, mais selon un nuage, d'autant plus proche de la droite parfaite que ces variabilités supplémentaires sont faibles. Ces sources supplémentaires de variabilité, si X et Y sont mesurés, influencent la distribution des points horizontalement si elles s'appliquent à X, et verticalement si elles concernent Y. Dans notre exemple, pour simplifier les choses, nous avons résumé ces sources de variabilité supplémentaires en une variable aléatoire qui disperse les points verticalement autour de la droite selon un modèle normal de paramètres ?=0 et ?=0,15. Le point de coordonnées (mX;mY) est symbolisé par le gros point rouge. |
![]() |
Lorsque la variable X est fixée, ici aux valeurs -2, -1, 0, 1 et 2, il n'y a plus de variabilité additionnelle sur X, et on visualise mieux la variabilité additionnelle qui ne concerne que Y, qui est toujours ici de paramètres μ=0 et σ=0,15. Le point de coordonnées (mX;mY) est symbolisé par le gros point rouge. |
![]() |
Le but de la régression est donc, face à une situation expérimentale, de chercher à quantifier ces sources de variabilités additionnelles verticales et horizontales, de manière à retrouver quel serait le modèle mathématique qui caractériserait au mieux la distribution des points si ces variabilités additionnelles, inévitables en conditions expérimentales, n'existaient pas. |
Pour en savoir plus sur les modes de calculs de la pente et de l'ordonnée à l'origine :
Utilisons le même genre de démarche pour conceptualiser les fondements de la régression multiple, et détaillons les différents modes de régressions multiples linéaires.
Prenons notre modèle de régression précédent (Y=2+0,6X) et rajoutons une variable aléatoire normale X2.
Le modèle devient donc par exemple: Y=2+0,6X1+1,2X2
Rappel : Régression linéaire multiple à deux variables aléatoires: Modèle : Y=B0+B1X1+B2X2 | |
Le modèle idéal d'une régression linéaire multiple à deux variables X est un plan dans un espace à 3 dimensions (X1,X2,Y). Prenons un exemple ou Y=2+0,6X1+1,2X2. Ce modèle décrit la projection dans l'espace d'un plan défini par les deux droites d'équations : Y=2+0,6X1 dans le référentiel (X1,Y). Y=2+1,2X2 dans le référentiel (X2,Y). |
![]() |
Lorsque X1 et X2 sont des variables aléatoires normales, les points se répartissent sur le plan selon l'intégration de deux distributions normales, et sont donc d'autant plus nombreux qu'on se rapproche du point dont les coordonnées sont (mX1;mX2;mY). La distribution des points sur le plan est donc influencée par les paramètres de distribution des X1 et X2, c'est-à-dire par une variabilité horizontale à deux dimensions. Dans notre premier exemple X1 et X2 sont des variables normales de paramètres μ=0 et σ=1. Dans ce cas le nuage de points est rond. Dans notre second exemple X1 et X2 n'ont pas le même écart-type σ: Dans ce cas le nuage de points est de forme ovale. |
![]() ![]() |
En conditions expérimentales, la distribution n'est jamais idéale. Des erreurs de mesures, des imprécisions, et des sources de variabilité d'origines diverses viennent s'ajouter au modèle normal. Dans ce cas les points ne se distribuent plus selon un plan parfait, mais selon un nuage, d'autant plus proche du plan parfait que ces variabilités supplémentaires sont faibles. Ces sources supplémentaires de variabilité, si X1, X2, et Y sont mesurés, influencent la distribution des points horizontalement si elles s'appliquent à X1 et X Dans notre exemple, pour simplifier les choses, nous avons résumé ces sources de variabilité supplémentaire en une variable aléatoire qui disperse les points verticalement par rapport au plan selon un modèle normal de paramètres μ=0 et σ=0,5. Pour bien conceptualiser ceci en 3D le même nuage de points est illustré sous deux perspectives différentes, la seconde étant dans l'axe du plan du modèle idéal: on voit alors que les points ne sont plus uniquement dans le plan, mais se répartissent de part et d'autres pour former un nuage en 3D. |
![]() ![]() |
Lorsque la variable X1 est fixée, ici aux valeurs -3, -2, -1, 0, 1, 2, et 3, le nuage de points se résume à des tranches de variabilité. . | ![]() |
Lorsque les deux variables X1 et X2 sont de valeurs fixées, le nuage de points se résume à des colonnes de variabilité. | ![]() |
Le but de la régression est donc, face à une situation expérimentale, de chercher à quantifier ces sources de variabilités additionnelles verticales et horizontales, de manière à retrouver quel serait le modèle mathématique qui caractériserait au mieux la distribution des points si ces variabilités additionnelles, inévitables en conditions expérimentales, n'existaient pas. |
Dans la régression multiple le modèle est considéré comme non-linéaire à partir du moment où la distribution des points dans au moins une des dimensions ne suis pas un modèle linéaire
Exemples de régressions multiples non-linéaires | |
Les modèles non-linéaires étant fort nombreux nous nous contenterons ici de donner deux exemples de représentation graphique de cas de régression non-linéaire. Premier exemple : la relation entre Y et X1 suit un modèle linéaire, celle entre Y et X2 un modèle logarithmique. Y= 1+0,6X1 + log(X2). Deuxième exemple : les deux variables X ont une relation logarithmique avec Y. Y= 1+log(X1) + log(X2). |
![]() ![]() |
Le critère qui permet de déterminer le meilleur jeu de valeurs pour les paramètres B0, B1, B2, B3 … est la maximisation du coefficient de détermination
TeX Embedding failed! |
ou, ce qui revient au même, la minimisation globale des écarts entre les valeurs de Y modélisées et observées .
Le principe de la méthode consiste à développer l’équation de la somme des carrés des écarts entre les observations et le modèle, pour Y, (SCERy) et d’en calculer la dérivée partielle par rapport à chacun des paramètres. Le minimum de la fonction SCERy correspond au point où toutes les dérivées partielles sont nulles.
Ce système d’équation peut être résolu de façon analytique par le calcul matriciel suivant :
b = (X’X)-1X’Y
X est une matrice de genre n x p comprenant l’ensemble des n valeurs de X1, X2 … Xp-1. On ajoute à X une colonne constante ( Xp=1 partout) pour estimer le paramètre libre B0.
Y est un vecteur colonne n x 1 comprenant l’ensemble des n valeurs de Y
Le produit matriciel combine donc les genres suivants :
p x n ~ n x p ~ p x n ~ n x 1
Il est défini et produit le vecteur colonne b de genre p x 1, qui reprend la valeur des p paramètres B0, B1, B2, … Bp-1.
La mortalité, la composition raciale (% de non blancs), un polluant atmosphérique (protoxyde d’azote, N2O) et le niveau d’éducation ont été relevés dans quelques villes américaines (subset des données de http://lib.stat.cmu.edu/DASL/Datafiles/SMSA.html).
Ville USA |
Mortalité |
%NonBlanc |
N2O |
Education |
Allentown, Bethlehem, PA-NJ |
962,35 | 0,80 | 0,78 | 9,8 |
Atlanta, GA |
982,29 | 27,10 | 0,90 | 11,1 |
Baltimore, MD |
1071,29 | 24,40 | 1,58 | 9,6 |
Birmingham, AL |
1030,38 | 38,50 | 1,51 | 10,2 |
Columbus, OH |
958,84 | 13,10 | 0,95 | 11,9 |
Flint, MI |
941,18 | 13,10 | 0,60 | 10,8 |
Dayton-Springfield, OH |
936,23 | 12,40 | 0,60 | 11,4 |
Kansas City, MO |
919,73 | 12,60 | 0,60 | 12 |
Louisville, KY-IN |
989,26 | 13,10 | 1,57 | 9,9 |
Pittsburgh, PA |
991,29 | 8,10 | 1,77 | 10,6 |
Providence, RI |
938,5 | 2,20 | 0,60 | 10,1 |
Richmond-Petersburg, VA |
1025,5 | 28,60 | 0,95 | 11 |
Syracuse, NY |
950,67 | 3,80 | 0,70 | 11,4 |
Washington, DC-MD-VA |
967,8 | 25,90 | 1,45 | 12,3 |
Reading, PA |
946,19 | 2,70 | 1,04 | 9,6 |
Worcester, MA |
895,7 | 1,00 | 0,48 | 11,1 |
Youngstown-Warren, OH |
954,44 | 11,70 | 1,11 | 10,7 |
L’analyse à deux variables produit les résultats suivants :
L’analyse en régression multiple se base sur les matrices suivantes :
Y |
|
|
X |
|
|
962,35 |
|
1 |
0,80 |
0,78 |
9,8 |
982,29 |
|
1 |
27,10 |
0,90 |
11,1 |
1071,29 |
|
1 |
24,40 |
1,58 |
9,6 |
1030,38 |
|
1 |
38,50 |
1,51 |
10,2 |
958,84 |
|
1 |
13,10 |
0,95 |
11,9 |
941,18 |
|
1 |
13,10 |
0,60 |
10,8 |
936,23 |
|
1 |
12,40 |
0,60 |
11,4 |
919,73 |
|
1 |
12,60 |
0,60 |
12 |
989,26 |
|
1 |
13,10 |
1,57 |
9,9 |
991,29 |
|
1 |
8,10 |
1,77 |
10,6 |
938,50 |
|
1 |
2,20 |
0,60 |
10,1 |
1025,50 |
|
1 |
28,60 |
0,95 |
11 |
950,67 |
|
1 |
3,80 |
0,70 |
11,4 |
967,80 |
|
1 |
25,90 |
1,45 |
12,3 |
946,19 |
|
1 |
2,70 |
1,04 |
9,6 |
895,70 |
|
1 |
1,00 |
0,48 |
11,1 |
954,44 |
|
1 |
11,70 |
1,11 |
10,7 |
Et produit le vecteur b calculé suivant:
b = (X’X)-1X’Y
par la fonction excel :
=PRODUITMAT(INVERSEMAT(PRODUITMAT(TRANSPOSE(X);X));PRODUITMAT(TRANSPOSE(X);Y))
b0 |
1109,57 |
b1 |
36,0395 |
b2 |
2,2969 |
b3 |
-19,456 |
Les valeurs prédites par le modèle sont calculées en appliquant l’équation:
Ymod = 1109,57 + 36,04 X1 + 2,29 X2 -19,45 X3
Y |
observé |
modélisé |
écarts |
Allentown, Bethlehem, PA-NJ |
962,35 |
948,79 |
13,56 |
Atlanta, GA |
982,29 |
988,4 |
-6,11 |
Baltimore, MD |
1071,29 |
1035,77 |
35,52 |
Birmingham, AL |
1030,38 |
1053,8 |
-23,42 |
Columbus, OH |
958,84 |
942,53 |
16,31 |
Flint, MI |
941,18 |
951,23 |
-10,05 |
Dayton-Springfield, OH |
936,23 |
937,95 |
-1,72 |
Kansas City, MO |
919,73 |
926,74 |
-7,01 |
Louisville, KY-IN |
989,26 |
1003,56 |
-14,3 |
Pittsburgh, PA |
991,29 |
985,76 |
5,53 |
Providence, RI |
938,5 |
939,82 |
-1,32 |
Richmond-Petersburg, VA |
1025,5 |
995,64 |
29,86 |
Syracuse, NY |
950,67 |
921,69 |
28,98 |
Washington, DC-MD-VA |
967,8 |
981,91 |
-14,11 |
Reading, PA |
946,19 |
966,53 |
-20,34 |
Worcester, MA |
895,7 |
913,1 |
-17,4 |
Youngstown-Warren, OH |
954,44 |
968,41 |
-13,97 |
Variance |
1893,44 |
= 1547,85 |
+ 345,59 |
|
|
|
|
R2 = |
1547,85 |
/ 1893,44 |
= 0,82 |
Soit une forte augmentation de la valeur prédictive pour la fonction des variables prises ensemble.
La question qui suit généralement l'approche par la régression multiple est de choisir parmi les variables X le plus petit nombre d'entre elles qui explique au mieux la variabilité de Y.
Une méthode courante est une régression itérative qui inclut d’abord dans le modèle la variable qui propose le meilleur coefficient de détermination. Ensuite, celle qui améliore le plus le coefficient de détermination et ainsi de suite.
Alternativement, toutes les variables sont entrées dans le modèle et les variables sont progressivement exclues, en fonction de celles qui contribuent le moins au modèle.
Il faut noter que la seconde variable qui entre dans le modèle n’est pas forcément celle qui présente, à elle seule, le second meilleur coefficient de détermination avec Y. Sinon, la solution serait triviale. En effet, X1 et X2 peuvent être très corrélées, voire quasi redondantes. Dans ce cas la qualité du modèle ne sera pas améliorée. C’est donc la variable qui contribue le plus à réduire la variabilité résiduelle, du modèle en voie d’élaboration qui sera sélectionnée à chaque étape.
La solution b = (X’X)-1X’Y est mise en pratique par le logiciel Excel pour la régression linéaire simple et la régression polynomiale.
X |
Y |
1 |
14,26 |
4 |
13,54 |
7 |
10,98 |
10 |
4,94 |
13 |
1,72 |
16 |
9,19 |
19 |
24,81 |
Exemple de régression polynomiale
(menu Graphique« Ajouter une courbe de tendance »)
Aucune solution n’est proposée pour le modèle linéaire multiple, mais le calcul se réalise facilement à l’aide des fonctions TRANSPOSE( ), PRODUITMAT( ) et INVERSEMAT( ).
Les modèles non-linéaires gérés par excel (logarithmique, exponentiel et puissance) sont calculés par la régression linéaire simple via la transformation de X et/ou de Y en log, la solution étant retransformée en anti-log.
Le logiciel Excel ne réalise pas de régression non linéaire proprement dite. Les fonctions sigmoïdes, multiples exponentielles, Michaëlis Menten … n’ont pas de solution analytique et doivent être réalisées par un logiciel qui propose un algorithme de minimisation numérique. A noter que même les fonctions linéarisables (exponentielle, puissance…) tirent avantage de cette approche.
Pour faire de l’inférence, notamment pour obtenir l’intervalle de confiance des paramètres, il est préférable d’utiliser un logiciel statistique plus sophistiqué que le tableur.
Les principes et les mises en garde concernant les limites de cette approche sont développés au module 20 dans le cadre de l’équation la plus simple Y = B0 + B1X1 . Ce sont les points spécifiques à la généralisation du modèle qui seront abordés ici.
Les précautions suivantes doivent être prises pour interpréter les résultats :
Plus on complexifie le modèle, plus la variabilité résiduelle peut être – apparemment- expliquée. Le nombre d’observations doit être relativement grand par rapport au nombre de variables incluses dans le modèle. Bien qu’il n’existe aucune règle absolue en cette matière on se référera au minimum à la règle empirique n > 2p
Les coefficients sont délicats à interpréter. En effet, B1 donne la variation de X1 correspondant à l’augmentation d’une unité de Y, pour autant que X2 reste constant. En pratique, cela est irréaliste car X1 est généralement corrélé à X2.
Les relations bivariées doivent préalablement être explorées graphiquement. La présence de données extrêmes ou aberrantes, la non linéarité de certaines relations, les écarts systématiques au modèle sont susceptibles d’affecter grandement les résultats.
Les conditions de linéarité étant souvent précaires et limitées à un domaine de X, l’extrapolation des résultats est toujours hasardeuse.
La régression polynomiale produit un modèle très « plastique » qui interpole bien les points mais ne possède aucune valeur d’extrapolation. La valeur des paramètres ne peut pas être associée à une explication structurelle du phénomène décrit.
La diagonalisation des matrices est à la base du calcul des valeurs propres et vecteurs propres d’une matrice symétrique.
Ce calcul est le noyau central de l’analyse factorielle, qui comprend une famille de techniques de représentation des données dans un espace réduit.
L’objectif de ce module est d’ouvrir au maximum, tout en restant le plus simple possible, cette « boîte noire »…..
Avant d'aller plus loin il convient de connaître les opérations élémentaires nécessaires pour diagonaliser une matrice.
Trois opérations élémentaires permettent en effet de modifier le contenu d'une matrice A tout en gardant la mémoire de ces changements et en permettant de refaire le chemin en sens inverse.
Les matrices associées à ces opérations sont des matrices identités (donc carrées) dont un seul élément est modifié. Elles opèrent les lignes en multiplication par la gauche, et les colonnes en multiplication par la droite.
Ces trois opérations sont:
Remplacement d'un élément de la diagonale par un scalaire, retour à la situation initiale en multipliant par son inverse.
Exemple avec des matrices interactives: les cellules à fond blanc sont interactives: vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
Remplacement d'un élément de la diagonale par un scalaire, retour à la situation initiale en multipliant par son inverse.
Exemple avec des matrices interactives: les cellules à fond blanc sont interactives: vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
Permutations des éléments de la diagonale correspondante, retour à la situation initiale en multipliant par la même matrice.
Exemples: en inversant les lignes 2 et 3 de la matrice identité (matrice bleue) vous inversez les lignes 2 et 3 de la matrice de départ.
En encodant 1 0 0 0 en ligne 1, 0 0 0 1 en ligne 2, 0 0 1 0 en ligne 3, et 0 1 0 0 en ligne 4 vous permutez les lignes 2 et 4. Et ainsi de suite.
Exemple avec des matrices interactives: Les cellules à fond blanc sont interactives: Vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
NB: Pour la matrice à chiffres bleus, le fond n'est blanc que si il y a 1 et 1 seule valeur unitaire sur 1 ligne, en dehors de la diagonale, et que les autres éléments de la ligne sont nuls.
Permutations des éléments de la diagonale correspondante, retour à la situation initiale en multipliant par la même matrice.
Exemple avec des matrices interactives: Les cellules à fond blanc sont interactives: Vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
NB: Pour la matrice à chiffres bleus, le fond n'est blanc que si il y a 1 et 1 seule valeur unitaire sur 1 ligne, en dehors de la diagonale, et que les autres éléments de la ligne sont nuls.
Exemple de départ: La ligne 4 est multipliée par 3 et additionnée à la ligne 2. Le résultat est stocké en ligne 2.
Exemple avec des matrices interactives: Les cellules à fond blanc sont interactives: Vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
Cette fois la matrice identité modifiée est placée au-dessus, de manière à ce que la modification s'applique sur une colonne.
Exemple de départ: La colonne 4 est multipliée par 2 et additionnée à la colonne 1. Le résultat est stocké en colonne 1.
Exemple avec des matrices interactives: Les cellules à fond blanc sont interactives: Vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
Soit TeX Embedding failed! la matrice à diagonaliser, TeX Embedding failed! les matrices d’opérations élémentaires sur les lignes, dans l’ordre de leur exécution et TeX Embedding failed! les matrices d’opérations élémentaires sur les colonnes. La succession des opérations s’écrit de la façon suivante :
TeX Embedding failed! |
Le produit matriciel n’étant pas commutatif, les opérations à gauche se succèdent de droite à gauche et les opérations à droite de gauche à droite.
Le produit matriciel étant associatif, le produit TeX Embedding failed! peut être effectué et stocké dans TeX Embedding failed! , le produit TeX Embedding failed! peut être effectué et stocké dans TeX Embedding failed!, … à l’infini.
Lorsque l’ensemble des opérations élémentaires aboutit à la diagonalisation de TeX Embedding failed!, l’opération peut être réalisée par le produit TeX Embedding failed!
TeX Embedding failed! est une matrice remplie de 0, la diagonale principale comportant r valeurs 1, r étant le rang de la matrice TeX Embedding failed!. Le rang est le nombre de dimensions nécessaires pour représenter TeX Embedding failed! dans l’espace. Si TeX Embedding failed! est carrée (p x p) et de rang complet (non singulière, r = p), la matrice TeX Embedding failed! est la matrice identité p x p.
Par facilité, l’exemple est pris sur une matrice carrée TeX Embedding failed!, mais elle pourrait être rectangulaire.
TeX Embedding failed! |
Opérations élémentaires sur les lignes :
TeX Embedding failed! |
Opérations élémentaires sur les colonnes :
TeX Embedding failed! |
Synthèse :
TeX Embedding failed! |
La matrice TeX Embedding failed! est de rang 1.
Toutes les matrices d’opération élémentaire ayant un inverse, TeX Embedding failed! et TeX Embedding failed! existent, et TeX Embedding failed! ce qui montre que l’historique des changements est bien stocké et que l’opération est réversible.
TeX Embedding failed! |
TeX Embedding failed! |
Opérations élémentaires sur les lignes :
TeX Embedding failed! |
Opérations élémentaires sur les colonnes :
TeX Embedding failed! |
Synthèse :
TeX Embedding failed! |
La matrice TeX Embedding failed! est de rang 2. TeX Embedding failed! étant égale a TeX Embedding failed!, l’opération inverse montre que la matrice TeX Embedding failed! est entièrement stockée dans la matrice TeX Embedding failed!.
TeX Embedding failed! |
Soit TeX Embedding failed! une matrice de corrélation 3 x 3 :
TeX Embedding failed! |
Diagonalisation de TeX Embedding failed! :
TeX Embedding failed! |
La matrice TeX Embedding failed! est de rang complet, TeX Embedding failed! et TeX Embedding failed!
TeX Embedding failed! |
Les solutions de la diagonalisation sont multiples : voici une autre matrice TeX Embedding failed! qui arrive au même résultat. Il y en a beaucoup d’autres.
TeX Embedding failed! |
Il n’est donc pas trivial d’obtenir les vecteurs propres et valeurs propres par la diagonalisation de TeX Embedding failed!. De nombreuses méthodes, itératives et plus ou moins robustes, sont décrites dans la littérature et implémentées (avec plus ou moins de bonheur) dans de nombreux logiciels.
Les valeurs de la matrice TeX Embedding failed! proviennent de la fonction EVD du logiciel R.
TeX Embedding failed! |
La matrice TeX Embedding failed! sera appelée F (pour Factor loadings). Nous retrouvons la propriété générale vue plus haut :
TeX Embedding failed! |
Nous observons à présent une nouvelle propriété :
TeX Embedding failed! |
Le produit TeX Embedding failed! représente la norme des vecteurs sur la diagonale et une valeur fonction de leur cosinus en dehors de la diagonale (voir module 220 : représentation géométrique des vecteurs).
Leur norme est appelée valeur propre ( λi, eigenvalue). L’algorithme a pour objectif de trouver la plus grande valeur propre de la matrice (ici 2,1), puis la plus grande dans une direction orthogonale et ainsi de suite. Nous verrons que chacune d’elle représente une variance : notez déjà que la somme des valeurs propres est égale à 3, soit p, le nombre de variables, ou encore la somme des valeurs diagonales de TeX Embedding failed!, ou encore la somme des variances de 3 variables standardisées qui ont généré les coefficients de corrélation de TeX Embedding failed!.
Les colonnes de TeX Embedding failed! apparaissent indépendantes (cosinus nul, orthogonales, non corrélées). Chacune est appelée vecteur propre (fi, eigenvector). Chaque vecteur définit la direction fi dans l’espace dans laquelle on trouve la variance la plus grande.
Le couple valeur propre – vecteur propre est une véritable curiosité mathématique. Pour chaque couple , la relation suivante est respectée : TeX Embedding failed!
TeX Embedding failed! |
TeX Embedding failed! |
TeX Embedding failed! |
Cette propriété définit le couple valeur propre – vecteur propre d’une matrice.