Analyse multivariée

Calcul matriciel

Outils pédagogiques complémentaires

Syllabus:

Scalaires et vecteurs

Soit le prix d’un pain de 2 €. Ce prix est quantifié par un nombre réel a qualifié ici de nombre scalaire (sans direction), ce qui le différenciera des vecteurs, qui expriment une direction dans un espace.

a = 2 est un scalaire

Soit la liste de prix suivante (€):

1 pain	2
1 kg de jambon	10
1 bac de bière	12
1 bouteille d'eau	1
1 vidange	-0,1

La suite de nombres qui représente les prix constitue un vecteur, c’est-à-dire une collection de nombres d’une seule ligne ou d’une seule colonne.

a
2
10
12
1
-0,1

Le vecteur a est un vecteur colonne.

a'
2	10	12	1	-0,1

Le vecteur a' est un vecteur ligne.

Transposition

La transposition est l’opération qui consiste à transformer le vecteur colonne a en vecteur ligne a’ et réciproquement : a’’ = a .

Notez qu’à ce stade le vecteur est une simple collection de nombres et que sa nature dirigée n’est pas prise en considération.

Soit la liste de courses suivante :

2	pains
0,25	kg jambon
1	bac de bière
6	bouteilles d’eau
10	Vidanges à rendre

A partir de cette liste, on peut construire b le vecteur colonne et b' le vecteur ligne.

b
2
0,25
1
6
10

b'
2	0,25	1	6	10

Produit scalaire

Le produit scalaire est l’opération qui consiste à effectuer la somme des produits des éléments de deux vecteurs.

Exemple: produit scalaire b'a

Le produit scalaire b'a est la somme des produits des éléments de b’ par ceux de a.

Par définition, le vecteur situé à gauche est toujours un vecteur ligne et celui situé à droite est toujours un vecteur colonne.

Ceci implique que le nombre de colonnes de b’ doit être égal au nombre de lignes de a

					2
					10
					12
					1
					-0,1
2	0,25	1	6	10	23,5

Produit scalaire de b'a = TeX Embedding failed!

Le scalaire obtenu représente le prix à payer à la caisse du magasin.

Le produit scalaire est transitif pour autant que les vecteurs soient transposés et leur ordre inversé:

b’a = a’b

					2
					0,25
					1
					6
					10
2	10	12	1	-0,1	23,5

Produit scalaire de a'b = TeX Embedding failed!

Cas particulier: la forme quadratique a'a

La forme quadratique est le produit scalaire particulier a’a . Il correspond à la somme des carrés des éléments de a.

					2
					10
					12
					1
					-0,1
2	10	12	1	-0,1	249,01

Forme quadratique a'a = TeX Embedding failed!

Matrices

Une matrice A de genre n x p est une collection de p vecteurs colonnes a_j de n lignes ou de n vecteurs lignes a’_i de p colonnes. Tous les éléments a_ij doivent être définis : la matrice ne peut pas contenir de « trous ».

Soit la liste de prix suivante dans les trois magasins M1, M2, M3 :

	M1	M2	M3
1 pain	2	1,8	2,2
1 kg de jambon	10	8	15
1 bac de bière	12	11	12
1 bouteile d'eau	1	0,7	1,5
1 vidange	-0,1	-0,1	-0,1

La matrice A de genre 5 x 3 reprend les prix de chaque article dans chaque magasin. La position de chaque élément a_ij est spécifique d’un article i et d’un magasin j.

2	1,8	2,2
10	8	15
12	11	12
1	0,7	1,5
-0,1	-0,1	-0,1

Sur le plan informatique, on peut considérer la matrice B de genre 6 x 4 qui reprend également l’intitulé des articles et des magasins.

	M1	M2	M3
1 pain	2	1,8	2,2
1 kg de jambon	10	8	15
1 bac de bière	12	11	12
1 bouteille d'eau	1	0,7	1,5
1 vidange	-0,1	-0,1	-0,1

Dans ce genre de matrice, on peut imaginer que certains éléments a_ij soient manquants. Si M3 ne vend pas de pain, l’élément a₂₄ comprendra un code tel que "n.d." (non disponible ou non défini).

	M1	M2	M3
1 pain	2	1,8	n.d.
1 kg jambon	10	8	15
1 bac de bière	12	11	12
1 bouteille d'eau	1	0,7	1,5
1 vidange	-0,1	-0,1	-0,1

Toutefois cet exposé se limite à des matrices réelles (tous les a_ij sont des nombres réels).

Important:

La validité des calculs suppose que la valeur 0 signifie réellement une valeur réelle nulle et ne signifie pas : donnée non disponible.

Opération sur les matrices

Opérations d'une matrice par un scalaire ou un vecteur :

La matrice A peut subir toutes les opérations des scalaires (somme, différence, division, multiplication, exponentiation…). Cette opération s’effectue sur chacun de ses éléments.

Exemples:

TeX Embedding failed!

Les opérateurs peuvent être rangés dans des vecteurs, pour autant que le nombre de lignes ou de colonnes soit adapté.

TeX Embedding failed!

Opérations matricielles :

La plupart des opérations matricielles ne sont possibles qu’entre des matrices de genres adaptés à l’opération.

Exemple : Somme de matrices

La somme de deux matrices A et B implique que A et B soient toutes les deux de même genre n x p.

TeX Embedding failed!

Cas particulier: égalité de matrices

L’égalité de deux matrices A = B implique que a_ij= b_ij pour i, j, et donc n’est définie que si A et B sont toutes les deux de même genre n x p.

TeX Embedding failed!

Transposition

La matrice A de genre n x p peut être transposée en matrice A’ de genre p x n en transposant la collection des p vecteurs colonnes a_j de n lignes en p vecteurs lignes a’_i de n colonnes.

Exemple:

Une matrice A de 6 lignes sur 4 colonnes devient une matrice A' de 4 lignes sur 6 colonnes.

TeX Embedding failed!

Cas particuliers : matrices carrées et matrices symétriques

Une matrice carrée est une matrice où les nombres de lignes et de colonnes sont égaux. Leur genre est alors n x n ou p x p. Une matrice est dite symétrique dans le cas particulier où elle est identique à sa transposée: A = A’ (ce qui implique que A est forcément carrée).

TeX Embedding failed!

Notez qu’une diagonale particulière apparaît en {a_ii}. Elle contient les seules valeurs de la matrice symétrique qui ne sont pas dupliquées. Les valeurs {a_ij} pour tous les i≠j se « reflètent en miroir » de part et d’autre de cette diagonale.

TeX Embedding failed!

Produit matriciel

Le produit matriciel AB est la généralisation du produit scalaire entre les lignes de A et les colonnes de B.

Imaginons qu’une association de consommateurs teste le prix de 4 listes d’achats dans 3 magasins M1, M2, M3.

Client	1	2	3	4
Pain(s)	2	0	10	0
Jambon (kg)	0,3	3	0	6
Bac(s) de bière	1	2	5	0
Bouteille(s) d'eau	6	16	0	24
Vidange(s) à rendre	0	0	0	0

Prix (€)	M1	M2	M3
1 pain	2	1,8	2,2
1 kg de jambon	10	15	8
1 bac de bière	12	11	12
1 bouteille d'eau	1	1,5	0,8
1 vidange	-0,1	-0,1	-0,1

Soit A la matrice des quantités de genre 5 x 4 et B 5 x3 la matrice des prix unitaires.

TeX Embedding failed!

Le prix à payer par chaque client dans chaque magasin est donné par le produit A’B = C

A’ : 4 x 5, B : 5 x 3, C : 4 x 3

TeX Embedding failed!

La liste d’articles dans la liste d’achat doit forcément correspondre élément par élément à la liste d’articles dans la liste de prix : le nombre de colonnes de A doit être égal au nombre de lignes de B.

	M1	M2	M3
Client 1	25	28.1	23.6
Client 2	70	91	60.8
Client 3	80	73	82
Client 4	84	126	67.2

La faisabilité d’un produit matriciel et le genre de la matrice produite se lit aisément en représentant les genres par un jeu de dominos :

A’ : 4 x 5	B : 5 x 3
		les extrémités en contact correspondent: le produit A'B est possible et la matrice produite aura pour genre les valeurs extérieures.

C : 4 x 3

B : 5 x 3	A’ : 4 x 5
		les extrémités en contact ne correspondent pas : le produit BA' est impossible.

Le produit matriciel n’est donc pas commutatif: A'B ≠ BA'. Par la contrainte du genre des partenaires, il ne pourrait l’être qu’entre matrices carrées, mais ce n’est pas le cas, sauf particularité.

Par contre la transposée du produit AB peut s’écrire B'A'= (AB)'

Exemple: B'A=(A'B)'

TeX Embedding failed!

Exemple interactif de produit matriciel :

Les deux matrices à fond blanc sont interactives: vous pouvez changer les valeurs dans les cellules, et visualiser le résultat directement dans la matrice à fond gris.

NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal

Matrice identité

La matrice identité I est une matrice symétrique dont la diagonale principale est remplie de 1 et les autres éléments de 0. Elle joue dans le produit matriciel le même rôle que l’unité dans le produit entre scalaires:

TeX Embedding failed!

Il est convenu que la matrice I a le genre qu’il faut pour que le produit soit défini. On constatera dans l’expression ci-dessus que la matrice I à droite de A n’est pas identique à la matrice I à gauche de A, sauf si A est carrée. La notation ne les distingue cependant pas.

Exemple interactif de produit par la matrice identité :

Les deux matrices à fond blanc sont interactives: Vous pouvez changer les valeurs dans les cellules, et visualiser le résultat directement dans la matrice à fond gris.

NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal

Matrice inverse

La matrice inverse de A, matrice carrée, est notée A^-1 et joue dans le produit matriciel le même rôle que l’unité dans l’inverse entre scalaires :

TeX Embedding failed!

Certaines matrices, dites singulières, ne peuvent pas s’inverser. C'est le cas des matrices dont une ligne ou colonne est une combinaison linéaire d’une autre.

Il existe une matrice A⁺ inverse généralisée, ou pseudo-inverse, de A non carrée et/ou singulière telle que TeX Embedding failed! bien que TeX Embedding failed!

Le calcul de la matrice inverse généralisée est lié à la diagonalisation de la matrice, vue dans le module consacré aux valeurs propres.

Représentation géométrique des vecteurs

Norme et angles

Examinons le produit A’A de la matrice A constituée des 3 vecteurs colonnes représentés en rouge, bleu et vert:

1	0,71	6
3	0,71	-2

1	3
0,71	0,71
6	-2

10	2,83	0
2,83	1	2,83
0	2,83	40

A'A

Tableau 8: 1 Coordonnées, norme et produit scalaire
de 3 vecteurs (représentation graphique ci-dessous)

La diagonale de la matrice correspond à la forme quadratique de chaque vecteur. En appliquant le théorème de Pythagore, la somme des carrés des coordonnées du vecteur correspond au carré de sa longueur (norme du vecteur). Noter le vecteur bleu de norme et de longueur égales à l’unité.

Le produit scalaire entre les vecteurs est lié au cosinus de l’angle formé par leur représentation géométrique sur la figure ci-dessous. Le seul qui nous intéresse ici est le produit scalaire nul entre les vecteurs rouge et vert, qui forment un angle droit.

Figure 8 : 1 Représentation géométrique des vecteurs de la table ci-dessus

matrice orthogonale :

Une matrice orthogonale C est une matrice carrée telle que C^-1 = C’

Cette matrice nous intéresse dans la mesure où elle est capable d’effectuer une rotation orthogonale d’un jeu de vecteurs dans un espace.

Considérons le produit matriciel suivant :

0,71	0,71
-0,71	0,71

0,71	-0,71
0,71	0,71

1,00	0,00
0,00	1,00

Le produit donnant une matrice I , C’ est bien l’inverse de C.

Considérons à présent que les valeurs de C correspondent à la matrice

Cos(45°)	Sin(45°)
-Sin(45°)	Cos(45°)

Et regardons le résultat du produit CA , puis (CA)’(CA) :

1,00	0,71	6,00
3,00	0,71	-2,00

0,71	0,71
-0,71	0,71

2,83	1,00	2,83
1,41	0,00	-5,66

2,83	1,41
1,00	0,00
2,83	-5,66

10	2,83	0
2,83	1	2,83
0	2,83	40

(CA)'(CA)

Constatons que le produit (CA)’(CA) est IDENTIQUE au produit A’A ci-dessus. La longueur des vecteurs et les angles qu’ils forment entre eux sont IDENTIQUES.

Constatons sur le graphique la rotation de 45° du jeu de vecteurs :

Figure 8-2: Le produit de A par la matrice orthogonale C a donc effectué une rotation de 45° en préservant sans aucune distorsion de l’espace.

La rotation orthogonale joue un rôle essentiel en analyse mutlivariée.

Vous êtes invités à télécharger le fichier Excel pour généraliser cette constatation à différents angles.

Régression multiple et non linéaire

Outils pédagogiques complémentaires

Syllabus:

Régression multiple

Objectifs

La régression multiple est la suite logique de la régression simple vue lors des statistiques descriptives à deux dimensions et dans l'ANOVA1.

Le but de la régression multiple est de déterminer le modèle mathématique permettant d’expliquer au mieux la variabilité d’une variable Y en fonction, non plus de une, mais de plusieurs variables X₁, X₂, X₃ etc...

Exemple: expliquer la variabilité de la taille de truites adultes (Y) en fonction de la température des bassins d'élevage (X₁), du pH de l'eau (X₂), de la teneur en protéines de leurs aliments (X₃), etc... le tout simultanément.

Tout comme pour la régression simple, il existe plusieurs modèles de régressions multiples:

Le modèle linéaire est une équation qui oriente une droite dans un hyper-espace qui a autant de dimensions qu'il y a de variables ( Y, X₁, X₂, X₃ = 4 dimensions). C'est le modèle de régression multiple le plus simple :

Y = B₀ + B₁X₁ + B₂X₂ + B₃X₃ + ...

Le terme B₀ est l'ordonnée à l'origine, c'est-à-dire la valeur de Y lorsque toutes les variables X_i sont nulles.

Les modèles non-linéaires (exponentiels, logarithmiques, etc...) sont très complexes, et sortent du cadre de ce cours. Ils ne seront donc pas abordés.

Cas particulier :

Le modèle polynomial est un modèle de régression simple car il ne concerne que deux variables (X et Y) mais qui sera néanmoins détaillé ici car son mode de calcul est similaire à celui de la régression multiple.

Le modèle polynomial ne concerne qu'une seule variable X, mais qui sera élevé à plusieurs puissances croissantes. Cette équation permet de tracer une courbe qui aura autant de points d’inflexion qu’il y a de degrés au polynôme :

Y = B₀ + B₁X + B₂X² + B₃X³ + ....

Rappels de concepts relatifs à la régression linéaire simple

Le but de la régression simple est de déterminer le modèle mathématique qui permet d'expliquer au mieux la variabilité d'une variable Y en fonction d'une variable X.

Exemple: expliquer la variabilité de la taille de truites adultes (Y) en fonction de la température des bassins d'élevage (X).

Pour bien conceptualiser la démarche effectuée lors de l'analyse de la régression, prenons le problème à l'envers, et tentons de comprendre quels sont les fondements théoriques de cette analyse.

Pour cela, partons du modèle linéaire et tentons d'expliquer la manière dont des points peuvent se distribuer expérimentalement.

Rappel : Régression linéaire simple: Une variable aléatoire X. Modèle : Y=B₀+B₁X
Le modèle idéal d'une régression linéaire simple est une droite dans un plan. Prenons un exemple ou Y=2+0,6X.
Lorsque X est une variable aléatoire normale, les points se projettent sur la trajectoire de la droite selon une distribution normale, et sont donc d'autant plus nombreux qu'on se rapproche du point dont les coordonnées sont (m_X;m_Y). La distribution des points sur la droite est donc influencée par le mode de distribution des X, c'est à dire par une variabilité de type horizontal. Dans notre exemple X est une variable normale de paramètres μ=0 et σ=1. Le point de coordonnées (m_X;m_Y) est symbolisé par le gros point rouge.
En conditions expérimentales, la distribution n'est jamais idéale. Des erreurs de mesures, des imprécisions, et des sources de variabilité d'origines diverses viennent s'ajouter au modèle normal. Dans ce cas les points ne se distribuent plus selon une droite parfaite, mais selon un nuage, d'autant plus proche de la droite parfaite que ces variabilités supplémentaires sont faibles. Ces sources supplémentaires de variabilité, si X et Y sont mesurés, influencent la distribution des points horizontalement si elles s'appliquent à X, et verticalement si elles concernent Y. Dans notre exemple, pour simplifier les choses, nous avons résumé ces sources de variabilité supplémentaires en une variable aléatoire qui disperse les points verticalement autour de la droite selon un modèle normal de paramètres ?=0 et ?=0,15. Le point de coordonnées (m_X;m_Y) est symbolisé par le gros point rouge.
Lorsque la variable X est fixée, ici aux valeurs -2, -1, 0, 1 et 2, il n'y a plus de variabilité additionnelle sur X, et on visualise mieux la variabilité additionnelle qui ne concerne que Y, qui est toujours ici de paramètres μ=0 et σ=0,15. Le point de coordonnées (m_X;m_Y) est symbolisé par le gros point rouge.
Le but de la régression est donc, face à une situation expérimentale, de chercher à quantifier ces sources de variabilités additionnelles verticales et horizontales, de manière à retrouver quel serait le modèle mathématique qui caractériserait au mieux la distribution des points si ces variabilités additionnelles, inévitables en conditions expérimentales, n'existaient pas.

Rappels :

Pour en savoir plus sur les modes de calculs de la pente et de l'ordonnée à l'origine :

Si la variable X est aléatoire : module 20 : statistiques descriptives à deux dimensions
Si la variable X est fixée : module 170 : la régression dans l'ANOVA1

Conceptualiser la régression multiple à deux variables X

Utilisons le même genre de démarche pour conceptualiser les fondements de la régression multiple, et détaillons les différents modes de régressions multiples linéaires.

Régression linéaire multiple à deux variables X

Prenons notre modèle de régression précédent (Y=2+0,6X) et rajoutons une variable aléatoire normale X₂.
Le modèle devient donc par exemple: Y=2+0,6X₁+1,2X₂

Rappel : Régression linéaire multiple à deux variables aléatoires: Modèle : Y=B₀+B₁X₁+B₂X₂
Le modèle idéal d'une régression linéaire multiple à deux variables X est un plan dans un espace à 3 dimensions (X₁,X₂,Y). Prenons un exemple ou Y=2+0,6X₁+1,2X₂. Ce modèle décrit la projection dans l'espace d'un plan défini par les deux droites d'équations : Y=2+0,6X₁ dans le référentiel (X₁,Y). Y=2+1,2X₂ dans le référentiel (X₂,Y).
Lorsque X₁ et X₂ sont des variables aléatoires normales, les points se répartissent sur le plan selon l'intégration de deux distributions normales, et sont donc d'autant plus nombreux qu'on se rapproche du point dont les coordonnées sont (m_X1;m_X2;m_Y). La distribution des points sur le plan est donc influencée par les paramètres de distribution des X₁ et X₂, c'est-à-dire par une variabilité horizontale à deux dimensions. Dans notre premier exemple X₁ et X₂ sont des variables normales de paramètres μ=0 et σ=1. Dans ce cas le nuage de points est rond. Dans notre second exemple X₁ et X₂ n'ont pas le même écart-type σ: Dans ce cas le nuage de points est de forme ovale.
En conditions expérimentales, la distribution n'est jamais idéale. Des erreurs de mesures, des imprécisions, et des sources de variabilité d'origines diverses viennent s'ajouter au modèle normal. Dans ce cas les points ne se distribuent plus selon un plan parfait, mais selon un nuage, d'autant plus proche du plan parfait que ces variabilités supplémentaires sont faibles. Ces sources supplémentaires de variabilité, si X₁, X₂, et Y sont mesurés, influencent la distribution des points horizontalement si elles s'appliquent à X₁ et X2, et verticalement si elles concernent Y. Dans notre exemple, pour simplifier les choses, nous avons résumé ces sources de variabilité supplémentaire en une variable aléatoire qui disperse les points verticalement par rapport au plan selon un modèle normal de paramètres μ=0 et σ=0,5. Pour bien conceptualiser ceci en 3D le même nuage de points est illustré sous deux perspectives différentes, la seconde étant dans l'axe du plan du modèle idéal: on voit alors que les points ne sont plus uniquement dans le plan, mais se répartissent de part et d'autres pour former un nuage en 3D.
Lorsque la variable X₁ est fixée, ici aux valeurs -3, -2, -1, 0, 1, 2, et 3, le nuage de points se résume à des tranches de variabilité. .
Lorsque les deux variables X₁ et X₂ sont de valeurs fixées, le nuage de points se résume à des colonnes de variabilité.
Le but de la régression est donc, face à une situation expérimentale, de chercher à quantifier ces sources de variabilités additionnelles verticales et horizontales, de manière à retrouver quel serait le modèle mathématique qui caractériserait au mieux la distribution des points si ces variabilités additionnelles, inévitables en conditions expérimentales, n'existaient pas.

Régression non-linéaire multiple à deux variables X

Dans la régression multiple le modèle est considéré comme non-linéaire à partir du moment où la distribution des points dans au moins une des dimensions ne suis pas un modèle linéaire

Exemples de régressions multiples non-linéaires

Les modèles non-linéaires étant fort nombreux nous nous contenterons ici de donner deux exemples de représentation graphique de cas de régression non-linéaire.

Premier exemple : la relation entre Y et X₁ suit un modèle linéaire, celle entre Y et X₂ un modèle logarithmique.
Y= 1+0,6X₁ + log(X₂).

Deuxième exemple : les deux variables X ont une relation logarithmique avec Y.
Y= 1+log(X₁) + log(X₂).

Résolution par le calcul matriciel

Le critère qui permet de déterminer le meilleur jeu de valeurs pour les paramètres B₀, B₁, B₂, B₃ … est la maximisation du coefficient de détermination

TeX Embedding failed!

ou, ce qui revient au même, la minimisation globale des écarts entre les valeurs de Y modélisées et observées .

Le principe de la méthode consiste à développer l’équation de la somme des carrés des écarts entre les observations et le modèle, pour Y, (SCERy) et d’en calculer la dérivée partielle par rapport à chacun des paramètres. Le minimum de la fonction SCERy correspond au point où toutes les dérivées partielles sont nulles.

Ce système d’équation peut être résolu de façon analytique par le calcul matriciel suivant :

b = (X’X)^-1X’Y

X est une matrice de genre n x p comprenant l’ensemble des n valeurs de X₁, X₂ … X_p-1. On ajoute à X une colonne constante ( X_p=1 partout) pour estimer le paramètre libre B₀.

Y est un vecteur colonne n x 1 comprenant l’ensemble des n valeurs de Y

Le produit matriciel combine donc les genres suivants :

p x n ~ n x p ~ p x n ~ n x 1

Il est défini et produit le vecteur colonne b de genre p x 1, qui reprend la valeur des p paramètres B₀, B₁, B₂, … B_p-1.

Exemple de régression linéaire

La mortalité, la composition raciale (% de non blancs), un polluant atmosphérique (protoxyde d’azote, N₂O) et le niveau d’éducation ont été relevés dans quelques villes américaines (subset des données de http://lib.stat.cmu.edu/DASL/Datafiles/SMSA.html).

*Ville USA*	*Mortalité*	*%NonBlanc*	*N₂O*	*Education*

Allentown, Bethlehem, PA-NJ	962,35	0,80	0,78	9,8
Atlanta, GA	982,29	27,10	0,90	11,1
Baltimore, MD	1071,29	24,40	1,58	9,6
Birmingham, AL	1030,38	38,50	1,51	10,2
Columbus, OH	958,84	13,10	0,95	11,9
Flint, MI	941,18	13,10	0,60	10,8
Dayton-Springfield, OH	936,23	12,40	0,60	11,4
Kansas City, MO	919,73	12,60	0,60	12
Louisville, KY-IN	989,26	13,10	1,57	9,9
Pittsburgh, PA	991,29	8,10	1,77	10,6
Providence, RI	938,5	2,20	0,60	10,1
Richmond-Petersburg, VA	1025,5	28,60	0,95	11
Syracuse, NY	950,67	3,80	0,70	11,4
Washington, DC-MD-VA	967,8	25,90	1,45	12,3
Reading, PA	946,19	2,70	1,04	9,6
Worcester, MA	895,7	1,00	0,48	11,1
Youngstown-Warren, OH	954,44	11,70	1,11	10,7

L’analyse à deux variables produit les résultats suivants :

L’analyse en régression multiple se base sur les matrices suivantes :

Y		X
962,35	1	0,80	0,78	9,8
982,29	1	27,10	0,90	11,1
1071,29	1	24,40	1,58	9,6
1030,38	1	38,50	1,51	10,2
958,84	1	13,10	0,95	11,9
941,18	1	13,10	0,60	10,8
936,23	1	12,40	0,60	11,4
919,73	1	12,60	0,60	12
989,26	1	13,10	1,57	9,9
991,29	1	8,10	1,77	10,6
938,50	1	2,20	0,60	10,1
1025,50	1	28,60	0,95	11
950,67	1	3,80	0,70	11,4
967,80	1	25,90	1,45	12,3
946,19	1	2,70	1,04	9,6
895,70	1	1,00	0,48	11,1
954,44	1	11,70	1,11	10,7

Et produit le vecteur b calculé suivant:

b = (X’X)^-1X’Y

par la fonction excel :

=PRODUITMAT(INVERSEMAT(PRODUITMAT(TRANSPOSE(X);X));PRODUITMAT(TRANSPOSE(X);Y))

b0	1109,57
b1	36,0395
b2	2,2969
b3	-19,456

Les valeurs prédites par le modèle sont calculées en appliquant l’équation:

Y_mod = 1109,57 + 36,04 X₁ + 2,29 X₂ -19,45 X₃

Y	observé	modélisé	écarts

Allentown, Bethlehem, PA-NJ	962,35	948,79	13,56
Atlanta, GA	982,29	988,4	-6,11
Baltimore, MD	1071,29	1035,77	35,52
Birmingham, AL	1030,38	1053,8	-23,42
Columbus, OH	958,84	942,53	16,31
Flint, MI	941,18	951,23	-10,05
Dayton-Springfield, OH	936,23	937,95	-1,72
Kansas City, MO	919,73	926,74	-7,01
Louisville, KY-IN	989,26	1003,56	-14,3
Pittsburgh, PA	991,29	985,76	5,53
Providence, RI	938,5	939,82	-1,32
Richmond-Petersburg, VA	1025,5	995,64	29,86
Syracuse, NY	950,67	921,69	28,98
Washington, DC-MD-VA	967,8	981,91	-14,11
Reading, PA	946,19	966,53	-20,34
Worcester, MA	895,7	913,1	-17,4
Youngstown-Warren, OH	954,44	968,41	-13,97

*Variance*	1893,44	= 1547,85	+ 345,59

R² =	1547,85	/ 1893,44	= 0,82

Soit une forte augmentation de la valeur prédictive pour la fonction des variables prises ensemble.

La régression pas à pas (stepwise)

La question qui suit généralement l'approche par la régression multiple est de choisir parmi les variables X le plus petit nombre d'entre elles qui explique au mieux la variabilité de Y.

Une méthode courante est une régression itérative qui inclut d’abord dans le modèle la variable qui propose le meilleur coefficient de détermination. Ensuite, celle qui améliore le plus le coefficient de détermination et ainsi de suite.

Alternativement, toutes les variables sont entrées dans le modèle et les variables sont progressivement exclues, en fonction de celles qui contribuent le moins au modèle.

Il faut noter que la seconde variable qui entre dans le modèle n’est pas forcément celle qui présente, à elle seule, le second meilleur coefficient de détermination avec Y. Sinon, la solution serait triviale. En effet, X1 et X2 peuvent être très corrélées, voire quasi redondantes. Dans ce cas la qualité du modèle ne sera pas améliorée. C’est donc la variable qui contribue le plus à réduire la variabilité résiduelle, du modèle en voie d’élaboration qui sera sélectionnée à chaque étape.

La régression avec Excel

La solution b = (X’X)^-1X’Y est mise en pratique par le logiciel Excel pour la régression linéaire simple et la régression polynomiale.

X	Y
1	14,26
4	13,54
7	10,98
10	4,94
13	1,72
16	9,19
19	24,81

Exemple de régression polynomiale

(menu Graphique« Ajouter une courbe de tendance »)

Aucune solution n’est proposée pour le modèle linéaire multiple, mais le calcul se réalise facilement à l’aide des fonctions TRANSPOSE( ), PRODUITMAT( ) et INVERSEMAT( ).

Les modèles non-linéaires gérés par excel (logarithmique, exponentiel et puissance) sont calculés par la régression linéaire simple via la transformation de X et/ou de Y en log, la solution étant retransformée en anti-log.

Le logiciel Excel ne réalise pas de régression non linéaire proprement dite. Les fonctions sigmoïdes, multiples exponentielles, Michaëlis Menten … n’ont pas de solution analytique et doivent être réalisées par un logiciel qui propose un algorithme de minimisation numérique. A noter que même les fonctions linéarisables (exponentielle, puissance…) tirent avantage de cette approche.

Pour faire de l’inférence, notamment pour obtenir l’intervalle de confiance des paramètres, il est préférable d’utiliser un logiciel statistique plus sophistiqué que le tableur.

Limites de l'interprétation

Les principes et les mises en garde concernant les limites de cette approche sont développés au module 20 dans le cadre de l’équation la plus simple Y = B0 + B1X1 . Ce sont les points spécifiques à la généralisation du modèle qui seront abordés ici.

Les précautions suivantes doivent être prises pour interpréter les résultats :

Plus on complexifie le modèle, plus la variabilité résiduelle peut être – apparemment- expliquée. Le nombre d’observations doit être relativement grand par rapport au nombre de variables incluses dans le modèle. Bien qu’il n’existe aucune règle absolue en cette matière on se référera au minimum à la règle empirique n > 2p

Les coefficients sont délicats à interpréter. En effet, B1 donne la variation de X1 correspondant à l’augmentation d’une unité de Y, pour autant que X2 reste constant. En pratique, cela est irréaliste car X1 est généralement corrélé à X2.

Les relations bivariées doivent préalablement être explorées graphiquement. La présence de données extrêmes ou aberrantes, la non linéarité de certaines relations, les écarts systématiques au modèle sont susceptibles d’affecter grandement les résultats.

Les conditions de linéarité étant souvent précaires et limitées à un domaine de X, l’extrapolation des résultats est toujours hasardeuse.

La régression polynomiale produit un modèle très « plastique » qui interpole bien les points mais ne possède aucune valeur d’extrapolation. La valeur des paramètres ne peut pas être associée à une explication structurelle du phénomène décrit.

Vecteurs propres et valeurs propres

Outils pédagogiques complémentaires

Syllabus:

Notions de valeur et vecteur propre

Objectifs

La diagonalisation des matrices est à la base du calcul des valeurs propres et vecteurs propres d’une matrice symétrique.

Ce calcul est le noyau central de l’analyse factorielle, qui comprend une famille de techniques de représentation des données dans un espace réduit.

L’objectif de ce module est d’ouvrir au maximum, tout en restant le plus simple possible, cette « boîte noire »…..

Opérations élémentaires :

Avant d'aller plus loin il convient de connaître les opérations élémentaires nécessaires pour diagonaliser une matrice.

Trois opérations élémentaires permettent en effet de modifier le contenu d'une matrice A tout en gardant la mémoire de ces changements et en permettant de refaire le chemin en sens inverse.

Les matrices associées à ces opérations sont des matrices identités (donc carrées) dont un seul élément est modifié. Elles opèrent les lignes en multiplication par la gauche, et les colonnes en multiplication par la droite.

Ces trois opérations sont:

Multiplication d'une ligne ou d'une colonne par une constante

Multiplication d'une ligne par une constante :

Remplacement d'un élément de la diagonale par un scalaire, retour à la situation initiale en multipliant par son inverse.

Exemple avec des matrices interactives: les cellules à fond blanc sont interactives: vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.

Multiplication d'une colonne par une constante :

Remplacement d'un élément de la diagonale par un scalaire, retour à la situation initiale en multipliant par son inverse.

Permutation de deux lignes ou de deux colonnes

Permutation de 2 lignes :

Permutations des éléments de la diagonale correspondante, retour à la situation initiale en multipliant par la même matrice.

Exemples: en inversant les lignes 2 et 3 de la matrice identité (matrice bleue) vous inversez les lignes 2 et 3 de la matrice de départ.
En encodant 1 0 0 0 en ligne 1, 0 0 0 1 en ligne 2, 0 0 1 0 en ligne 3, et 0 1 0 0 en ligne 4 vous permutez les lignes 2 et 4. Et ainsi de suite.

Exemple avec des matrices interactives: Les cellules à fond blanc sont interactives: Vous pouvez en changer les valeurs, et visualiser le résultat directement dans les cellules à fond gris.
NB: pour valider un changement de valeur: "enter" dans firefox, "tab" dans safari et internet-explorer. Utiliser le point comme symbole décimal.
NB: Pour la matrice à chiffres bleus, le fond n'est blanc que si il y a 1 et 1 seule valeur unitaire sur 1 ligne, en dehors de la diagonale, et que les autres éléments de la ligne sont nuls.

Permutation de 2 colonnes :

Permutations des éléments de la diagonale correspondante, retour à la situation initiale en multipliant par la même matrice.

Combinaison linéaire de deux lignes ou de deux colonnes

Combinaison linéaire de 2 lignes :

Exemple de départ: La ligne 4 est multipliée par 3 et additionnée à la ligne 2. Le résultat est stocké en ligne 2.

La ligne 4 est multipliée par 3 : car le scalaire introduit dans la matrice identité est 3.
C'est la ligne 4 qui est multipliée : car le scalaire est placé en colonne 4.
Le résultat est additionné à la ligne 2 et stocké en ligne 2 : car le scalaire est placé en ligne 2.
L'opération inverse est obtenue en plaçant -3 à la même position.

Combinaison linéaire de 2 colonnes :

Cette fois la matrice identité modifiée est placée au-dessus, de manière à ce que la modification s'applique sur une colonne.

Exemple de départ: La colonne 4 est multipliée par 2 et additionnée à la colonne 1. Le résultat est stocké en colonne 1.

La colonne 4 est multipliée par 2 : car le scalaire introduit dans la matrice identité est 2.
C'est la colonne 4 qui est multipliée : car le scalaire est placé en ligne 4.
Le résultat est additionné à la colonne 1 et stocké en colonne 1 : car le scalaire est placé en colonne 1.
L'opération inverse est obtenue en plaçant -2 à la même position.

Diagonalisation d'une matrice

Soit TeX Embedding failed! la matrice à diagonaliser, TeX Embedding failed! les matrices d’opérations élémentaires sur les lignes, dans l’ordre de leur exécution et TeX Embedding failed! les matrices d’opérations élémentaires sur les colonnes. La succession des opérations s’écrit de la façon suivante :

TeX Embedding failed!

Le produit matriciel n’étant pas commutatif, les opérations à gauche se succèdent de droite à gauche et les opérations à droite de gauche à droite.

Le produit matriciel étant associatif, le produit TeX Embedding failed! peut être effectué et stocké dans TeX Embedding failed! , le produit TeX Embedding failed! peut être effectué et stocké dans TeX Embedding failed!, … à l’infini.

Lorsque l’ensemble des opérations élémentaires aboutit à la diagonalisation de TeX Embedding failed!, l’opération peut être réalisée par le produit TeX Embedding failed!

TeX Embedding failed! est une matrice remplie de 0, la diagonale principale comportant r valeurs 1, r étant le rang de la matrice TeX Embedding failed!. Le rang est le nombre de dimensions nécessaires pour représenter TeX Embedding failed! dans l’espace. Si TeX Embedding failed! est carrée (p x p) et de rang complet (non singulière, r = p), la matrice TeX Embedding failed! est la matrice identité p x p.

Exemple pour une matrice non symétrique :

Par facilité, l’exemple est pris sur une matrice carrée TeX Embedding failed!, mais elle pourrait être rectangulaire.

TeX Embedding failed!

Opérations élémentaires sur les lignes :

TeX Embedding failed!

Opérations élémentaires sur les colonnes :

TeX Embedding failed!

Synthèse :

TeX Embedding failed!

La matrice TeX Embedding failed! est de rang 1.

Toutes les matrices d’opération élémentaire ayant un inverse, TeX Embedding failed! et TeX Embedding failed! existent, et TeX Embedding failed! ce qui montre que l’historique des changements est bien stocké et que l’opération est réversible.

TeX Embedding failed!

Exemple pour une matrice symétrique :

TeX Embedding failed!

Opérations élémentaires sur les lignes :

TeX Embedding failed!

Opérations élémentaires sur les colonnes :

TeX Embedding failed!

Synthèse :

TeX Embedding failed!

La matrice TeX Embedding failed! est de rang 2. TeX Embedding failed! étant égale a TeX Embedding failed!, l’opération inverse montre que la matrice TeX Embedding failed! est entièrement stockée dans la matrice TeX Embedding failed!.

TeX Embedding failed!

Vecteurs propres et valeurs propres

Diagonalisation d’une matrice de corrélation :

Soit TeX Embedding failed! une matrice de corrélation 3 x 3 :

TeX Embedding failed!

Diagonalisation de TeX Embedding failed! :

TeX Embedding failed!

La matrice TeX Embedding failed! est de rang complet, TeX Embedding failed! et TeX Embedding failed!

TeX Embedding failed!

Les solutions de la diagonalisation sont multiples : voici une autre matrice TeX Embedding failed! qui arrive au même résultat. Il y en a beaucoup d’autres.

TeX Embedding failed!

Il n’est donc pas trivial d’obtenir les vecteurs propres et valeurs propres par la diagonalisation de TeX Embedding failed!. De nombreuses méthodes, itératives et plus ou moins robustes, sont décrites dans la littérature et implémentées (avec plus ou moins de bonheur) dans de nombreux logiciels.

Diagonalisation optimisée pour obtenir les valeurs propres et vecteurs propres :

Les valeurs de la matrice TeX Embedding failed! proviennent de la fonction EVD du logiciel R.

TeX Embedding failed!

La matrice TeX Embedding failed! sera appelée F (pour Factor loadings). Nous retrouvons la propriété générale vue plus haut :

TeX Embedding failed!

Nous observons à présent une nouvelle propriété :

TeX Embedding failed!

Le produit TeX Embedding failed! représente la norme des vecteurs sur la diagonale et une valeur fonction de leur cosinus en dehors de la diagonale (voir module 220 : représentation géométrique des vecteurs).

Leur norme est appelée valeur propre ( λ_i, eigenvalue). L’algorithme a pour objectif de trouver la plus grande valeur propre de la matrice (ici 2,1), puis la plus grande dans une direction orthogonale et ainsi de suite. Nous verrons que chacune d’elle représente une variance : notez déjà que la somme des valeurs propres est égale à 3, soit p, le nombre de variables, ou encore la somme des valeurs diagonales de TeX Embedding failed!, ou encore la somme des variances de 3 variables standardisées qui ont généré les coefficients de corrélation de TeX Embedding failed!.

Les colonnes de TeX Embedding failed! apparaissent indépendantes (cosinus nul, orthogonales, non corrélées). Chacune est appelée vecteur propre (f_i, eigenvector). Chaque vecteur définit la direction f_i dans l’espace dans laquelle on trouve la variance la plus grande.

Définition des valeurs propres et vecteurs propres :

Le couple valeur propre – vecteur propre est une véritable curiosité mathématique. Pour chaque couple , la relation suivante est respectée : TeX Embedding failed!

TeX Embedding failed!

Cette propriété définit le couple valeur propre – vecteur propre d’une matrice.

Composantes principales

Outils pédagogiques complémentaires

Syllabus:

Composantes principales

Exercices en tableurs:

Mâchoires des singes

Mortalité dans les villes américaines

Statistiques immobilières et fiscales

Résumés:

Analyse en composante principale: vue synoptique