Exemple de régression linéaire

La mortalité, la composition raciale (% de non blancs), un polluant atmosphérique (protoxyde d’azote, N2O) et le niveau d’éducation ont été relevés dans quelques villes américaines (subset des données de http://lib.stat.cmu.edu/DASL/Datafiles/SMSA.html).

Ville USA

Mortalité

%NonBlanc

N2O

Education

 

Allentown, Bethlehem, PA-NJ

962,35 0,80 0,78 9,8

Atlanta, GA

982,29 27,10 0,90 11,1

Baltimore, MD

1071,29 24,40 1,58 9,6

Birmingham, AL

1030,38 38,50 1,51 10,2

Columbus, OH

958,84 13,10 0,95 11,9

Flint, MI

941,18 13,10 0,60 10,8

Dayton-Springfield, OH

936,23 12,40 0,60 11,4

Kansas City, MO

919,73 12,60 0,60 12

Louisville, KY-IN

989,26 13,10 1,57 9,9

Pittsburgh, PA

991,29 8,10 1,77 10,6

Providence, RI

938,5 2,20 0,60 10,1

Richmond-Petersburg, VA

1025,5 28,60 0,95 11

Syracuse, NY

950,67 3,80 0,70 11,4

Washington, DC-MD-VA

967,8 25,90 1,45 12,3

Reading, PA

946,19 2,70 1,04 9,6

Worcester, MA

895,7 1,00 0,48 11,1

Youngstown-Warren, OH

954,44 11,70 1,11 10,7

L’analyse à deux variables produit les résultats suivants :

L’analyse en régression multiple se base sur les matrices suivantes :

Y

 

 

X

 

 

962,35

 

1

0,80

0,78

9,8

982,29

 

1

27,10

0,90

11,1

1071,29

 

1

24,40

1,58

9,6

1030,38

 

1

38,50

1,51

10,2

958,84

 

1

13,10

0,95

11,9

941,18

 

1

13,10

0,60

10,8

936,23

 

1

12,40

0,60

11,4

919,73

 

1

12,60

0,60

12

989,26

 

1

13,10

1,57

9,9

991,29

 

1

8,10

1,77

10,6

938,50

 

1

2,20

0,60

10,1

1025,50

 

1

28,60

0,95

11

950,67

 

1

3,80

0,70

11,4

967,80

 

1

25,90

1,45

12,3

946,19

 

1

2,70

1,04

9,6

895,70

 

1

1,00

0,48

11,1

954,44

 

1

11,70

1,11

10,7

Et produit le vecteur b calculé suivant:

b = (X’X)-1X’Y

par la fonction excel :

=PRODUITMAT(INVERSEMAT(PRODUITMAT(TRANSPOSE(X);X));PRODUITMAT(TRANSPOSE(X);Y))

b0

1109,57

b1

36,0395

b2

2,2969

b3

-19,456

Les valeurs prédites par le modèle sont calculées  en appliquant l’équation:

Ymod = 1109,57 + 36,04 X1 + 2,29 X2 -19,45 X3

Y

observé

modélisé

écarts

 

Allentown, Bethlehem, PA-NJ

962,35

948,79

13,56

Atlanta, GA

982,29

988,4

-6,11

Baltimore, MD

1071,29

1035,77

35,52

Birmingham, AL

1030,38

1053,8

-23,42

Columbus, OH

958,84

942,53

16,31

Flint, MI

941,18

951,23

-10,05

Dayton-Springfield, OH

936,23

937,95

-1,72

Kansas City, MO

919,73

926,74

-7,01

Louisville, KY-IN

989,26

1003,56

-14,3

Pittsburgh, PA

991,29

985,76

5,53

Providence, RI

938,5

939,82

-1,32

Richmond-Petersburg, VA

1025,5

995,64

29,86

Syracuse, NY

950,67

921,69

28,98

Washington, DC-MD-VA

967,8

981,91

-14,11

Reading, PA

946,19

966,53

-20,34

Worcester, MA

895,7

913,1

-17,4

Youngstown-Warren, OH

954,44

968,41

-13,97

 

Variance

1893,44

= 1547,85

+ 345,59

 

 

 

 

R2 =

1547,85

/ 1893,44

= 0,82

Soit une forte augmentation de la valeur prédictive pour la fonction des variables prises ensemble.