Resumen: Uno de los supuestos del modelo de regresión lineal, es que no debe haber un alto grado de correlación entre las variables predeterminadas, pues esto, como se vio en clase, trae serias consecuencias que podemos resumir asi: Los estimadores por mínimos cuadrados ordinarios siguen siendo lineales, insesgados y óptimos pero las estimaciones tienen varianzas y covarianzas grandes. Las razones t de uno o mas coeficientes tienden a ser estadísticamente no significativas, con lo que se pierde de perspectiva el análisis.(V)
Publicación enviada por Javier Uriol Chávez
Indice
1.
Introducción
2.
Detección de la multicolinealidad
3.
Apéndice
1. Introducción
Uno de los supuestos del
modelo de regresión lineal, es que no debe haber un alto grado de correlación
entre las variables predeterminadas, pues esto, como se vio en clase, trae
serias consecuencias que podemos resumir asi:
- Los
estimadores por mínimos cuadrados ordinarios siguen siendo lineales,
insesgados y óptimos pero las estimaciones tienen varianzas y covarianzas
grandes.
- Las
razones t de uno o mas coeficientes tienden a ser estadísticamente no
significativas, con lo que se pierde de perspectiva el análisis.
- Aun
cuando la razón t de uno o mas coeficientes, es estadísticamente no
significativa, el coeficiente de determinación tiende a ser elevado, con
lo que se demuestra que no se puede separar el efecto individual de cada
variable predeterminada hacia la endógena.
Luego entonces, es necesario
que luego de estimado un modelo, tengamos que determinar la existencia o no de
un alto grado de correlación entre las variables predeterminadas.
2. Detección de la
multicolinealidad
Los métodos de detección
de multicolinealidad que vamos a estudiar son:
1.- Método de la relación entre t y R2
Mediante este método podemos determinar la existencia de multicolinealidad
observando las razones t y si estas no son estadísticamente significativas y
contamos con un coeficiente de determinación elevado (superior a 0.80), podemos
estar ante un síntoma claro de multicolinealidad.
2.- Método de la matriz de correlación
Como el problema de multicolinealidad es un problema con las variables
predeterminadas, establecemos una matrix de correlación entre aquellas, es
decir:
Como es de notar, si la
correlación entre las variables predeterminadas fuera 1, extrema correlación,
el determinante de R será igual a cero, caso contrario, si la correlación
fuera 0, el determinante será igual a 1, por lo que podemos esbozar una regla
en los siguientes términos:
Si el determinante de la matrix R es cercano a cero, el grado de
multicolinealidad es considerable; si es cercano a uno, la correlación entre
las variables no será de consideración.
3.- Método de la prueba F
En un modelo de K-1 variables predeterminadas, es conveniente determinar cual de
las mencionadas variables X esta correlacionada con las restantes para lo cual
hay necesidad de hacer regresiones auxiliares de cada X con las restantes y
obtener el R2 correspondiente. Luego siguiendo la relación entre F y
R2 se establece el siguiente probador:
Que sigue una distribución
F con k-2 G.L. para el numerador y n-k+1 G.L para el denominador y
n: tamaño de la muestra
:coeficiente
de determinación en la regresión de alguna Xk con las restantes
incluidas en el modelo.
La regla de decisión es:
Si Fc excede al F tabulado a cierto nivel de significación, se dice
entonces que la Xk en particular es colineal con las demás.
4.- Método de los valores propios e índice de condición
El tema de los valores propios es uno puramente matemático, que tiene que ver
con el álgebra matricial y que de alguna manera ponemos de manifiesto en el apéndice
y que son calculados por los paquetes econométricos y matemáticos del caso. En
todo caso, partiendo de los valores propios de la matrix X’X, que es la que
contiene las variables predeterminadas, se establece lo que se conoce como número
de condición (K):
y el índice de condición
(IC), definido como:
Luego la regla del caso es:
Si K esta entre 100 y 1000, existe multicolinealidad que va desde moderada a
fuerte, mientras que si excede a 1000, existe multicolinealidad severa. De otro
lado, si el índice de condición esta entre 10 y 30, existe multicolinealidad
entre moderada y fuerte y si excede 30, existe multicolinealidad severa.
Aplicación
Para aplicar todo lo expuesto anteriormente, vamos a estimar un modelo que
contiene una variable endógena y dos predeterminadas. La especificación es la
siguiente:
Donde:
IMP: Importaciones
PBI: Producto Bruto Interno
INV: Inversión
La especificación anterior implica que las importaciones estarían en relación
directa con el indicador de la actividad económica y con la inversión lo que
quiere decir que sus coeficientes B2 y B3 deben ser
positivos. La estimación para el periodo 1950 1982 es:
|
Dependent Variable: IMP
|
|
Method: Least Squares
|
|
Date: 11/20/01 Time: 06:31
|
|
Sample: 1950 1982
|
|
Included observations: 33
|
|
Variable
|
Coefficient
|
Std. Error
|
t-Statistic
|
Prob.
|
|
C
|
-54.22780
|
27.62708
|
-1.962849
|
0.0590
|
|
PBI
|
0.148221
|
0.032709
|
4.531469
|
0.0001
|
|
INV
|
0.443829
|
0.125104
|
3.547686
|
0.0013
|
|
R-squared
|
0.950615
|
|
Adjusted R-squared
|
0.947322
|
|
S.E. of regression
|
59.42963
|
|
Sum squared resid
|
105956.4
|
|
F-statistic
|
288.7343
|
|
Prob(F-statistic)
|
0.000000
|
Como podemos observar,
nuestros coeficientes tienen los signos esperados y hay significación estadística.
Del mismo modo en lo que respecta a la relevancia global, el coeficiente de
determinación es considerablemente alto del mismo modo F calculado con lo que
hasta aquí podríamos decir que es un modelo que esta explicando muy bien el
fenómeno económico que estamos tratando. Veamos el problema de la
multicolinealidad.
1.- Método de la relación entre t y R2
Podríamos decir ahora que este método es referencial y aplicado a nuestro
caso, significa que no existe multicolinealidad puesto que las razones t
implican significación estadística, siendo nuestra única sospecha el elevado
coeficiente de determinación.
2.- Método de la matriz de correlación
En lo que respecta a este método, vamos a hacer uso del Eviews, para encontrar
directamente matrix de correlación entre dos variables, aplicamos la siguiente
orden:
cor pbi inv y obtenemos:
|
|
PBI
|
INV
|
|
PBI
|
1.000000
|
0.943459
|
|
INV
|
0.943459
|
1.000000
|
Con lo que queda claro que
la correlación entre PBI e INV es considerable.
El resultado anterior no es una matrix y en consecuencia no podemos encontrar su
determinante. La forma como podemos encontrar los mismos valores partiendo de
una matrix es con el siguiente procedimiento:
- Convertir
en grupo las predeterminadas con la orden:
GROUP GR PBI INV donde GR es
el nombre del grupo de variables compuesto por PBI e INV, pudo haber sido
cualquier nombre.
- Aplicar
la siguiente orden:
Matrix matcor=@cor(GR) que
nos da el siguiente resultado:
|
|
C1
|
C2
|
|
R1
|
1.000000
|
0.943459
|
|
R2
|
0.943459
|
1.000000
|
Hay que destacar que cuando
damos la orden (Matrix matcor=@cor(GR) con
la palabra matrix estamos indicando que el resultado será una matrix, pudo
haber sido un vector o un escalar lógicamente que para nuestro caso es una
matrix. matcor es el nombre de la matrix, pudo haber sido otro, lo que estamos
haciendo es nombrar acorde con lo que pretendemos calcular, matcor, significaría
matrix de correlación. Luego del signo = esta la orden propiamente dicha
precedida del signo de arroba.
- Eviews
puede ahora manipular la matrix matcor y luego para encontrar el
determinante hacemos lo siguiente:
Scalar
C2=@determinant(matcor)
Como siempre c2 es el nombre del scalar, pudo haber sido otro. El resultado es:
Scalar C2=0.109885115319
Es decir el determinante de la matrix de correlación es el número indicado mas
arriba. En cuanto a la interpretación, podemos decir que el valor no esta
cercano a cero, pero tampoco a uno, luego por este método hay menos que
perfecta correlación.
3.- Método de la prueba F
Para aplicar este método, tenemos que hacer la regresión de PBI contra INV (X2
con las restantes, X3)
Esto es:
|
Dependent Variable: PBI
|
|
Method: Least Squares
|
|
Date: 11/20/01 Time: 07:59
|
|
Sample: 1950 1982
|
|
Included observations: 33
|
|
Variable
|
Coefficient
|
Std. Error
|
t-Statistic
|
Prob.
|
|
C
|
480.5837
|
124.7485
|
3.852421
|
0.0005
|
|
INV
|
3.608454
|
0.227712
|
15.84659
|
0.0000
|
|
R-squared
|
0.890116
|
|
Adjusted R-squared
|
0.886571
|
|
S.E. of regression
|
326.3249
|
|
Sum squared resid
|
3301125.
|
|
F-statistic
|
251.1145
|
|
Prob(F-statistic)
|
0.000000
|
Este método es aplicable a
situaciones donde habría mas de dos variables predeterminadas pues si nos damos
cuenta en el numerador del probador hay que corregir por K-2 G.L con lo que
quedaría una división por cero, haciendo inaplicable el mencionado método.
Sin embargo, habría que tener en cuenta que el coeficiente de determinación
para la regresión de PBI con INV es 0.890116 y si queremos encontrar la
correlación, habría que sacar raíz cuadrada al mencionado coeficiente, con lo
que el resultado es:0.943459 tal como fue calculado mas arriba.
4.- Método de los valores propios e índice de condición
Consideramos este método como el mas indicado para determinar la
multicolinealidad ya que tiene que ver con la matrix de momentos X’X, que como
demostramos en su momento si hay interaccion completa no se puede encontrar la
inversa y consecuentemente tampoco los coeficientes de regresión.
Veamos con el Eviews como conseguimos la matrix X’X.
En primer lugar debemos agrupar las predeterminadas pero considerando una
columna de 1’s para recoger el termino independiente:
GROUP GRP 1 PBI INV cuyo resultado es
|
obs
|
1
|
PBI
|
INV
|
|
1950
|
1.000000
|
890.7500
|
163.1300
|
|
1951
|
1.000000
|
960.0600
|
190.3300
|
|
1952
|
1.000000
|
1009.610
|
210.8900
|
|
1953
|
1.000000
|
1073.500
|
247.7000
|
|
1954
|
1.000000
|
1103.330
|
223.1000
|
|
1955
|
1.000000
|
1185.380
|
260.5000
|
|
1956
|
1.000000
|
1239.030
|
321.7000
|
|
1957
|
1.000000
|
1299.500
|
351.8000
|
|
1958
|
1.000000
|
1303.490
|
313.7000
|
|
1959
|
1.000000
|
1310.180
|
247.2000
|
|
1960
|
1.000000
|
1491.180
|
265.9000
|
|
1961
|
1.000000
|
1623.650
|
336.0000
|
|
1962
|
1.000000
|
1744.720
|
383.0000
|
|
1963
|
1.000000
|
1825.560
|
364.1000
|
|
1964
|
1.000000
|
1952.820
|
358.9000
|
|
1965
|
1.000000
|
2084.240
|
428.6000
|
|
1966
|
1.000000
|
2260.000
|
480.8000
|
|
1967
|
1.000000
|
2350.270
|
442.5000
|
|
1968
|
1.000000
|
2325.320
|
376.2000
|
|
1969
|
1.000000
|
2385.300
|
389.4000
|
|
1970
|
1.000000
|
2571.500
|
436.0000
|
|
1971
|
1.000000
|
2686.980
|
492.0000
|
|
1972
|
1.000000
|
2773.230
|
510.6000
|
|
1973
|
1.000000
|
2919.500
|
698.3000
|
|
1974
|
1.000000
|
3073.440
|
884.4000
|
|
1975
|
1.000000
|
3316.910
|
916.2000
|
|
1976
|
1.000000
|
3363.400
|
788.5000
|
|
1977
|
1.000000
|
3361.570
|
723.4000
|
|
1978
|
1.000000
|
3361.180
|
659.0000
|
|
1979
|
1.000000
|
3562.400
|
723.6000
|
|
1980
|
1.000000
|
3728.570
|
882.0000
|
|
1981
|
1.000000
|
3899.040
|
1024.100
|
|
1982
|
1.000000
|
3903.340
|
1001.900
|
Aplicar la siguiente orden:
Sym XX=@inner(GRP) obteniendo:
|
|
C1
|
C2
|
C3
|
|
R1
|
33.00000
|
73938.95
|
16095.45
|
|
R2
|
73938.95
|
195707488.0
|
43473608
|
|
R3
|
16095.45
|
43473608
|
9904075.
|
Una nota adicional ponemos
sym para indicar que el resultado será una matrix simétrica y además porque
la orden para encontrar los valores propios funciona solo para matrices simétricas.
Que es la matrix X’X, en nuestro caso matrix de las predeterminadas PBI INV.
De esta matrix es de la que habría que encontrar los valores propios pero
tenemos un inconveniente. Veamos:
Vector VPRO=@eigenvalues(XX)
|
R1
|
4.627378
|
|
R2
|
235407.7
|
|
R3
|
205376183.8
|
El resultado es un vector
columna que contiene los valores propios (VRPO. Pero observemos que si aplicamos
la formula de K e IC los resultados serian:
K = 44382841.38
IC = 6662.044835
Con lo que nuestras
conclusiones respecto a la multicolinealidad serían sesgadas.
¿Qué es lo que se recomienda? Consideramos que la recomendación hecha por los
autores, mas precisa es que se tiene que "normalizar las columnas de
X’X" dividiendo la mencionada matrix por la raíz cuadrada de su diagonal
principal, lo que en términos del álgebra lineal sería:
XXn=S*X’X*S
XXn: Para nuestro caso significa X’X normalizada.
S : Es una matrix diagonal cuyos elementos son
XXk,k :Elementos
de la diagonal principal de X’X
Veamos como obtenemos todo esto con Eviews:
Una nota: no olvidemos que la inversa de una diagonal es igual a 1 divididos por
los elementos de la diagonal, justamente lo que necesitamos. Para ello usamos la
sentencia compuesta:
matrix
Es lógico que conviene
hacer algunas aclaraciones respecto a las ordenes aplicadas con Eviews:
@getmaindiagonal: Crea un vector a partir de la diagonal principal de una matrix
cuadrada. Nosotros además hemos extraído raiz cuadrada (sqr).El Help de Eviews
dice:
Syntax: @getmaindiagonal(m)
Argument: matrix or sym, m
Return: vector
@makediagonal: Crea una matrix diagonal a partir de un vector. El Help dice:
Usage: @makediagonal(v, k)
Argument 1: vector or rowvector, v
Argument 2: (optional) integer, k
Return: matrix
Luego a esa matrix diagonal creada le aplicamos la sentencia @inverse, que
encuentra la inversa de una matrix, en este caso la matrix diagonal formada por
la raíz cuadrada de los elementos de la diagonal principal de X’X.
Determinar ahora la matrix normalizada XXn:
Sym XXn=S*XX*S obteniendo:
|
|
C1
|
C2
|
C3
|
|
R1
|
1.000000
|
0.920052
|
0.890306
|
|
R2
|
0.920052
|
1.000000
|
0.987450
|
|
R3
|
0.890306
|
0.987450
|
1.000000
|
De esta matrix normalizada
encontramos los valores propios:
Vector VP=@eigenvalues(XXn)
Siendo el resultado:
|
|
C1
|
|
R1
|
0.009812
|
|
R2
|
0.124385
|
|
R3
|
2.865803
|
Si encontramos el número de
condición, para nuestro caso:
Con estos resultados
analizamos el problema de la multicolinealidad,
3. Apéndice
Valores propios y vectores
propios
El cálculo de los valores propios y de los vectores propios de una matriz simétrica
tiene gran importancia en las matemáticas y en la ingeniería, entre los que
cabe destacar, el problema de la diagonalización de una matriz, el cálculo de
los momentos de inercia y de los ejes principales de inercia de un sólido rígido,
o de las frecuencias propias de oscilación de un sistema oscilante.
Se denominan valores propios o raíces características de una matriz cuadrada A,
a los valores de l tales que.
Desarrollando el determinante tenemos un polinomio de grado n. Trataremos de
encontrar los coeficientes del polinomio, y luego aplicaremos un método de
hallar las raíces del polinomio. Este procedimiento es apropiado cuando se
presentan valores propios que no son reales sino complejos.
Una vez hallados los valores propios, para hallar el vector propio X
correspondiente al valor propio l es necesario resolver el sistema homogéneo
Vamos a desarrollar un
ejemplo:
Supongamos que tenemos la matriz:
Vamos a encontrar sus raices
características o valores propios, para ello también tenemos la matriz
identidad:
El resultado A-l I es otra
matriz:
Teniendo en cuenta que I es
la matrix identidad
Si hallamos el determinante de la matrix anterior, obtenemos:
Que no es otra cosa que un
polinomio de segundo grado, luego encontrando las raíces de este polinomio
(polinomio característico)
Estas lambdas, son las raíces características o valores propios de la matrix
A. Como ejercicio, el lector sustituya cada una de las raíces en el polinomio y
observara el resultado.
Apliquemos este procedimiento a nuestro caso estudio:
La matrix característica
es:
A-l I=
El determinante(polinomio
característico) de la matrix característica es:
Sus raíces son:
Que coinciden con el
resultado mostrado mediante el calculo de EVIEWS.
Autor:
Javier Uriol Chávez
uriol@ec-red.com
Compartir