Monografias | La Regresión Loglineal para modelos Saturados y Jerárquicos aplicada al Avalúo InmobiliarioLa Regresión Loglineal para modelos Saturados y Jerárquicos aplicada al Avalúo InmobiliarioResumen: La Regresión Loglineal, es un método estadístico cuyo objetivo consiste en estudiar la "Clasificación" de las Variables Cualitativas. Es esencialmente un Modelo de Regresión Lineal Múltiple entre las Variables Cualitativas y el Logaritmo Neperiano de la Frecuencia de los datos (referenciales). Por un principio elemental de parsimonia, se debe encontrar uno o mas modelos mas simples, que generen un resultado con un grado aceptable de precisión y los definimos como "Modelos Jerárquicos", en el sentido de que si un parámetro es nulo, también los serán aquellos términos de orden inferior. Índice Abstract Marco Teórico El Modelo
Loglineal Saturado Los
Modelos Loglineal Jerárquicos La Regresión
Loglineal para modelos Saturados y Jerárquicos aplicada al Avalúo
Inmobiliario. Conclusiones Un
problema al que se enfrenta cotidianamente el Tasador es el análisis de
Variables Cualitativas (No Numéricas). Debido a que las Variables Cualitativas
no presentan un comportamiento lineal (ni reducible a lineal); al aplicar las técnicas
convencionales de regresión múltiple, pueden generar modelos irreales o
simplemente no convergen a ningún valor. La
Regresión Loglineal, es un método estadístico cuyo objetivo consiste en
estudiar la “Clasificación” de las Variables Cualitativas. Es esencialmente
un Modelo de Regresión Lineal Múltiple entre las Variables Cualitativas y el
Logaritmo Neperiano de la Frecuencia de los datos (referenciales), de la forma:
El
Modelo anterior se corresponde a un modelo completo (Saturado) para las
variables Cualitativas A, B y C; sin embargo el modelo anterior supone un modelo
pesado y complejo. Por un principio elemental de parsimonia, se debe encontrar
uno o mas modelos mas simples, que generen un resultado con un grado aceptable
de precisión y los definimos como “Modelos Jerárquicos”, en el sentido de
que si un parámetro es nulo, también los serán aquellos términos de orden
inferior. El
Paquete Estadístico SPSS, permite mediante un algoritmo, determinar el Modelo
Saturado y el Modelo Jerárquico mas adecuado. De
esta manera obtenemos un Modelo cuya Variable de Respuesta sea el Logaritmo
Neperiano de la Frecuencia (“Conteo”) de los datos (referenciales) y las
Variables de Diseño aquellas variables cualitativas seleccionadas para la
determinación de Valor de un Inmueble. Palabras
Claves: regresión, correlación, análisis loglineal, análisis de
correspondencia, dicotómica, variable cualitativa, variable categorial, análisis
multivariante, tabla de contingencia, modelo jerárquico, modelo saturado. 1.1 ¿Qué
es la Regresión Loglineal? Los
Modelos Loglineal, a diferencia de los Modelos de Regresión Múltiple, permiten
un mejor análisis para el caso de variables cualitativas (categóricas) dicotómicas
o politómicas[1]. En
Análisis Loglineal, se podría entonces definir como un Método cuyo objetivo
consiste en el estudio de las relaciones entre las variables cualitativas (o no
numéricas). La
Regresión o Análisis Loglineal, es un método estadístico cuyo objetivo
consiste en estudiar la “Clasificación”[2]
de las Variables Cualitativas. La
Regresión Loglineal, es esencialmente un Modelo de Regresión Lineal Múltiple
entre las Variables Cualitativas y el Logaritmo Neperiano de la Frecuencia de
los datos (referenciales), de la forma:
Donde
A, B y C; son Variables Cualitativas El
uso fundamental del análisis Loglineal, consiste en determinar la contribución
de las diferentes variables categoriales seleccionas, en la conformación de una
“Tabla de Contingencia”. 1.2 ¿Qué
son las Tablas de Contingencia? Se
define como “Tabla de Contingencia” (Crosstabulation Tables), a una
combinación de dos o mas tablas de distribución de frecuencia, arregladas de
manera que cada celda o casilla de la Tabla resultante represente una única
combinación de las “variables cruzadas (crosstabuled)”. De
tal manera que la “Tabla de Contingencia” nos permita examinar las
frecuencias observadas que pertenecen a cada una de las combinaciones específicas
de dos o más variables. Por
ejemplo: Tabla
de Contingencia del análisis de la relación que existe entre la Preferencia de
la población de vivir en casa o apartamento en Dos principales ciudades: VIVIR EN
CASAS VIVIR EN
APART. CARACAS 10 40 50 VALENCIA 30 20 50 50 50 100 Examinando
estas frecuencias, podemos identificar las relaciones entre las variables de la
“Tabla de Contingencia” (por ejemplo, La población de Caracas claramente
prefiere vivir en apartamentos). La
Regresión Loglineal, nos proporciona una manera más sofisticada de analizar
las “Tablas de Contingencia” y determinar las interacciones estadísticas de
las variables seleccionadas. 1.3
Variables de Diseño vs. Variables de Respuesta En
las técnicas de Regresión Múltiple, se hablan de “Variables
Independientes” y “Variable Dependiente”, definiendo a la Variable
Dependiente como aquella que es explicada por la combinación de Variables
Independientes. En
la Regresión Loglineal, no se pueden hablar de Variables Dependientes o
Independientes, ya que se trata de relacionar únicamente la el Logaritmo
Neperiano de la Frecuencia (ocurrencia o conteo de datos) en función de una
serie de variables categoriales (cualitativas). Entonces,
hablaríamos de “Variables de Diseño” y “Variable de Respuesta”; siendo
las “Variables de Diseño” aquellas variables categoriales (Dicotómicas
o politómicas) que seleccionamos para construir nuestra Tabla de Contingencia y
la “Variable de Respuesta” la frecuencia o ocurrencia de la data. 1.4 La
Bondad de Ajuste La
bondad de ajuste de una Regresión Loglineal, se basa en la “significancia”
de la desviación (residuo) entre la Frecuencia Observada de los datos y
la Frecuencia Esperada que genera el modelo loglineal. Es
decir, el modelo será mejor en función de la minimización de la diferencia
entre la Frecuencia Observada y la Esperada[3].
Se
evaluará las Significancia (p) o “Bondad de Ajuste” de un Modelo Loglineal
particular, mediante: El Test del Chi Cuadrado (
De
tal manera, que se cumplan los siguientes parámetros: 1)
Chi Cuadrado (
2)
Estadístico de Máxima Verosimilitud de Pearson (
3)
Significancia (Sig.): Mínima (
2.0
El
Modelo Loglineal Saturado 2.1
Definición de un Modelo Saturado El
Análisis o Regresión Loglineal, analiza el Logaritmo Neperiano (Ln) de la
Frecuencia de cada celda o casilla de una Tabla de Contingencia, por medio de un
modelo lineal. Por
lo tanto, el Ln de la frecuencia de cada celda o casilla se puede expresar como
la suma de las contribuciones de las diferentes variables que intervienen en la
formación del Modelo Loglineal. Se define
como Modelo Saturado (o Completo) a aquel que contiene TODOS los posibles
efectos principales y TODAS las posibles combinaciones (efectos de 2do., 3er.
o enésimo orden) de la Variables seleccionadas que lo componen. Debido
a que el Modelo Loglineal Saturado, puede reproducir perfectamente la data
estudiada, debido a que contiene todas las posibles combinaciones de las
variables seleccionadas; se supone en un modelo pesado y complejo, y usualmente
no es el modelo más deseable. Por
un principio elemental de parsimonia, se debe encontrar uno o mas modelos mas
simples, que generen un resultado con un grado aceptable de precisión y los
definimos como “Modelos Jerárquicos” y que serán analizados mas adelante. 2.2
Ejemplo de un Modelo Loglineal Saturado Supongamos
que para un estudio de valoración de apartamentos vacacionales en una ciudad
costera, queremos estudiar la relación entre las Variables Categoriales: X: Vista al Mar Y: Edificio con Piscina Z: Edificio con Puestos de Estacionamiento para visitantes La
ecuación para un Modelo Loglineal Saturado, esta dado por:
Donde:
2.3
Desventaja del Modelo Saturado EL
Modelo Saturado, aunque evidentemente siempre se cumple, supone un número
inmanejables de ecuaciones; por ejemplo para el caso anterior Nueve Ecuaciones.
Por lo tanto es un modelo pesado y sumamente complejo. Por
lo tanto, es necesaria la búsqueda de uno o varios modelos mas simples que den
cuenta de dichas frecuencias con un grado de precisión aceptable para un nivel dado de confianza[6]. Cuando
se analizan Tablas de Contingencias de Cuarto Orden o mayor, la determinación
del mejor modelo de Regresión Loglineal puede resultar altamente dificultoso.
Aquí entraría la búsqueda de una Modelo de Correlación más simple. 3.0
Los
Modelos Loglineal Jerárquicos 3.1
Definición Se
define como Modelos Loglineal Jerárquicos, a los diferentes modelos, todos
sub-juegos (ecuaciones de menor orden que el Modelo Saturado) provenientes del
Modelo Loglineal Saturado, que cumplan las condiciones siguientes: a)
Si un parámetro es nulo, también los serán aquellos términos de orden
inferior. b)
Que exista completa independencia entre las variables seleccionadas[7] Si
estas condiciones se cumplen, se genera un Modelo Loglineal más sencillo, más
elegante y con un grado aceptable de precisión 3.2 Relación
Jerárquica Para
un Modelo con Tres (3) Variables de Diseño A, B ý C, se pueden obtener una
gran cantidad de Modelos Jerárquicos de Orden Inferior, como por ejemplo los
siguientes:
3.3
Obtención del Modelo Jerárquico de Mejor Ajuste 3.3.1
Método General El
Método de búsqueda del Mejor Modelo Jerárquico más utilizado por los
paquetes estadísticos dedicados en el conocido como “Retro-eliminación”
(Backward Elimination). Esta
metodología combina el uso de los k(ésimo)-ordenes y el test Chi - cuadrado
para encontrar un Modelo Jerárquico o varios Modelos Jerárquicos
significativos La
lógica del proceso es la siguiente: a)
Se comienza calculando el Modelo Saturado. b)
Se analiza el Modelo Jerárquico o los Modelos Jerárquicos de más alto
orden c)
Se elimina el Modelo o Modelos de ese orden que no sean significativos (
d)
Se eliminan los Modelos Jerárquicos de Orden Inferior en las mismas
variables e)
Se analizan los Modelos Jerárquicos restantes f)
El proceso se continúa hasta el punto en que no puedan seguir eliminándose
mas efectos sin sacrificar el poder predictivo del modelo (
3.3.2
Uso del SPSS en la determinación de los Modelos de Regresión Loglineal El
propósito de esta monografía es en absoluto un texto sobre las técnicas de la
Regresión Loglineal. Más
bien, es la aplicación de una herramienta estadística novedosa a la resolución
de problemas relacionados con la Valuación, en el caso de la utilización de
variables no numéricas o cualitativas. Por
lo tanto, una vez expuesto en forma muy esquemática la teoría estadística –
matemática de los Modelos Loglineales (Saturados y Jerárquicos), se pasará al
estudio de un caso práctico utilizando el paquete estadístico SPSS versión
10.0[8]. El
paquete estadístico SPSS, mediante el Módulo Loglineal,
permite la determinación de Modelos Estadísticos Saturados y Jerárquicos. Dentro
de los “Modelos Jerárquicos”, el SPSS permite o bien seleccionar automáticamente
el Modelo Jerárquico de Mejor Ajuste, o permite al usuario escoger o modelar
cualquier sub-juego de variables. El
desarrollo de esta monografía se basa en la determinación automática del
Modelo Jerárquico de mejor ajuste, de acuerdo a un algoritmo propio de SPSS. El
SPSS utiliza para determinar el Modelo Loglineal de mejor ajuste el Método
denominado “Retroeliminación” (Backward Elimination), previamente citado. Es
de hacer notar, que el algoritmo de “Retroeliminación” es largo, ocupando
unas Quince (15) páginas de texto al imprimir los resultados[9] Básicamente,
se puede resumir el proceso de cálculo en los siguientes pasos generales: a)
Enterar correctamente los datos a correlacionar en el “Editor de
Datos” (Data Editor) del paquete SPSS b)
Los procedimientos de cálculo en el SPSS se encuentran en el Menú Analyze c)
Dentro del Menú Analyze se encuentra la subrutina o módulo Loglineal. d)
Dentro del módulo Loglineal, se encuentran Tres (3) Submenús:
i.
General…
ii.
Logit…
iii.
Model
Selection[10]… e)
Una vez ubicados en la pantalla Model Selection Loglineal Análisis, se
procede a:
i.
Seleccionar la “Variables de Diseño” que van a ser correlacionada.
ii.
Definir los Rangos mínimos y máximos de la data que conforman cada una
de las “Variables de Diseño”[11].
iii.
Definir las Opciones de cálculo y salida de los modelos.
iv.
E Iniciar el análisis mediante el botón OK.[12] f)
Una vez el SPSS finalizado los cálculos, presentará la salida de los
modelos en la pantalla SPSS Viewer,
en forma de texto. g)
De allí el usuario podrá o bien imprimirlo en papel o “exportar” la
salida en un archivo de texto para su uso en un procesador de palabras u hoja de
cálculo. 3.4
Interpretación de la Salida del SPSS Quizás
el problema más grande para el Ingeniero Tasador es la interpretación de la
salida del SPSS. En
primer lugar, hay que tener algún conocimiento básico de lo que se pretende
realizar ya que el paquete estadístico genera una gran cantidad de información,
la cual hay que saberla identificar y evaluar. En segundo lugar hay que estar
claro que el paquete SPSS va a generar “Tablas de Contingencia” de
diferentes niveles y hay que tener el conocimiento básico para su rearmado a
fin de poder interpretar los resultados del modelo. El
paquete estadístico dedicado SPSS, presenta una salida estándar[13]
la cual generalmente está compuesta por: a)
Generación del Modelo Loglineal Saturado[14] b)
Estadísticos de Control del Modelo Loglineal Saturado a.
Grados de Libertad (D.F.) b.
Chi Cuadrado (
c.
Estadístico de Máxima Verosimilitud de Pearson (
d.
Significancia (Prob.) e.
Otros estadísticos de control c)
Procedimiento de Retroeliminación para el cálculo del Model Loglineal
Jerárquico de Mejor Ajuste, donde el software: a.
Parte del Modelo Loglineal Saturado b.
Analiza todas los posibles los Modelos Jerárquicos partiendo del más
alto orden a mas bajo orden c.
Indica para cada uno de los “Modelos Jerárquicos” sus
correspondientes estadísticos de control d.
Sugiere a final como “Modelo Jerárquico de Mejor Ajuste” aquel que
tenga
i.
El “Estadístico de Máxima Verosimilitud de Pearson” (
ii.
La “Significancia” (
d)
Generación de: a.
Modelo Loglineal Jerárquico de “Mejor Ajuste”[15] b.
Estadísticos de Control del Modelo Loglineal Jerárquico
i.
Grados de Libertad (D.F.)
ii.
Estadístico de Máxima Verosimilitud de Pearson (
iii.
Significancia (Prob.) 4.0 La Regresión Loglineal para modelos Saturados y Jerárquicos
aplicada al Avalúo Inmobiliario. 4.1
Aplicación de la Regresión Loglineal al Avalúo Inmobiliario Un
problema al que se enfrenta cotidianamente el Tasador es el análisis de
Variables Cualitativas o Categoriales (No Numéricas), tales como Vista de
apartamento, Calidad del Vecindario, Facilidades en las áreas comunes,
Seguridad; la cuales siendo “Características Intangibles”, sin lugar a
dudas contribuyen a la formación o destrucción del valor de un inmueble. Debido
a que las Variables Cualitativas o Categoriales no presentan un comportamiento
lineal (ni reducible a lineal); al aplicar las técnicas convencionales de
regresión múltiple, inclusive Técnicas de Redes Neurales; pueden generar
resultados incongruentes o simplemente no converger a ningún valor. 4.2
Valoración mediante Tablas de Contingencias Debido
a que el objetivo último del análisis Loglineal, consiste en determinar la
conformación de “Tablas de Contingencia”. La valoración de un inmueble
estará en función de la ubicación de las características del mismo dentro de
esa “Tabla de Contingencia generada”. Por
lo tanto, aquí se presentará un enfoque diferente a la Metodología
Tradicional para la elaboración de un avalúo. Hasta
ahora, se analizaban las características físicas (área, edad, ubicación,
etc.) del inmueble a fin de determinar su valor. En
este nuevo enfoque, el “Rango del Valor”[16]
del inmueble, va a depender de su posición dentro de la “Tabla de
Contingencia” generada por el “Análisis Loglineal”. Debido a que la
variable “Precio” (o Precio Unitario) es ahora una solo “Variable de Diseño”
mas. Bajo
esta nueva perspectiva, se le ha disminuido la “categoría”, que hasta ahora
tenía, la Variable “Precio” (o Precio Unitario), y se ha reducido a ser un
componente más de los diferentes parámetros que conjuntamente podrán definir
la posición de un inmueble dentro de una tabla de contingencia y por lo tanto
determinar su “Rango de Valor”. 4.3
Ejemplo de Aplicación Debido
a lo novedoso del método y la complejidad de la interpretación de las entradas
/ salidas de la data. Se explicará paso por paso este método, bajo el enfoque
de un modelo de valoración muy sencillo. 4.3.1
Descripción del Problema Se
trata de la Valuación de apartamentos vacacionales en varias urbanizaciones
similares del Barlovento venezolano (en las cercanías de Río Chico. Estado
Miranda), tales como Los Canales, Las Mercedes, Lagunamar, etc. Debido
a que este es un simple ejemplo de aplicación, solo se seleccionaron una pequeña
muestra de 18 datos referenciales de apartamentos muy similares entre sí. 4.3.2
Variables Categoriales Seleccionadas Debido
a que este ejemplo ilustra la demostración de la Regresión Logística, se
utilizarán únicamente las Variables Categoriales o Cualitativas siguientes:
4.3.3
Referenciales Seleccionados
Todos
los Referenciales fueron tomados de la Oficina Subalterna de Registro Público
de Río Chico y se corresponden a Documentos protocolizados el primer Trimestre
del año 2,003. 4.3.4
Codificación de la Data De
acuerdo a los criterios utilizados en el Punto 4.3.2 con respecto a las
Variables de Diseño seleccionadas, se preparará una matriz de datos
codificados[17]
a fin de poder enterarlos en el paquete estadístico SPSS. 4.3.4.1
Selección de las Variables de Diseño
4.3.4.1
Codificación de las Variables de Diseño
4.3.5.1
Especificación del Modelo Loglineal *
* * * * * * * H I E R A R C H I C A
L L O G
L I N E A R * * * * * * * * DATA
Information
18 unweighted cases accepted.
0 cases rejected because of out-of-range factor values.
0 cases rejected because of missing data.
18 weighted cases will be used in the analysis. FACTOR
Information
Factor Level
Label
PRECIO 4
MERCADO 2
PISCINA 2
VISTA
2 -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 4.3.5.2
Estadísticos de Control del Modelo Loglineal Saturados[19] *
* * * * * * * H I E R A R C H I C A
L L O G
L I N E A R * * * * * * * * DESIGN
1 has generating class
PRECIO*MERCADO*PISCINA*VISTA Note:
For saturated models .500 has
been added to all observed cells. This
value may be changed by using the CRITERIA = DELTA subcommand. The
Iterative Proportional Fit algorithm converged at iteration 1. The
maximum difference between observed and fitted marginal totals is
.000 and
the convergence criterion is
.250 -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Goodness-of-fit
test statistics
Likelihood ratio chi square =
.00000 DF = 0 P
= 1.000
Pearson chi square =
.00000 DF = 0 P
= 1.000 4.3.5.3
Método de Retroeliminación (Backward Elimination): Lista de todos los posibles
efectos de 3°, 2° y 1° Orden *
* * * * * * * H I E R A R C H I C A
L L O G
L I N E A R * * * * * * * * Tests of PARTIAL associations.
Effect Name
DF Partial Chisq
Prob Iter
PRECIO*MERCADO*PISCINA
3
.044 .9976
3
PRECIO*MERCADO*VISTA
3
.189 .9794
2
PRECIO*PISCINA*VISTA
3
.000 1.0000
4
MERCADO*PISCINA*VISTA
1
.000 1.0000
3
PRECIO*MERCADO
3 7.869
.0488 4
PRECIO*PISCINA
3 5.039
.1690 3
MERCADO*PISCINA
1
.629 .4276
4
PRECIO*VISTA
3 5.917
.1157 4
MERCADO*VISTA
1 .777
.3779 4
PISCINA*VISTA
1
7.530 .0061
2
PRECIO
3
8.089 .0442
2
MERCADO
1
.223 .6370
2
PISCINA
1 .896 .3438
2
VISTA
1
.896 .3438
2 -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 4.3.5.3
Método de Retroeliminación (Backward Elimination): Selección del Modelo Jerárquico
de Mejor Ajuste[20] Step
9
The best model has generating class
PRECIO*MERCADO PRECIO*VISTA PISCINA*VISTA
Likelihood ratio chi square =
6.33129 DF = 18 P
= .995 *
* * * * * * * H I E R A R C H I C A
L L O G
L I N E A R * * * * * * * * The
final model has generating class
PRECIO*MERCADO
PRECIO*VISTA | |||||||||||||||||||||||||