Estadística y valoración urbana (II): Ajustes por el ... · Concepto de muestreo. Tipos. Muestreo...

30
BLOQUE III. VALORACIÓN INMOBILIARIA. SISTEMAS DE LA INFORMACIÓN. GESTIÓN PATRIMONIAL. T E M A 10 Estadística y valoración urbana (II): Ajustes por el método de los mínimos cuadrados. Regresión y correlación. Regresión simple y regresión múltiple. Aplicaciones en el campo de la valoración. Concepto de muestreo. Tipos. Muestreo de poblaciones finitas e infinitas. 1. Ajustes por el método de los mínimos cuadrados. Conceptos previos. DISTRIBUCIONES BIDIMENSIONALES Variables estadísticas bidimensionales Para una población dada, se pueden estudiar simultáneamente dos o más caracteres cuantitativos diferentes. De forma general, si se estudian sobre una misma población y si se miden por las mismas unidades estadísticas un carácter X y un carácter Y (ambos cuantitativos) se obtienen dos series estadísticas de las variables X e Y. considerando simultáneamente las dos series, es decir, para cada unidad estadística el par de valores (x i ; y i ) que le corresponde, se suele decir que estamos ante una estadística de dos dimensiones, o de una variable estadística bidimensional. Cuando no existe relación entre dos variables, se dice que las variables son independientes. Inversamente, cuando la relación entre dos variables es perfecta, se dice que las variables están relacionadas funcionalmente, lo que significa que su relación puede ser expresada bajo la forma y = f(x). La distribución bidimensional de dos variables X e Y es (x i , y i ; n ij ), donde x i e y i son valores de X e Y, respectivamente, y n ij es la frecuencia absoluta conjunta del valor (x i , y i ). Una forma de estudiar ambas variables es analizando por separado la distribución de X e Y, y resumir cada una de ellas por medio de sus medidas características. Las distribuciones unidimensionales de X e Y se denominan distribuciones marginales. Sin embargo, lo que se pretende es estudiar conjuntamente ambas variables, es decir, queremos calcular la distribución conjunta de las mismas, con el fin de comprobar si existe relación entre ellas y en qué grado. BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 1

Transcript of Estadística y valoración urbana (II): Ajustes por el ... · Concepto de muestreo. Tipos. Muestreo...

BLOQUE III. VALORACIÓN INMOBILIARIA. SISTEMAS DE LA INFORMACIÓN. GESTIÓN PATRIMONIAL.

T E M A

10 Estadística y valoración urbana (II): Ajustes por el método de los mínimos cuadrados. Regresión y correlación. Regresión simple y regresión múltiple. Aplicaciones en el campo de la valoración. Concepto de muestreo. Tipos. Muestreo de poblaciones finitas e infinitas.

1. Ajustes por el método de los mínimos cuadrados.

Conceptos previos. DISTRIBUCIONES BIDIMENSIONALES

Variables estadísticas bidimensionales Para una población dada, se pueden estudiar simultáneamente dos o más caracteres cuantitativos diferentes. De forma general, si se estudian sobre una misma población y si se miden por las mismas unidades estadísticas un carácter X y un carácter Y (ambos cuantitativos) se obtienen dos series estadísticas de las variables X e Y. considerando simultáneamente las dos series, es decir, para cada unidad estadística el par de valores (xi; yi) que le corresponde, se suele decir que estamos ante una estadística de dos dimensiones, o de una variable estadística bidimensional. Cuando no existe relación entre dos variables, se dice que las variables son independientes. Inversamente, cuando la relación entre dos variables es perfecta, se dice que las variables están relacionadas funcionalmente, lo que significa que su relación puede ser expresada bajo la forma y = f(x). La distribución bidimensional de dos variables X e Y es (xi, yi; nij), donde xi e yi son valores de X e Y, respectivamente, y nij es la frecuencia absoluta conjunta del valor (xi, yi). Una forma de estudiar ambas variables es analizando por separado la distribución de X e Y, y resumir cada una de ellas por medio de sus medidas características. Las distribuciones unidimensionales de X e Y se denominan distribuciones marginales. Sin embargo, lo que se pretende es estudiar conjuntamente ambas variables, es decir, queremos calcular la distribución conjunta de las mismas, con el fin de comprobar si existe relación entre ellas y en qué grado.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 1

Tablas bidimensionales de frecuencias La distribución conjunta de las variables se puede representar de un modo elemental expresando sus valores en una serie de filas y columnas, es decir en lo que se denomina tablas simples, de tal modo que reflejen el comportamiento de la variable estadística bidimensional (X,Y) a partir de los valores individuales que toman cada una de las variables estadísticas unidimensionales X e Y. Pero generalmente se suelen disponer los datos en una tabla de doble entrada en la que en la primera fila se colocan los valores de la variable X y en la primera columna se colocan los valores de la variable Y. La distribución conjunta representada en una tabla de doble entrada, se denomina tabla de contingencia si hay variables cualitativas y se denomina tabla de correlación si ambas son cuantitativas.

Diagramas de dispersión Acabamos de ver que los valores de una variable estadística bidimensional son pares de números reales de la forma (xi, yi).

Si representamos estos pares en un sistema de ejes cartesianos se obtiene un conjunto de puntos sobre el plano.

A este conjunto de puntos se lo denomina diagrama de dispersión o nube de puntos.

Covarianza de una variable bidimensional Se llama covarianza de una variable bidimensional (X, Y) a la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas. La covarianza se representa por Sxy:

N

yyxxfS

n

iiii

xy

∑=

−−= 1

))((

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 2

O también:

yxN

yxfS

n

iiii

xy −=∑=1

A la covarianza Sxy se la llama también varianza conjunta de las variables X e Y. INTERPOLACIÓN Y AJUSTE. Dada una sucesión x1, x2,…, xn de valores distintos de una variable X así como los correspondientes de otra variable Y, y1, y2,…, yn, se llama interpolación al proceso de cálculo por el cual se obtiene un valor de la segunda variable que corresponda a otro de la primera comprendido entre dos consecutivos de la sucesión.

Los pares de valores (xi; yi), que constituyen un conjunto de puntos aislados u observaciones discontinuas, determinan una función que no ha de ser necesariamente algebraica, pero que, si es conocida, reduce el problema a un simple cálculo aritmético. Cuando esa función no está determinada, la interpolación se basa en el principio de continuidad, haciendo pasar una curva por los puntos conocidos y atribuyendo a los otros las coordenadas de ésta.

Suponiendo una cierta dependencia funcional entre X e Y, es decir Y = f(X), por lo que todos los puntos (xi; yi) deben pertenecer a Y = f(X). Ahora bien, por los diferentes puntos (xi; yi) pueden pasar diferentes f(X); de todas éstas se selecciona la más sencilla. A esta función se la denomina función de interpolación o interpolatriz.

La determinación de la función de interpolación, operación necesaria previa a la interpolación, es un problema meramente matemático. Para ello existen varios métodos, entre los cuales figuran: el método de interpolación parabólica, método de aproximaciones sucesivas, método de Lagrange y el método de las diferencias finitas de Newton. Sea (xi, yj; nij) una distribución bidimensional en la que se supone que existe relación entre las variables X e Y. A diferencia de la interpolación, ahora no vamos a suponer que exista dependencia funcional entre las variables, sino dependencia estadística.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 3

Si representamos gráficamente en unos ejes de coordenadas los pares de valores de las dos variables, el problema del ajuste consiste en la obtención de la ecuación de una curva que pase “cerca” de los puntos dados, y que se adapte lo mejor posible al conjunto de los mismos, cumpliendo determinadas condiciones. Por lo tanto, cuando se pretende hacer un ajuste nos encontramos con dos problemas:

a) Elegir el tipo de curvas que mejor se adapte a los datos disponibles, es decir, que mejor represente la relación entre X e Y. en esta fase suele ser de gran utilidad la representación gráfica como orientación para la elección.

b) Fijado el tipo de curva a través de su ecuación en forma explícita

con un cierto número de parámetros, determinar éstos mediante las condiciones que se impongan según el procedimiento de ajuste empleado.

Para seleccionar el tipo de función podemos observar su representación gráfica o nube de puntos de la distribución. Una vez seleccionado el tipo de función, tendremos que determinar cual de ellas, de las infinitas que hay en el plano, pasa lo más cerca posible de los puntos. AJUSTE POR EL MÉTODO DE LOS MINIMOS CUADRADOS. Dados los puntos (x1, y1), (x2, y2), …, (xm, ym), elegida una función de ajuste definida por :

),,,;( 21 naaaxfy K= En la que intervienen n parámetros (a1, a2, …,an), n < m, consideramos la nube de puntos, en donde para cada valor de X, xi, tenemos dos valores de Y, el observado yj correspondiente a la nube de puntos, y otro que vamos a llamar teórico, que se obtiene al hacer x = xi en la función, y para el que emplearemos la notación de yj*. Como se puede observar, para cada xi tenemos una diferencia entre los dos valores de Y, el observado y el teórico, que vamos a llamar residuo o error ej, tal que:

∗−= jjj yye

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 4

El método de mínimos cuadrados consiste en determinar los parámetros a1, a2, …, an de tal forma que el conjunto de los residuos sea mínimo. Si tomamos la suma de todos los residuos

iji j

jj nyy∑∑ ∗− )(

Se nos presentarán dos inconvenientes. Primero, como unos residuos serán unos de signo positivo y otros de signo negativo, al sumar se compensan y la suma mínima podría ocultar residuos de cierta importancia a ambos lados de la curva ajustada. Segundo, la determinación de los parámetros no es única, ya que tendríamos diferentes conjuntos de valores de los parámetros que arrojarán la misma suma mínima de los residuos. Para obviar lo anteriormente expuesto, buscaremos minimizar la expresión cuadrática

ijji j

j nyy 2)( ∗−=Φ ∑∑

Como los valores teóricos son los obtenidos a partir de la curva ajustada, es claro que

),,,;( 21 nij aaaxfy L=∗

de donde se deberá hacer mínimo

[ ] iji j

nij naaaxfy 221 ),,,;(∑∑ −=Φ K

Para lo cual la condición necesaria es que las primeras derivadas parciales respecto a cada uno de los parámetros se anulen. Resolviendo el sistema de ecuaciones resultante, llamado de ecuaciones normales, quedan determinados a1, a2, …, an, así como la correspondiente función.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 5

Algunos ajustes por mínimos cuadrados Ajuste de una recta Dada una cierta estructura de la nube de puntos se decide ajustar una recta de la forma:

ij bxay +=∗

Para determinar a y b haremos mínimo:

[ ]

iji j

ij

iji

ijijji j

j

nbxay

nbxayjnyy

2

22

)(

)()(

∑∑

∑∑∑∑−−=Φ

=+−=−=Φ ∗

para lo cual las derivadas parciales respecto a a y b deberán anularse, es decir:

0)1)((2 =−−−=∂Φ∂ ∑∑ iji

i jj nbxay

a

0))((2 =−−−=Φ∂Φ∂ ∑∑ iji

i jij nxbxay

dividiendo ambos miembros por -2, tendremos:

0)( =−−∑∑ ijii j

j nbxay

0))(( =−−∑∑ ijiii j

j nxbxay

operando y traspasando términos:

iji j

ii j

ijiji j

j nxbnany ∑∑∑∑∑∑ +=

iji j

iiji j

iiji j

ji nxbnxanyx ∑∑∑∑∑∑ += 2

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 6

que al sumar las frecuencias quedará:

.. ii

ijj

j nxbaNny ∑∑ +=

.2

. ii

iii

iijji j

i nxbnxanyx ∑∑∑∑ +=

Resolviendo este sistema, llamado sistema de ecuaciones normales como antes dijimos, determinaremos los valores de a y b de la recta que mejor se ajusta a la nube de puntos dada.

Ajuste de una parábola En este caso, la curva seleccionada es:

2iij cxbxay ++=∗

y para hallar a, b, y c, debemos minimizar:

ijiii j

j ncxbxay 22 )( −−−=Φ ∑∑ Para ello las primeras derivadas, respecto de a, b, y c, se deberán anular y procediendo de forma análoga al caso de la recta nos quedará el sistema de cuya resolución se obtienen los valores numéricos de los parámetros de la mejor parábola de segundo grado en el sentido mínimo cuadrático para la nube de puntos dada. Por supuesto que esto es generalizable a un polinomio de grado h, del tipo:

hh xaxaxaay ++++= K2

210

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 7

Ajuste hiperbólico Este tipo de funciones tienen un especial interés para el economista. Estas funciones tienen la forma:

yx

bbyx =⇔=1

siendo b una constante cualquiera.

Otro tipo de función también muy corriente es la función anterior, pero desplazada una cantidad a

x

bay 1+=

El ajuste de mínimos cuadrados se reduce al caso de la recta en

cuanto realizamos la transformación

x

z 1=

con lo que quedaría: bzay += .

Esto quiere decir que si partimos de una distribución (xi, yj; nij), para ajustar una hipérbola equilátera debemos ajustar una recta a la distribución (zi, yj; nij), donde:

i

i xz 1=

Ajuste potencial La forma general de la forma potencial es.

bxay ⋅=

Que se puede reducir ala caso general lineal tomando logaritmos:

xbAxbay loglogloglog +=+=

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 8

Partiendo de (xi, yj; nij), para ajustar una función potencial, habrá que ajustar una recta a la distribución (zi, uj; nij), en donde:

ii xz log=

ji yu log=

Una vez determinados los parámetros, A = log a y b en el ajuste lineal u = A +bz, la potencial será:

bxay ⋅=

Donde a = antilog A

Ajuste de una función exponencial La ecuación general es de la forma:

2bay ⋅=

Tomando logaritmos, linealizamos la función:

bxay logloglog +=

es decir, Y = A + Bx.

En este caso, el ajuste de la recta se hará a la distribución (xi, ) en donde:

jj yY log=

y siendo A = log a y B = log b los parámetros determinados por mínimos cuadrados, los parámetros de la exponencial serán: a = antilog A b = antilog B

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 9

2. Regresión y correlación

Uno de los objetivos de todo tipo de investigador es el de encontrar relaciones entre los sucesos que se le presentan dentro de su campo de investigación. El científico o investigador intenta traducir esas relaciones en estructuras manejables, para lo cual hace uso de un lenguaje ya conocido, fundamentalmente el estadístico-matemático, a través del establecimiento de relaciones funcionales en donde un número finito de magnitudes (variables o atributos) X1, X2, …, Xp se supone que están relacionadas con una variable Y a través de la expresión Y = f (X1, X2, …, Xp) Bien sea por el desconocimiento del investigador sobre la verdadera estructura de la relación entre estas magnitudes, bien sea porque esa dependencia no es exactamente matemática, el tratamiento que necesita esta modelización no es estrictamente matemático, sino que requiere un análisis fundamentalmente estadístico. Desde este punto de vista, dos son los enfoques con que simultáneamente se puede abordar este problema:

• El estudio del grado de dependencia existente entre las variables, que será el contenido de la teoría de la correlación.

• La determinación de aquella estructura de dependencia que

mejor exprese el tipo de relación de la variable Y con las demás. Precisamente, la REGRESIÓN tiene por objeto esta segunda finalidad, a saber: poner de manifiesto, a partir de la información de que se disponga, la estructura de dependencia que mejor explique el comportamiento de la variable Y (variable dependiente o explicada) a través de todo el conjunto de variables X1, X2, …, Xp (variables independientes o explicativas) con las que se supone que está relacionada. Se introducirá en una primera parte el problema general de la regresión y la correlación para el caso más simple en que tengamos una sola variable explicativa, y más adelante el planteamiento de la regresión y correlación múltiples, en el que se introduce más de una variable explicativa en el modelo.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 10

Sea, pues, X e Y dos variables cuya distribución conjunta de frecuencias es (xi, yj; nij). Llamaremos regresión de Y sobre X a la función que explica la variable Y para cada valor de X. la regresión de X sobre Y nos hablará del comportamiento de X para cada valor de Y. CORRELACIÓN De una manera general, llamaremos correlación a la teoría que trata de estudiar la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Con arreglo a lo que se contempla en los diferentes diagramas de dispersión que se pueden tratar, se dice que:

1. La correlación es lineal o curvilínea según que el diagrama de puntos se condense en torno a una línea recta o una curva.

2. La correlación es positiva o directa cuando a medida que crece

una variable la otra también crece. 3. La correlación es negativa o inversa cuando a medida que crece

una variable la otra decrece.

4. La correlación es nula cuando no existe ninguna relación entre ambas variables. En este caso los puntos del diagrama están esparcidos al azar, sin formar ninguna línea, y se dice que la variables están incorreladas.

5. La correlación es de tipo funcional si existe una función tal que

todos los variables de la distribución la satisfacen. Desde este momento nos centraremos en el estudio de la correlación lineal. Coeficiente de correlación lineal Una vez que se ha observado por vía intuitiva, mediante el diagrama de dispersión, la existencia de correlación lineal entre las variables, tiene interés cuantificar de la forma más objetiva y precisa posible esta correlación.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 11

El procedimiento más frecuentemente utilizado para asignar valores a las posibles correlaciones entre variables es el coeficiente de correlación de Pearson. El coeficiente de correlación lineal de Pearson se define mediante la siguiente expresión:

yx

xy

SSS

r =

en la que:

Sxy es la covarianza de la variable bidimensional (X,Y) Sx es la desviación típica de la variable unidimensional X Sy es la desviación típica de la variable unidimensional Y

Hagamos algunas observaciones al coeficiente de correlación que acabamos de definir:

1. El cálculo practico del coeficiente de correlación lineal r resulta muy sencillo una vez que se sabe calcular la covarianza de la variable (X, Y), así como las desviaciones típicas de las variables X e Y.

2. El signo del coeficiente r viene dado por el signo de la covarianza, ya

que las desviaciones típicas son siempre positivas. Así pues, el signo de la covarianza decide el comportamiento de la correlación:

• Si la covarianza es positiva la correlación es directa.

• Si la covarianza es negativa la correlación es inversa.

• Si la covarianza es nula no existe correlación.

3. Se demuestra que el coeficiente de correlación lineal es un número

real comprendido entre -1 y 1.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 12

Estudio de la dependencia a partir del valor del coeficiente de correlación lineal Analicemos cómo es el grado de dependencia entre las variables X e Y, que componen una variable bidimensional (X, Y), a partir del valor que toma el coeficiente de correlación lineal.

1. Si r = -1 se puede demostrar que todos los valores de la variable bidimensional (X, Y) se encuentran situados sobre una recta; en consecuencia satisfacen la ecuación de una recta. Entonces se dice que entre las variables X e y existe una dependencia funcional.

2. Si -1 < r < 0 la correlación es negativa y será tanto más fuerte a

medida que r se aproxima más a -1 y tanto más 0. En este caso se dice que las variables X e Y están en dependencia aleatoria.

3. Si r = 0 entonces no existe ningún tipo de relación entre las dos

variables. En este caso se dice que las variables X e Y son aleatoriamente independientes.

4. Si 0 < r < 1 la correlación es positiva y será tanto más fuerte a

medida que r se aproxima más a 1 y tanto más débil a medida que se aproxime más a 0. En este caso se dice que las variables X e Y están en dependencia aleatoria.

5. Si r = 1 se puede demostrar que todos los valores de la variable

bidimensional (X, Y) se encuentran situados sobre una recta; en consecuencia satisfacen la ecuación de una recta. En este caso se dice que entre las variables X e Y existe una dependencia funcional.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 13

3. Regresión simple y regresión múltiple. Aplicaciónes en el campo de la valoración.

REGRESIÓN LINEAL Idea intuitiva del ajuste de una línea de regresión a un diagrama de dispersión Supongamos que tenemos un diagrama de dispersión. Ahora tratamos de construir una línea (en este caso una recta) que se aproxime lo mejor posible a una nube de puntos.

Evidentemente, de todas las rectas representadas en el diagrama, parece que la mejor cumple la condición antes descrita es la recta r. ésta será la recta de regresión.

Ahora bien, el método para conseguir la línea que mejor se aproxime a una nube de puntos no parece fácil. Como primera aproximación cabría obtener “a ojo” una línea que se considerase como la más representativa.

Es fácil comprender la carencia absoluta de rigurosidad y subjetivismo. Posteriormente, se va a contemplar, un método analítico que permite obtener la ecuación de la línea de regresión. La regresión será lineal cuando la curva de regresión obtenida o seleccionada sea una recta. Vamos a desarrollar este caso particular, que es el más empleado, centrándonos ya sólo en las rectas mínimo-cuadráticas de regresión. Concepto general de regresión Consideremos una variable estadística bidimensional (X, Y) para la que se ha comprobado la existencia de una correlación fuerte entre las variables X e Y. en este caso el análisis de la regresión permite obtener la ecuación de la función matemática que mejor se ajusta al diagrama de dispersión. Ahora bien, ¿qué entendemos por la línea que mejor se ajusta al diagrama de dispersión? Es fácil comprender que se trata de aquella línea que haga que la suma de las desviaciones de los puntos de la nube respecto de las

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 14

correspondientes de la línea sea lo menor posible. En estas condiciones diremos que es la línea que menos se separa de la nube de puntos. A la hora de realizar el ajuste de una línea de regresión a una nube de puntos existe la posibilidad de aproximar ésta mediante una recta una parábola, una cúbica, una exponencial, etc. En lo sucesivo limitaremos el estudio a la regresión lineal, del mismo modo a como hicimos con la correlación. Estudio analítico de la regresión lineal Supongamos que una vez estudiada la correlación existente entre las dos variables X e Y que componen una variable bidimensional (X, Y) se observa que dichas variables están fuertemente correladas y que el diagrama de puntos se puede ajustar mediante una recta. Consideremos X como variable independiente e Y como variable dependiente de X. Entonces el problema consiste en encontrar la ecuación de una recta de la forma y = a . x + b que sea la que mejor se ajuste a la nube de puntos. Así pues, el problema queda reducido al cálculo de los parámetros a y b. para el cálculo de estos parámetros que permiten la recta que mejor se aproxima a la nube de puntos, existen varios métodos, siendo el más utilizado el denominado mínimos cuadrados. Como ya se ha visto anteriormente, basta indicar, como precisión interesante, que dicho método se basa en el hecho de que la recta que se obtiene se hace mínima la suma de los cuadrados de las diferencias entre los valores observados experimentalmente y los teóricos que se obtengan mediante la recta. De la aplicación del método anteriormente citado se obtiene que la recta

de regresión pasa por el punto ( )yx, , siendo x e y las medias

aritméticas de las variables X e Y, respectivamente. Por tanto, la ecuación buscada será de la forma:

( )xxmyy −=−

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 15

Donde m recibe el nombre de coeficiente de regresión y se demuestra que es igual a

2x

xy

SS

m =

Luego la ecuación de la recta de regresión es:

( )xxSS

yyx

xy −=− 2

A esta recta de regresión se la llama recta de regresión de y sobre x, ya que hemos considerado la variable X independiente y la variable Y dependiente de X. A partir de esta recta podemos calcular con cierta aproximación los valores de y conocidos los de x, sin más que sustituir estos últimos en la ecuación. A estos cálculos se les suele llamar estimaciones o previsiones. Análogamente se puede obtener la recta de regresión de x sobre y. en este caso la variable independiente es Y, siendo X la variable dependiente de Y. La ecuación de la recta de regresión de x sobre y es de la forma:

( )yySS

xxy

xy −=− 2

A partir de esta recta podemos calcular, con cierta aproximación, los valores de x conocidos los de y, sin más que sustituir estos últimos en la ecuación. ¿Qué fiabilidad podemos conceder a estos cálculos obtenidos a través de las rectas de regresión?

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 16

Recordando las observaciones hechas en el apartado anterior, dedicado a la correlación, concluiremos que la fiabilidad será tanto mayor, cuanto mayor sea el coeficiente de correlación lineal en valor absoluto. Así pues:

Si r es muy pequeño, no tiene sentido realizar ningún tipo de estimaciones o previsiones.

Si r es próximo a -1 o a 1, probablemente los valores reales

serán próximos a nuestras estimaciones.

Si r = -1 o r = 1, las estimaciones realizadas coincidirán con los valores reales.

Pero incluso para valores de r próximos a uno, las estimaciones que obtengamos pueden resultar poco fiables; por ejemplo, cuando se pretenda extrapolar más allá del recorrido de los datos observados. Es cierto que en muchas ocasiones es necesario realizar extrapolaciones, pero es conveniente tener en cuenta siempre el elevado riesgo que se corre de obtener resultados totalmente erróneos.

La aplicación de los métodos de regresión y correlación exige un análisis teórico previo de las posibles relaciones entre las variables. El prescindir de esta reflexión inicial puede conducir nuestro análisis a conclusiones absurdas. De hecho, puede ocurrir que se seleccionen dos variables cualesquiera al azar y que dé la casualidad de que, estadísticamente, la correlación sea perfecta, pero teóricamente no se pueda asignar ningún tipo de relación entre ellas.

Se deben seleccionar variables entre las que la fundamentación teórica avale algún tipo de relación, evitando, en lo posible, relaciones a través de otra variable principal. Por ejemplo, el consumo de bebidas puede variar en la misma dirección que el consumo de gasolina, pero no porque una variable dependa directamente de la otra, sino porque ambas van en el mismo sentido que las variaciones de la renta, que será la principal variable explicativa.

El objetivo último de la regresión es la predicción o pronóstico sobre el comportamiento de una variable para un valor determinado de la otra. Así, si la recta de regresión de Y sobre X es:

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 17

)(2 xxSS

yyx

xy −+=

la predicción de Y para X = x0 será

)ˆ( 020 xxSS

yyx

xy −+=

Es claro que la fiabilidad de esta predicción será tanto mayor, en principio, cuanto mejor sea la correlación entre las variables. Por tanto, una medida aproximativa de la bondad de la predicción podría venir dada por r.

REGRESIÓN MÚLTIPLE Distribución p-dimensional de frecuencias En anteriores epígrafes se han estudiado las distribuciones bidimensionales y las teorías de la regresión lineal simple y de la correlación, que nos permiten relacionar el comportamiento de una variable con el de otra. Pero, en la realidad, lo habitual es que una variable venga explicada por la acción simultánea de otras varias. De aquí el interés de generalizar el modelo visto al caso p-dimensional.

Llamaremos distribuciones p-dimensionales a las procedentes de la observación de p características simultáneamente. Cada una de las características observadas da lugar a una variable unidimensional, por lo que son distribuciones “conjuntas” de p variables.

El conjunto de observaciones se suele denominar “matriz de observaciones”, ya que dichas observaciones se pueden representar en una matriz de orden (N x p). El subíndice o número de fila corresponde al subíndice de la variable (1, 2,…, p), y el número de columna al orden de la observación (1, 2,…, N).

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 18

Regresión múltiple

Generalizando el concepto de distribución condicionada, ya visto anteriormente, denominaremos hipersuperficie de regresión al lugar geométrico de todas las medias condicionadas de las variables.

Nótese que para cada combinación de los valores de X2, X3,…, Xp tendremos una distribución de X1, para la que obtendremos un valor medio. Formando todas las posibles combinaciones de valores de X2, X3,…, Xp, obtendremos para cada una de ellas una distribución de X1, con su correspondiente valor medio. La hipersuperficie en que se encuentran dichos valores medios es la llamada hipersuperficie de regresión de X1 sobre X2, X3,…, Xp.

Pudiera darse el caso de que las hipersuperficies de regresión fueran hiperplanos (planos, para el caso de tres variables). En este caso, los hiperplanos (o planos) de regresión coinciden con los que se obtienen al realizar el ajuste mínimo-cuadrático.

Gráficamente, en el caso de tres variables, si representamos la distribución en un sistema tridimensional de ejes cartesianos, obtendremos una nube de puntos. Esta nube de puntos estará distribuida alrededor del punto O´de coordenadas x1, x2, x3.

Como suponemos que la regresión de X1 sobre X2 y X3 es lineal, el plano de regresión coincidirá con el plano que ajustemos a la nube de puntos por el método de mínimos cuadrados.

Si

103132121 bxbxbx ++=∗

Es la ecuación del plano que queremos ajustar, los coeficientes b, b (coeficientes de regresión parcial) y b se determinarán con la condición de que sea mínima la suma de los cuadrados de las diferencias entre los valores observados x1j y los calculados mediante la ecuación del plano, x*1j. Consideremos el caso en que se seleccione una función del tipo lineal, tal como:

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 19

pjpjjj xbxbxbby ++++=∗ K22110

en donde, para mayor claridad en la exposición, a la variable explicada la representamos por Y, y a todas las explicativas por X1, X2,…, Xp. Para ajustar un hiperplano de regresión, la condición mínimo-cuadrática es:

2)( ∗−∑ j

jj yymín

Donde: yj son los valores observados, e y son los valores teóricos que se obtendrían a través del hiperplano.

La regresión múltiple es un procedimiento muy conocido, que está implementado en programas informáticos de uso común, tales como las hoja de cálculo. Es la expresión más inmediata del Método Hedónico, y en ella se trata de poner el valor en función de las variables mediante una ecuación sencilla, de tipo lineal, exponencial, cuadrática, etc. Las modalidades más utilizadas para el mercado inmobiliario son las siguientes:

Regresión aditiva Regresión multiplicativa

Regresión híbrida

En la primera, la ecuación resultante es del tipo:

nnxaxaxaay ++++= K22110

Donde “y” es el valor, “xi” las variables y “ai” los coeficientes establecidos por la regresión.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 20

La regresión multiplicativa tiene dos modalidades:

nxn

xx aaaay ∗∗∗∗= L21210

na

naa xxxay ∗∗∗∗= K21210

La primera de esta dos modalidades es la que suele aportar mejores resultados, y es la más utilizada.

En cuanto a la regresión híbrida, se llama así por una mezcla de las dos anteriores, y su ecuación es del tipo:

nn x

nxn

xx aaaay ∗∗+∗∗= −121121 KK

Es decir, que tiene dos partes multiplicativas separadas por una suma.

La regresión aditiva relaciona las variables con el valor mediante la ecuación de una línea recta en el espacio de “n” dimensiones, siendo “n” el número de variables. La contribución de cada variable es bastante clara al añadirse mediante una suma a las demás. La regresión multiplicativa hace lo mismo que la anterior, pero esta vez la ecuación corresponde a una línea curva de tipo exponencial. Este tipo de regresión permite obtener, por lo general, resultados más precisos que el anterior, esto es así porque la relación de las variables con el valor no tiene por que aproximarse a una línea recta, y suele tener alguna curvatura. La regresión híbrida recoge ventajas de las dos anteriores. Busca la mayor precisión de la multiplicativa, combinada con la claridad de la contribución de las variables de la aditiva, si bien aquí son dos grupos de variables. Suele ser frecuente agrupar en uno de los sumandos las variables cuantitativa y en el otro las cualitativas. Cualquiera que se a el tipo de regresión que se utilice, su aplicación al fichero con la muestra de mercado produce el resultado inmediatamente. El resultado es la ecuación, junto con una serie de indicadores que sirven para estimar su calidad.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 21

Lo normal es que la ecuación de regresión no salga del todo bien a la primera, y los indicadores muestran como mejorarla. Una de las mejores indicaciones es la identificación de “outliers”, que son operaciones atípicas, o con datos erróneos que superaron la primera etapa. Al retirar estas operaciones y volver a ejecutar la regresión los resultados mejoran significativamente. La regresión se muestra, en general, como un sistema eficaz para construir un modelo matemático del mercado, y son muchos los profesionales que la utilizan para realizar las valoraciones administrativas en diversos Estados. En un primer momento fue la regresión de tipo aditivo la que comenzó a usarse, pero en la actualidad las de tipo multiplicativo e híbrido están ganado terreno por su mayor precisión. Sin embargo, la regresión presenta algunas limitaciones que conviene apuntar. En primer lugar no es muy tolerante a fallos, es decir que unas pocas operaciones erróneas o atípicas pueden alterar mucho los resultados. Esto puede ser un problema en un mercado como el inmobiliario donde, como ya se ha comentado, la información presenta bastantes deficiencias. Además, tiene problemas para modelizar el mercado cuando las variables se relacionan con el valor de una forma compleja, es decir que la relación no se adapta a una línea recta o una curva sencilla. Por ello suele dar buenos resultados cuando se aplica a una urbanización o a una ciudad pequeña o mediana. Pero cuando el territorio aumenta, y con él la complejidad de las variables, los resultados pueden deteriorarse. También presenta deficiencias para valorar propiedades atípicas. De todas formas, conociendo estas limitaciones y seleccionando adecuadamente las variables y las operaciones, este método es eficaz, como lo demuestra la extensión de su uso.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 22

4. Concepto de muestreo. Tipos. Muestre de poblaciones finitas e infinitas. En la práctica ocurre que es imposible estudiar todos los elementos de una población, bien por ser esta muy numerosa o ser el estudio muy costoso. Por esta razón, es necesario utilizar muestras y de ellas inferir las características de la población. Una muestra perfecta de una población sería una versión a escala de la misma, que reflejaría cada una de sus características. Por supuesto, una muestra perfecta como ésta no puede existir para poblaciones complejas (aunque existiera, no sabríamos que es perfecta sin antes medir a toda la población). Sin embargo, una buena muestra reproducirá las características de interés que existen en la población de la manera más cercana posible. Es fundamental llevar a cabo una etapa de diseño de muestreo para obtener una buena muestra y eliminar posibles sesgos de selección y de medición. Una regla empírica ampliamente contrastada es esperar entre un 2 y un 5% de observaciones con errores de medición, trascripción, etc. Por tanto, antes de utilizar los datos muestrales conviene aplicar técnicas estadísticas para identificar valores anómalos y eliminar errores de medición. Otro factor importante a tener en cuenta es el denominado error de muestreo, el cual resulta al considerar una muestra y no examinar a toda la población, representado de forma probabilística. Sesgos de selección y medición y error de muestreo Veamos previamente algunos términos necesarios para el seguimiento de la materia a estudiar. Denominamos población objetivo a la colección completa de observaciones que queremos estudiar, la población muestreada será aquella de donde se extrae la muestra, y la muestra es, por tanto, un subconjunto de la población muestreada formada por unidades de observación, objeto sobre el cual se realiza una medición. En muchas cosas ocasiones, la población muestreada es menor que la población objetivo. Ya se ha indicado anteriormente que para obtener una buena muestra, es fundamental llevar a cabo una etapa de diseño del muestreo y eliminar posibles sesgos de selección y de medición. El sesgo de selección ocurre cuando alguna parte de la población no está en la población muestreada.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 23

El sesgo de medición se presenta cuando el instrumento con el que se mide alguna característica de interés (por ejemplo, alguna variable asociada a las observaciones) proporciona que tienden a diferir del valor verdadero. Este sesgo es especialmente preocupante en la realización de encuestas, en las que las personas no siempre dicen la verdad ni interpretan bien las preguntas; algunas veces dan diferentes respuestas a diferentes entrevistadores o responden lo que creen que éstos quieren escuchar. Como ya sabemos, una muestra perfecta de una población sería una versión a escala de ella y reflejaría cada una de sus características. Sin embargo, una muestra perfecta como ésta no puede existir para poblaciones complejas, por lo que buscaremos una buena muestra, que reproducirá las características de interés que existen en la población de la manera más cercana posible. Supongamos una población formada por N elementos {x1, x2,…, xN} y definimos una característica poblacional como θ(x1, x2,…, xN), que podría tratarse, por ejemplo, del total poblacional (θ(x1, x2,…,xN) = T = x1 + … + xN) o la media poblacional (θ(x1, x2,…, xN) = μ = (x1 + … + xN)/N). Se extrae mediante un método de muestreo una muestra de dicha población formada por n elementos {x1, x2,…, xN}, siendo n<N. A partir de la muestra extraída se podrán hacer estimaciones de las características poblacionales, θ. Es evidente que la precisión de las estimaciones que realicemos de estas características dependerá de la calidad de la muestra, es decir, cuanto más representativa sea la muestra más precisas serán las estimaciones que realicemos sobre la población. Las estimaciones se realizan a través de funciones matemáticas de la muestra denominadas estimadores, = θ(xθ̂ 1, x2,…, xn). Al depender el valor de los estimadores de la muestra concreta seleccionada, podremos considerarlos como variables aleatorias. Así, la distribución de probabilidad de estos estimadores se podría definir a partir de los posibles valores que puedan adoptar junto con las probabilidades de que tomen cada valor, que se definen como la suma de las probabilidades de todas las muestras que lo originan. Por ejemplo, supongamos que queremos analizar la superficie media de las viviendas de la CAM. Si dispusiésemos de las superficies de todas las viviendas, entonces la superficie media (poblacional) sería

θ = μ = (x1 + … + xN)/N.

Tomemos una muestra de viviendas de tamaño n y estimemos a partir de ella, mediante un estimador, θ(x1, x2,…, xn), el valor de dicha característica poblacional. Es evidente, que el número de muestras formadas por n viviendas que podemos tomar es frande, y para cada una de ellas podremos obtener distintas estimaciones. Por ello, consideramos

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 24

el estimador como una variable aleatoria de la que nos interesarán sus características de centralización y dispersión.

La precisión de los estimadores se analiza en función de conceptos como:

• El error de muestreo o desviación típica, que cuantifica la

concentración de las estimaciones alrededor de su valor medio. • El error relativo de muestreo, que es la razón entre el error

de muestreo y su valor esperado, es decir, es el cociente de variación del estimador.

• El error cuadrático medio, que cuantifica la concentración de

las estimaciones alrededor del verdadero valor del parámetro. • El sesgo, que cuantifica la distancia entre el valor esperado del

estimador y el verdadero valor. El sesgo que se acaba de presentar no tiene ninguna relación con los sesgos de selección y medición que se han visto en el anteriormente. Aunque todos ellos indican una desviación sistemática con respecto al valor de la población, en este caso significa simplemente que el estimador elegido produce un sesgo. En la práctica, se considera que este sesgo no es influyente cuando el cociente entre el sesgo y el error de muestreo es menor que 1/10, en cuyo caso hablaremos de estimador insesgado.

La construcción de estimadores no es independiente del proceso de muestreo que se utilice. Generalmente, para construir estimadores se utiliza el principio de analogía, es decir se estima un parámetro poblacional a partir del estimador muestral análogo. Por ejemplo, para estimar la media poblacional se utiliza como estimador su análogo muestral, es decir la media muestral. Los estimadores por analogía no tienen siempre las propiedades más deseables, aunque a veces puede corregirse su sesgo (cuando son sesgados) multiplicándolos por una constante convenientemente elegida.

De este modo, un estimador de la superficie media de las viviendas de la CAM a partir de una muestra extraída podría ser:

( ) ( ) nxxxxxx nn /,,,ˆ121 ++== KKθ

Siendo n el tamaño de la muestra.

Proporcionar un estimador sin indicar su precisión es de escasa utilidad y puede resultar engañoso. Anteriormente, se han presentado algunas medidas para la precisión de un estimador, en concreto, el error de muestreo, el error relativo de muestreo, el error cuadrático medio y el sesgo. Otra forma de representar la precisión de un estimador es mediante los denominados intervalos de confianza. Para su obtención

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 25

se debe especificar el valor de un parámetro α, denominándose a 1 – α como coeficiente de confianza.

TIPOS DE MUESTREO Muestreo aleatorio simple El muestreo aleatorio simple (m.a.s.) es la forma más sencilla de llevar a cabo un muestreo probabilístico y proporciona la base teórica de las formas más complejas y se diferencian dos tipos de m.a.s.: sin reemplazamiento y con reemplazamiento. En el m.a.s. sin reemplazamiento todas las posibles muestras tendrán la misma probabilidad de ser seleccionadas y todos los elementos de la población muestreada tendrán la misma probabilidad de estar en la muestra. Se seleccionan de la población muestreada, de uno en uno, los elementos de la muestra de forma aleatoria sin tener en cuenta el orden de los elementos de la muestra (muestras con los mismos elementos ocupando distintas posiciones se consideran iguales) y sin reemplazamiento (no es posible que haya muestras con elementos repetidos). En m.a.s. con reemplazamiento, todas las posibles muestras tendrán la misma probabilidad de ser seleccionadas, pero es posible que haya muestras con elementos repetidos y cualquier elemento de la población puede estar repetido en la muestra hasta n veces. Se seleccionan de la población muestreada, de uno en uno, los elementos de la muestra de forma aleatoria sin tener en cuenta el orden de los elementos en ella (muestras con los mismos elementos ocupando distintas posiciones se consideran iguales) y con reemplazamiento (se reponen en la población los elementos previamente seleccionados) Estimación del tamaño de la muestra A la hora de diseñar el muestreo un paso muy importante es estimar el tamaño de la muestra que se va extraer. Es lógico pensar que cuanto mayor sea el tamaño de la muestra, mejor serán las estimaciones que se hagan de las características poblacionales, pero también será mayor el coste del estudio. Por ello, debemos decidir la cantidad de error de muestreo en las estimaciones que sea tolerable y debemos equilibrar la precisión de las estimaciones con el coste del estudio. Para estimar el tamaño de la muestra nos debemos preguntar en primer lugar cuánta precisión necesitamos o cual es la cantidad de error tolerable. Un error frecuente es preguntarnos qué porcentaje de la población debe incluirse en la muestra ya que, excepto en poblaciones pequeñas, la precisión se logra mediante el tamaño absoluto de la muestra y no con la proporción de la población cubierta.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 26

Muestreo sistemático En el muestreo sistemático, si queremos extraer una muestra formada por n elementos, agrupamos los N elementos que componen la población muestreada en n grupos de k elementos de forma que entre todos contengan a todos los elementos de la población, es decir, N = K * n. Se elige de forma aleatoria un elemento del primer grupo, que pasa a formar parte de la muestra, y los n – 1 elementos restantes de la muestra se obtienen tomando en cada uno de los restantes grupos el elemento que ocupa la misma posición que la que ocupaba el elemento extraído del primer grupo. Al contrario que en la muestra aleatoria simple, en el muestreo sistemático cada grupo de k elementos de la población no tiene la misma probabilidad de ser la muestra ya que es imposible que dos elementos del mismo grupo formen parte de la misma. Si la población muestreada tiene un orden aleatorio, la muestra sistemática será muy similar a una muestra aleatoria simple. Sin embargo, si la lista de los elementos de la población tiene un orden periódico o cíclico, el muestreo sistemático no proporcionará, necesariamente, una muestra representativa. Muestreo estratificado En muchas ocasiones, disponemos de información adicional de las variables que nos ayuda a diseñar una muestra. Si una variable en la que estamos interesados toma distintos valores promedio en diferentes subpoblaciones, podríamos obtener estimaciones más precisas de las cantidades de la población al tomar una muestra aleatoria estratificada. En el muestreo estratificado, una población heterogénea de tamaño N se divide en L subpoblaciones o subgrupos, denominados estratos, de tamaños N1, N2, …, NL respectivamente (N = N1 + N2 +…+ NL). Los estratos serán lo más homogéneos posibles, tendiendo los elementos de cada uno a ser más similares que los elegidos al azar en la población entera, y no solapados, de modo que cada unidad de muestreo pertenece a un único estrato. La muestra estratificada de tamaño n se obtiene extrayendo una muestra independiente nh elementos (h = 1, 2, …, L) de cada uno de los L estratos en los que se subdivide la población. Si para cada estrato se obtiene se obtiene una m.a.s. independiente, hablaremos de muestreo aleatorio estratificado, que será con reemplazamiento o sin reemplazamiento dependiendo de si lo hay o no en el muestreo aleatorio de cada estrato. Algunas razones para la utilización del muestreo estratificado son las siguientes:

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 27

• Evita la posibilidad de extraer una muestra mala, es decir, poco

representativa de la población. • Permite obtener datos de precisión conocida sobre subgrupos de

la población.

• Una muestra estratificada podría administrarse de manera más conveniente a un menor coste. Por ejemplo, se pueden usar distintos esquemas de muestreo para los distintos estratos. Para obtener nuevos datos de una característica de las viviendas no considerada hasta este momento se podría usar un cuestionario por correo para aquellas que se encuentran en poblaciones grandes y una visita personal para aquellas en poblaciones pequeñas.

• El muestreo estratificado, si se lleva acabo de forma correcta,

dará estimaciones más precisas (con menor varianza) para toda la población.

La forma en la que se reparte el tamaño muestral n entre los diferentes estratos, es decir, la determinación de los tamaños de nh que verifiquen que n1 + n2 + … + nL = n se denomina afijación. Existen distintos tipos de afijación, siendo los más sencillos la afijación uniforme y la proporcional. En la afijación uniforme todos los estratos proporcionan la misma cantidad de unidades a la muestra, k = n/L, dándole la misma importancia a todos ellos. Este tipo de afijación sólo es conveniente cuando los estratos tienen un tamaño parecido. En la afijación proporcional se asigna a cada estrato un número de unidades muestrales proporcional a su tamaño, según la ponderación Wh= Nh/N. Por lo tanto,

nh = Wh * n (h = 1,2,…, L).

Muestreo por métodos indirectos Existen una serie de métodos que aprovechan información relativa a una variable auxiliar Y (variable de apoyo) correlacionada con la variable en estudio X para conseguir estimaciones más precisas para x que las calculadas únicamente a partir de la muestra de la variable que se estudia. Entre los métodos clásicos de estimación indirecta más utilizados se encuentran el método de estimación por razón (basado en la razón entre X e Y), el método de estimación por regresión (basado en la

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 28

regresión entre X e Y), y el método de estimación por diferencia (basado en la diferencia entre X e Y). La forma más sencilla de llevar a cabo estimación por razones consiste en extraer un m.a.s. de tamaño n y utilizar esta información de X e Y. La estimación por razones se puede utilizar cuando estamos simplemente interesados en estudiar una razón. Si disponemos de la superficie y la valoración notarial de un conjunto de viviendas, podría interesarnos conocer cual es el valor notarial promedio por metro cuadrado. Sin embargo, no es ésta la única situación en la que se podría utilizar. El método de estimación por regresión, como su propio nombre indica, se basa en el concepto de regresión y la estimación por diferencia es un caso especial de la anterior.

Muestreo por conglomerados En los procedimientos de muestreo expuestos hasta el momento, se ha supuesto que la población muestreada está dada y que lo único que debemos hacer es extraer una muestra representativa de la misma y realizar a partir de ella estimaciones de parámetros poblacionales. Supongamos que no es así, es decir, que no disponemos de una lista de unidades de observación. Si además, la construcción de dicha lista es difícil o cara, la población está muy dispersa geográficamente o aparece en cúmulos naturales, como las familias o las escuelas, entonces el muestreo por conglomerados se convierte en una herramienta muy útil.

Por ejemplo, supongamos que deseamos conocer el número de electrodomésticos que hay en una comunidad formada por 1500 familias. Una posibilidad sería extraer una m.a.s. de 150 familias y analizar el número d electrodomésticos en cada una de ellas. Otra consistiría en dividir la comunidad en bloques de aproximadamente 10 familias cada uno, seleccionar de forma aleatoria una serie de bloques y analizar las familias pertenecientes a dichos bloques. A esto último es lo que se denomina como muestreo por conglomerados.

En el procedimiento de muestreo por conglomerados la población muestreada con N elementos se divide en C conglomerados de forma que no existan solapamientos entre ellos y que éstos contengan a todos los elementos de la población. Los conglomerados han de ser lo más heterogéneos posible dentro de ellos y lo más homogéneos posible entre ellos, situación complementaria a la del caso de los estratos. Sin embargo, aunque lo ideal sea la heterogeneidad dentro de los conglomerados, siempre va a existir un cierto grado de homogeneidad inevitable que disminuirá la precisión. Por ejemplo, en un bloque de lujo, en el que las familias tenderán a tener un nivel adquisitivo alto, el número d electrodomésticos por familia tenderá a ser mayor.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 29

Además, al obtener una muestra de todos los elementos que pertenecen al conglomerado, repetimos parcialmente la misma información en lugar de conseguir información nueva, lo que implica una menor precisión para las estimaciones poblacionales. Mientras que, por lo general, la estratificación aumenta la precisión en relación con el m.a.s., el muestreo por conglomerados, con frecuencia, la disminuye.

El muestreo por conglomerados se usa en la práctica debido a que es más barato y conveniente obtener muestras de esta forma que de forma aleatoria sobre la población. Efectivamente, está claro que se ahorra coste y tiempo al efectuar visitas a las viviendas seleccionadas, ya que se disminuye la necesidad de desplazamiento, al encontrarse en un número determinado de bloques y no desperdigadas por toda la comunidad.

Los conglomerados se consideran como unidades de muestreo de forma que se escoge aleatoriamente una muestra de m conglomerados con o sin reemplazamiento (suponemos probabilidades de selección iguales para todos los conglomerados), estando compuesta la muestra final por todos los elementos pertenecientes a los conglomerados seleccionados.

El número de elementos que forman parte de un conglomerado se denomina tamaño del conglomerado, pudiendo tener todos éstos el mismo tamaño o distinto. Muestreo por conglomerados en dos etapas En el muestreo por conglomerados en una etapa, una vez escogida aleatoriamente una muestra de m conglomerados, la muestra final estará formada por todos los elementos pertenecientes a los conglomerados seleccionados. Sin embargo, en muchas ocasiones los elementos de un conglomerado pueden ser demasiado similares, de modo que el análisis de todos los elementos dentro de un conglomerado es un desperdicio de recursos. Este inconveniente podría superarse si tomásemos una submuestra dentro los conglomerados seleccionados.

Supongamos que tenemos conglomerados de distinto tamaño y que se han seleccionado aleatoriamente m de ellos con tamaños Ci, i = 1,…, m. En una segunda etapa se selecciona de forma indpendiente en cada uno de estos conglomerados una submuestra de ci unidades de entre las Ci del conglomerado. En ambas etapas la selección puede realizarse con o sin reemplazamiento, aunque usualmente en la segunda se usa cualquier tipo de muestreo ya contemplado, pero generalmente sin reemplazamiento y probabilidades iguales.

BLOQUE III. ESTADÍSTICA Y VALORACIÓN URBANA. TEMA 10 30