capitulo 3 climatologia

CAPÍTULO III

FÓRMULAS, APLICACIONES E INTERPRETACIONES DE LOS INDICES ESTADÍSTICOS

Tal como lo prescribe el título de este Capítulo, en él se expondrán las expresiones

matemáticas de los índices estadísticos descriptivos usuales, en qué situaciones

procedimentales se usan y cómo se interpretan tanto desde el punto de vista estadístico como

desde el punto de vista meteorológico o climatológico. El tratamiento de este contenido es

necesario según la secuencia dada en el Diagrama 2.7 del Capítulo II, que aquí vuelve a

mostrarse en la página siguiente como Diagrama 3.1; en dicho esquema se observa que a

continuación de las operaciones matemático – estadísticas procede la fase del proceso de la

Síntesis Estadística.

Los índices estadísticos a estudiar son los que alguna o frecuentemente la literatura

especializada denomina Estadísticos, término que definen Kendall y Buckland (9;1980,

p.144) de la siguiente manera:

Estadístico. Es un valor resumen calculado a partir de una muestra de observaciones, usualmente pero no necesariamente como un estimador de un parámetro poblacional. Es una función de los valores muestrales.

En este trabajo, sin embargo, por razones obvias sólo se abordarán algunos

estadísticos, los denominados como Medidas de la Tendencia Central, Medidas de

Dispersión y Medidas de Asimetría o Sesgo. Por lo tanto, en lo que atañe a esta

investigación el conjunto de estadísticos que algunas veces se simbolizará como

{Estadísticos} es equivalente al conjunto de medidas de la Tendencia Central, Medidas de

Dispersión y Medidas de Asimetría o Sesgo {Medidas de Tendencia Central, Medidas de

Dispersión, Medidas de Asimetría o Sesgo}.

144

145

Diagrama 3.1

Selección de Atributos

Conversiónde Atributos

MEDICIÓN

Determinación de la Clase de Dato

OperacionesMatemático –Estadísticas

IndicesEstadísticos

IndicesClimáticos

CLIMA

Síntesis Estadística

Operacióno Proceso Resultado

o Proceso

Secuencia

Precedencia de la Determinación de los Índices Estadísticos a la Obtención de los Índices Climáticos

Medidas de la Tendencia Central

Conocidas también con la denominación general de Promedios, tales estadísticos

pretenden representar, numéricamente, al conjunto de valores muestrales, o como lo definen

Kendall y Buckland (op.cit., p. 293):

Promedio. Concepto familiar pero evasivo. Generalmente, un valor promedio pretende representar o resumir los hechos relevantes de un conjunto de valores, y en este sentido, el término incluiría la mediana y la moda. En un sentido más limitado, un promedio compendia todos los valores del conjunto, como en el caso de las medias aritmética o geométrica. En el uso corriente, el promedio es con frecuencia sobrentendido que se refiere a la media aritmética.

Los promedios se clasifican en Promedios Matemáticos y No Matemáticos. Dentro de

los primeros, suelen ser nombrados por la literatura la media aritmética, la media geométrica

y la media armónica. El primero de amplio uso en estadística descriptiva y en estadística

inductiva en la distribución normal. El segundo utilizado en la distribución probabilística

Lognormal véase a Rodríguez (11;1986). La media armónica, Rivas (10;1963, p.141)

tiene poca aplicación práctica. Entre los promedios no matemáticos caben mencionar: la

mediana (usada en distribución Lognormal) y el modo (aplicada en la distribución

probabilística Gumbel) véase a Rodríguez, op. cit..

Media Aritmética

Sea el conjunto de datos muestrales, que se representará simbólicamente de manera

equivalente como {datos muestrales} = {x} = {x1, x2,..... xn,} = {xn} = x, donde los

subíndices denotan la aparición o secuencia cronológica de los datos; entonces:

146

Cuando se trató el punto de la totalización sobre cantidades físicas intensivas, se hizo

la explicación de que la media aritmética simple era también una media aritmética

ponderada, tal como se interpreta de la siguiente forma de representar también a dicho índice

de la tendencia central:

Aquí la media aritmética simple aparece como la totalización de todos los valores cada

uno ponderado por el factor 1/n; o sea, MX es una suma ponderada, similar a lo que se

conoce como Media Aritmética Ponderada véase, por ejemplo, a Sierra (13;1991;p. 311).

Ahora bien, con fines de resumir la representación matemática de las fórmulas,

usualmente se utilizan símbolos casi de universal aceptación; en el caso de la media

aritmética es habitual que se plantee la siguiente representación simbólica para la suma de

los datos muestrales:

El símbolo corresponde a la letra griega mayúscula sigma, cuya minúscula es . El

símbolo representa un operador matemático similar a los operadores Ln, Log, Tg o . El

sub o infraíndice j=1 señala el primer sumando y el supraíndice j=n, el último sumando del

total de sumandos; es decir, los índices de señalan entre que límites se extenderán los

sumandos. Si los subíndices de los sumandos siguen la secuencia natural de los números se

deduce fácilmente cuantos sumandos tiene la suma correspondiente. La simbología xj

147

corresponde al argumento sobre el cual operará , así como en x, x es el argumento sobre

el cual se aplicará el operador matemático de la raíz cuadrada.

Comúnmente el resultado de una operación acompaña al operador y al argumento,

como por ejemplo: x = y; en ocasiones la correspondencia entre argumento y resultado de

la operación se muestra de modo implícito, como por ejemplo: y = f(x), donde la letra f es la

simbología o notación del operador raíz cuadrada.

Ahora bien, los operadores matemáticos se pueden clasificar en operadores lineales y

operadores no lineales. Se dice que un operador es lineal si cumple que:

1º f (x+y) = f(x) + f(y), donde x, y son variables

2 º f (kx) = k f(x), donde k es una constante numérica

Unos ejemplos reforzarán los enunciados anteriores.

Ejemplo 1. Sea y = f(x) = 5x ¿es f un operador lineal? La letra f, en este ejercicio, indicará la

aplicación la operación indicada sobre el argumento correspondiente; luego, f(y) = 5y. En

consecuencia,

Según el requisito (1º): f(x+y) = 5(x+y) = 5x + 5y = f(x) + f(y)

Según (2º): f(3x) = 5(3x) = 3(5x) = 3 f(x) f es un operador lineal.

Lo de operador lineal provendría posiblemente de que las primeras funciones

matemáticas fueron análogas a la del ejemplo 1, y cuya representación gráfica es una línea

recta; hoy en día el operador lineal es un concepto más amplio que el concebido

originalmente.

Ejemplo 2. Se pide la suma de f(x)= 2x para todo x = {5,10,15}; o sea, se solicita realizar la

adición de f(x1) +f(x2) + f(x3).

148

Solución 1. Si x1= 5 f(x1) =10; si x2= 10 f(x2) =20; si x3= 15 f(x3) =30. Por lo tanto,

f(x) = 60. Luego, se han requerido para la suma de 3 datos de 4 operaciones: 3

multiplicaciones y una adición.

Solución 2. Dado que f es un operador lineal es admisible el siguiente procedimiento: f(x1)

+f(x2) + f(x3)= f(x1+x2 + x3)=f(30)=60. En consecuencia, se han requerido para lograr el

resultado solicitado 2 operaciones: una adición y una multiplicación.

Las diferencias de los 2 procedimientos, con tan sólo 3 datos no son notables; pero

supóngase que {x} constara de 100 datos; ello implicaría que según la solución 1 serían

necesarias 101 operaciones mientras que según la solución 2, se requerirían solamente 2

operaciones aritméticas: una adición y una multiplicación.

La reducción de operaciones se ha logrado gracias al conocimiento que se tuvo sobre

la naturaleza lineal del operador matemático: en general, los operadores lineales facilitan los

procedimientos usuales en el cálculo matemático.

Ejemplo 3. ¿Es un operador lineal? Para responder a ello se planteará el siguiente

ejercicio.

(1) Resolver (xj + yj), desde j=1 hasta j=3; aplicando las propiedades del operador

suma:

(xj + yj)= (x1 + y1) + (x2 + y2) + (x3 + y3) =(x1 +x2 +x3 ) + (y1 + y2 + y3)

(xj + yj)= (xj) + (yj)

(2) Resolver (5xj); (5xj) = (5x1 + 5x2 + 5x3) = 5 (x1 +x2 +x3) = 5 (xj)

Se concluye en que el operador es un operador lineal. También son operadores

lineales: Lím (el operador Límite), dy/dx (el operador derivada) y (el operador integral).

149

No son operadores lineales: las funciones trigonométricas, las funciones logarítmicas, las

funciones exponenciales y las funciones potenciales, entre otras.

En resumen, se debiera conocer acerca de si los datos son:

(1) Observados o calculados, debido a que influye sobre su interpretación;

(2) Cantidades Físicas o Enumerables, para conocer su exactitud o calidad;

(3) Numéricos Cardinales o no para saber operaciones aritméticas admisibles;

(4) Extensivos o Intensivos, para saber como se acumula o totaliza;

(5) Afectados por un operador lineal o no para simplificar o resumir operaciones

Algunas Propiedades de la Media Aritmética

1) Siempre es un estimador del valor verdadero de una Cantidad Física si y solo si la

media de los desvíos o términos de error es 0

2) Siempre es una suma o totalización ponderada de datos muestrales

3) Siempre está expresado en las mismas medidas del conjunto muestral

4) Siempre es el centroide de los datos

5) No siempre coincide con un valor muestral

6) No siempre coincide con un valor poblacional

7) No siempre representa adecuadamente al conjunto muestral

8) No siempre es un promedio climático

9) Siempre es la mediana de los n primeros números naturales

10) Siempre es la semisuma de los extremos si su sucesión ordinal forma una progresión

aritmética

150

11) Siempre es la semisuma de los valores conjugados u homólogos con respecto a la

mediana si su sucesión ordinal forma una progresión aritmética

12) Siempre puede considerarse como el valor más probable del próximo evento si el

conjunto muestral es un conjunto con sesgo nulo o tiene una distribución

aproximadamente normal.

Seguidamente se hará la demostración de la Propiedad 4, vale decir, que la media

aritmética siempre es el centroide del conjunto muestral. Se dice que c es el valor

centroidal o el centro cardinal de un conjunto x, {xn}, de datos si y sólo si se cumple que:

Si a cada diferencia (xj – c), en la ecuación [3.4], se le denomina como el j-ésimo

desvío individual con respecto al centroide c y se simboliza como Dxj, entonces la ecuación

[3.4] se transforma en:

Ahora bien ¿cómo, operacionalmente, se puede determinar ese valor centroidal del

conjunto muestral? Para ello se aplicará la propiedad “lineal” que tiene el operador ;

resolviendo se tiene que:

151

Por lo tanto, siempre la media aritmética se localiza entre los extremos del conjunto

{xn} de modo que se anula la suma de los desvíos o distancias Dxj; ello implica que conocido

Mx, los xj se distribuyen equilibradamente en torno a Mx. Por ejemplo, {x3}= x =

{2,3,10}, al expresar Mx como una totalización ponderada se aprecia que los valores

cercanos son ponderados dos veces mientras que el extremo 10 una vez, determinando que

Mx =5 “intente” representar lo repetido, lo más frecuente pero sin dejar de tomar en cuenta

al resto de los datos.

Si se conviene arbitrariamente en seleccionar que otro centroide como c´= 6 suma

de desvíos = Dxj = -3 los datos no se distribuyen equilibradamente en torno a 6 y en

consecuencia 6 no es el verdadero centroide de la muestra.

Si cada desvío se eleva al cuadrado y luego se suma se obtiene lo que se denomina una

suma de desvíos cuadráticos; según el ejemplo previamente considerado, tal totalización no

ponderada es igual a 38, es decir, (Dxj)2 = 38; si ahora se hace lo mismo con el centroide

arbitrario c´= 6, la suma es igual a 41, o sea, para c´= 6 (Dxj)2 = 41. Ello significa que

la media aritmética o centroide es la solución mínimo cuadrática de la suma de desvíos

cuadráticos, es decir, al resolver que valor da un mínimo para tal suma cuadrática, esa

solución es la media aritmética Mx. De ahí que se generalice, que siempre se cumplirá que:

152

La inecuación [3.7] prescribe, entonces, que los desvíos cuadráticos con respecto a la

media aritmética son siempre menores o iguales a los desvíos cuadráticos con respecto a

cualquier otro valor que se use como estimación del valor centroidal. Ello significa que no

hay ningún valor que supere a la media aritmética en cuanto a su localización óptima con

respecto al conjunto muestral en cuanto a que se ubica a la distancia que garantiza una

distribución de equilibrio de los datos muestrales alrededor de ella.

Se había expresado que la suma o totalización simple de valores no es procedente en

datos en escala de intervalo; sin embargo, esa restricción se anula cuando se calcula la media

aritmética en datos de esa clase tal como se plantea en el siguiente ejemplo.

Sea {x} = {muestra de datos de temperatura en ºC}; convéngase que {y} = {conjunto

equivalente al conjunto {x} en ºF}; se sabe que x no es equivalente a y, ¿pero no será Mx

equivalente a My?

Véase la siguiente demostración:

153

En conclusión, independientemente de la escala de medición de los datos, siempre se

cumplirá que si los conjuntos {xn}, {yn} son equivalentes, entonces se verificará que Mx =

My.

Mediana

Sea un conjunto muestral {xn} ={x1, x2,... xn}, donde {xn} es un conjunto cardinal

cronológica o temporalmente ordenado. Sea ahora {x(n)} ={x(1), x(2),... x(3)}, donde {x(n)} es un

conjunto cardinal categóricamente ordenado. Con base a este conjunto se define el valor

mediano o mediana mediante la fórmula:

Los subíndices asociados a cada dato de la secuencia ordinal se corresponden con la

sucesión de los números naturales, es decir el conjunto {1,2,..,n}. Según Conover (3;1980,

p.36), la suma de los primeros n números naturales, Sn, viene dada por la expresión:

La media aritmética de los ordinales {1,... n} se determina dividiendo la suma Sn entre

el número de ordinales; ello implica que la media aritmética de los primeros n ordinales es

Mn = (n+1)/2; en consecuencia, cuando n es impar, la determinación de la mediana Md

consiste en escoger el ordinal único que ocupa la posición centroidal en el conjunto de los

154

x(J) cuando n es impar, para j = (n+1)/2 Mdx = [3.9]

[x(J) + x(J+1) ] / 2 para n par, para j = n/2

donde n = tamaño muestral

ordinales, el cual coincide con uno de los valores de la serie ordinal. De ello se infiere que la

media aritmética Mn siempre se asocia a la mediana de los n primeros números

naturales. Algebraicamente significa que:

¿Y que sucede cuando n es par? Cuando n es par su centroide también es el que

ocupa la posición (n+1)/2, pero el resultado es un número no entero no coincidiendo con

ningún ordinal de la serie. El “sentido común” indica que el centroide estará entre dos

ordinales y a una distancia igual entre los dos. Nótese que:

(n+1)/2 = (n/2) + (1/2) el centroide ordinal estará a una distancia de ½ del término n/2 el próximo es

(n/2) +1 dado que el incremento es constantemente igual a la unidad el centroide de esos dos sucesivos términos es (n+1)/2; luego, es pertinente la expresión:

Obsérvese que el numerador coincide con la fórmula que se dio para el cálculo de la

posición donde se halla la mediana cuando n es par. En conclusión, la solución general para

determinar la localización de la mediana es (n+1)/2, la cual es pertinente tanto a la condición

par como la impar del número de datos. Por ejemplo, si n = 5, el valor mediano ocupará el

tercer valor de la secuencia ordinal de datos, dejando 2 valores de cada lado; si n=4, deja 2

valores de cada lado. En este último caso, se advierte una propiedad en cuanto a la

localización del valor mediano: deja a ambos lados la misma cantidad de datos es decir el

155

50%. Esto determina que la mediana se le asocie al llamado percentil 50 simbólicamente,

P50, es decir se le asocie una puntuación de la secuencia ordinal que deja por debajo de sí

el 50% de los datos. En ese sentido es apropiada la definición proporcionada por Kendall y

Buckland (9; 1980; p. 223):

Mediana. La mediana es el valor de la variante que divide la frecuencia total en dos mitades... Para una variante discontinua puede surgir alguna ambigüedad que solamente puede ser eliminada por convención. Para una frecuencia total de 2N+1 términos, la mediana es el valor de la variante del (N+1) término: para 2N términos se acostumbra a tomar la media del N-ésimo y el (N+1)-ésimo término.

Ahora bien, convéngase en que los datos en su secuencia ordinal siguen una

progresión aritmética, es decir, cuando son ordenados categóricamente los sucesivos

valores se van incrementando en una razón o tasa constante aditiva. La literatura

especializada véase, por ejemplo, el Diccionario de Matemáticas de la Editorial Norma

(6;1998; p.16) muestra que la suma total de una progresión aritmética viene dada por la

expresión:

donde, a = primer término de la progresión; u = último término de la progresión; n = número de términos.

Nótese que la expresión [3.13] es una fórmula análoga a la fórmula [3.10], la cual

permite obtener la suma de los primeros n números naturales; tal analogía indica que los

números naturales se estructuran según una progresión aritmética.

Ahora bien, si se determina la media aritmética de los datos que siguen una progresión

aritmética se tiene que:

156

La ecuación [3.14] es pertinente, dada que la suma de la sucesión ordinal es igual a

la suma de la sucesión cronológica y que a = el menor valor = xmin, así como u = el mayor

valor = xmax de la sucesión. En consecuencia, la media aritmética siempre es la semisuma

de los extremos de una muestra cuya sucesión ordinal conforma una progresión aritmética.

De ello se infieren dos situaciones: (1) si se conviene en que la sucesión ordinal de la

sucesión cronológica forma una progresión aritmética, basta calcular la semisuma de sus

extremos para determinar el valor centroidal de la muestra; (2) que si no se cumple lo

convenido en (1), entonces es erróneo ese cálculo para determinar la media aritmética

muestral.

El uso de la fórmula [3.14] es frecuente en datos de temperatura tal como se evidencia

en el trabajo de Sánchez et al (12; 1991; pág. 13), cuando reportan que:

Las temperaturas del aire se procesaron en forma similar. Fue tomada como temperatura media del aire el promedio de las temperaturas extremas (máxima y mínima). Sabemos que este valor no corresponde exactamente al concepto climatológico de temperatura media diaria, pero el motivo ha sido uniformar el procedimiento para permitir la comparación de temperaturas del aire y del suelo.

Es evidente que si el investigador presume que los datos conforman una serie ordinal

con progresión aritmética el cálculo de la media aritmética se reduciría ostensiblemente

porque solamente se requeriría de los valores extremos de la serie ordenada creciente o

decrecientemente. En los Resúmenes Climatológicos 1951-80 de las Fuerzas Aéreas de

Venezuela, elaborados por el Grupo Logístico de Meteorología (7;s/f), se compilan los

valores medios mensuales y sus valores mínimos y máximos absolutos de los elementos

meteorológicos siguientes: temperatura del aire, humedad relativa, presión atmosférica,

157

insolación, precipitación y evaporación; al comparar las medias mensuales con las medias

calculadas según la semisuma de máximo y mínimo puede verificarse en cuáles elementos

sería plausible la aplicación de la fórmula [3.14] en el cálculo de la media aritmética. A tal

efecto se han comparado las medias aritméticas, compiladas en la publicación anteriormente

mencionada, para el mes de Diciembre y las medias aritméticas estimadas según la

semisuma de sus valores extremos lográndose los siguientes resultados:

Elemento Meteorológico Error de la Estimación (%)Evaporación al sol 1,6Temperatura del aire 2,0Presión Atmosférica 5,6Insolación 19,2Humedad Relativa 25,3Precipitación 46,3

Estas cifras sugieren que se evalúe la factibilidad de aplicar la fórmula [3.14], en el

mes de Diciembre, en los elementos de la evaporación y la presión atmosférica, además de

la temperatura del aire, en virtud de que el error cometido al usar la mencionada fórmula es

inferior al 6%.

Ahora bien, ¿cómo se sabrá si la sucesión de datos sigue o no una progresión

aritmética?. Se aplicará el siguiente procedimiento matemático; sea x la suma de los datos

muestrales y Sn (fórmula [3.13]) la suma que se obtiene considerando que la sucesión

ordinal es una progresión aritmética; entonces,

si x = Sn ello implica que la muestra es un conjunto cuya serie

158

Cuadro 3.1

Error en la Estimación de la Media como Semisuma deValores Extremos Muestrales

categóricamente ordenada forma una progresión aritmética yello significa que Mx puede calcularse según ecuación [3.14]; encaso contrario es erróneo estimar a Mx como la semisuma desus valores extremos.

Se ha demostrado que la media aritmética de los primeros n números naturales es Sn/n

= (n+1)/2, cumpliéndose que Mn = Mdn. Por ejemplo, si {x5} = x = {1,2,3,4,5} Mx = Mdx

= 3. Se ha mostrado, además, que si la sucesión ordinal forma una progresión aritmética,

implica que Mx se determina como una semisuma de sus extremos, tal como expresa la

ecuación [3.14]. Al despejar esa expresión algebraica resulta que: Xmax – Mx = Mx – Xmin.

En consecuencia, la distancia de los extremos con respecto a Mx es siempre la misma en una

progresión aritmética.

Pero en una progresión aritmética se cumple que X (2) = X (1) + r = Xmin + r, donde r =

razón o constante numérica de la progresión; igualmente, X (3) = X (2) + r y así sucesivamente

hasta llegar al último valor: X (n-1) = X (n) - r. Así mismo, al obtener la semisuma de X (2) y X

(n-1) resulta igual a Mx. Es decir, si la sucesión ordinal forma una progresión aritmética, la

media aritmética siempre es la semisuma de valores situados opuesta o simétricamente en

torno a ella, lo cual puede comprobarse con el siguiente ejemplo: sea la muestra {1 2 3 4 5

6}; la media aritmética, Mx =3,5, puede calcularse con los respectivos homólogos o

simétricos, con respecto a la media aritmética, de la sucesión. Si n impar, como en el

conjunto muestral {1 2 3 4 5 6 7}, implica que Mx = 4 y puede calcularse como se indicó

más arriba. En función del párrafo precedente es pertinente plantear la siguiente ecuación

para el cálculo de la media aritmética:

159

donde X´(j) es el opuesto o simétrico de X(j) en la muestra numéricamente ordenada.

En virtud de que la media aritmética se puede calcular con base a valores simétricos en

torno a ella, se conviene en que Mx es un centro de simetría o que el conjunto muestral

posee centro de simetría. Se reitera que en toda progresión aritmética, M x = Mdx y en toda

progresión aritmética Mx es un centro de simetría. Entonces, se tiene una manera indirecta

para catalogar si existe o no centro de simetría: si coinciden su valor mediano Mdx con su

valor centroidal Mx significa que existe centro de simetría y ello implica que existe una

distribución simétrica de valores alrededor del centro de simetría Mx y ello evidencia que

hay igual número de valores y a similar distancia o desvío absoluto de los respectivos

homólogos o simétricos con respecto a Mx.

Como los homólogos (simétricos), en una distribución simétrica, tienen igual distancia

con respecto a Mx se cumplirá que, para cualquier par de valores simétricos u homólogos

Xj y X´j de una muestra ordenada: Xj – Mx = Mx – Xj´; al elevar al cubo e igualar a cero al

par de expresiones cúbicas se tiene que:

En consecuencia, si la suma de desvíos “cúbicos” es nula, implica que existe una

distribución simétrica de datos alrededor de la media aritmética. Por ejemplo, el conjunto

{1,2,99,100}, que es un subconjunto de la progresión aritmética de los primeros 100

160

números naturales, tiene centro de simetría dado que Mx = Mdx = 50.5 y ello significa que

la muestra es simétrica, tal como lo evidencia el hecho de que (Dx)3=0. En resumen, se

detecta que la muestra tiene distribución simétrica comprobando si existe centro de simetría,

lo cual se confirma con la existencia de igualdad entre media y mediana o bien mediante el

valor nulo de la suma de desvíos cúbicos.

Sin embargo hay una 3ª manera de detectar si existe o no centro de simetría en una

muestra, no sugerida por la literatura estadística pero ya señalada, indirectamente, en esta

investigación en párrafos precedentes y que seguidamente se expone. Si la suma de los datos

muestrales () es igual a la suma que le correspondería si su secuencia ordinal es una

progresión aritmética (Sn), entonces la sucesión tiene centro de simetría. En términos

algebraicos:

Por ejemplo, en {x}={1,2,99,100} ¿tiene o no centro de simetría? Su suma () es 202;

así mismo, Sn = (1+100)4/2 = 202; dado que () = Sn, entonces {x} tiene centro de simetría.

En resumen, con base a Mx se determinan las siguientes deducciones:

Si (x-Mx)= 0 {x} se localiza equilibradamente en torno a Mx

Si (x-Mx)2 es un valor mínimo no existe otro valor más cercano a {x} [3.18]

Si (x-Mx)3 =0 determina si {x} se distribuye simétricamente en torno a Mx

161

Con base a la información que suministran los textos de estadística acerca de cómo

están relacionadas, en las distribuciones probabilísticas, la media y la mediana (véase, por

ejemplo, Sierra (13; 1991; pp. 93-94), se tienen las siguientes condiciones:

(1) Si media y mediana son iguales la distribución de los datos es simétrica con

respecto a Mx. Ello revelará que; (a) habrá la misma cantidad de datos por encima y por

debajo de la Mx, dado que ésta coincide con el percentil 50 (P50) o segundo cuartil (Q2) y

(b) cada dato mayor a la media aritmética tendrá su homólogo localizado por debajo,

numéricamente, de Mx. Con respecto al término cuartil es apropiada la definición que da

Sierra (op.cit., p.162):

Cuantiles. Puntos de una distribución o una escala ordenada que la dividen en un conjunto de partes que comprenden igual número de datos. Los cuantiles más usados son los cuartiles, Q, los deciles, D, y los percentiles P, que se pueden considerar como los cuartiles básicos, en cuanto el decil es el percentil 10 y el cuartil, el 25. Son muy útiles porque reducen la serie de puntuaciones a base 100, con lo que permiten fácilmente la interpretación de las puntuaciones individuales y su comparación entre sí y con las series de puntuaciones de otras poblaciones. Por ejemplo, un P20 = 12 indica que un 20% de los datos de la distribución tiene un valor inferior a 12.

(2) Si Mx > Mdx significa que la distribución tiene asimetría positiva. Así mismo,

deberá interpretarse, en general, que habrá un número menor de datos por “encima” que por

“debajo” de Mx o bien que habiendo el mismo número de datos habrá mayor dispersión por

encima de Mx. En todo caso, se asume que habrá mayor dispersión en el subconjunto de

datos mayor a Mx.

(3) Si Mx < Mdx, significa que la distribución muestral tiene asimetría negativa y la

relación media – mediana se interpretará de modo contrario a lo expresado en el ítem (2).

Anteriormente se demostró que para datos en escala de intervalo era indiferente

calcular la media aritmética en conjuntos muestrales equivalentes (por ejemplo en escala

162

Celsius o en escala Fahrenheit); igualmente, se puede demostrar que si los conjuntos {xn},

{yn} son equivalentes, entonces se cumplirá que Mdx Mdy.

¿Qué medida de la tendencia central escoger, media o mediana, cuando difieren en

valor? Estadísticamente, si se considera que los valores extremos no son relevantes en el

análisis, se seleccionaría la mediana; en caso contrario, se escogería la media aritmética; así

mismo, este estadístico, al relacionarse operacionalmente con las medidas de dispersión y

asimetría, tiene un realce adicional que determina, en muchos casos, su escogencia como

medida de la tendencia central a utilizar. Igualmente, en la tesis de Maestría en Geografía de

Rodríguez (11;1986, Volumen I; pp.70-71) se deduce, desde el punto de vista estadístico-

inferencial, que la media aritmética es más confiable que la mediana como medida de

localización de los datos muestrales cuando se comparan los errores típicos de ambas

medidas de la tendencia central.

En cuanto a su relevancia en el aspecto climático cabe el siguiente análisis. En el

Capítulo I se manifestó que la cantidad meteorológica observada es, fundamentalmente, la

respuesta a los denominados Factores Climáticos (permanentes y semipermanentes) y

Factores transitorios (de naturaleza no sistemática); la media aritmética de un conjunto de

valores meteorológicos es una función físico-estadística o geográfica-estadística de los

factores antes mencionados pero donde la contribución dominante probablemente provendría

de los factores climáticos dado que todas las cantidades meteorológicas se recopilan bajo la

misma condición astronómica Tierra – Sol. En consecuencia, la media aritmética es la

cantidad de orden climático que “intenta” reproducir lo repetitivo, lo frecuente, lo cual viene

dado por la sistemática y persistente aparición de los Factores Climáticos. Así mismo, los

valores poco frecuentes, los valores extremos, se asocian a los factores no sistemáticos y

163

continuamente variables como los que se han llamado Factores Transitorios. En la medida

que aumente el tamaño muestral se conjetura que el peso de esas mediciones extraordinarias

o aberrantes disminuirá con respecto al resto de las mediciones, las cuales determinarán en

mayor proporción la suma ponderada de los datos que es en definitiva la manera operacional

de obtener la media aritmética.

En cuanto a la mediana respecta, ella reflejaría en menor medida los efectos de los

Factores Transitorios y, por lo tanto, la mediana sería la respuesta de orden climático

relacionada fundamentalmente con los Factores Climáticos, conexión que se hace más

evidente en la medida que el tamaño muestral sea suficientemente extenso.

En conclusión, las medidas de la tendencia central (media y mediana) son cantidades,

del atributo atmosférico correspondiente, relacionadas, fundamentalmente, con la naturaleza

físico-estadística de los Factores Climáticos bajo condiciones muestrales pertinentes.

Medidas de Dispersión

Desviación Típica

Convéngase en analizar estadísticamente a los conjuntos {x} = {0,100}, {y}= {49,51}.

Es fácil constatar que Mx = My. De inmediato puede surgir la interrogante de cuál de las 2

medias aritméticas representa más adecuadamente al conjunto muestral correspondiente. El

sentido común sugiere que My es una medida de tendencia central más adecuada que Mx.

Tal intuición puede corroborarse mediante otro estadístico que cuantifique la mayor

semejanza entre el conjunto muestral y su media aritmética. Para ello sería válida la

siguiente formalización: sea {xn} = {conjunto muestral discreto de n valores} x. Se

definirá como varianza de x = Var(x) = s2 al estadístico que resulta del siguiente cálculo:

164

Según la fórmula [3.19], s2 es factible interpretarla como la media aritmética de los

“desvíos cuadráticos”. Dado que el numerador de la expresión [3.19] es la solución mínimo

cuadrática de todos los posibles (Dx)2 es aceptable considerar que s2 es también un

“promedio mínimo cuadrático”. Si x es una cantidad física dimensionada, puede suceder

que las medidas de s2 o bien no tengan significado físico o bien que es más útil interpretar la

raíz cuadrada de la varianza dado que vendrá expresada en las mismas unidades del conjunto

{x}. Procediendo, resulta que:

Es usual que en la literatura estadística se haga referencia al estadístico nombrado

como cuasivarianza el cual se determina así:

La raíz cuadrada de la cuasi-varianza, paradójicamente, también es denominada como

desviación típica (o desviación “standard”) pudiendo crear esto confusión si no se aclara

previamente como fue obtenida la desviación típica dado que, obviamente, varianza y cuasi-

varianza no son iguales.

La obtención de la cuasivarianza a partir de la varianza es inmediata, tal como se

muestra en la expresión algebraica siguiente:

165

Si se conviene en que la muestra es infinitamente grande, es decir, n, entonces se

cumple que:

De la relación [3.23] se infiere que si la muestra es suficientemente grande es

indiferente usar la varianza o la cuasivarianza.

Nótese que si el numerador de la fórmula para calcular la desviación típica ecuación

[3.20] tiende a cero, entonces sx tiende a cero, y ello significa, a su vez, que los valores

individuales de la variable, xj tienden a Mx; por el contrario, si el numerador de la ecuación

[3.20] es un número muy grande, entonces sx también es muy grande y, por ende en

promedio, xj se aleja de Mx. Con base a ello sx tiene al menos dos significados: (1) como

medida promedio de la dispersión del conjunto muestral {x} de su centroide Mx y (2) como

medida de la representatividad de Mx del conjunto muestral {x}. En otro contexto, Ward

(14;1963; pp.236) denomina al numerador de la ecuación [3.20] como “la suma de errores

cuadráticos” (abreviatura en inglés, ESS), índice que cuantifica la llamada “pérdida de

información” que se comete al usar la media aritmética como representativa cardinal del

conjunto muestral; en palabras de Ward:

Given a set of ratings for 10 individuals, {2,6,5,6,2,2,2,0,0,0}, a common practice is to use the mean value to represent all the scores rather than to consider individual scores. The “loss” in information that results from treating the 10 scores as one group with a mean of 2.5 can be indicated by a “value-reflecting” number, the error sum of squares (ESS).81)

166

Ahora bien, si {x} representa al conjunto de cantidades de un atributo meteorológico

cualquiera centrado en Mx; la desviación de cada valor individual con respecto a Mx está

dado por la relación: xj – Mx = Dx; es decir, xj = Mx + Dx, donde xj es la cantidad o respuesta

meteorológica; Mx, como ya se conjeturó en el Capítulo I, es la cantidad asociada a los

Factores Climáticos (FC) y Dx es la correspondiente cantidad asociada a los Factores

variables o transitorios (FT). En síntesis, cada cantidad observada se considera que es la

respuesta a la combinación de los Factores Climáticos y los Factores Transitorios. Pero

recuérdese que el numerador de la varianza s2 es (Dx)2, y por ello la varianza es una medida

de la influencia “cuadrática” promedio de los Factores Transitorios y, por lo tanto, la

desviación típica sx es una medida promedio de la contribución o influencia de los

Factores Transitorios sobre la respuesta meteorológica en un lapso determinado. Si sx

0, xj reflejará principalmente la contribución de los Factores Climáticos y, en

consecuencia, Mx es una medida pertinente del conjunto {x} y relacionada,

fundamentalmente, con los FC.

El intervalo generado por Mx sx se considera como el intervalo que abarca la

ocurrencia “promedio” de los valores muestrales en virtud de que Mx cuantifica la

contribución general o media de los FC y sx mide la contribución media de los FT en el

período muestral estudiado. Particularmente, si {x} x sigue una distribución

probabilística normal con parámetros y 2 se considera que es el intervalo que

comprende el 67% del conjunto poblacional; en ese contexto, el intervalo Mx sx es un

intervalo que se presume abarca una proporción relevante de datos en torno al valor

promedio cuando los mismos se hallan simétricamente distribuidos alrededor de Mx. De

igual manera, adviértase que bajo el supuesto de normalidad Mx sería la cantidad más

167

probable y, naturalmente, el intervalo construido en torno a ella Mx sx sería el

intervalo más probable. En conclusión, desde el punto de vista climático se pronosticaría

que la magnitud del próximo evento debería pertenecer al intervalo Mx sx.

¿Afectarán los cambios de escala los valores de la desviación típica? Establézcase el

siguiente ejemplo para resolver la interrogante planteada. Sea {x}= {conjunto de

temperaturas mensuales en ºC}, {y} = {conjunto equivalente a x pero en ºF}. Entonces, son

válidas las siguientes operaciones:

Así mismo, con relación al conjunto {y} se tiene que:

Pero en el Capítulo II se demostró que los intervalos en ºF y en ºC se vinculan

mediante la expresión: y = (9/5) x, por lo que (y)2 = (9/5)2 (x)2. Al sustituir en la

ecuación [3.25] resulta que:

168

De la ecuación [3.26] se deduce que el cálculo de la varianza puede realizarse en

cualquier escala de medición porque el resultado correspondiente puede expresarse en otro

sistema de medida aplicando la ecuación de transformación pertinente. Es obvio que al

extraer la raíz cuadrada positiva a la última expresión en la ecuación [3.26] resulta que la

desviación típica en °F, sy = (9/5) sx, es decir, si la desviación típica está en ºC, ella puede

calcularse en ºF multiplicándola por el factor (9/5).

Recorrido o Amplitud Muestral

Sea el conjunto muestral {x} x; el recorrido muestral o recorrido de la variable x se

define matemáticamente como Rx = R(x) = R = xM – xm, donde xM = máximo valor de {x},

xm = mínimo valor de {x}. El estadístico R es un índice de dispersión absoluta con unidad

de medida igual al que posee el conjunto muestral y se considera pertinente como estadístico

de comparación si y sólo si las muestras a confrontar tienen: (1) distribuciones simétricas;

(2) igual unidad de medida; (3) igual orden de magnitud. No obstante estas limitaciones de

R, L. C. H. Tippett en 1925, al estudiar la distribución probabilística Normal, halló que se

relacionaba multiplicativamente con la desviación típica véase a Downie y Heath (5;

1973;p.76); matemáticamente se tendría que: R = FR* s, donde FR es el Factor de Recorrido

y s la desviación típica. Según, Azorín (1; 1970; p.51), Tippett fue el que creó, en 1927, la

primera tabla de números aleatorios, la cual constaba de 41.600 valores.

El Factor de Recorrido, FR, a su vez, es una función del tamaño muestral n,

correspondencia que puede apreciarse en el siguiente cuadro Downie y Heath(op.cit):

n 5 10 25 30 50 100 500 1000FR 2,3 3,1 3,9 4,1 4,5 5,0 6,1 6,5

169

Cuadro 3.2

Tal conexión entre R y s podría ser útil si de una muestra con distribución simétrica

sólo se conozcan Mx, sx, n y de la cual se desean estimar los valores extremos (máximo y

mínimo). Si el conjunto {x} está distribuido simétricamente se cumplirá que:

De la ecuación [3.27] se infiere que el intervalo Mx (R*/2) señala la amplitud de

ocurrencia del 100% de los valores muestrales, así como se consideraba que el intervalo

prescrito por Mx sx abarcaría, aproximadamente, el 67% de los datos si la distribución de

éstos es normal.

Coeficiente de Variación

Sean dos conjuntos muestrales, tales que {x}= {10,30}, y = {110,130}, cuyos

estadísticos muestrales son: Mx = 20, sx = 10, My = 120, sy = 10. Ello significa que la media

aritmética de ambas muestras tienen la misma calidad de representación de los datos de

donde provienen. Sin embargo, si las muestras {x}, {y} se refieren a atributos o cualidades

distintas obviamente la desviación típica no podría usarse como una medida viable de

comparación de representatividad de la media aritmética. Una manera de solventar tal

escollo es adimensionalizar la desviación típica dividiéndola por la media aritmética.

El cociente mencionado en el texto anterior se traduce en la siguiente fórmula:

170

Valores del Factor de Recorrido (Fr)según el Tamaño Muestral

El propósito básico de generar el coeficiente de variación (cv) es transformar a una

medida de dispersión como la desviación standard en un número puro. Bajo esa condición

todos los cv son, teóricamente, comparables aunque hay excepciones evidentes en el ámbito

de la climatología práctica como se mostrará a continuación.

De acuerdo a la fórmula [3.28] del cv, si se considera constante a la media aritmética,

es evidente que a una mayor variabilidad habrá un valor mayor de sx y se obtendrá un mayor

cv e inversamente, a una menor variabilidad habrá un menor cv; en ese sentido dado que sx

es una medida de la dispersión absoluta muestral, se conviene en que cv es una medida de la

variabilidad relativa de los datos. Sin embargo, esto será cierto si y sólo si las medias

aritméticas de las muestras que se comparan son iguales. Si ello no es así, no se puede

garantizar que una mayor variabilidad determinará un mayor cv o una menor variabilidad un

menor cv. Un ejemplo con series de tiempo de lluvias mensuales aclarará lo formulado en el

texto (estación Memo Km 50; 9° 24´ N - 66° 37´ W; 182 msnm; estado Guárico).

71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90LE 10 4 0 3 4 1 0 0 0 0 0 0 0 0 11 1 0 0 1 2LN 25 73 44 58 44 6 84 60 20 22 11 52 0 0 35 20 66 26 30 36

LE = lluvia de enero, en mm; LN = lluvia de noviembre, en mmLos estadísticos de las series de lluvias mensuales son:

Según la forma tradicional de interpretar al cv se concluiría en que el mes de enero es

más variable que el mes de noviembre véase, por ejemplo, a Benjamin y Cornell (2;

1981; p.9). Sin embargo, esta deducción no es pertinente (véanse gráficos anexos); nótese

que enero tiene una desviación típica relativamente baja y una media aritmética aún más baja

todavía; tales indicadores estadísticos señalan que los valores muestrales están afectados

notoriamente por factores o controles climáticos que determinan, prácticamente, ausencia de

lluvia; así mismo, el pequeño valor de la desviación típica significa que tales valores,

171

ME = 1,9 mm sE = 3,2 mm cvE = 171 % MN = 35,6 mm sN = 23,6 mm cvN = 66 %

Cuadro 3.3

Datos y Estadísticos de Lluvias de Enero y Noviembre

relativamente bajos, se agrupan en torno a ME, reiterando la notoria influencia del control

climático año tras año. De tal manera que dicha serie mensual no es más que una sucesión

de valores casi repetidos y ello significa poca variabilidad muestral. Esa interpretación

contradice la forma común de interpretar el cv. A tal respecto, el esquema que se presenta a

continuación expone las distintas alternativas básicas que podrían detectarse en las series

climáticas mensuales de lluvia y la correspondiente interpretación.

172

variabilidad

baja alta

datos devaloresmuy bajos

Mmuy baja

cv alto

notoriocontrol

climático

datos devaloresmuy altos

Mmuy alta

cv bajo

notoriocontrol

climático

mes seco meslluvioso

datos devalores

muy bajos

Mmuy baja

cv alto

escasocontrol

climático

datos devaloresmuy altos

Mmuy alta

cv bajo

escasocontrol

climático

mes seco meslluvioso

Diagrama 3.2

Interpretación del Coeficiente de Variabilidad en Series mensuales de Lluvia

Como ya se mencionó, el término variabilidad Diagrama 3.2 aquí se considera

equivalente al estadístico de dispersión absoluta s; en consecuencia las denominaciones

variabilidad baja o variabilidad alta se refieren a valores considerados, relativamente, bajo o

alto de la desviación típica: a mayor desviación típica, mayor variabilidad y a menor

desviación típica, menor variabilidad. En ese diagrama se destaca que una variabilidad baja

no conduce, necesariamente, a un cv bajo, pues si la media aritmética M es menor que s se

obtendría un cv mayor que 1 (relativamente alto), similar al ejemplo del mes de enero. Esta

lluvia de enero tiene baja variabilidad pero un cv alto, significando ello que no siempre el

valor del cv se corresponde con un grado de variabilidad único.

Tomando como referencia el bosquejo precedente, se constata que la serie pluvial de

noviembre tiene una media aritmética aproximadamente 18 veces mayor a la de enero y una

desviación típica aproximadamente 7 veces mayor a la del mes de enero; en ese sentido

puede clasificarse, comparativamente, como de alta variabilidad pero con media aritmética

mayor que s, lo que implica que cvN < cvE. Aquí de nuevo se presenta una inconsistencia

entre la condición muy variable de una serie de tiempo pero con un cv relativamente bajo.

De los cuatro casos, los que clasifican como casos “normales” son los de la siguiente

combinación: (1) alta variabilidad pero con menor valor en M, al cual corresponde un cv

alto y (2) baja variabilidad pero con mayor valor en M, el cual se asocia con un cv bajo. En

los casos restantes hay incompatibilidad entre el grado de variabilidad y la magnitud del cv.

En resumen, la magnitud del cv no necesariamente se corresponde de manera única

con la clase de variabilidad de los datos muestrales y será indispensable hacer la

consiguiente interpretación a posteriori de cómo se relacionan la desviación standard y la

media aritmética.

174

En conclusión, estrictamente el cv cuantifica la proporción que representa s con

respecto a M; la interpretación del cv como medida de variabilidad relativa muestral o

medida relativa de representatividad de M se realizará según cada situación debido a la

naturaleza bi-variable del cv. Ya Conrad y Pollak (4;1962; p. 56) habían advertido esa

condición ambigua en una medida de dispersión relativa como la del Vr, muy semejante al

cv en cuanto a la fórmula que lo determina; esos investigadores comentan que:

Thus, the assumption that Vr, represents a numerical characteristic of variability, unrelated to the arithmetic mean, has been proved fallacious by the observations. Therefore, conclusions drawn from comparing values of Vr, for different places in the vast regions where the annual precipitation is less than 28 in –certainly where it is less than 20 in.—are inaccurate and misleading. In regions with an annual precipitation greater than about 20 to 28 in., the values of Vr can be compared with one another without serious error.(2)

¿Influirán en el cv las transformaciones en las escalas de intervalo? Para responder a

esa interrogante se mostrará el siguiente caso. Sea {x} = {conjunto muestral de valores en

ºC}, {y} ={conjunto muestral equivalente al conjunto x pero en ºF}. Si no influyera la

unidad de medida debería cumplirse que cvx = cvy. Al aplicar las fórmulas respectivas se

tendría que:

En consecuencia, se verifica que cvx cvy, pero recuérdese que es errado realizar

operaciones aritméticas con puntuaciones en escala de intervalo y, por ello, ambos resultados

están equivocados. Lo adecuado aquí es aplicar la fórmula del cv a datos en escala de razón,

175

como por ejemplo en grados Kelvin (ºK) o en grados Rankine (ºR). Por lo tanto, si se

conviene que {K} = {conjunto muestral equivalente al conjunto x pero en ºK}, {R}=

{conjunto muestral equivalente al conjunto x pero en ºR}, se tiene que:

El resultado mostrado en la ecuación [3.30] significa que, si los datos se cuantifican en

escala de razón es indiferente utilizar cualquier unidad de medida cuando se aplica la

fórmula del cv, la cual es pertinente cuando las puntuaciones están en dicho nivel de

medición.

Ahora bien, se ha convenido en que Mx es una medida de la contribución constante de

los Factores Climáticos en la respuesta meteorológica; así mismo, sx es una contribución

promedio de los Factores Transitorios o variables en el lapso de análisis de dicho registro

meteorológico. De este modo el cociente que permite obtener el cvx cuantifica la relación de

las contribuciones promedios de los FT con respecto a los FC. Por lo tanto, si cvx > 1, ello

implica que la contribución de los FT es mayor que los FC. No obstante, cuando Mx 0,

debe entenderse que los FC actúan contribuyendo de manera opuesta dado que influyen

inhibitoriamente con retroalimentación negativa, como lo identifica la reciente literatura

climática en la respuesta meteorológica y ello significa que debe interpretarse de modo

distinto a la contribución de los FT si sx es un valor significativamente grande. En

176

consecuencia, si Mx 0, y cvx > 1, los FC influirán de modo sistemático inhibiendo la

cantidad meteorológica pero los FT se manifestarán de modo irregular determinando

registros apreciablemente distintos de cero. Como podrá notarse cada vez que Mx 0 es

necesario reflexionar sobre la interpretación del valor de cvx.

Medidas de Asimetría

Coeficiente de Sesgo

Supóngase que dado los conjuntos muestrales {x}, {y} al comparar sus coeficientes de

variación resulta que cvx = cvy. Esto significa que ambas muestras tienen igual dispersión

relativa promedio pero no se puede afirmar que ambos conjuntos tienen la misma

distribución alrededor de su media aritmética. Para conocer la distribución de los datos en

torno a su media aritmética se recurrirá al coeficiente de sesgo (cs).

Sea un conjunto muestral {xn}, de estadísticos Mx, sx, el coeficiente de asimetría o de

sesgo, csx viene dado por la expresión:

El coeficiente de sesgo es adimensional y, teóricamente, puede tomar cualquier valor

comprendido en el intervalo (-, +); si se representa la suma parcial positiva como + y a

la suma parcial negativa como -, se llega a las siguientes deducciones:

1º si + > - csx > 02º si + = - csx = 0 [3.32]3º si + < - csx < 0

177

Cada uno de los casos señalados en la expresión [3.32] es factible asociarla a las

relaciones siguientes entre media aritmética y mediana véase, Yamane (15; 1979; p.34):

1º csx > 0 Mx > Mdx {x} tiene una distribución asimétrica positiva 2º csx = 0 Mx = Mdx {x} tiene una distribución simétrica [3.33] 3º csx < 0 Mx < Mdx {x} tiene una distribución asimétrica negativa

De manera análoga como sucedió con los estadísticos descritos precedentemente, es

pertinente preguntarse si no afectará el resultado del cs cuando se calcula para cualesquiera

de las escalas de temperatura mencionadas en párrafos anteriores.

Conviniendo en que {x} = {conjunto muestral de datos de temperatura en ºC}, {y} =

{conjunto muestral de datos de temperatura en ºF, equivalente al conjunto en ºC}, entonces

se cumplirá que:

178

De la relación [3.34] se infiere que el coeficiente de sesgo es aplicable a cualquier

clase de datos independientemente de su nivel de medición.

Desde un punto de vista climatológico, el cs indicará, por término medio, hacia que

lado de la media (por “encima” o por “debajo”) se han manifestado los Factores Transitorios.

Por ejemplo, las series de lluvias del mes de enero y del mes de noviembre dadas

precedentemente, y que aquí se reproducen de nuevo, poseen, asimetría positiva.

71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90LE 10 4 0 3 4 1 0 0 0 0 0 0 0 0 11 1 0 0 1 2LN 25 73 44 58 44 6 84 60 20 22 11 52 0 0 35 20 66 26 30 36

LE = lluvia de enero, en mm; LN = lluvia de noviembre, en mm Estadísticos de las series de lluvias mensuales

La asimetría positiva se asociaría al efecto que producen los FT en la respuesta

meteorológica, cual es producir, por término general, una mayor dispersión por encima de la

media aritmética, alertando con ello la posibilidad de ocurrencia de valores extremos altos.

Si cs es negativo, se hará una interpretación opuesta a la descrita anteriormente.

Puntuaciones Tipificadas

Se ha señalado que mediante los estadísticos de dispersión absoluta y de dispersión

relativa (s y cv, respectivamente) es factible, con las limitaciones correspondientes,

179

ME = 1,9 mm MN = 35,6 mmMdE = 0 mm MdN = 32,5 mmsE = 3,2 mm sN = 23,6 mmcvE = 171 % cvN = 66 %csE = 2,0 csN = 0,3

Cuadro 3.4

Coeficientes de Sesgo de Series Mensuales de Lluvia

comparar series climatológicas para medir la representatividad de la media aritmética o bien

para cuantificar la contribución global de los Factores Transitorios en la respuesta

meteorológica. Pero si el propósito fuera comparar la observación individual de una serie

climática con otra observación particular de otra serie cualquiera, los estadísticos de

dispersión antes mencionados no son pertinentes para dicho parangón. En ese orden de

ideas, la literatura estadística sugiere la utilización de un índice denominado puntuación

tipificada léase, por ejemplo, a Haber y Runyon (8; 1973; pp. 105 y ss.)

Convéngase que se representa una muestra de temperaturas, en ºC, como {x} y a otra

muestra de lluvias, en mm, como {y}; si se desea comparar una puntuación en ºC con otra en

mm, se concluye en que esto no es operacionalmente procedente; pero si se transforman las

puntuaciones en números puros (adimensionalizados), entonces se podrían llevar a un eje

numérico común todas las mediciones transformadas donde la comparación es lógicamente

aceptable.

La adimensionalización puede realizarse mediante varios procedimientos; uno de ellos

es el denominado tipificación o estandarización de puntuaciones, transformación que

seguidamente se explica. Sea {xn}= {conjunto discreto de mediciones}, con media

aritmética Mx y desviación típica sx; si ahora se relaciona una medición cualquiera xj con los

estadísticos anteriores según la operación indicada más abajo se obtiene la puntuación

tipificada tj, tal que:

180

Lo que se prescribe en la ecuación [3.35] es que tj cuantifica el número de

desviaciones típicas a las cuales se distancia el valor xj de la media Mx. Por ejemplo, si la

puntuación tj = 2, implica que xj está a 2 desviaciones típicas de Mx o bien que la diferencia

entre xj y Mx equivale a 2 desviaciones típicas.

El índice o estadístico tj puede ser positivo, nulo o negativo, según que xj sea mayor,

igual o menor que Mx. Así mismo, se observa que xj y tji están relacionados linealmente,

dado que:

Se puede demostrar que la muestra de puntuaciones tipificadas, {tn}, satisface las

siguientes propiedades: (1) ti = 0; (2) Mt = 0: (3) st = 1; (4) t2 = n

En conclusión, el rol del estadístico t es comparable, por ejemplo, al del estadístico cv,

porque mientras éste sirve para comparar dispersiones medias el otro es pertinente para

comparar medidas individuales.

A fin de reforzar el concepto de puntuación tipificada es adecuado plantearse un

ejemplo con series climatológicas como las que a continuación se compilan.

181

Observatorio Cagigal, Caracas, Vzla.10º 30´N – 66º 56´W – 1.035 msnm

Series climatológicas de Marzo

Cuadro 3.5

Año Temperatura, ºC Precipitación, mm1969 21,1 331970 20,3 821971 19,9 61972 20,1 1141973 21,5 01974 19,1 211975 20,5 01976 18,6 121977 20,4 21978 20,3 4M = 20,2 27s= 0,81 37,3

Año tT tP

1969 1,14 0,151970 0,15 1,461971 -0,35 -0,571972 -0,10 2,321973 1,64 -0,731974 -1,34 -0,171975 0,40 -0,731976 -1,96 -0,411977 0,27 -0,681978 0,15 -0,63

182

Series Climatológicas de Temperatura y Precipitaciónde Marzo del Observatorio Cagigal

Cuadro 3.6

M = 0,00 0,00s= 1,00 1,00

Nótese que la media aritmética y la desviación típica de todo conjunto muestral de

puntuaciones tipificadas siempre son 0 y 1, respectivamente. Si se deseara conocer si marzo

de 1974 fue menos “caluroso” que “lluvioso”, obviamente no se podría resolver esta

interrogante comparando las puntuaciones originales, pero si se comparan las respectivas

puntuaciones tipificadas, se concluye que, en 1974, marzo fue más “lluvioso” que “caluroso”

dado que tP (1974) > tT (1974).

“Outliers”

Los valores extremos, aberrantes, infrecuentes, atípicos, muy distintos a la mayoría del

grupo de valores son conocidos en la literatura de escritura inglesa como “outliers”. De

inmediato, es natural, que surja la pregunta ¿qué son valores extremadamente pequeños o

grandes? Para responder a tal interrogante se recurrirá a un procedimiento de carácter

estadístico inferencial denominado el Test de los Valores Atípicos el cual, seguidamente, se

formaliza.

Sea {x} un conjunto muestral extraído de un conjunto poblacional que posee una

distribución probabilística Normal; si se simbolizan los valores extremos máximo y mínimo

como mx y mn, respectivamente, y sus correspondientes puntuaciones tipificadas como tmx

183

Puntuaciones Tipificadas de Series Mensuales de Temperatura y Precipitación del

Observatorio Cagigal

y tmn,; este par de valores se considera que constituirán el conjunto de valores extremos,

simbolizados como { tmx; tmn }.

Tómese de tal conjunto aquella puntuación que tenga el mayor valor absoluto,

selección que se representará matemáticamente como qn = MAX { tmx; tmn }. Si qn es mayor

que el estadístico de prueba q se toma la decisión de afirmar que la serie posee un valor

atípico, decisión que conlleva una probabilidad de equivocarse .

Si por el contrario, qn q, ello implica que no hay valores atípicos en la muestra.

De la referencia anteriormente citada se copia un cuadro donde se muestra la

correspondencia que hay entre el tamaño muestral y el estadístico q para los niveles de

significación de 0,05 y 0,01.

n 5 6 7 8 9 10 12 15 20=0,05 1,71 1,89 2,06 2,13 2,21 2,29 2,41 2,55 2,71=0,01 1,76 1,97 2,14 2,28 2,38 2,48 2,63 2,81 3,00

Con el propósito de fortalecer el procedimiento esbozado anteriormente, véase el

siguiente ejemplo donde se aplica el Test de los Valores Atípicos a la estación Maiquetía –

Aeropuerto (10º 36´N – 66º 59´W- 43 msnm), cuyos registros se obtuvieron del Sistema

184

Cuadro 3.7

Valores del Estadístico q para Distintos Niveles de Significación y Diversos Tamaños de Muestra

Nacional de Información Hidrológica y Meteorológica del Ministerio del Ambiente y de los

Recursos Naturales Renovables (MARNR).

0 1 2 3 4 5 6 7 8 9195 14 16 36 69 207 72 112 77 62 0196 161 19 35 4 27 15 186 54 24 78197 22 67 8 29 15 193 0 4 11 125198 52 18 49 18 98 221 7 59 159 7

Una inspección de los datos permite identificar que los valores extremos de la serie de

lluvias de diciembre son 0 mm (diciembre de 1976) y 221 mm (diciembre de 1985); ello

significa que en ese período de 40 años la lluvia mensual no excedió los 221 mm. Tales

antecedentes hacen destacar que la cantidad registrada para Maiquetía en 1999 (1204 mm en

la estación de la Fuerza Aérea Venezolana), en diciembre, superó completamente el valor

extremo de los 40 años del período indicado y, por ello, lo imprevisto del fenómeno pluvial

para los especialistas en el área meteorológica o climatológica.

Los estadísticos descriptivos básicos de la serie pluvial arriba compilada son:

Al aplicar la fórmula [3.35] a los valores extremos 0 mm y 221 mm, resultan las

puntuaciones tipificadas: T1959, 1976 = -0,9789, T1985 = 2,5822. Dado que la puntuación

185

Lluvias (mm) de Diciembre en Maiquetía Período 1950 – 1989

media aritmética = 60,8 mm mediana = 35,5 mmdesviación típica = 62,7 mm c. de variación = 102 %coef. de asimetría = +1,226

Cuadro 3.8

tipificada de 1985 es mayor, en valor absoluto, que las de 1959 y 1976, se conviene en que

qn = 2,5822, cantidad que se comparará con el estadístico q asociado a un tamaño muestral

de 40.

Según la tabla compilada anteriormente para q sólo es posible conocerlo para

algunos tamaños muestrales y hasta un máximo valor de 20 datos. En consecuencia, se hace

necesario elaborar una ecuación de mejor ajuste que permita extrapolar la relación existente

entre tamaño muestral y estadístico q. A tal efecto, mediante la Hoja de Cálculo Excel

(MS Office 97) se estimó la ecuación de mejor ajuste para =0,05 cuya expresión

algebraica fue: q = 0,623 + 0,712 LN n, donde LN n es el logaritmo neperiano del tamaño

muestral. En consecuencia, para un tamaño muestral de n = 40, resulta, para un nivel de

significación del 5%. que q = 3,2. Al comparar el estadístico calculado con el estadístico

“tabulado”, se obtiene que qn = 2,5822 < q = 3,2, lo que implica que la serie probablemente

no posee valor atípico en la muestra de 40 años.

¿A partir de cuál cantidad de lluvia es posible considerar que la serie tiene un valor

atípico? Si en la ecuación [3.35] se plantea que son conocidos todos sus componentes

menos el valor que pertenece a la serie, resulta una ecuación con una sola incógnita, tal que

xj = Mx + (sx * 3,2) 260 mm; es decir, para una serie de 40 datos con media aritmética y

desviación típica iguales a los valores indicados anteriormente, se estima que presentaría un

valor atípico si y sólo si perteneciera a la muestra una lluvia igual o mayor a los 260 mm.

En resumen, al hacer la interpretación climatológica de los estadísticos de la serie de

lluvias del mes de diciembre se tiene que:

1. La cantidad única resultante y representativa de los 40 años de lluvia como

efecto de la acción global de los Factores Climáticos y los Factores Transitorios

186

es de 60,8 mm; pero si se tomara en cuenta solamente la influencia de los

Factores Climáticos se conviene en que el valor representativo sería de 35,5 mm.

2. La contribución de los Factores Transitorios en los registros pluviales mensuales

es mayor que la contribución de los factores climáticos sobre los mismos, hecho

que se evidenciaría por la magnitud del coeficiente de variación de 102%. Ello

significa que en el proceso estocástico de la lluvia mensual de diciembre

predomina la componente aleatoria sobre la componente determinística.

3. La contribución de los Factores Transitorios no se manifiesta de manera

simétrica con respecto a la media aritmética sino que causa una dispersión mayor

por encima de tal promedio, lo cual puede ser verificado por el valor del

coeficiente de sesgo (+1,226); tal característica sugiere la posibilidad que se

registren valores extremadamente altos en lugar de extremadamente bajos. Así

mismo, una evidencia notoria de esa dispersión positiva es que el estadístico qn

de la muestra se asocia al mayor valor de la serie (221 mm).

187

Referencias

(1) Azorín P., Francisco. 1970. Curso de Muestreo y Aplicaciones. Segunda Edición.

Caracas, Venezuela: Facultad de Economía, Instituto de Investigaciones

Económicas, Dirección de Publicaciones.

(2) Benjamin, J. y Cornell, C. 1981. Probabilidad y Estadística en Ingeniería Civil.

Traducción de la 1ª Edición en Inglés en 1970. Bogotá, Colombia: Editorial

McGraw-Hill Latinoamericana S. A.

(3) Conover, W. J. 1980. Practical Nonparametric Statistics. Segunda Edición. Estados

Unidos de América: John Wiley & Sons.

(4) Conrad, V. y Pollack, L. W. 1962. Methods in Climatology. Segunda Edición.

Estados Unidos de América: Harvard University Press.

(5) Downie, N. M. y Heath, R. W. 1973. Métodos Estadísticos Aplicados. México:

Harla, S. A. de C. V.

(6) Editorial Norma. 1998. Diccionario de Matemáticas. Décimo Quinta Reimpresión.

Bogotá, Colombia: Editorial Norma, S. A.

(7) Grupo Logístico de Meteorología. (s/f). Promedios Climatológicos de Venezuela.

Período 1951-80. República de Venezuela: Ministerio de la Defensa, Fuerza

Aérea, Comando Logístico.

(8) Haber, A. y Runyon, R. P. 1973. Estadística General. México: Fondo Educativo

Interamericano, S. A.

(9) Kendall, M. G. y Buckland, W. R. 1980. Diccionario de Estadística. España:

188

Ediciones Pirámide, S. A.

(10) Rivas González, E. 1963. Estadística General. Caracas, Venezuela: Universidad

Central de Venezuela, Ediciones de la Biblioteca.

(11) Rodríguez Gómez, J. 1986. Proposición y Evaluación de Conocimientos Teóricos

y de Procedimientos Cuantitativos Aplicables en Climatología en el Estudio

Regional. Caracas, Venezuela. (Tesis de Maestría en Teoría y Metodología

Geográficas).

(12) Sánchez Carrillo, J. y Bermúdez H., E. A. 1990. Régimen Térmico del Suelo en

Venezuela. Maracay, Venezuela: Fondo Nacional de Investigaciones

Agropecuarias, Centro Nacional de Investigaciones Agropecuarias (FONAIAP-

CENIAP).

(13) Sierra Bravo, R. 1991. Diccionario Práctico de Estadística y Técnicas de Investigación

Científica. Madrid, España: Editorial Paraninfo, S. A.

(14) Ward, Joe H. 1963. Hierarchical Grouping to Optimize an Objective Function.

Journal of the American Statistical Association, 52, 236 – 244.

(15) Yamane, Taro. 1979 . Estadística. Tercera Edición. México: Harla S.A. de C. V.

189

Traducción Libre de Citas Textuales

(1) Ward (14; 1963; p. 237): “Dado un conjunto de ponderaciones para 10 individuos, {2,6,5,6,2,2,2,0,0,0}, una práctica usual es utilizar el valor medio para representar todas las puntuaciones en lugar de considerar las puntuaciones individuales. La ´pérdida´ de información que resulta de considerar a las 10 puntuaciones como un grupo con media de 2,5 puede ser indicada mediante un número `de valor resultante´, la suma de errores cuadráticos (ESS)”. (2) Conrad y Pollak (4; 1962; p. 56): ¨Por lo tanto, el supuesto de que Vr representa una característica numérica de la variabilidad, no relacionada con la media aritmética, ha sido demostrado que es una falacia con base a las observaciones. Por lo tanto, las consecuencias extraídas a partir de la comparación de valores de Vr para diferentes lugares en las vastas regiones donde la lluvia anual es menor a 28 pulgadas realmente donde ella es menor que 20 pulgadas son inexactas y erróneas. En regiones con una lluvia anual mayor que el intervalo de 20 a 28 pulgadas, los valores de Vr pueden ser comparados entre sí sin graves errores.

190

capitulo 3 climatologia

Documents

Transcript of capitulo 3 climatologia