capitulo 3 climatologia
-
Upload
nadyuskamosquera -
Category
Documents
-
view
61 -
download
0
description
Transcript of capitulo 3 climatologia
CAPÍTULO III
FÓRMULAS, APLICACIONES E INTERPRETACIONES DE LOS INDICES ESTADÍSTICOS
Tal como lo prescribe el título de este Capítulo, en él se expondrán las expresiones
matemáticas de los índices estadísticos descriptivos usuales, en qué situaciones
procedimentales se usan y cómo se interpretan tanto desde el punto de vista estadístico como
desde el punto de vista meteorológico o climatológico. El tratamiento de este contenido es
necesario según la secuencia dada en el Diagrama 2.7 del Capítulo II, que aquí vuelve a
mostrarse en la página siguiente como Diagrama 3.1; en dicho esquema se observa que a
continuación de las operaciones matemático – estadísticas procede la fase del proceso de la
Síntesis Estadística.
Los índices estadísticos a estudiar son los que alguna o frecuentemente la literatura
especializada denomina Estadísticos, término que definen Kendall y Buckland (9;1980,
p.144) de la siguiente manera:
Estadístico. Es un valor resumen calculado a partir de una muestra de observaciones, usualmente pero no necesariamente como un estimador de un parámetro poblacional. Es una función de los valores muestrales.
En este trabajo, sin embargo, por razones obvias sólo se abordarán algunos
estadísticos, los denominados como Medidas de la Tendencia Central, Medidas de
Dispersión y Medidas de Asimetría o Sesgo. Por lo tanto, en lo que atañe a esta
investigación el conjunto de estadísticos que algunas veces se simbolizará como
{Estadísticos} es equivalente al conjunto de medidas de la Tendencia Central, Medidas de
Dispersión y Medidas de Asimetría o Sesgo {Medidas de Tendencia Central, Medidas de
Dispersión, Medidas de Asimetría o Sesgo}.
144
145
Diagrama 3.1
Selección de Atributos
Conversiónde Atributos
MEDICIÓN
Determinación de la Clase de Dato
OperacionesMatemático –Estadísticas
IndicesEstadísticos
IndicesClimáticos
CLIMA
Síntesis Estadística
Operacióno Proceso Resultado
o Proceso
Secuencia
Precedencia de la Determinación de los Índices Estadísticos a la Obtención de los Índices Climáticos
Medidas de la Tendencia Central
Conocidas también con la denominación general de Promedios, tales estadísticos
pretenden representar, numéricamente, al conjunto de valores muestrales, o como lo definen
Kendall y Buckland (op.cit., p. 293):
Promedio. Concepto familiar pero evasivo. Generalmente, un valor promedio pretende representar o resumir los hechos relevantes de un conjunto de valores, y en este sentido, el término incluiría la mediana y la moda. En un sentido más limitado, un promedio compendia todos los valores del conjunto, como en el caso de las medias aritmética o geométrica. En el uso corriente, el promedio es con frecuencia sobrentendido que se refiere a la media aritmética.
Los promedios se clasifican en Promedios Matemáticos y No Matemáticos. Dentro de
los primeros, suelen ser nombrados por la literatura la media aritmética, la media geométrica
y la media armónica. El primero de amplio uso en estadística descriptiva y en estadística
inductiva en la distribución normal. El segundo utilizado en la distribución probabilística
Lognormal véase a Rodríguez (11;1986). La media armónica, Rivas (10;1963, p.141)
tiene poca aplicación práctica. Entre los promedios no matemáticos caben mencionar: la
mediana (usada en distribución Lognormal) y el modo (aplicada en la distribución
probabilística Gumbel) véase a Rodríguez, op. cit..
Media Aritmética
Sea el conjunto de datos muestrales, que se representará simbólicamente de manera
equivalente como {datos muestrales} = {x} = {x1, x2,..... xn,} = {xn} = x, donde los
subíndices denotan la aparición o secuencia cronológica de los datos; entonces:
146
Cuando se trató el punto de la totalización sobre cantidades físicas intensivas, se hizo
la explicación de que la media aritmética simple era también una media aritmética
ponderada, tal como se interpreta de la siguiente forma de representar también a dicho índice
de la tendencia central:
Aquí la media aritmética simple aparece como la totalización de todos los valores cada
uno ponderado por el factor 1/n; o sea, MX es una suma ponderada, similar a lo que se
conoce como Media Aritmética Ponderada véase, por ejemplo, a Sierra (13;1991;p. 311).
Ahora bien, con fines de resumir la representación matemática de las fórmulas,
usualmente se utilizan símbolos casi de universal aceptación; en el caso de la media
aritmética es habitual que se plantee la siguiente representación simbólica para la suma de
los datos muestrales:
El símbolo corresponde a la letra griega mayúscula sigma, cuya minúscula es . El
símbolo representa un operador matemático similar a los operadores Ln, Log, Tg o . El
sub o infraíndice j=1 señala el primer sumando y el supraíndice j=n, el último sumando del
total de sumandos; es decir, los índices de señalan entre que límites se extenderán los
sumandos. Si los subíndices de los sumandos siguen la secuencia natural de los números se
deduce fácilmente cuantos sumandos tiene la suma correspondiente. La simbología xj
147
corresponde al argumento sobre el cual operará , así como en x, x es el argumento sobre
el cual se aplicará el operador matemático de la raíz cuadrada.
Comúnmente el resultado de una operación acompaña al operador y al argumento,
como por ejemplo: x = y; en ocasiones la correspondencia entre argumento y resultado de
la operación se muestra de modo implícito, como por ejemplo: y = f(x), donde la letra f es la
simbología o notación del operador raíz cuadrada.
Ahora bien, los operadores matemáticos se pueden clasificar en operadores lineales y
operadores no lineales. Se dice que un operador es lineal si cumple que:
1º f (x+y) = f(x) + f(y), donde x, y son variables
2 º f (kx) = k f(x), donde k es una constante numérica
Unos ejemplos reforzarán los enunciados anteriores.
Ejemplo 1. Sea y = f(x) = 5x ¿es f un operador lineal? La letra f, en este ejercicio, indicará la
aplicación la operación indicada sobre el argumento correspondiente; luego, f(y) = 5y. En
consecuencia,
Según el requisito (1º): f(x+y) = 5(x+y) = 5x + 5y = f(x) + f(y)
Según (2º): f(3x) = 5(3x) = 3(5x) = 3 f(x) f es un operador lineal.
Lo de operador lineal provendría posiblemente de que las primeras funciones
matemáticas fueron análogas a la del ejemplo 1, y cuya representación gráfica es una línea
recta; hoy en día el operador lineal es un concepto más amplio que el concebido
originalmente.
Ejemplo 2. Se pide la suma de f(x)= 2x para todo x = {5,10,15}; o sea, se solicita realizar la
adición de f(x1) +f(x2) + f(x3).
148
Solución 1. Si x1= 5 f(x1) =10; si x2= 10 f(x2) =20; si x3= 15 f(x3) =30. Por lo tanto,
f(x) = 60. Luego, se han requerido para la suma de 3 datos de 4 operaciones: 3
multiplicaciones y una adición.
Solución 2. Dado que f es un operador lineal es admisible el siguiente procedimiento: f(x1)
+f(x2) + f(x3)= f(x1+x2 + x3)=f(30)=60. En consecuencia, se han requerido para lograr el
resultado solicitado 2 operaciones: una adición y una multiplicación.
Las diferencias de los 2 procedimientos, con tan sólo 3 datos no son notables; pero
supóngase que {x} constara de 100 datos; ello implicaría que según la solución 1 serían
necesarias 101 operaciones mientras que según la solución 2, se requerirían solamente 2
operaciones aritméticas: una adición y una multiplicación.
La reducción de operaciones se ha logrado gracias al conocimiento que se tuvo sobre
la naturaleza lineal del operador matemático: en general, los operadores lineales facilitan los
procedimientos usuales en el cálculo matemático.
Ejemplo 3. ¿Es un operador lineal? Para responder a ello se planteará el siguiente
ejercicio.
(1) Resolver (xj + yj), desde j=1 hasta j=3; aplicando las propiedades del operador
suma:
(xj + yj)= (x1 + y1) + (x2 + y2) + (x3 + y3) =(x1 +x2 +x3 ) + (y1 + y2 + y3)
(xj + yj)= (xj) + (yj)
(2) Resolver (5xj); (5xj) = (5x1 + 5x2 + 5x3) = 5 (x1 +x2 +x3) = 5 (xj)
Se concluye en que el operador es un operador lineal. También son operadores
lineales: Lím (el operador Límite), dy/dx (el operador derivada) y (el operador integral).
149
No son operadores lineales: las funciones trigonométricas, las funciones logarítmicas, las
funciones exponenciales y las funciones potenciales, entre otras.
En resumen, se debiera conocer acerca de si los datos son:
(1) Observados o calculados, debido a que influye sobre su interpretación;
(2) Cantidades Físicas o Enumerables, para conocer su exactitud o calidad;
(3) Numéricos Cardinales o no para saber operaciones aritméticas admisibles;
(4) Extensivos o Intensivos, para saber como se acumula o totaliza;
(5) Afectados por un operador lineal o no para simplificar o resumir operaciones
Algunas Propiedades de la Media Aritmética
1) Siempre es un estimador del valor verdadero de una Cantidad Física si y solo si la
media de los desvíos o términos de error es 0
2) Siempre es una suma o totalización ponderada de datos muestrales
3) Siempre está expresado en las mismas medidas del conjunto muestral
4) Siempre es el centroide de los datos
5) No siempre coincide con un valor muestral
6) No siempre coincide con un valor poblacional
7) No siempre representa adecuadamente al conjunto muestral
8) No siempre es un promedio climático
9) Siempre es la mediana de los n primeros números naturales
10) Siempre es la semisuma de los extremos si su sucesión ordinal forma una progresión
aritmética
150
11) Siempre es la semisuma de los valores conjugados u homólogos con respecto a la
mediana si su sucesión ordinal forma una progresión aritmética
12) Siempre puede considerarse como el valor más probable del próximo evento si el
conjunto muestral es un conjunto con sesgo nulo o tiene una distribución
aproximadamente normal.
Seguidamente se hará la demostración de la Propiedad 4, vale decir, que la media
aritmética siempre es el centroide del conjunto muestral. Se dice que c es el valor
centroidal o el centro cardinal de un conjunto x, {xn}, de datos si y sólo si se cumple que:
Si a cada diferencia (xj – c), en la ecuación [3.4], se le denomina como el j-ésimo
desvío individual con respecto al centroide c y se simboliza como Dxj, entonces la ecuación
[3.4] se transforma en:
Ahora bien ¿cómo, operacionalmente, se puede determinar ese valor centroidal del
conjunto muestral? Para ello se aplicará la propiedad “lineal” que tiene el operador ;
resolviendo se tiene que:
151
Por lo tanto, siempre la media aritmética se localiza entre los extremos del conjunto
{xn} de modo que se anula la suma de los desvíos o distancias Dxj; ello implica que conocido
Mx, los xj se distribuyen equilibradamente en torno a Mx. Por ejemplo, {x3}= x =
{2,3,10}, al expresar Mx como una totalización ponderada se aprecia que los valores
cercanos son ponderados dos veces mientras que el extremo 10 una vez, determinando que
Mx =5 “intente” representar lo repetido, lo más frecuente pero sin dejar de tomar en cuenta
al resto de los datos.
Si se conviene arbitrariamente en seleccionar que otro centroide como c´= 6 suma
de desvíos = Dxj = -3 los datos no se distribuyen equilibradamente en torno a 6 y en
consecuencia 6 no es el verdadero centroide de la muestra.
Si cada desvío se eleva al cuadrado y luego se suma se obtiene lo que se denomina una
suma de desvíos cuadráticos; según el ejemplo previamente considerado, tal totalización no
ponderada es igual a 38, es decir, (Dxj)2 = 38; si ahora se hace lo mismo con el centroide
arbitrario c´= 6, la suma es igual a 41, o sea, para c´= 6 (Dxj)2 = 41. Ello significa que
la media aritmética o centroide es la solución mínimo cuadrática de la suma de desvíos
cuadráticos, es decir, al resolver que valor da un mínimo para tal suma cuadrática, esa
solución es la media aritmética Mx. De ahí que se generalice, que siempre se cumplirá que:
152
La inecuación [3.7] prescribe, entonces, que los desvíos cuadráticos con respecto a la
media aritmética son siempre menores o iguales a los desvíos cuadráticos con respecto a
cualquier otro valor que se use como estimación del valor centroidal. Ello significa que no
hay ningún valor que supere a la media aritmética en cuanto a su localización óptima con
respecto al conjunto muestral en cuanto a que se ubica a la distancia que garantiza una
distribución de equilibrio de los datos muestrales alrededor de ella.
Se había expresado que la suma o totalización simple de valores no es procedente en
datos en escala de intervalo; sin embargo, esa restricción se anula cuando se calcula la media
aritmética en datos de esa clase tal como se plantea en el siguiente ejemplo.
Sea {x} = {muestra de datos de temperatura en ºC}; convéngase que {y} = {conjunto
equivalente al conjunto {x} en ºF}; se sabe que x no es equivalente a y, ¿pero no será Mx
equivalente a My?
Véase la siguiente demostración:
153
En conclusión, independientemente de la escala de medición de los datos, siempre se
cumplirá que si los conjuntos {xn}, {yn} son equivalentes, entonces se verificará que Mx =
My.
Mediana
Sea un conjunto muestral {xn} ={x1, x2,... xn}, donde {xn} es un conjunto cardinal
cronológica o temporalmente ordenado. Sea ahora {x(n)} ={x(1), x(2),... x(3)}, donde {x(n)} es un
conjunto cardinal categóricamente ordenado. Con base a este conjunto se define el valor
mediano o mediana mediante la fórmula:
Los subíndices asociados a cada dato de la secuencia ordinal se corresponden con la
sucesión de los números naturales, es decir el conjunto {1,2,..,n}. Según Conover (3;1980,
p.36), la suma de los primeros n números naturales, Sn, viene dada por la expresión:
La media aritmética de los ordinales {1,... n} se determina dividiendo la suma Sn entre
el número de ordinales; ello implica que la media aritmética de los primeros n ordinales es
Mn = (n+1)/2; en consecuencia, cuando n es impar, la determinación de la mediana Md
consiste en escoger el ordinal único que ocupa la posición centroidal en el conjunto de los
154
x(J) cuando n es impar, para j = (n+1)/2 Mdx = [3.9]
[x(J) + x(J+1) ] / 2 para n par, para j = n/2
donde n = tamaño muestral
ordinales, el cual coincide con uno de los valores de la serie ordinal. De ello se infiere que la
media aritmética Mn siempre se asocia a la mediana de los n primeros números
naturales. Algebraicamente significa que:
¿Y que sucede cuando n es par? Cuando n es par su centroide también es el que
ocupa la posición (n+1)/2, pero el resultado es un número no entero no coincidiendo con
ningún ordinal de la serie. El “sentido común” indica que el centroide estará entre dos
ordinales y a una distancia igual entre los dos. Nótese que:
(n+1)/2 = (n/2) + (1/2) el centroide ordinal estará a una distancia de ½ del término n/2 el próximo es
(n/2) +1 dado que el incremento es constantemente igual a la unidad el centroide de esos dos sucesivos términos es (n+1)/2; luego, es pertinente la expresión:
Obsérvese que el numerador coincide con la fórmula que se dio para el cálculo de la
posición donde se halla la mediana cuando n es par. En conclusión, la solución general para
determinar la localización de la mediana es (n+1)/2, la cual es pertinente tanto a la condición
par como la impar del número de datos. Por ejemplo, si n = 5, el valor mediano ocupará el
tercer valor de la secuencia ordinal de datos, dejando 2 valores de cada lado; si n=4, deja 2
valores de cada lado. En este último caso, se advierte una propiedad en cuanto a la
localización del valor mediano: deja a ambos lados la misma cantidad de datos es decir el
155
50%. Esto determina que la mediana se le asocie al llamado percentil 50 simbólicamente,
P50, es decir se le asocie una puntuación de la secuencia ordinal que deja por debajo de sí
el 50% de los datos. En ese sentido es apropiada la definición proporcionada por Kendall y
Buckland (9; 1980; p. 223):
Mediana. La mediana es el valor de la variante que divide la frecuencia total en dos mitades... Para una variante discontinua puede surgir alguna ambigüedad que solamente puede ser eliminada por convención. Para una frecuencia total de 2N+1 términos, la mediana es el valor de la variante del (N+1) término: para 2N términos se acostumbra a tomar la media del N-ésimo y el (N+1)-ésimo término.
Ahora bien, convéngase en que los datos en su secuencia ordinal siguen una
progresión aritmética, es decir, cuando son ordenados categóricamente los sucesivos
valores se van incrementando en una razón o tasa constante aditiva. La literatura
especializada véase, por ejemplo, el Diccionario de Matemáticas de la Editorial Norma
(6;1998; p.16) muestra que la suma total de una progresión aritmética viene dada por la
expresión:
donde, a = primer término de la progresión; u = último término de la progresión; n = número de términos.
Nótese que la expresión [3.13] es una fórmula análoga a la fórmula [3.10], la cual
permite obtener la suma de los primeros n números naturales; tal analogía indica que los
números naturales se estructuran según una progresión aritmética.
Ahora bien, si se determina la media aritmética de los datos que siguen una progresión
aritmética se tiene que:
156
La ecuación [3.14] es pertinente, dada que la suma de la sucesión ordinal es igual a
la suma de la sucesión cronológica y que a = el menor valor = xmin, así como u = el mayor
valor = xmax de la sucesión. En consecuencia, la media aritmética siempre es la semisuma
de los extremos de una muestra cuya sucesión ordinal conforma una progresión aritmética.
De ello se infieren dos situaciones: (1) si se conviene en que la sucesión ordinal de la
sucesión cronológica forma una progresión aritmética, basta calcular la semisuma de sus
extremos para determinar el valor centroidal de la muestra; (2) que si no se cumple lo
convenido en (1), entonces es erróneo ese cálculo para determinar la media aritmética
muestral.
El uso de la fórmula [3.14] es frecuente en datos de temperatura tal como se evidencia
en el trabajo de Sánchez et al (12; 1991; pág. 13), cuando reportan que:
Las temperaturas del aire se procesaron en forma similar. Fue tomada como temperatura media del aire el promedio de las temperaturas extremas (máxima y mínima). Sabemos que este valor no corresponde exactamente al concepto climatológico de temperatura media diaria, pero el motivo ha sido uniformar el procedimiento para permitir la comparación de temperaturas del aire y del suelo.
Es evidente que si el investigador presume que los datos conforman una serie ordinal
con progresión aritmética el cálculo de la media aritmética se reduciría ostensiblemente
porque solamente se requeriría de los valores extremos de la serie ordenada creciente o
decrecientemente. En los Resúmenes Climatológicos 1951-80 de las Fuerzas Aéreas de
Venezuela, elaborados por el Grupo Logístico de Meteorología (7;s/f), se compilan los
valores medios mensuales y sus valores mínimos y máximos absolutos de los elementos
meteorológicos siguientes: temperatura del aire, humedad relativa, presión atmosférica,
157
insolación, precipitación y evaporación; al comparar las medias mensuales con las medias
calculadas según la semisuma de máximo y mínimo puede verificarse en cuáles elementos
sería plausible la aplicación de la fórmula [3.14] en el cálculo de la media aritmética. A tal
efecto se han comparado las medias aritméticas, compiladas en la publicación anteriormente
mencionada, para el mes de Diciembre y las medias aritméticas estimadas según la
semisuma de sus valores extremos lográndose los siguientes resultados:
Elemento Meteorológico Error de la Estimación (%)Evaporación al sol 1,6Temperatura del aire 2,0Presión Atmosférica 5,6Insolación 19,2Humedad Relativa 25,3Precipitación 46,3
Estas cifras sugieren que se evalúe la factibilidad de aplicar la fórmula [3.14], en el
mes de Diciembre, en los elementos de la evaporación y la presión atmosférica, además de
la temperatura del aire, en virtud de que el error cometido al usar la mencionada fórmula es
inferior al 6%.
Ahora bien, ¿cómo se sabrá si la sucesión de datos sigue o no una progresión
aritmética?. Se aplicará el siguiente procedimiento matemático; sea x la suma de los datos
muestrales y Sn (fórmula [3.13]) la suma que se obtiene considerando que la sucesión
ordinal es una progresión aritmética; entonces,
si x = Sn ello implica que la muestra es un conjunto cuya serie
158
Cuadro 3.1
Error en la Estimación de la Media como Semisuma deValores Extremos Muestrales
categóricamente ordenada forma una progresión aritmética yello significa que Mx puede calcularse según ecuación [3.14]; encaso contrario es erróneo estimar a Mx como la semisuma desus valores extremos.
Se ha demostrado que la media aritmética de los primeros n números naturales es Sn/n
= (n+1)/2, cumpliéndose que Mn = Mdn. Por ejemplo, si {x5} = x = {1,2,3,4,5} Mx = Mdx
= 3. Se ha mostrado, además, que si la sucesión ordinal forma una progresión aritmética,
implica que Mx se determina como una semisuma de sus extremos, tal como expresa la
ecuación [3.14]. Al despejar esa expresión algebraica resulta que: Xmax – Mx = Mx – Xmin.
En consecuencia, la distancia de los extremos con respecto a Mx es siempre la misma en una
progresión aritmética.
Pero en una progresión aritmética se cumple que X (2) = X (1) + r = Xmin + r, donde r =
razón o constante numérica de la progresión; igualmente, X (3) = X (2) + r y así sucesivamente
hasta llegar al último valor: X (n-1) = X (n) - r. Así mismo, al obtener la semisuma de X (2) y X
(n-1) resulta igual a Mx. Es decir, si la sucesión ordinal forma una progresión aritmética, la
media aritmética siempre es la semisuma de valores situados opuesta o simétricamente en
torno a ella, lo cual puede comprobarse con el siguiente ejemplo: sea la muestra {1 2 3 4 5
6}; la media aritmética, Mx =3,5, puede calcularse con los respectivos homólogos o
simétricos, con respecto a la media aritmética, de la sucesión. Si n impar, como en el
conjunto muestral {1 2 3 4 5 6 7}, implica que Mx = 4 y puede calcularse como se indicó
más arriba. En función del párrafo precedente es pertinente plantear la siguiente ecuación
para el cálculo de la media aritmética:
159
donde X´(j) es el opuesto o simétrico de X(j) en la muestra numéricamente ordenada.
En virtud de que la media aritmética se puede calcular con base a valores simétricos en
torno a ella, se conviene en que Mx es un centro de simetría o que el conjunto muestral
posee centro de simetría. Se reitera que en toda progresión aritmética, M x = Mdx y en toda
progresión aritmética Mx es un centro de simetría. Entonces, se tiene una manera indirecta
para catalogar si existe o no centro de simetría: si coinciden su valor mediano Mdx con su
valor centroidal Mx significa que existe centro de simetría y ello implica que existe una
distribución simétrica de valores alrededor del centro de simetría Mx y ello evidencia que
hay igual número de valores y a similar distancia o desvío absoluto de los respectivos
homólogos o simétricos con respecto a Mx.
Como los homólogos (simétricos), en una distribución simétrica, tienen igual distancia
con respecto a Mx se cumplirá que, para cualquier par de valores simétricos u homólogos
Xj y X´j de una muestra ordenada: Xj – Mx = Mx – Xj´; al elevar al cubo e igualar a cero al
par de expresiones cúbicas se tiene que:
En consecuencia, si la suma de desvíos “cúbicos” es nula, implica que existe una
distribución simétrica de datos alrededor de la media aritmética. Por ejemplo, el conjunto
{1,2,99,100}, que es un subconjunto de la progresión aritmética de los primeros 100
160
números naturales, tiene centro de simetría dado que Mx = Mdx = 50.5 y ello significa que
la muestra es simétrica, tal como lo evidencia el hecho de que (Dx)3=0. En resumen, se
detecta que la muestra tiene distribución simétrica comprobando si existe centro de simetría,
lo cual se confirma con la existencia de igualdad entre media y mediana o bien mediante el
valor nulo de la suma de desvíos cúbicos.
Sin embargo hay una 3ª manera de detectar si existe o no centro de simetría en una
muestra, no sugerida por la literatura estadística pero ya señalada, indirectamente, en esta
investigación en párrafos precedentes y que seguidamente se expone. Si la suma de los datos
muestrales () es igual a la suma que le correspondería si su secuencia ordinal es una
progresión aritmética (Sn), entonces la sucesión tiene centro de simetría. En términos
algebraicos:
Por ejemplo, en {x}={1,2,99,100} ¿tiene o no centro de simetría? Su suma () es 202;
así mismo, Sn = (1+100)4/2 = 202; dado que () = Sn, entonces {x} tiene centro de simetría.
En resumen, con base a Mx se determinan las siguientes deducciones:
Si (x-Mx)= 0 {x} se localiza equilibradamente en torno a Mx
Si (x-Mx)2 es un valor mínimo no existe otro valor más cercano a {x} [3.18]
Si (x-Mx)3 =0 determina si {x} se distribuye simétricamente en torno a Mx
161
Con base a la información que suministran los textos de estadística acerca de cómo
están relacionadas, en las distribuciones probabilísticas, la media y la mediana (véase, por
ejemplo, Sierra (13; 1991; pp. 93-94), se tienen las siguientes condiciones:
(1) Si media y mediana son iguales la distribución de los datos es simétrica con
respecto a Mx. Ello revelará que; (a) habrá la misma cantidad de datos por encima y por
debajo de la Mx, dado que ésta coincide con el percentil 50 (P50) o segundo cuartil (Q2) y
(b) cada dato mayor a la media aritmética tendrá su homólogo localizado por debajo,
numéricamente, de Mx. Con respecto al término cuartil es apropiada la definición que da
Sierra (op.cit., p.162):
Cuantiles. Puntos de una distribución o una escala ordenada que la dividen en un conjunto de partes que comprenden igual número de datos. Los cuantiles más usados son los cuartiles, Q, los deciles, D, y los percentiles P, que se pueden considerar como los cuartiles básicos, en cuanto el decil es el percentil 10 y el cuartil, el 25. Son muy útiles porque reducen la serie de puntuaciones a base 100, con lo que permiten fácilmente la interpretación de las puntuaciones individuales y su comparación entre sí y con las series de puntuaciones de otras poblaciones. Por ejemplo, un P20 = 12 indica que un 20% de los datos de la distribución tiene un valor inferior a 12.
(2) Si Mx > Mdx significa que la distribución tiene asimetría positiva. Así mismo,
deberá interpretarse, en general, que habrá un número menor de datos por “encima” que por
“debajo” de Mx o bien que habiendo el mismo número de datos habrá mayor dispersión por
encima de Mx. En todo caso, se asume que habrá mayor dispersión en el subconjunto de
datos mayor a Mx.
(3) Si Mx < Mdx, significa que la distribución muestral tiene asimetría negativa y la
relación media – mediana se interpretará de modo contrario a lo expresado en el ítem (2).
Anteriormente se demostró que para datos en escala de intervalo era indiferente
calcular la media aritmética en conjuntos muestrales equivalentes (por ejemplo en escala
162
Celsius o en escala Fahrenheit); igualmente, se puede demostrar que si los conjuntos {xn},
{yn} son equivalentes, entonces se cumplirá que Mdx Mdy.
¿Qué medida de la tendencia central escoger, media o mediana, cuando difieren en
valor? Estadísticamente, si se considera que los valores extremos no son relevantes en el
análisis, se seleccionaría la mediana; en caso contrario, se escogería la media aritmética; así
mismo, este estadístico, al relacionarse operacionalmente con las medidas de dispersión y
asimetría, tiene un realce adicional que determina, en muchos casos, su escogencia como
medida de la tendencia central a utilizar. Igualmente, en la tesis de Maestría en Geografía de
Rodríguez (11;1986, Volumen I; pp.70-71) se deduce, desde el punto de vista estadístico-
inferencial, que la media aritmética es más confiable que la mediana como medida de
localización de los datos muestrales cuando se comparan los errores típicos de ambas
medidas de la tendencia central.
En cuanto a su relevancia en el aspecto climático cabe el siguiente análisis. En el
Capítulo I se manifestó que la cantidad meteorológica observada es, fundamentalmente, la
respuesta a los denominados Factores Climáticos (permanentes y semipermanentes) y
Factores transitorios (de naturaleza no sistemática); la media aritmética de un conjunto de
valores meteorológicos es una función físico-estadística o geográfica-estadística de los
factores antes mencionados pero donde la contribución dominante probablemente provendría
de los factores climáticos dado que todas las cantidades meteorológicas se recopilan bajo la
misma condición astronómica Tierra – Sol. En consecuencia, la media aritmética es la
cantidad de orden climático que “intenta” reproducir lo repetitivo, lo frecuente, lo cual viene
dado por la sistemática y persistente aparición de los Factores Climáticos. Así mismo, los
valores poco frecuentes, los valores extremos, se asocian a los factores no sistemáticos y
163
continuamente variables como los que se han llamado Factores Transitorios. En la medida
que aumente el tamaño muestral se conjetura que el peso de esas mediciones extraordinarias
o aberrantes disminuirá con respecto al resto de las mediciones, las cuales determinarán en
mayor proporción la suma ponderada de los datos que es en definitiva la manera operacional
de obtener la media aritmética.
En cuanto a la mediana respecta, ella reflejaría en menor medida los efectos de los
Factores Transitorios y, por lo tanto, la mediana sería la respuesta de orden climático
relacionada fundamentalmente con los Factores Climáticos, conexión que se hace más
evidente en la medida que el tamaño muestral sea suficientemente extenso.
En conclusión, las medidas de la tendencia central (media y mediana) son cantidades,
del atributo atmosférico correspondiente, relacionadas, fundamentalmente, con la naturaleza
físico-estadística de los Factores Climáticos bajo condiciones muestrales pertinentes.
Medidas de Dispersión
Desviación Típica
Convéngase en analizar estadísticamente a los conjuntos {x} = {0,100}, {y}= {49,51}.
Es fácil constatar que Mx = My. De inmediato puede surgir la interrogante de cuál de las 2
medias aritméticas representa más adecuadamente al conjunto muestral correspondiente. El
sentido común sugiere que My es una medida de tendencia central más adecuada que Mx.
Tal intuición puede corroborarse mediante otro estadístico que cuantifique la mayor
semejanza entre el conjunto muestral y su media aritmética. Para ello sería válida la
siguiente formalización: sea {xn} = {conjunto muestral discreto de n valores} x. Se
definirá como varianza de x = Var(x) = s2 al estadístico que resulta del siguiente cálculo:
164
Según la fórmula [3.19], s2 es factible interpretarla como la media aritmética de los
“desvíos cuadráticos”. Dado que el numerador de la expresión [3.19] es la solución mínimo
cuadrática de todos los posibles (Dx)2 es aceptable considerar que s2 es también un
“promedio mínimo cuadrático”. Si x es una cantidad física dimensionada, puede suceder
que las medidas de s2 o bien no tengan significado físico o bien que es más útil interpretar la
raíz cuadrada de la varianza dado que vendrá expresada en las mismas unidades del conjunto
{x}. Procediendo, resulta que:
Es usual que en la literatura estadística se haga referencia al estadístico nombrado
como cuasivarianza el cual se determina así:
La raíz cuadrada de la cuasi-varianza, paradójicamente, también es denominada como
desviación típica (o desviación “standard”) pudiendo crear esto confusión si no se aclara
previamente como fue obtenida la desviación típica dado que, obviamente, varianza y cuasi-
varianza no son iguales.
La obtención de la cuasivarianza a partir de la varianza es inmediata, tal como se
muestra en la expresión algebraica siguiente:
165
Si se conviene en que la muestra es infinitamente grande, es decir, n, entonces se
cumple que:
De la relación [3.23] se infiere que si la muestra es suficientemente grande es
indiferente usar la varianza o la cuasivarianza.
Nótese que si el numerador de la fórmula para calcular la desviación típica ecuación
[3.20] tiende a cero, entonces sx tiende a cero, y ello significa, a su vez, que los valores
individuales de la variable, xj tienden a Mx; por el contrario, si el numerador de la ecuación
[3.20] es un número muy grande, entonces sx también es muy grande y, por ende en
promedio, xj se aleja de Mx. Con base a ello sx tiene al menos dos significados: (1) como
medida promedio de la dispersión del conjunto muestral {x} de su centroide Mx y (2) como
medida de la representatividad de Mx del conjunto muestral {x}. En otro contexto, Ward
(14;1963; pp.236) denomina al numerador de la ecuación [3.20] como “la suma de errores
cuadráticos” (abreviatura en inglés, ESS), índice que cuantifica la llamada “pérdida de
información” que se comete al usar la media aritmética como representativa cardinal del
conjunto muestral; en palabras de Ward:
Given a set of ratings for 10 individuals, {2,6,5,6,2,2,2,0,0,0}, a common practice is to use the mean value to represent all the scores rather than to consider individual scores. The “loss” in information that results from treating the 10 scores as one group with a mean of 2.5 can be indicated by a “value-reflecting” number, the error sum of squares (ESS).81)
166
Ahora bien, si {x} representa al conjunto de cantidades de un atributo meteorológico
cualquiera centrado en Mx; la desviación de cada valor individual con respecto a Mx está
dado por la relación: xj – Mx = Dx; es decir, xj = Mx + Dx, donde xj es la cantidad o respuesta
meteorológica; Mx, como ya se conjeturó en el Capítulo I, es la cantidad asociada a los
Factores Climáticos (FC) y Dx es la correspondiente cantidad asociada a los Factores
variables o transitorios (FT). En síntesis, cada cantidad observada se considera que es la
respuesta a la combinación de los Factores Climáticos y los Factores Transitorios. Pero
recuérdese que el numerador de la varianza s2 es (Dx)2, y por ello la varianza es una medida
de la influencia “cuadrática” promedio de los Factores Transitorios y, por lo tanto, la
desviación típica sx es una medida promedio de la contribución o influencia de los
Factores Transitorios sobre la respuesta meteorológica en un lapso determinado. Si sx
0, xj reflejará principalmente la contribución de los Factores Climáticos y, en
consecuencia, Mx es una medida pertinente del conjunto {x} y relacionada,
fundamentalmente, con los FC.
El intervalo generado por Mx sx se considera como el intervalo que abarca la
ocurrencia “promedio” de los valores muestrales en virtud de que Mx cuantifica la
contribución general o media de los FC y sx mide la contribución media de los FT en el
período muestral estudiado. Particularmente, si {x} x sigue una distribución
probabilística normal con parámetros y 2 se considera que es el intervalo que
comprende el 67% del conjunto poblacional; en ese contexto, el intervalo Mx sx es un
intervalo que se presume abarca una proporción relevante de datos en torno al valor
promedio cuando los mismos se hallan simétricamente distribuidos alrededor de Mx. De
igual manera, adviértase que bajo el supuesto de normalidad Mx sería la cantidad más
167
probable y, naturalmente, el intervalo construido en torno a ella Mx sx sería el
intervalo más probable. En conclusión, desde el punto de vista climático se pronosticaría
que la magnitud del próximo evento debería pertenecer al intervalo Mx sx.
¿Afectarán los cambios de escala los valores de la desviación típica? Establézcase el
siguiente ejemplo para resolver la interrogante planteada. Sea {x}= {conjunto de
temperaturas mensuales en ºC}, {y} = {conjunto equivalente a x pero en ºF}. Entonces, son
válidas las siguientes operaciones:
Así mismo, con relación al conjunto {y} se tiene que:
Pero en el Capítulo II se demostró que los intervalos en ºF y en ºC se vinculan
mediante la expresión: y = (9/5) x, por lo que (y)2 = (9/5)2 (x)2. Al sustituir en la
ecuación [3.25] resulta que:
168
De la ecuación [3.26] se deduce que el cálculo de la varianza puede realizarse en
cualquier escala de medición porque el resultado correspondiente puede expresarse en otro
sistema de medida aplicando la ecuación de transformación pertinente. Es obvio que al
extraer la raíz cuadrada positiva a la última expresión en la ecuación [3.26] resulta que la
desviación típica en °F, sy = (9/5) sx, es decir, si la desviación típica está en ºC, ella puede
calcularse en ºF multiplicándola por el factor (9/5).
Recorrido o Amplitud Muestral
Sea el conjunto muestral {x} x; el recorrido muestral o recorrido de la variable x se
define matemáticamente como Rx = R(x) = R = xM – xm, donde xM = máximo valor de {x},
xm = mínimo valor de {x}. El estadístico R es un índice de dispersión absoluta con unidad
de medida igual al que posee el conjunto muestral y se considera pertinente como estadístico
de comparación si y sólo si las muestras a confrontar tienen: (1) distribuciones simétricas;
(2) igual unidad de medida; (3) igual orden de magnitud. No obstante estas limitaciones de
R, L. C. H. Tippett en 1925, al estudiar la distribución probabilística Normal, halló que se
relacionaba multiplicativamente con la desviación típica véase a Downie y Heath (5;
1973;p.76); matemáticamente se tendría que: R = FR* s, donde FR es el Factor de Recorrido
y s la desviación típica. Según, Azorín (1; 1970; p.51), Tippett fue el que creó, en 1927, la
primera tabla de números aleatorios, la cual constaba de 41.600 valores.
El Factor de Recorrido, FR, a su vez, es una función del tamaño muestral n,
correspondencia que puede apreciarse en el siguiente cuadro Downie y Heath(op.cit):
n 5 10 25 30 50 100 500 1000FR 2,3 3,1 3,9 4,1 4,5 5,0 6,1 6,5
169
Cuadro 3.2
Tal conexión entre R y s podría ser útil si de una muestra con distribución simétrica
sólo se conozcan Mx, sx, n y de la cual se desean estimar los valores extremos (máximo y
mínimo). Si el conjunto {x} está distribuido simétricamente se cumplirá que:
De la ecuación [3.27] se infiere que el intervalo Mx (R*/2) señala la amplitud de
ocurrencia del 100% de los valores muestrales, así como se consideraba que el intervalo
prescrito por Mx sx abarcaría, aproximadamente, el 67% de los datos si la distribución de
éstos es normal.
Coeficiente de Variación
Sean dos conjuntos muestrales, tales que {x}= {10,30}, y = {110,130}, cuyos
estadísticos muestrales son: Mx = 20, sx = 10, My = 120, sy = 10. Ello significa que la media
aritmética de ambas muestras tienen la misma calidad de representación de los datos de
donde provienen. Sin embargo, si las muestras {x}, {y} se refieren a atributos o cualidades
distintas obviamente la desviación típica no podría usarse como una medida viable de
comparación de representatividad de la media aritmética. Una manera de solventar tal
escollo es adimensionalizar la desviación típica dividiéndola por la media aritmética.
El cociente mencionado en el texto anterior se traduce en la siguiente fórmula:
170
Valores del Factor de Recorrido (Fr)según el Tamaño Muestral
El propósito básico de generar el coeficiente de variación (cv) es transformar a una
medida de dispersión como la desviación standard en un número puro. Bajo esa condición
todos los cv son, teóricamente, comparables aunque hay excepciones evidentes en el ámbito
de la climatología práctica como se mostrará a continuación.
De acuerdo a la fórmula [3.28] del cv, si se considera constante a la media aritmética,
es evidente que a una mayor variabilidad habrá un valor mayor de sx y se obtendrá un mayor
cv e inversamente, a una menor variabilidad habrá un menor cv; en ese sentido dado que sx
es una medida de la dispersión absoluta muestral, se conviene en que cv es una medida de la
variabilidad relativa de los datos. Sin embargo, esto será cierto si y sólo si las medias
aritméticas de las muestras que se comparan son iguales. Si ello no es así, no se puede
garantizar que una mayor variabilidad determinará un mayor cv o una menor variabilidad un
menor cv. Un ejemplo con series de tiempo de lluvias mensuales aclarará lo formulado en el
texto (estación Memo Km 50; 9° 24´ N - 66° 37´ W; 182 msnm; estado Guárico).
71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90LE 10 4 0 3 4 1 0 0 0 0 0 0 0 0 11 1 0 0 1 2LN 25 73 44 58 44 6 84 60 20 22 11 52 0 0 35 20 66 26 30 36
LE = lluvia de enero, en mm; LN = lluvia de noviembre, en mmLos estadísticos de las series de lluvias mensuales son:
Según la forma tradicional de interpretar al cv se concluiría en que el mes de enero es
más variable que el mes de noviembre véase, por ejemplo, a Benjamin y Cornell (2;
1981; p.9). Sin embargo, esta deducción no es pertinente (véanse gráficos anexos); nótese
que enero tiene una desviación típica relativamente baja y una media aritmética aún más baja
todavía; tales indicadores estadísticos señalan que los valores muestrales están afectados
notoriamente por factores o controles climáticos que determinan, prácticamente, ausencia de
lluvia; así mismo, el pequeño valor de la desviación típica significa que tales valores,
171
ME = 1,9 mm sE = 3,2 mm cvE = 171 % MN = 35,6 mm sN = 23,6 mm cvN = 66 %
Cuadro 3.3
Datos y Estadísticos de Lluvias de Enero y Noviembre
relativamente bajos, se agrupan en torno a ME, reiterando la notoria influencia del control
climático año tras año. De tal manera que dicha serie mensual no es más que una sucesión
de valores casi repetidos y ello significa poca variabilidad muestral. Esa interpretación
contradice la forma común de interpretar el cv. A tal respecto, el esquema que se presenta a
continuación expone las distintas alternativas básicas que podrían detectarse en las series
climáticas mensuales de lluvia y la correspondiente interpretación.
172
variabilidad
baja alta
datos devaloresmuy bajos
Mmuy baja
cv alto
notoriocontrol
climático
datos devaloresmuy altos
Mmuy alta
cv bajo
notoriocontrol
climático
mes seco meslluvioso
datos devalores
muy bajos
Mmuy baja
cv alto
escasocontrol
climático
datos devaloresmuy altos
Mmuy alta
cv bajo
escasocontrol
climático
mes seco meslluvioso
Diagrama 3.2
Interpretación del Coeficiente de Variabilidad en Series mensuales de Lluvia
173
Como ya se mencionó, el término variabilidad Diagrama 3.2 aquí se considera
equivalente al estadístico de dispersión absoluta s; en consecuencia las denominaciones
variabilidad baja o variabilidad alta se refieren a valores considerados, relativamente, bajo o
alto de la desviación típica: a mayor desviación típica, mayor variabilidad y a menor
desviación típica, menor variabilidad. En ese diagrama se destaca que una variabilidad baja
no conduce, necesariamente, a un cv bajo, pues si la media aritmética M es menor que s se
obtendría un cv mayor que 1 (relativamente alto), similar al ejemplo del mes de enero. Esta
lluvia de enero tiene baja variabilidad pero un cv alto, significando ello que no siempre el
valor del cv se corresponde con un grado de variabilidad único.
Tomando como referencia el bosquejo precedente, se constata que la serie pluvial de
noviembre tiene una media aritmética aproximadamente 18 veces mayor a la de enero y una
desviación típica aproximadamente 7 veces mayor a la del mes de enero; en ese sentido
puede clasificarse, comparativamente, como de alta variabilidad pero con media aritmética
mayor que s, lo que implica que cvN < cvE. Aquí de nuevo se presenta una inconsistencia
entre la condición muy variable de una serie de tiempo pero con un cv relativamente bajo.
De los cuatro casos, los que clasifican como casos “normales” son los de la siguiente
combinación: (1) alta variabilidad pero con menor valor en M, al cual corresponde un cv
alto y (2) baja variabilidad pero con mayor valor en M, el cual se asocia con un cv bajo. En
los casos restantes hay incompatibilidad entre el grado de variabilidad y la magnitud del cv.
En resumen, la magnitud del cv no necesariamente se corresponde de manera única
con la clase de variabilidad de los datos muestrales y será indispensable hacer la
consiguiente interpretación a posteriori de cómo se relacionan la desviación standard y la
media aritmética.
174
En conclusión, estrictamente el cv cuantifica la proporción que representa s con
respecto a M; la interpretación del cv como medida de variabilidad relativa muestral o
medida relativa de representatividad de M se realizará según cada situación debido a la
naturaleza bi-variable del cv. Ya Conrad y Pollak (4;1962; p. 56) habían advertido esa
condición ambigua en una medida de dispersión relativa como la del Vr, muy semejante al
cv en cuanto a la fórmula que lo determina; esos investigadores comentan que:
Thus, the assumption that Vr, represents a numerical characteristic of variability, unrelated to the arithmetic mean, has been proved fallacious by the observations. Therefore, conclusions drawn from comparing values of Vr, for different places in the vast regions where the annual precipitation is less than 28 in –certainly where it is less than 20 in.—are inaccurate and misleading. In regions with an annual precipitation greater than about 20 to 28 in., the values of Vr can be compared with one another without serious error.(2)
¿Influirán en el cv las transformaciones en las escalas de intervalo? Para responder a
esa interrogante se mostrará el siguiente caso. Sea {x} = {conjunto muestral de valores en
ºC}, {y} ={conjunto muestral equivalente al conjunto x pero en ºF}. Si no influyera la
unidad de medida debería cumplirse que cvx = cvy. Al aplicar las fórmulas respectivas se
tendría que:
En consecuencia, se verifica que cvx cvy, pero recuérdese que es errado realizar
operaciones aritméticas con puntuaciones en escala de intervalo y, por ello, ambos resultados
están equivocados. Lo adecuado aquí es aplicar la fórmula del cv a datos en escala de razón,
175
como por ejemplo en grados Kelvin (ºK) o en grados Rankine (ºR). Por lo tanto, si se
conviene que {K} = {conjunto muestral equivalente al conjunto x pero en ºK}, {R}=
{conjunto muestral equivalente al conjunto x pero en ºR}, se tiene que:
El resultado mostrado en la ecuación [3.30] significa que, si los datos se cuantifican en
escala de razón es indiferente utilizar cualquier unidad de medida cuando se aplica la
fórmula del cv, la cual es pertinente cuando las puntuaciones están en dicho nivel de
medición.
Ahora bien, se ha convenido en que Mx es una medida de la contribución constante de
los Factores Climáticos en la respuesta meteorológica; así mismo, sx es una contribución
promedio de los Factores Transitorios o variables en el lapso de análisis de dicho registro
meteorológico. De este modo el cociente que permite obtener el cvx cuantifica la relación de
las contribuciones promedios de los FT con respecto a los FC. Por lo tanto, si cvx > 1, ello
implica que la contribución de los FT es mayor que los FC. No obstante, cuando Mx 0,
debe entenderse que los FC actúan contribuyendo de manera opuesta dado que influyen
inhibitoriamente con retroalimentación negativa, como lo identifica la reciente literatura
climática en la respuesta meteorológica y ello significa que debe interpretarse de modo
distinto a la contribución de los FT si sx es un valor significativamente grande. En
176
consecuencia, si Mx 0, y cvx > 1, los FC influirán de modo sistemático inhibiendo la
cantidad meteorológica pero los FT se manifestarán de modo irregular determinando
registros apreciablemente distintos de cero. Como podrá notarse cada vez que Mx 0 es
necesario reflexionar sobre la interpretación del valor de cvx.
Medidas de Asimetría
Coeficiente de Sesgo
Supóngase que dado los conjuntos muestrales {x}, {y} al comparar sus coeficientes de
variación resulta que cvx = cvy. Esto significa que ambas muestras tienen igual dispersión
relativa promedio pero no se puede afirmar que ambos conjuntos tienen la misma
distribución alrededor de su media aritmética. Para conocer la distribución de los datos en
torno a su media aritmética se recurrirá al coeficiente de sesgo (cs).
Sea un conjunto muestral {xn}, de estadísticos Mx, sx, el coeficiente de asimetría o de
sesgo, csx viene dado por la expresión:
El coeficiente de sesgo es adimensional y, teóricamente, puede tomar cualquier valor
comprendido en el intervalo (-, +); si se representa la suma parcial positiva como + y a
la suma parcial negativa como -, se llega a las siguientes deducciones:
1º si + > - csx > 02º si + = - csx = 0 [3.32]3º si + < - csx < 0
177
Cada uno de los casos señalados en la expresión [3.32] es factible asociarla a las
relaciones siguientes entre media aritmética y mediana véase, Yamane (15; 1979; p.34):
1º csx > 0 Mx > Mdx {x} tiene una distribución asimétrica positiva 2º csx = 0 Mx = Mdx {x} tiene una distribución simétrica [3.33] 3º csx < 0 Mx < Mdx {x} tiene una distribución asimétrica negativa
De manera análoga como sucedió con los estadísticos descritos precedentemente, es
pertinente preguntarse si no afectará el resultado del cs cuando se calcula para cualesquiera
de las escalas de temperatura mencionadas en párrafos anteriores.
Conviniendo en que {x} = {conjunto muestral de datos de temperatura en ºC}, {y} =
{conjunto muestral de datos de temperatura en ºF, equivalente al conjunto en ºC}, entonces
se cumplirá que:
178
De la relación [3.34] se infiere que el coeficiente de sesgo es aplicable a cualquier
clase de datos independientemente de su nivel de medición.
Desde un punto de vista climatológico, el cs indicará, por término medio, hacia que
lado de la media (por “encima” o por “debajo”) se han manifestado los Factores Transitorios.
Por ejemplo, las series de lluvias del mes de enero y del mes de noviembre dadas
precedentemente, y que aquí se reproducen de nuevo, poseen, asimetría positiva.
71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90LE 10 4 0 3 4 1 0 0 0 0 0 0 0 0 11 1 0 0 1 2LN 25 73 44 58 44 6 84 60 20 22 11 52 0 0 35 20 66 26 30 36
LE = lluvia de enero, en mm; LN = lluvia de noviembre, en mm Estadísticos de las series de lluvias mensuales
La asimetría positiva se asociaría al efecto que producen los FT en la respuesta
meteorológica, cual es producir, por término general, una mayor dispersión por encima de la
media aritmética, alertando con ello la posibilidad de ocurrencia de valores extremos altos.
Si cs es negativo, se hará una interpretación opuesta a la descrita anteriormente.
Puntuaciones Tipificadas
Se ha señalado que mediante los estadísticos de dispersión absoluta y de dispersión
relativa (s y cv, respectivamente) es factible, con las limitaciones correspondientes,
179
ME = 1,9 mm MN = 35,6 mmMdE = 0 mm MdN = 32,5 mmsE = 3,2 mm sN = 23,6 mmcvE = 171 % cvN = 66 %csE = 2,0 csN = 0,3
Cuadro 3.4
Coeficientes de Sesgo de Series Mensuales de Lluvia
comparar series climatológicas para medir la representatividad de la media aritmética o bien
para cuantificar la contribución global de los Factores Transitorios en la respuesta
meteorológica. Pero si el propósito fuera comparar la observación individual de una serie
climática con otra observación particular de otra serie cualquiera, los estadísticos de
dispersión antes mencionados no son pertinentes para dicho parangón. En ese orden de
ideas, la literatura estadística sugiere la utilización de un índice denominado puntuación
tipificada léase, por ejemplo, a Haber y Runyon (8; 1973; pp. 105 y ss.)
Convéngase que se representa una muestra de temperaturas, en ºC, como {x} y a otra
muestra de lluvias, en mm, como {y}; si se desea comparar una puntuación en ºC con otra en
mm, se concluye en que esto no es operacionalmente procedente; pero si se transforman las
puntuaciones en números puros (adimensionalizados), entonces se podrían llevar a un eje
numérico común todas las mediciones transformadas donde la comparación es lógicamente
aceptable.
La adimensionalización puede realizarse mediante varios procedimientos; uno de ellos
es el denominado tipificación o estandarización de puntuaciones, transformación que
seguidamente se explica. Sea {xn}= {conjunto discreto de mediciones}, con media
aritmética Mx y desviación típica sx; si ahora se relaciona una medición cualquiera xj con los
estadísticos anteriores según la operación indicada más abajo se obtiene la puntuación
tipificada tj, tal que:
180
Lo que se prescribe en la ecuación [3.35] es que tj cuantifica el número de
desviaciones típicas a las cuales se distancia el valor xj de la media Mx. Por ejemplo, si la
puntuación tj = 2, implica que xj está a 2 desviaciones típicas de Mx o bien que la diferencia
entre xj y Mx equivale a 2 desviaciones típicas.
El índice o estadístico tj puede ser positivo, nulo o negativo, según que xj sea mayor,
igual o menor que Mx. Así mismo, se observa que xj y tji están relacionados linealmente,
dado que:
Se puede demostrar que la muestra de puntuaciones tipificadas, {tn}, satisface las
siguientes propiedades: (1) ti = 0; (2) Mt = 0: (3) st = 1; (4) t2 = n
En conclusión, el rol del estadístico t es comparable, por ejemplo, al del estadístico cv,
porque mientras éste sirve para comparar dispersiones medias el otro es pertinente para
comparar medidas individuales.
A fin de reforzar el concepto de puntuación tipificada es adecuado plantearse un
ejemplo con series climatológicas como las que a continuación se compilan.
181
Observatorio Cagigal, Caracas, Vzla.10º 30´N – 66º 56´W – 1.035 msnm
Series climatológicas de Marzo
Cuadro 3.5
Año Temperatura, ºC Precipitación, mm1969 21,1 331970 20,3 821971 19,9 61972 20,1 1141973 21,5 01974 19,1 211975 20,5 01976 18,6 121977 20,4 21978 20,3 4M = 20,2 27s= 0,81 37,3
Año tT tP
1969 1,14 0,151970 0,15 1,461971 -0,35 -0,571972 -0,10 2,321973 1,64 -0,731974 -1,34 -0,171975 0,40 -0,731976 -1,96 -0,411977 0,27 -0,681978 0,15 -0,63
182
Series Climatológicas de Temperatura y Precipitaciónde Marzo del Observatorio Cagigal
Cuadro 3.6
M = 0,00 0,00s= 1,00 1,00
Nótese que la media aritmética y la desviación típica de todo conjunto muestral de
puntuaciones tipificadas siempre son 0 y 1, respectivamente. Si se deseara conocer si marzo
de 1974 fue menos “caluroso” que “lluvioso”, obviamente no se podría resolver esta
interrogante comparando las puntuaciones originales, pero si se comparan las respectivas
puntuaciones tipificadas, se concluye que, en 1974, marzo fue más “lluvioso” que “caluroso”
dado que tP (1974) > tT (1974).
“Outliers”
Los valores extremos, aberrantes, infrecuentes, atípicos, muy distintos a la mayoría del
grupo de valores son conocidos en la literatura de escritura inglesa como “outliers”. De
inmediato, es natural, que surja la pregunta ¿qué son valores extremadamente pequeños o
grandes? Para responder a tal interrogante se recurrirá a un procedimiento de carácter
estadístico inferencial denominado el Test de los Valores Atípicos el cual, seguidamente, se
formaliza.
Sea {x} un conjunto muestral extraído de un conjunto poblacional que posee una
distribución probabilística Normal; si se simbolizan los valores extremos máximo y mínimo
como mx y mn, respectivamente, y sus correspondientes puntuaciones tipificadas como tmx
183
Puntuaciones Tipificadas de Series Mensuales de Temperatura y Precipitación del
Observatorio Cagigal
y tmn,; este par de valores se considera que constituirán el conjunto de valores extremos,
simbolizados como { tmx; tmn }.
Tómese de tal conjunto aquella puntuación que tenga el mayor valor absoluto,
selección que se representará matemáticamente como qn = MAX { tmx; tmn }. Si qn es mayor
que el estadístico de prueba q se toma la decisión de afirmar que la serie posee un valor
atípico, decisión que conlleva una probabilidad de equivocarse .
Si por el contrario, qn q, ello implica que no hay valores atípicos en la muestra.
De la referencia anteriormente citada se copia un cuadro donde se muestra la
correspondencia que hay entre el tamaño muestral y el estadístico q para los niveles de
significación de 0,05 y 0,01.
n 5 6 7 8 9 10 12 15 20=0,05 1,71 1,89 2,06 2,13 2,21 2,29 2,41 2,55 2,71=0,01 1,76 1,97 2,14 2,28 2,38 2,48 2,63 2,81 3,00
Con el propósito de fortalecer el procedimiento esbozado anteriormente, véase el
siguiente ejemplo donde se aplica el Test de los Valores Atípicos a la estación Maiquetía –
Aeropuerto (10º 36´N – 66º 59´W- 43 msnm), cuyos registros se obtuvieron del Sistema
184
Cuadro 3.7
Valores del Estadístico q para Distintos Niveles de Significación y Diversos Tamaños de Muestra
Nacional de Información Hidrológica y Meteorológica del Ministerio del Ambiente y de los
Recursos Naturales Renovables (MARNR).
0 1 2 3 4 5 6 7 8 9195 14 16 36 69 207 72 112 77 62 0196 161 19 35 4 27 15 186 54 24 78197 22 67 8 29 15 193 0 4 11 125198 52 18 49 18 98 221 7 59 159 7
Una inspección de los datos permite identificar que los valores extremos de la serie de
lluvias de diciembre son 0 mm (diciembre de 1976) y 221 mm (diciembre de 1985); ello
significa que en ese período de 40 años la lluvia mensual no excedió los 221 mm. Tales
antecedentes hacen destacar que la cantidad registrada para Maiquetía en 1999 (1204 mm en
la estación de la Fuerza Aérea Venezolana), en diciembre, superó completamente el valor
extremo de los 40 años del período indicado y, por ello, lo imprevisto del fenómeno pluvial
para los especialistas en el área meteorológica o climatológica.
Los estadísticos descriptivos básicos de la serie pluvial arriba compilada son:
Al aplicar la fórmula [3.35] a los valores extremos 0 mm y 221 mm, resultan las
puntuaciones tipificadas: T1959, 1976 = -0,9789, T1985 = 2,5822. Dado que la puntuación
185
Lluvias (mm) de Diciembre en Maiquetía Período 1950 – 1989
media aritmética = 60,8 mm mediana = 35,5 mmdesviación típica = 62,7 mm c. de variación = 102 %coef. de asimetría = +1,226
Cuadro 3.8
tipificada de 1985 es mayor, en valor absoluto, que las de 1959 y 1976, se conviene en que
qn = 2,5822, cantidad que se comparará con el estadístico q asociado a un tamaño muestral
de 40.
Según la tabla compilada anteriormente para q sólo es posible conocerlo para
algunos tamaños muestrales y hasta un máximo valor de 20 datos. En consecuencia, se hace
necesario elaborar una ecuación de mejor ajuste que permita extrapolar la relación existente
entre tamaño muestral y estadístico q. A tal efecto, mediante la Hoja de Cálculo Excel
(MS Office 97) se estimó la ecuación de mejor ajuste para =0,05 cuya expresión
algebraica fue: q = 0,623 + 0,712 LN n, donde LN n es el logaritmo neperiano del tamaño
muestral. En consecuencia, para un tamaño muestral de n = 40, resulta, para un nivel de
significación del 5%. que q = 3,2. Al comparar el estadístico calculado con el estadístico
“tabulado”, se obtiene que qn = 2,5822 < q = 3,2, lo que implica que la serie probablemente
no posee valor atípico en la muestra de 40 años.
¿A partir de cuál cantidad de lluvia es posible considerar que la serie tiene un valor
atípico? Si en la ecuación [3.35] se plantea que son conocidos todos sus componentes
menos el valor que pertenece a la serie, resulta una ecuación con una sola incógnita, tal que
xj = Mx + (sx * 3,2) 260 mm; es decir, para una serie de 40 datos con media aritmética y
desviación típica iguales a los valores indicados anteriormente, se estima que presentaría un
valor atípico si y sólo si perteneciera a la muestra una lluvia igual o mayor a los 260 mm.
En resumen, al hacer la interpretación climatológica de los estadísticos de la serie de
lluvias del mes de diciembre se tiene que:
1. La cantidad única resultante y representativa de los 40 años de lluvia como
efecto de la acción global de los Factores Climáticos y los Factores Transitorios
186
es de 60,8 mm; pero si se tomara en cuenta solamente la influencia de los
Factores Climáticos se conviene en que el valor representativo sería de 35,5 mm.
2. La contribución de los Factores Transitorios en los registros pluviales mensuales
es mayor que la contribución de los factores climáticos sobre los mismos, hecho
que se evidenciaría por la magnitud del coeficiente de variación de 102%. Ello
significa que en el proceso estocástico de la lluvia mensual de diciembre
predomina la componente aleatoria sobre la componente determinística.
3. La contribución de los Factores Transitorios no se manifiesta de manera
simétrica con respecto a la media aritmética sino que causa una dispersión mayor
por encima de tal promedio, lo cual puede ser verificado por el valor del
coeficiente de sesgo (+1,226); tal característica sugiere la posibilidad que se
registren valores extremadamente altos en lugar de extremadamente bajos. Así
mismo, una evidencia notoria de esa dispersión positiva es que el estadístico qn
de la muestra se asocia al mayor valor de la serie (221 mm).
187
Referencias
(1) Azorín P., Francisco. 1970. Curso de Muestreo y Aplicaciones. Segunda Edición.
Caracas, Venezuela: Facultad de Economía, Instituto de Investigaciones
Económicas, Dirección de Publicaciones.
(2) Benjamin, J. y Cornell, C. 1981. Probabilidad y Estadística en Ingeniería Civil.
Traducción de la 1ª Edición en Inglés en 1970. Bogotá, Colombia: Editorial
McGraw-Hill Latinoamericana S. A.
(3) Conover, W. J. 1980. Practical Nonparametric Statistics. Segunda Edición. Estados
Unidos de América: John Wiley & Sons.
(4) Conrad, V. y Pollack, L. W. 1962. Methods in Climatology. Segunda Edición.
Estados Unidos de América: Harvard University Press.
(5) Downie, N. M. y Heath, R. W. 1973. Métodos Estadísticos Aplicados. México:
Harla, S. A. de C. V.
(6) Editorial Norma. 1998. Diccionario de Matemáticas. Décimo Quinta Reimpresión.
Bogotá, Colombia: Editorial Norma, S. A.
(7) Grupo Logístico de Meteorología. (s/f). Promedios Climatológicos de Venezuela.
Período 1951-80. República de Venezuela: Ministerio de la Defensa, Fuerza
Aérea, Comando Logístico.
(8) Haber, A. y Runyon, R. P. 1973. Estadística General. México: Fondo Educativo
Interamericano, S. A.
(9) Kendall, M. G. y Buckland, W. R. 1980. Diccionario de Estadística. España:
188
Ediciones Pirámide, S. A.
(10) Rivas González, E. 1963. Estadística General. Caracas, Venezuela: Universidad
Central de Venezuela, Ediciones de la Biblioteca.
(11) Rodríguez Gómez, J. 1986. Proposición y Evaluación de Conocimientos Teóricos
y de Procedimientos Cuantitativos Aplicables en Climatología en el Estudio
Regional. Caracas, Venezuela. (Tesis de Maestría en Teoría y Metodología
Geográficas).
(12) Sánchez Carrillo, J. y Bermúdez H., E. A. 1990. Régimen Térmico del Suelo en
Venezuela. Maracay, Venezuela: Fondo Nacional de Investigaciones
Agropecuarias, Centro Nacional de Investigaciones Agropecuarias (FONAIAP-
CENIAP).
(13) Sierra Bravo, R. 1991. Diccionario Práctico de Estadística y Técnicas de Investigación
Científica. Madrid, España: Editorial Paraninfo, S. A.
(14) Ward, Joe H. 1963. Hierarchical Grouping to Optimize an Objective Function.
Journal of the American Statistical Association, 52, 236 – 244.
(15) Yamane, Taro. 1979 . Estadística. Tercera Edición. México: Harla S.A. de C. V.
189
Traducción Libre de Citas Textuales
(1) Ward (14; 1963; p. 237): “Dado un conjunto de ponderaciones para 10 individuos, {2,6,5,6,2,2,2,0,0,0}, una práctica usual es utilizar el valor medio para representar todas las puntuaciones en lugar de considerar las puntuaciones individuales. La ´pérdida´ de información que resulta de considerar a las 10 puntuaciones como un grupo con media de 2,5 puede ser indicada mediante un número `de valor resultante´, la suma de errores cuadráticos (ESS)”. (2) Conrad y Pollak (4; 1962; p. 56): ¨Por lo tanto, el supuesto de que Vr representa una característica numérica de la variabilidad, no relacionada con la media aritmética, ha sido demostrado que es una falacia con base a las observaciones. Por lo tanto, las consecuencias extraídas a partir de la comparación de valores de Vr para diferentes lugares en las vastas regiones donde la lluvia anual es menor a 28 pulgadas realmente donde ella es menor que 20 pulgadas son inexactas y erróneas. En regiones con una lluvia anual mayor que el intervalo de 20 a 28 pulgadas, los valores de Vr pueden ser comparados entre sí sin graves errores.
190