Ley de Benford

4
Universidad Santo Tomás Curso ACL 9.0 www.eduardoleyton.com 1 LEY DE BENFORD Fuente: www.estadisticasparatodos.es Los números suelen comenzar más frecuentemente por “1” que por cualquier otro dígito…; análisis estadístico para Auditores. En busca del Fraude Historia Quien primero se dio cuenta de este fenómeno fue en 1881 el matemático y astrónomo Simon Newcomb. Un día, Newcomb estaba usando un libro de logaritmos y se dio cuenta de que las páginas del libro estaban más viejas y usadas cuanto más cercanas estaban del principio. Ten en cuenta que por aquella época, las tablas de logaritmos eran el libro de cabecera de cualquier manipulador de cifras, se empleaban, entre otras cosas para multiplicaciones entre grandes números. Actualmente equivaldría a examinar el desgaste de la tecla "1" en cajas registradoras o calculadoras ¿A qué se debía? Sólo podía tener una explicación: a lo largo de los años había consultado mucho más el logaritmo de los números que comenzaban por 1 que de los que comenzaban por números más altos. Nuestro astrónomo dedujo que los dígitos iniciales de los números (al menos los utilizados en su trabajo que provenían de la observación de los astros principalmente) no son equiprobables sino que el 1 aparece como dígito inicial más frecuente seguido del 2 etc. hasta el 9 que es el menos frecuente. Mediante un breve e ingenioso razonamiento, aunque sin presentar realmente un argumento formal ni fórmula matemática, Newcomb enunció verbalmente una relación o ley logarítmica: “la ley de probabilidad de ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables”. El asunto fue rápidamente olvidado hasta 1938, cuando Frank Benford, un físico de la compañía General Electric, se dio cuenta del mismo patrón. Entusiasmado por el descubrimiento, estudió 20.229 números provenientes de 20 muestras de todo tipo: constantes y magnitudes físicas, longitudes de ríos, estadísticas de béisbol, direcciones de personas... incluso cifras sacadas de portadas de revistas. A partir de los datos extraídos del mundo real, comprobó que la probabilidad de que un número en una serie de datos comience por el dígito d es de P[d] = log(1 + 1/d) y postuló la llamada "ley de los números anómalos de Benford". Según dicha ley la probabilidad de que en una serie de muchos datos el primer digito de un número sea 1 es del 30%, 17,6% para un 2, 12'5% para el 3 y así va decreciendo... El análisis de Benford era una prueba de la existencia de la ley, pero tampoco fue capaz de explicar bien por qué era así. El primer paso para explicar esta curiosa relación lo dio Roger Pinkham en 1961, un matemático de New Jersey. El razonamiento de Pinkham era el siguiente. Supongamos que realmente existe una ley de frecuencias de dígitos. En tal caso dicha ley debería ser universal. Tanto si calculamos los precios en euros, dólares, dinares o dracmas, o si medimos la longitud en pulgadas o metros, las proporciones de frecuencias de dígitos

Transcript of Ley de Benford

Page 1: Ley de Benford

Universidad Santo Tomás Curso ACL 9.0

www.eduardoleyton.com

1

LEY DE BENFORD Fuente: www.estadisticasparatodos.es

Los números suelen comenzar más frecuentemente por “1” que por cualquier otro dígito…; análisis estadístico para Auditores.

En busca del Fraude

Historia

Quien primero se dio cuenta de este fenómeno fue en 1881 el matemático y astrónomo Simon Newcomb. Un día, Newcomb estaba usando un libro de logaritmos y se dio cuenta de que las páginas del libro estaban más viejas y usadas cuanto más cercanas estaban del principio. Ten en cuenta que por aquella época, las tablas de logaritmos eran el libro de cabecera de cualquier manipulador de cifras, se empleaban, entre otras cosas para multiplicaciones entre grandes números. Actualmente equivaldría a examinar el desgaste de la tecla "1" en cajas registradoras o calculadoras ¿A qué se debía? Sólo podía tener una explicación: a lo largo de los años había consultado mucho más el logaritmo de los números que comenzaban por 1 que de los que comenzaban por números más altos.

Nuestro astrónomo dedujo que los dígitos iniciales de los números (al menos los utilizados en su trabajo que provenían de la observación de los astros principalmente) no son equiprobables sino que el 1 aparece como dígito inicial más frecuente seguido del 2 etc. hasta el 9 que es el menos frecuente. Mediante un breve e ingenioso razonamiento, aunque sin presentar realmente un argumento formal ni fórmula matemática, Newcomb enunció verbalmente una relación o ley logarítmica: “la ley de probabilidad de ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables”.

El asunto fue rápidamente olvidado hasta 1938, cuando Frank Benford, un físico de la compañía General Electric, se dio cuenta del mismo patrón. Entusiasmado por el descubrimiento, estudió 20.229 números provenientes de 20 muestras de todo tipo: constantes y magnitudes físicas, longitudes de ríos, estadísticas de béisbol, direcciones de personas... incluso cifras sacadas de portadas de revistas. A partir de los datos extraídos del mundo real, comprobó que la probabilidad de que un número en una serie de datos comience por el dígito d es de P[d] = log(1 + 1/d) y postuló la llamada "ley de los números anómalos de Benford". Según dicha ley la probabilidad de que en una serie de muchos datos el primer digito de un número sea 1 es del 30%, 17,6% para un 2, 12'5% para el 3 y así va decreciendo... El análisis de Benford era una prueba de la existencia de la ley, pero tampoco fue capaz de explicar bien por qué era así.

El primer paso para explicar esta curiosa relación lo dio Roger Pinkham en 1961, un matemático de New Jersey. El razonamiento de Pinkham era el siguiente. Supongamos que realmente existe una ley de frecuencias de dígitos. En tal caso dicha ley debería ser universal. Tanto si calculamos los precios en euros, dólares, dinares o dracmas, o si medimos la longitud en pulgadas o metros, las proporciones de frecuencias de dígitos

Page 2: Ley de Benford

Universidad Santo Tomás Curso ACL 9.0

www.eduardoleyton.com

2

deberían ser las mismas. Es decir, Pinkham afirmaba que la distribución de las frecuencias de dígitos debía ser invariante frente a cambios de escala. Luego demostró que si una ley de frecuencias de dígitos era invariante frente a la escala, entonces se trataba de la Ley de Benford . La prueba aportada iba confirmando que la Ley de Benford realmente existe.

A pesar de que la ley resultaba obvia con sólo hacer algunas comprobaciones sencillas – siempre que el conjunto de datos fuera válido, porque no todos lo son. No fue hasta 1996 que un matemático llamado Ted Hill dio con una demostración matemática satisfactoria. La demostración tiene que ver con algunos teoremas del límite central y su relación con el comportamiento de las mantisas en las multiplicaciones de valores aleatorias.

La Ley de Benford es indudablemente un resultado interesante y sorprendente, pero ¿cuál es su relevancia? Un gran paso lo ha dado el Mark Nigrini, un profesor de contabilidad de Dallas, quien propone a partir de 1994 emplear el análisis de las frecuencias de los dígitos como mecanismo analítico para detectar posibles situaciones de fraude e irregularidades. Inicialmente lo aplico al estudio de datos fiscales y recientemente ha creado un programa en java para detectar en qué medida algunos datos suministrados encajan con la Ley de Benford.

Formulación matemática

La Ley de Benford para el primer dígito establece que la probabilidad de que el primer dígito de una magnitud sea un dígito determinado “n” es

P(n)=Log10(1+1/n) = Log10(n+1) - Log10(n) con n = 1,2,3,...9 (El cero no es significativo como primer dígito).

Podemos ver la tabla y gráfica de las probabilidades de ocurrencia de cada dígito en primera posición, y veremos que la unidad ocurre casi un tercio de las ocasiones, y el 9 no llega al 5%. Observamos también que es mucho más probable que el primer dígito sea impar (61%) que par (39%).

Page 3: Ley de Benford

Universidad Santo Tomás Curso ACL 9.0

www.eduardoleyton.com

3

¿Se limita este curioso fenómeno al primer dígito?. No, realmente cada dígito tiene, en función de su posición (primero, segundo, ...) una probabilidad de ocurrencia. Esto nos lleva a extender la fórmula dada anteriormente y generalizarla para cualquier conjunto de los “n” primeros dígitos, P (n1n2 ... nn) = log (1 + (1/n1n 2 ... nn)).

Es decir: La probabilidad de que los dos primeros dígitos sean el par “37” es el log (1+(1/37)) = 1,16%;

La probabilidad de que los tres primeros dígitos sean la tríada “280” es log(1+(1/280)) = 0,15%.

Explicación: ¿Porqué funciona la ley de Benford en el mundo real?

Se me ocurren varios ejemplos que expliquen el hecho de que el 1 como primera cifra sea más frecuente que los otros números, sacados de la vida real:

• Comenzamos a contar desde 1 (1, 2, 3, ...) hasta llegar al 9, momento en que cada cifra tiene la misma probabilidad. Pero de 10 a 19 sólo tenemos como primera cifra el 1, y sólo cuando llegamos al 99 todos las cifras tendrán la misma probabilidad de nuevo

• Una explicación podría residir en el cambio de escala. Si todo el universo pasará al doble de tamaño del actual, todas las medidas que comiencen ahora por 1, pasarán a empezar por 2 o por 3. Aquellas que comenzaban por 2, por 4 o por 5 y así sucesivamente. Sin embargo, ahora empezarán por uno todos aquellos números que previamente empezaban por 5,6,7,8 y 9!

• Supongamos que en correos hacen una estadística sobre los números de portal de los destinatarios de las cartas a nivel nacional, este es un típico conjunto de datos que cumple la ley de benford. Imaginemos que en una ciudad se crea una calle nueva. esa calle empieza a llenarse de casas por un extremo y, la calle, va creciéndo en longitud con el tiempo, los primeros portales asignados por el ayuntamiento serán el 1, 2, 3, 4 etc. al principio, como se ve, las cifras más bajas tienen una probabilidad mayor de salir que las más altas. cuando llegamos al portal 9 la probabilidad se equilibra pero, en seguida, cuando se construye el edificio 10, la cifra "1" vuelve a tomar ventaja. cuando la calle tenga 19 casas todas las cifras habrán salido 2 veces menos el "1" que habrá salido 12 veces. este sesgo que hace que las cifras más bajas aparezcan más frecuentemente no se compensa nunca por lo que si elegimos una calle al azar, en el número más alto de portal de esa calle, es más probable que aparezcan "unos" que "cincos", en una proporción que tiende a la ley de benford. En una ciudad artificial, que se hubiera construido racionalmente, con calles idénticas de 99 portales esto no ocurriría, pero la realidad es más compleja, y esta complejidad favorece a la ley de Benford.

Page 4: Ley de Benford

Universidad Santo Tomás Curso ACL 9.0

www.eduardoleyton.com

4

• Hay otro motivo matemático, es curiosísimo ver como en distribuciones «normales», como las alturas de la gente o los CI, la ley de benford no es aplicable, aunque «reaparece» de repente si se recombinan con otros valores de forma aleatoria. Podemos decir que si un determinado fenómeno tiene n causas aleatorias y una de ellas sigue la distribución de Benford, la general también. La distribución de Benford es una especie de distribución que contamina a las demás. Así pues, cuanto más batiburrillo haya en la generación del fenómeno y más complejo e intratable sea, más fácil es que aparezca el 1 en primer lugar de los resultados obtenidos.