Post on 29-Jan-2016
Técnicas de uso de la ley potencial, de las curvas autosimilares y de ajuste a las curvas parabólico fractales en la detección de la falsedad
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
2
LA CUESTION
¿Es posible detectar y cuantificar el grado de falsedad existente en conjuntos de datos, proporcionados por sujetos, mediante el mero análisis de los datos, sin contraste empírico con el exterior, ni control experimental del sujeto?
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
3
Intuición primera
LongitudDiámetro
=
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
4
Punto de partida (Ley de Benford) La teoría figura en “The Law of anomalous numbers” en
el Proceedings of the American Philosophical Society” 78, pp 531-538,1.938
Que en cualquier conjunto de números tomados al azar, longitudes de los ríos, constantes naturales etc.. siempre que no haya una causa condicionante, como en los teléfonos,
1
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
5
La distribución es siempre....
1234 316 25 114321 245
BENFORD'S LAW FOR 1º AND 2º DIGIT
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0 1 2 3 4 5 6 7 8 9
DIGITO
FR
EC
UE
NC
IA
Frec. 1º Digit.
Frec. 2º Digit
Empieza por 1 el 30.1 % de los casos
Empieza por 2 el 17,6 %
Empieza por 3 el 12,5 %
Empieza por 4 el 9,7 %
Empieza por 5 el 7,92 %
….
Empieza por 9 el 4,6 %
30,1%
Primera investigación
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
7
La logica subyacenteFrecuencia de los Dos Primeros Dígitos
0
2.000
4.000
6.000
8.000
10.000
12.000
14.000
16.000
18.000
20.000
Dos Primeros Dígitos
Fre
cu
en
cia
Ab
so
luta
Observados
Estimado
Caso de quien esta autorizado a invitarhasta 100 € puede pedir dos facturas.
Alarma porque hay demasiadas que empiezan
por 50
Quien todos los meses compra lo mismo , por ejemplo que le cueste 300 € no falsea
3
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
8
HIPOTESISEn un casos en que la distribución de los datos se
distribuye conforme a una ley de Benford es posible:
Obtener la distribucion de los datos observados Depurar la realmente observada de artefactos estadísticos Estimar la falsedad debida al interés económico a través de
la distancia entre la distribución ajustada y la teórica.
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
9
Objetivo
BENFORD'S LAW FOR 1º AND 2º DIGIT
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0 1 2 3 4 5 6 7 8 9
DIGITO
FR
EC
UE
NC
IA
Frec. 1º Digit.
Tipo de cliente
Falsedad
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
10
Datos Datos de comercio exterior 2.175.069
Sujetos 109.769 Existe interés económico en la
falsedad Hay datos sobre el grado de falsedad
Actas de Inspección 4.327 actas Importe de actas 61,292 mm de €
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
11
Paso 1. Se calcula distribución para cada tipo de mercancía (97)
Capítulos del Arancel
0,00
10,00
20,00
30,00
40,00
50,00
60,00
1 2 3 4 5 6 7 8 9
P r i mer dígi to del V al or Dec l ar ado en l a A duana
Newc.-Benf or d
Cap. 10
Cap. 89
Cap. 47
Cap. 12
Cap. 27
Cap. 55
Cap.39
Cap. 72
T ODOS
FRECUENCIAS ABSOLUTAS DEL PRIMER DIGITO DEL VALOR
DECLARADO CAP.
1 2 3 4 5 6 7 8 9 Total
01 603 466 363 224 187 175 119 99 121 2.357
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
12
Paso 2. Calcular indicadores de repetición de facturas(Generador de desviacion frente a la teorica)
NFF = 1 – (ci2/n2)
0,00000
0,02 000
0,04 000
0,06 000
0,08 000
0,1 0000
0,1 2 000
0,1 4 000
0,1 6 000
1 2 3 4 5 6 7 8 9
Mo lin e ría
P ro d . P lo mo
C e re a le s
R e sto P re n d
O tra s te xtile s
A zúc a r d u lc e s
A b o n o s
Ma d e ra , p a sta
E l re sto
B a rc o s
0,00000
0,02 000
0,04 000
0,06 000
0,08 000
0,1 0000
0,1 2 000
0,1 4 000
0,1 6 000
1 2 3 4 5 6 7 8 9
C o rc h o y Ma n u f.
Ju g o s v e g e t.
C a c a o
P ro d . N íq u e l
Ma t. F e rro v ia rio
B e b id a s
Min e ra le s
Q u ímic . In o rg .
C o rd e le ría
P e tró le o
Grupo 1. Altos valores de NFF Grupo 2. Bajos valores de NFF
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
13
Se propone medida de distancia entre distribuciones
Frecuencia de los Dos Primeros Dígitos
0
2.000
4.000
6.000
8.000
10.000
12.000
14.000
16.000
18.000
20.000
Dos Primeros Dígitos
Fre
cu
en
cia
Ab
so
luta
Observados
Estimado
D [d1;d2]=?
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
14
Estimación del efecto Regresión multiple
Variable independiente Chi-cuadrado Kullback Leibler
Despues de varias depuraciones R2 0,651 y nivel significación 0,000
Se resta esta estimación del sesgo Queda la estimación de la falsedad
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
15
Se propone un criterio de FALSEDAD
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
16
Se define un procedimiento para ver la falsedad de un sujeto
Hay importadores que solo lo hacen una vez.
Cada importador comercia con muchas cosas distintas Tratamos desde 550 hasta 2653
(máximo) En total 332.252 declaraciones (1/10) Divididas en 73.465 y las demas
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
17
Para cada operador
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
18
Para cada operador y tipo de comercio Se elimina el sesgo debido a su
tipo de comercio obtenido mediante una regresión múltiple.
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
19
Análisis de la calidad de la selección y los resultados (VARIAS LINEAS)
DISTANCIA A LA REGION DE CONFIANZA - CAPITULOS REGULARES
0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
160,00
1 8
15
22
29
36
43
50
57
64
71
78
85
92
99
10
6
113
12
0
12
7
13
4
14
1
14
8
15
5
16
2
16
9
17
6
18
3
19
0
19
7
20
4
211
21
8
22
5
23
2
23
9
24
6
25
3
26
0
26
7
27
4
Serie1
INFLEXION
PRIMER INTENTO SI /NOResultado MALO
SEGUNDO INTENTO
Selecciona bienDetecta falsedad mal
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
20
El salto a la entropiaResiduo Entropías Regresión Operadores-Entropía Observada
-0,400
-0,200
0,000
0,200
0,400
0,600
0,800
1,000
1 9
17
25
33
41
49
57
65
73
81
89
97
10
5
11
3
12
1
12
9
13
7
14
5
15
3
16
1
16
9
17
7
18
5
19
3
20
1
20
9
21
7
22
5
23
3
24
1
24
9
25
7
26
5
27
3
28
1
28
9
29
7
30
5
Serie1
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
21
Conclusión 37% de eficacia frente a 27 % de
los expertos 28.155 euros frente a 14.000€ del
sistema tradicional SE VERIFICA LA HIPOTESIS I
Segunda investigacion
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
23
¿ Que hacer si los datos no se ajustan a Benford?
Fr ecuen c ia P r imer D ígit o
M OD5 6 5 , 5 6 7 y 5 7 6 - A N0 4 ( Dep y J un io y 7 % ) . sav
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
1 2 3 4 5 6 7 8 9
P rime r D íg ito
Observados
Esperados
DECLARACIONES DEL IMPUESTO DE MATRICULACION
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
24
¿Hay alguna ley mas universal? Teoría de la belleza
Leyes naturales Leyes de Zip y Pareto
Demografía
Fractales, sistema dinámicos, sistemas 1/f, modelos cognitivos SOC
Numero aureo, espiral de Bernouilli, teoría de la simetría, entropía..
Leyes log log Leyes rango frecuencia
(Lingüística), pendiente fractal
Benford como fractal parabólica
Autosimilaridad
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
25
Población (log´-log) Ley de Zipf
Rango frecuencia
Pasos sucesivos
Petróleo ciudades Fractales parabólicas
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
26
Segunda intuición Si se encuentra un sistema que convierta los
datos en rectas, las distancias frente a la recta pueden ser medidas de falsedad
Terremotos en el Observatorio X
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
27
El final.... Curvas Rango – Log del valor de la
variable . Recta teorica por regesion.
Tercera investigacion
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
29
Un fichero descargado de Internet de la Sociedad Estadistica de Canadá.
Datos sobre anorexia 243 pacientes y 82 madres ¿Sucede que los pacientes femeninos con anorexia nerviosa
reflejan una conducta familiar caracterizada por altos niveles de actividad e hiper - evitación del consumo de alimentos. ¿Influye este perfil familiar en el incremento de riesgo de surgimiento de la anorexia?
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
30
Tres conjuntos de datosEjercicio de las pacientes
0
2
4
6
8
10
12
0 0,2 0,4 0,6 0,8 1 1,2
Ln del del tiempo de ejercicio
Frec
uenc
ia a
cum
ulad
a
Atribucion de tiempos por madres
0
2
4
6
8
10
12
14
0 0,2 0,4 0,6 0,8 1 1,2
Ln de minutos/ año
Minutos
Tiempo de ejercicio madres
0
2
4
6
8
10
12
0 0,5 1 1,5
Ln de minutos por año
Fre
cuen
cia
abso
luta
Minutos
Pacientes Madres Madres sobre si sobre las pacientes mismas
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
31
El sistema Detecta que en 33 de los 82 casos hay
exageración. Los minutos en media declarados por las
madres al año de ejercicio fisico fueron 9.396. El sistema sugiere 8.322
Dividiendo por 52 semanas resulta que las madres afirmaron 180 minutos /semana (1/2 hora por dia) y el sistema sugiere 120 (dos horas semanales de ejercicio.
Haga clic para modificar el estilo de título del patrón Haga clic para modificar el estilo
de texto del patrón Segundo nivel
Tercer nivel Cuarto nivel
Quinto nivel
32
Conclusión Es un sistema general y de aplicación
simple En dos casos con ficheros de datos
grandes se ha intentado falsar la hipótesis y no se ha podido.
En el tercer caso no se conoce la falsedad pero los datos son muy plausibles
Defiendo que es una línea por el momento no descartable,