JUAN MANUEL SUÁREZ RODRÍGUEZrepository.udistrital.edu.co/bitstream/11349/14695/1...Metropolitana...
Transcript of JUAN MANUEL SUÁREZ RODRÍGUEZrepository.udistrital.edu.co/bitstream/11349/14695/1...Metropolitana...
1
CARACTERIZACIÓN DE LOS HURTOS A PERSONAS QUE AFECTAN LA LOCALIDAD
LOS MÁRTIRES DE LA CIUDAD DE BOGOTÁ MEDIANTE EL USO DE LOS
ALGORITMOS DE AGRUPAMIENTO DE MINERÍA DE DATOS ESPACIALES DBSCAN
Y K-MEANS
JUAN MANUEL SUÁREZ RODRÍGUEZ
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS
FACULTAD DE INGENIERÍA
INGENIERÍA CATASTRAL Y GEODESIA
BOGOTÁ
2015
2
CARACTERIZACIÓN DE LOS HURTOS A PERSONAS QUE AFECTAN LA LOCALIDAD
LOS MÁRTIRES DE LA CIUDAD DE BOGOTÁ MEDIANTE EL USO DE LOS
ALGORITMOS DE AGRUPAMIENTO DE MINERÍA DE DATOS ESPACIALES DBSCAN
Y K-MEANS
JUAN MANUEL SUÁREZ RODRÍGUEZ
Tesis de Grado para Obtener el Título de Ingeniero Catastral y Geodesta
Director
Luz Ángela Rocha Salamanca
Ingeniera Catastral y Geodesta, Master of Sciences in Geoinformation Systems, Candidata a
Doctora en Geografía
UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS
FACULTAD DE INGENIERÍA
INGENIERÍA CATASTRAL Y GEODESIA
BOGOTÁ
2015
3
CONTENIDO
1. INTRODUCCIÓN .................................................................................................... 9
1.1. ANTECEDENTES ................................................................................................. 10
1.2. PLANTEAMIENTO DEL PROBLEMA ............................................................... 12
1.3. OBJETIVOS ........................................................................................................... 14
1.3.1. Objetivos General ............................................................................................ 14
1.3.2. Objetivos Específicos ...................................................................................... 14
1.4. JUSTIFICACIÓN ................................................................................................... 15
1.5. ALCANCE .............................................................................................................. 17
2. MARCO DE REFERENCIA .................................................................................. 18
2.1. CONCEPTOS TEÓRICOS ..................................................................................... 18
2.1.1. Minería de Datos Espaciales............................................................................ 18
2.1.2. Métodos de Minería de Datos Espaciales ........................................................ 18
2.1.2.1. Basados en la generalización ...................................................................... 19
2.1.2.2. Basados en el reconocimiento de patrones ................................................. 19
2.1.2.3. De agrupamiento......................................................................................... 19
2.1.2.4. De exploración de asociaciones espaciales ................................................ 19
2.1.2.5. Mediante el uso de aproximación y agregación ......................................... 20
2.1.3. Infraestructura de datos espaciales .................................................................. 20
4
2.1.3.1. Los Elementos de una Infraestructura de Datos Espaciales ....................... 22
2.1.3.2. Tareas que permiten las IDE ...................................................................... 24
2.2. ESTADO DEL ARTE............................................................................................. 26
3. DATOS Y MÉTODOS ........................................................................................... 28
3.1. ZONA DE ESTUDIO ............................................................................................. 28
3.2. DATOS ................................................................................................................... 33
3.3. MÉTODOS ............................................................................................................. 34
3.3.1. Base de Datos Espacial .................................................................................... 36
3.3.2. Infraestructura de Datos Espaciales ................................................................. 44
3.3.3. Algoritmos ....................................................................................................... 45
3.3.3.1. K-Means – Predicción o estimación ........................................................... 46
3.3.3.2. DBSCAN - Caracterización........................................................................ 52
3.3.4. Modelos ........................................................................................................... 58
4. PRESENTACIÓN DE RESULTADOS ................................................................. 64
5. DISCUSIÓN DE RESULTADOS .......................................................................... 77
6. CONCLUSIONES .................................................................................................. 80
7. BIBLIOGRAFÍA .................................................................................................... 82
5
LISTA DE FIGURAS
Figura 1. Métodos de Minería de Datos Espaciales ........................................................ 20
Figura 2. Denuncias por Robos a Personas en Bogotá por Localidades. ....................... 29
Figura 3. Delimitación del Centro de Bogotá y de la Localidad Los Mártires................ 31
Figura 4. Proceso Metodológico para el Desarrollo del Proyecto .................................. 35
Figura 5. Modelo Entidad Relación de la Base de Datos ................................................ 37
Figura 6. Archivos Geográficos a Base de Datos Espacial ............................................. 38
Figura 7. Entidad Espacial Hurtos ................................................................................... 39
Figura 8. Entidad Espacial Cuadrantes ........................................................................... 39
Figura 9. Visualización de la Información de la Base de Datos Espacial ....................... 40
Figura 10. Creación de las Tablas no Espaciales en la Base de Datos ........................... 41
Figura 11. Inserción De Datos Víctima ............................................................................ 42
Figura 12. Inserción de Datos Afecta ............................................................................... 42
Figura 13. Creación e Inserción de Datos Ocurre ........................................................... 43
Figura 14. Información de la Infraestructura de Datos Espaciales ................................. 44
Figura 15. Algoritmos de Agrupamiento de Minería de Datos Espaciales ...................... 45
Figura 16. Inicio del Algoritmo K-Means ........................................................................ 46
Figura 17. Paso 1 Algoritmo K-Means............................................................................. 47
Figura 18. Paso 2 Algoritmo K-Means............................................................................. 47
Figura 19. Paso 3 Algoritmo K-Means............................................................................. 48
Figura 20. Paso 4 Algoritmo K-Means............................................................................. 48
6
Figura 21. Iteración 2 K-Means ....................................................................................... 49
Figura 22. Iteración 3 K-Means ....................................................................................... 50
Figura 23. Iteración 4 K-Means ....................................................................................... 50
Figura 24. Comandos Usados en Consola para la Ejecución del K-Means en R. ........... 51
Figura 25. Inicio del Algoritmo DBSCAN ........................................................................ 52
Figura 26. Paso 1 Algoritmo DBSCAN ............................................................................ 53
Figura 27. Paso 2 Algoritmo DBSCAN ............................................................................ 53
Figura 28. Paso 3 Algoritmo DBSCAN e iteraciones 2 a 6.............................................. 54
Figura 29. Paso 4 Algoritmo DBSCAN e iteraciones 7 a 10............................................ 55
Figura 30. Finalización Algoritmo DBSCAN ................................................................... 56
Figura 31. Parte del Código Fuente Elaborada en Java usando NetBeans. ................... 57
Figura 32. Modelos K-Means ........................................................................................... 58
Figura 33. Modelo DBSCAN ............................................................................................ 60
Figura 34. Modelos Usados Sobre Información del IDECA ............................................ 62
Figura 35. Modelo Usado, Clúster DBSCAN, Centroides K-Means, Base IDECA ......... 63
Figura 36. Escenario Delictivo en la Localidad los Mártires .......................................... 64
Figura 37. Punto 1 - Elementos vectoriales sobre una ortofotografía del 2015 .............. 65
Figura 38. Punto 2 - Elementos vectoriales sobre una ortofotografía del 2015 .............. 66
Figura 39. Punto 3 - Elementos vectoriales sobre una ortofotografía del 2015 .............. 67
Figura 40. Punto 4 - Elementos vectoriales sobre una ortofotografía del 2015 .............. 68
Figura 41. Punto 5 y 6 - Elementos vectoriales sobre una ortofotografía del 2015 ........ 69
Figura 42. Hurtos a Personas los Sábados, Domingos y Lunes ...................................... 71
Figura 43. Hurtos a Personas Después de las 8:00 p.m. ................................................. 72
7
Figura 44. Hurtos a Personas Entre 40 y 49 Años ........................................................... 73
Figura 45. Hurtos a Mujeres ............................................................................................ 74
8
LISTA DE TABLAS
Tabla 1. Hurto a Personas en el 2012 y Relación Área y Habitantes .............................. 30
Tabla 2. Modelo de Tablas de la Base de Datos .............................................................. 37
9
1. INTRODUCCIÓN
El presente proyecto busca analizar el comportamiento de los hurtos a personas que
afectan la localidad Los Mártires de la ciudad de Bogotá, haciendo uso de algoritmos de
agrupamiento de minería de datos espaciales y apoyado en una infraestructura de datos espacial,
teniendo en cuenta variables como cuadrante de policía, mes, día del mes, día de la semana, hora,
lugar de ocurrencia del delito, sexo y edad de la víctima; de tal forma que se logre realizar
diferentes tipos de mapas de hurtos a personas, y permita a las autoridades implementar
estrategias y lograr combatir con mayor eficacia y eficiencia el delito.
A lo largo del proyecto, se trabajaron los algoritmos de agrupamiento de minería de datos
espaciales K-Means y DBSCAN, el primero se utilizó para establecer el lugar óptimo que
debería tener cada estación de policía teniendo en cuenta la ubicación y distribución de los hurtos
a personas, y el segundo se utilizó para caracterizar estos hurtos hallando las zonas con mayor
actividad delincuencial. Estos dos en conjunto, sobre la Infraestructura de Datos Espaciales de la
Capital – IDECA, nos permitieron construir los mapas temáticos de hurtos a personas de la
localidad Los Mártires de la ciudad de Bogotá, haciendo uso de software libre para su
elaboración.
10
1.1. ANTECEDENTES
Desde hace un poco más de 10 años se han venido implementando técnicas de minería de
datos para explorar y analizar delitos en diferentes países. “En Estados Unidos en el 2004, la
delincuencia aumentaba sin control en la ciudad de Richmond y era la novena ciudad más
peligrosa de Estados Unidos, al año siguiente la ciudad subió al quinto puesto alertando aún más
a las autoridades. Una vez se emplearon software de análisis predictivos para descubrir
relaciones ocultas en los datos y generar automáticamente pronósticos de delincuencia, los
índices de delincuencia de Richmond comenzaron a desplomarse, al igual que la clasificación de
ciudad peligrosa pasando del quinto lugar al número 99” (IBM, 2004).
Argentina también ha realizado varios estudios implementando este tipo de herramientas
para combatir y mitigar las acciones delictivas, tal es el caso del Instituto Tecnológico de Buenos
Aires (ITBA), en donde aplican la minería de datos para la exploración y detección de patrones
delictivos en Argentina (Perversi, 2007), así mismo se usa para caracterizar la población
carcelaria mediante la aplicación de minería de datos (Gutiérrez, 2008).
Otro caso interesante es el Sistema Táctico de Análisis Delictual (STAD), que ha sido
recientemente implementado por Carabineros de Chile. El sistema hace un relevo continuo de los
indicadores de delincuencia, barrio por barrio. La innovación chilena es que los datos son
públicos. STAD también incluye el nombre y el número de teléfono celular del cabo de
carabineros que está a cargo de cada uno de los cuadrantes o segmento del barrio.
Cada vez se suman más ejemplos del estilo, Guatemala ha instalado un observatorio que
clasifica los municipios por cantidad de homicidios, y lo hace en tiempo real. Trabajando en el
11
Caribe para mejorar sus sistemas de datos sobre delincuencia e impulsando el Sistema Regional
de Indicadores Estandarizados de Convivencia y Seguridad Ciudadana (SES), que armoniza y
luego visualiza datos sobre crimen y violencia en 19 ciudades y países de la región.
En Colombia este tipo de herramientas enfocadas en el campo delictivo son un poco más
recientes, y uno de los únicos estudios que se encuentra fácilmente es el que se realizó en el 2011
para la Policía Nacional, en donde se aplica la minería de datos para explorar la violencia sexual
en la ciudad de Bogotá usando algoritmos de selección por características (Garnica & Olaya,
2011).
12
1.2. PLANTEAMIENTO DEL PROBLEMA
Actualmente Bogotá cuenta con más de 7.800.000 habitantes (DANE, 2015) y es la
ciudad más poblada de Colombia y la quinta en Latinoamérica (Mongabay, 2014); si a esto le
agregamos que la seguridad ciudadana tiene que ver con fenómenos urbanos como el
crecimiento y la trasformación de las ciudades, nos encontramos en un escenario en donde las
acciones delictivas cada vez serán mayores si no se toman las medidas necesarias. “La violencia
intrafamiliar, el homicidio, los hurtos en sus diferentes modalidades, los delitos contra la libertad
y el pudor sexual, al igual que el incremento del expendio, distribución y consumo de
psicotrópicos, asociados a problemáticas juveniles, son algunos de los problemas sociales que
urgen de la necesidad de medidas concretas para contrarrestar la acción delincuencial en la
ciudad” (Secretaría de Planeación, 2010).
En Bogotá las entidades que han realizado diversos estudios son la DIJIN, la Secretaría
Distrital de Planeación, la Cámara de Comercio de Bogotá, la Veeduría Distrital y la Policía
Metropolitana de Bogotá, todos enfocados en el análisis delictivo y la elaboración de mapas de
estos en donde se zonifica o se limita los sectores en donde el riesgo de hurto es mayor, pero a
pesar de esto el incremento de hurtos a personas es notorio y día a día lo vivimos cada vez más.
Muchos de los resultados obtenidos por dichas entidades no dejan de ser más que un
índice o tasa, un número que tanto a los ciudadanos como a los tomadores de decisiones poco o
nada les dice, y a simple vista dejando de lado el tan importante componente espacial, o cuanto
se tiene en cuenta es a nivel macro y abarcando grandes extensiones.
13
Por tal motivo, este proyecto incluye el aspecto espacial en el estudio y la creación de
escenarios delictivos de la localidad Los Mártires de la ciudad de Bogotá, partiendo del análisis
de información contenida en una base de datos espacial y aplicando algoritmos de agrupamiento
de minería de datos espaciales.
Para poder realizarlo, se construyó una base de datos espacial partiendo de información
alfanumérica. Sobre esta información se aplicaron dos algoritmos de agrupamiento de minería de
datos espaciales y los resultados obtenidos fueron soportados en una infraestructura de datos
espacial para su correcto análisis y elaboración de escenarios delictivos de la zona.
14
1.3. OBJETIVOS
1.3.1. Objetivo General
Implementar técnicas de agrupamiento de minería de datos espaciales para
caracterizar los hurtos a personas que afectan la localidad Los Mártires de la
ciudad de Bogotá, haciendo uso de la información contenida en una base de datos
espacial y apoyado en una infraestructura de datos espaciales.
1.3.2. Objetivos Específicos
Conocer los diferentes algoritmos que se emplean en la minería de datos
espaciales, seleccionando e implementando aquellos que permitan hacer un
análisis espacial mediante técnicas de agrupamiento y de localización.
Realizar una limpieza de los registros de la base de datos mediante la ejecución de
un algoritmo, facilitando y permitiendo la posterior implementación de las
técnicas de minería de datos espaciales.
Caracterizar información referente a los hurtos a personas que afectan la localidad
los Mártires de la ciudad de Bogotá, generando descripciones de la tendencia
delictiva y logrando que este conocimiento sea utilizado por autoridades,
empresarios y comunidad en general.
15
1.4. JUSTIFICACIÓN
El hurto es una problemática social que tiene que ver con fenómenos urbanos como el
crecimiento y la trasformación de las ciudades, problemática que se materializa en una denuncia
que finalmente termina alimentando grandes bases de datos en propiedad de la Policía Nacional.
Estas bases de datos almacenan gran cantidad de información, y con el paso del tiempo y
gracias al avance tecnológico, se hacen cada vez más grandes, más robustas, más importantes y
por lo tanto más complejas, estos datos en bruto raramente son beneficiosos directamente y su
verdadero valor se basa en la habilidad para extraer información útil para la toma de decisiones y
la comprensión del fenómeno gobernante en la fuente, descubrir conocimiento de este enorme
volumen de datos es un reto en sí mismo. “Cuando la escala de manipulación de datos,
exploración e inferencia va más allá de la capacidad humana, se necesita la ayuda de las
tecnologías informáticas para automatizar el proceso” (Riquelme, Ruiz & Gilbert, 2006).
A primera vista la solución a este problema es usar métodos de consultas para bases de
datos, pero estas herramientas no permiten analizar la totalidad de los datos, el porcentaje
faltante contiene información más importante y requiere la utilización de métodos más
avanzados como la aplicación de algoritmos de minería de datos.
Luego de realizar un análisis estadístico de todas las localidades de Bogotá, en donde se
relacionaron variables como el número de habitantes, el área y el número de reportes por hurto a
personas de cada una de estas, se establecieron las localidades con un escenario delictivo mayor,
teniendo a La Candelaria, Santa Fe, Chapinero y Los Mártires como las mejores candidatas para
16
la realización de este estudio (3.1 ZONA DE ESTUDIO3.1). Finalmente y teniendo en cuenta los
datos obtenidos, se decidió trabajar sobre la localidad Los Mártires.
Se puede convertir las bases de datos de los hurtos a personas que afectan la localidad
Los Mártires de la ciudad de Bogotá, en una base de datos espacial. Con la utilización del
componente espacial como herramienta de soporte a la toma de decisiones, se puede mejorar la
información y el conocimiento de las autoridades, de los empresarios y de la comunidad en
general.
17
1.5. ALCANCE
Este proyecto hace una descripción del escenario de hurtos a personas de la localidad Los
Mártires de la ciudad de Bogotá, aborda una temática trabajada únicamente por entidades
policiales e implementa una metodología que incluye técnicas escasamente usadas en Colombia.
Se realizó una caracterización de los hurtos a personas usando algoritmos de
agrupamiento de minería de datos espaciales, y tras revisar la literatura de la temática, se
encontró que existen investigaciones similares pero en otros escenarios (ciudades, países,
algoritmos usados y fenómenos delictivos estudiados), por tanto la investigación inició con un
alcance exploratorio.
Caracterizar estos hurtos a personas según los datos obtenidos, nos permite describir el
escenario delictivo en la localidad Los Mártires de la ciudad de Bogotá, logrando una
investigación con alcance descriptivo.
Debido a esto, este proyecto se define con un alcance exploratorio descriptivo. Es un
estudio exploratorio, porque se está analizando un tema o problema de investigación poco
estudiado o con un enfoque diferente, es decir, del cual no se posee mucha documentación; por
otro lado se considera un estudio descriptivo, porque mediante la recolección de datos busca
describir situaciones, eventos, hechos y conocer como es y cómo se manifiesta determinado
fenómeno.
18
2. MARCO DE REFERENCIA
A continuación se realiza una breve explicación de los términos más relevantes e
importantes que se utilizaron durante la elaboración de este proyecto.
2.1. CONCEPTOS TEÓRICOS
2.1.1. Minería de Datos Espaciales
La minería de datos Espaciales (SDM por sus siglas en inglés) es el proceso de encontrar
a través de diferentes técnicas y herramientas, patrones potencialmente útiles en bases de datos
espaciales; este tipo de bases no almacenan explícitamente patrones o reglas que determinan las
relaciones espaciales entre los objetos y algunas características no espaciales. La extracción de
estos patrones es más compleja que la extracción de patrones en bases de datos con contenido
numérico tradicionales, o categóricos, debido a la complejidad de los tipos de datos espaciales,
las relaciones espaciales y de auto-correlación espacial.
2.1.2. Métodos de Minería de Datos Espaciales
La minería de datos espaciales abarca diversas tareas y, para cada tarea, a menudo están
disponibles un número de métodos y algoritmos diferentes, combinación computacional,
estadística, visual, o alguna combinación de ellos.
19
Los algoritmos de minería de datos espaciales deben operar sobre conjuntos de datos de
tamaño considerable, por lo que se debe trabajar en propuestas donde el conjunto de datos
completo no resida en la memoria principal. Deben hacer un correcto uso de las técnicas de
optimización de búsquedas espaciales y del razonamiento espacial y realizar su tarea de forma
eficiente y rápida. A continuación se describen los métodos más utilizados de la minería de datos
espaciales (Figura 1).
2.1.2.1. Basados en la generalización
Requieren de la implementación de jerarquías de conceptos, bien temática o espacial.
Dentro de las temáticas se incluyen los datos no espaciales; de ellos se colectan sus
características más importantes para la búsqueda, se caracterizan por regiones y se agrupan como
datos no espaciales generalizados. Para el caso de los espaciales esta generalización puede ser
presentada como la partición en regiones y su posterior fusión dependiendo de los atributos
espaciales de los datos.
2.1.2.2. Basados en el reconocimiento de patrones
Son utilizados en la clasificación de información que pueden ser imágenes de satélites,
fotografías, textos o cualquier fuente de datos:
2.1.2.3. De agrupamiento
Permiten agrupar los objetos de una base de datos en grupos llamados conglomerados,
conformados por elementos tan similares como sea posible.
2.1.2.4. De exploración de asociaciones espaciales
Permiten descubrir reglas de asociación espacial que relacionen a uno o más objetos
espaciales.
20
2.1.2.5. Mediante el uso de aproximación y agregación
Permiten descubrir conocimiento a partir de las características representativas de los
objetos.
Figura 1. Métodos de Minería de Datos Espaciales
Fuente: Elaboración Propia
2.1.3. Infraestructura de datos espaciales
Cuando se dispone de datos georreferenciados, de cierta disponibilidad de recursos
informáticos y se quiere o se tiene la necesidad de publicar la información geográfica de la
manera más eficaz posible, es necesario contar con una infraestructura que permita compartir,
intercambiar, combinar, analizar y acceder a los datos geográficos de forma estándar e
interoperable. Esta infraestructura no es más que el conjunto de recursos cartográficos
disponibles en la red, sobre la que los datos mismos serán más útiles al formar parte de un todo
más completo.
21
Estándar significa simplemente que cumple unas reglas generales, que facilitan la
adopción de soluciones genéricas y la posibilidad de gestionar todos los componentes del mismo
tipo de la misma manera. Cuando se viaja a un país extranjero y se intenta cargar la batería del
teléfono móvil, que el enchufe del hotel no sea compatible con la clavija del cargador, puede
suponer una desagradable sorpresa. Es más, a veces no se puede pedir a alguien su cargador
porque probablemente las clavijas de ambos teléfonos no sean compatibles entre sí. Algo
parecido puede pasar al intentar sacar dinero en un cajero automático; no todas las tarjetas se
pueden usar en todos los cajeros sin pagar una comisión añadida.
De forma análoga, para la gestión eficaz de información geográfica, los estándares son
fundamentales. Si un usuario descarga de una institución la descripción geográfica de un río en
un formato y sistema de referencia determinados, lo ideal es que no encuentre problemas para
cargarla y visualizarla en una aplicación SIG junto con el resto de sus datos.
La interoperabilidad se basa en la idea de aplicar la filosofía de los sistemas abiertos a los
SIG. Si se dispone de un conjunto de sistemas que gestionan información geográfica, que
mediante protocolos e interfaces estándares permiten acceder a los datos en remoto, es posible
generar aplicaciones que integren esos datos y que aparezcan virtualmente frente al usuario como
si fuesen un único sistema, sin necesidad de conocerlos en detalle, sólo basándose en
información genérica sobre los estándares que cumplen todos y cada uno de ellos.
La finalidad última es conseguir lo que se ha dado en llamar la democratización de la
información geográfica. Es decir, que todos los usuarios, tanto los especialistas como los que no
lo son, puedan utilizar en la web la información geográfica del modo más eficaz posible. Para
ello sería necesario dar un paso más, que consistiría en facilitar no sólo que los sistemas se
22
entiendan entre sí, sino que los usuarios entiendan y puedan usar fácilmente los sistemas, por lo
que hay que hacer un esfuerzo considerable para aumentar la usabilidad y mejorar las interfaces
de usuario.
Debido a esto, una IDE maneja gran cantidad de información, información estandarizada,
libre y confiable para el uso de cualquier usuario. Convirtiéndola en una base sólida para este
proyecto y sirviendo de soporte a la toma de decisiones con la información espacializada de los
hurtos en la Localidad Los Mártires de la ciudad de Bogotá.
2.1.3.1. Los Elementos de una Infraestructura de Datos Espaciales
Una IDE es un sistema de sistemas integrado por un conjunto de recursos muy
heterogéneo (datos, software, hardware, metadatos, servicios, estándares, personal, organización,
marco legal, acuerdos, políticas, usuarios), gestionado por una comunidad de actores, para
compartir información geográfica en la web de la manera más eficaz posible.
En efecto, algunos de los elementos necesarios para que exista una IDE son:
Los datos, que deben ponerse al alcance de los usuarios con las restricciones de
uso que decida su propietario (sólo verlos, conocer sus características, tener
acceso a ellos, compartirlos, etc.).
El hardware y software que sirven de base para hacer pública la información a
través de Internet.
Los metadatos, que son las descripciones de los datos y los servicios disponibles;
es la documentación que permiten conocer al usuario las características de
calidad, actualidad, disponibilidad, propiedad, etc. de los datos, y las capacidades
23
técnicas de los servicios como: tipo de servicio, versión, información sobre la
disponibilidad, tarifas, instrucciones de pago e incluso las restricciones.
Las tecnologías que permitan buscar, acceder y explotar los datos en remoto.
Los estándares de datos y servicios que hacen posible la interoperabilidad.
Los acuerdos entre instituciones y organismos para compartir información
geográfica, sin que se dupliquen esfuerzos ni gastos.
El personal que mantiene y hace funcionar los sitios web y los recursos
informáticos que contribuyen a la IDE.
El marco legal que regula aspectos como qué información es oficial, qué ocurre
con los derechos de autor y las licencias de uso, qué organismos públicos tienen la
obligación de publicar una cartografía dada, en qué consiste el derecho de los
ciudadanos a acceder a la información geográfica generada por los organismos
públicos.
Los usuarios, que gracias a la web tienen la posibilidad de incorporar datos y
opiniones, son igualmente una parte importante del sistema.
Todos estos elementos son necesarios y la ausencia de cualquiera de ellos, puede hacer
que la IDE no esté equilibrada y no produzca los resultados esperados. Especial importancia
tiene la comunidad de actores que se genera alrededor de una IDE y que la mantiene viva,
entendiendo tal comunidad como el conjunto de organizaciones y personas que colaboran para
conseguir un fin común, en este caso compartir información geográfica del modo más eficiente
posible. Esa comunidad es el alma de una IDE, donde las decisiones importantes deben
acordarse, para que se genere un proyecto realmente cooperativo, abierto y de autoría colectiva.
24
2.1.3.2. Tareas que permiten las IDE
De esta forma, con la puesta en marcha de las IDE se consigue que un usuario, tanto
experto en información geográfica como inexperto, pueda realizar, si se cumplen los estándares,
las diferentes tareas que ordenadas por cierto orden lógico se citan a continuación:
Buscar la información geográfica que hay disponible en una zona geográfica con
descripción del formato, la manera de acceder a ella, el año en que se produjo, la
calidad que ofrece, quién la ha elaborado, si existe un servicio que la publique y
demás características relevantes.
Visualizar y superponer mapas, ortofotos, modelos digitales de terreno y datos
geográficos en general de diferentes organismos, con diferentes sistemas de
referencia, en distintos formatos y con propiedades heterogéneas.
Buscar una entidad geográfica por su nombre y ver dónde se ubica sobre una
cartografía.
Acceder a las entidades geográficas en un formato estándar, así como a sus
atributos, coordenadas, topología y geometría.
Realizar operaciones de análisis básicas, como enrutamiento, cálculo de perfiles o
análisis de superficies.
Realizar transformaciones de un modelo de datos a otro diferente, si ambos están
descritos de forma normalizada.
Descargar los datos que se precisen para analizarlos en un SIG, si los servicios
ofrecidos por la IDE no satisfacen las necesidades del usuario.
25
Con el establecimiento de las IDE se pretende eliminar los obstáculos que dificultan la
disponibilidad y accesibilidad de la información geográfica, que ocasionan problemas y pérdidas
de tiempo, y que hacen muy difícil y costosa la reutilización de datos geográficos para un
propósito diferente al original (Bernabé & Lopez, 2012).
26
2.2. ESTADO DEL ARTE
Varios estudios se han realizado sobre el escenario delictivo de la capital; la Secretaría
Distrital de Planeación en sus Boletines 33 y 53, la Cámara de Comercio a través del
Observatorio Nacional de Seguridad de Bogotá, la Veeduría Distrital en sus Informes de
Seguridad o la misma Policía Metropolitana de Bogotá a través de su revista Criminalidad son
algunas de las entidades públicas que han intentado caracterizar el comportamiento delictivo de
la capital colombiana.
A pesar de esto, pareciera que no se tomaran medidas suficientes para contrarrestar este
fenómeno y se creyera que los capitalinos están cada vez más resignados a convivir con esta
problemática social.
Independientemente de la metodología usada o de los datos insumo para realizar cada
uno de estos estudios, el resultado final no deja de ser más que una cifra, un valor o un
porcentaje que al ciudadano no le dice mucho y que la información detrás de estos estudios se
convierte en una caja negra donde nadie tiene acceso para hacer uso de este conocimiento.
Este estudio aporta el componente espacial obtenido a través de un proceso de minería de
datos y pretende que este conocimiento sea utilizado por autoridades, empresarios y comunidad
en general.
En seguridad ciudadana, la “minería de datos” es más que un término de moda o un afán
para satisfacer nuestras curiosidades morbosas; es un cimiento firme para construir programas
27
efectivos, que luego pueden ser adecuadamente monitoreados y evaluados. “Las estadísticas
salvan vidas” (Bachelet, 2008).
Es momento de que cada delito deje de convertirse en un registro dentro de una base de
datos que finalmente termina arrojando resultados netamente estadísticos, y se convierta en un
conjunto de elementos claves para analizar, organizar y hacer análisis de los delitos que afectan
la seguridad de la capital Colombiana.
28
3. DATOS Y MÉTODOS
A continuación se realiza la explicación de la selección de la zona de estudio, los datos y
registros usados para la elaboración de la base de datos y las fuentes de donde se obtuvo dicha
información, además de la metodología planteada y seguida para la elaboración del estudio.
3.1. ZONA DE ESTUDIO
El trabajo se quiso enfocar en el estudio de una localidad con escenario crítico en cuanto
a hurtos a personas. Para poder establecerla, fue necesario primero realizar un análisis estadístico
de todas las localidades de Bogotá, en donde se relacionaron variables como el número de
habitantes, el área y el número de reportes por hurto a personas de cada una de estas y poder
definir así las localidades con un escenario delictivo mayor.
Bogotá está ubicada en el Centro del país, en la cordillera oriental, la capital del país tiene
una extensión aproximada de 33 kilómetros de sur y norte y 16 kilómetros de oriente a occidente.
“La orientación general de la ciudad, está determinada porque sus carreras son orientadas de sur
a norte y sus calles de oriente a occidente” (Alcaldía de Bogotá, 2015).
“La capital de Colombia cuenta con una división administrativa de 20 localidades o
distritos para ofrecer a los ciudadanos redes de servicios públicos como infraestructura vial,
entretenimiento y abastecimiento de productos” (Secretaría de Cultura Recreación y Deporte,
2015).
“El riesgo de sufrir un robo en Bogotá ha aumentado en los últimos tres años. No
solamente en las calles; en residencias y locales comerciales también existe un incremento en
29
saqueos” (El Espectador, 2014). Mientras que la Policía reportó 17.114 denuncias por hurtos
contra personas en 2011, en el 2013 la cifra ascendió a 25.227 (Figura 2), es decir, un aumento del
49.82% en solo tres años, pasando de 47 a 70 denuncias diarias.
Figura 2. Denuncias por Robos a Personas en Bogotá por Localidades.
Fuente: Policía Metropolitana de Bogotá y DIJIN – El Espectador
Según la figura anterior, a simple vista pareciera que las localidades de Kennedy,
Fontibón o Suba son las localidades más peligrosas, y serían buenos escenarios para analizar,
pero los números de casos no son el único aspecto a tener en cuenta para seleccionar una
localidad de estudio, ya que entre más área o mayor número de habitantes tengan, lo más lógico
es que presenten más casos delictivos. Para seleccionar la localidad objeto de estudio, nos
basamos en las estadísticas anteriores y establecimos un indicador teniendo en cuenta la relación
entre número de casos, número de habitantes y área de cada localidad (Tabla 1).
30
Tabla 1. Hurto a Personas en el 2012 y Relación Área y Habitantes
Localidad No de Casos Tasa por 100.000 Área (km2) Relación
La Candelaria 405 1.187,9 2,06 576,65
Santa Fe 1.326 831,2 6,46 128,67
Chapinero 1.947 1.174,9 10,75 109,29
Los Mártires 779 517,3 6,51 79,46
Antonio Nariño 464 270,2 4,88 55,37
Teusaquillo 1.084 494,1 14,19 34,82
Barrios Unidos 938 289,0 11,9 24,29
Tunjuelito 506 146,8 9,91 14,81
Puente Aranda 809 183,6 17,31 10,61
Rafael Uribe 771 130,9 13,83 9,46
Fontibón 1.258 253,8 30,34 8,37
Usaquén 1.719 262,2 32,84 7,98
Bosa 986 111,3 18,69 5,96
San Cristóbal 578 95,5 16,21 5,89
Engativá 1.936 152,7 33,71 4,53
Kennedy 2.329 143,4 35,46 4,04
Usme 424 63,1 20,69 3,05
Ciudad Bolívar 861 98,2 32,4 3,03
Suba 2.213 163,5 57,52 2,84
Fuente: Elaboración Propia
31
La tabla anterior está ordenada descendentemente según su “relación”, ese número nos
indica la cantidad de hurtos a personas que se presentaron por cada 100.000 habitantes por
kilómetro cuadrado en cada una de las localidades durante un año. De allí podemos ver que las
localidades que presentan un escenario delictivo crítico son La Candelaria, Santa Fe, Chapinero
y Los Mártires (Figura 3), todas se encuentran limítrofes y en lo que se conoce comúnmente como
el centro de Bogotá. Basados en estos datos y en la información suministrada, limitaremos el
área de estudio únicamente a la localidad de “Los Mártires”.
Figura 3. Delimitación del Centro de Bogotá y de la Localidad Los Mártires
Fuente: Elaboración propia con información del IDECA
La localidad Los Mártires es la número 14, debe su nombre en honor a los mártires
quienes perdieron su vida en las luchas por la independencia española y se encuentra ubicada en
el área central de la ciudad. Limita al norte con la localidad de Teusaquillo, al sur con la
localidad de Antonio Nariño, al oriente con la localidad de Santa Fe y al occidente, con la
localidad de Puente Aranda.
32
Cuenta con un territorio principalmente urbano distribuido a lo largo de 655 hectáreas
que equivalen al 2% del área total urbanizada del Distrito Capital.
“Está conformada por los barrios: Veraguas, El Progreso, Eduardo Santos, El Vergel,
Santa Isabel, Santa Isabel Sur, La Pepita, Ricaurte, La Sabana, El Listón, Paloquemao, La
Estanzuela, Voto Nacional, San Victorino, La Favorita, Santa Fe, Samper Mendoza, Florida,
Panamericano, Usatama y Colseguros” (Secretaría de Cultura Recreación y Deporte, 2015).
Sus límites son, al norte con la Diagonal 22 y Avenida El Dorado, con la localidad de
Teusaquillo, al sur con la Calle Octava Sur y Avenida Primera, con la localidad de Antonio
Nariño, al este con la Avenida Caracas, con la localidad de Santafé y al oeste con la Avenida
Norte-Quito-Sur con la localidad de Puente Aranda. Hidrológicamente, sólo cuenta con el Rio
Fucha y con el canal comunero o Rio San Agustín.
La Localidad 14 Los Mártires está ubicada en el centro del Distrito Capital, incluyendo
espacios históricos de principios de la república, junto a desarrollos urbanísticos posteriores.
Tiene áreas residenciales de clase media, en particular hacia el extremo sur de la Localidad y
zonas predominantemente comerciales, en el centro y norte de la jurisdicción.
La Localidad es atravesada por el sistema Transmilenio, cuenta además por vías como la
Calle Sexta (Avenida de los Comuneros), Carrera 24 y 27, Calle 19 (Avenida Ciudad de Lima) y
presta frecuente servicio el sistema de buses, buses y microbuses de transporte colectivo
(Secretaría de Cultura Recreación y Deporte, 2015).
33
3.2. DATOS
Debido a la dificultad de la obtención de los datos y a la carencia de ayuda por parte de la
Dirección de Investigación Criminal de la Policía Nacional, fue necesario la recolección de estos
usando diferentes fuentes, tales como:
Estadísticas de los estudios de percepción ciudadana
Resultados publicados directamente por parte de la DIJIN
Boletines de seguridad de la Secretaría Distrital de Planeación
Observatorio Nacional de Seguridad de Bogotá de la Cámara de Comercio
Informes de Seguridad de la Veeduría Distrital
Revista Criminalidad de la Policía Metropolitana de Bogotá
Publicaciones de algunos diarios nacionales sobre estudios delictivos
Portales web con denuncias directamente publicadas por las victimas
En total se manejaron 410 registros entre el 01 de enero de 2013 al 30 de junio de 2014
de hurtos a personas y que posteriormente fueron espacializados usando como sistema de
referencia MAGNA Ciudad Bogotá.
Se manejó como base para la caracterización la información de la infraestructura de datos
espaciales de la capital –IDECA-, tales como malla vial, centros educativos, estaciones y
troncales de Transmilenio, cuerpos de agua, cuadrantes de policía, infraestructura de seguridad,
estratos, usos, entre otros.
34
3.3. MÉTODOS
Con las bases de datos alfanuméricas de los hurtos a personas como material de trabajo,
se diseñó una base de datos espacial usando PostgreSQL y PostGIS, de tal forma que permita
establecer escenarios delictivos en la capital, respondiendo a preguntas como:
¿Cuáles puntos de la localidad de Los Mártires tienen mayor actividad
delincuencial?
¿Cuáles son los días de la semana y durante qué horas del día hay mayores
delitos?
¿Qué edades y sexos son los más vulnerables para los delincuentes?
¿La infraestructura policial de cuadrantes es suficiente para actuar frente a los
hurtos que afectan dicha localidad?, ¿será que los Centros de Atención Inmediata
(CAI) están distribuidos adecuadamente para mitigar este fenómeno?
El proceso de conformación de la base de datos involucra varias etapas, tales como,
consolidación de la información de interés en una única tabla, selección de los campos de interés,
depuración de registros en busca de completitud y consistencia y modificación de las variables
de los campos (Figura 4).
Una vez diseñada la base de datos espacial, se aplicaron algoritmos de agrupamiento de
minería de datos espaciales para relacionar los hechos según su similitud.
Para el desarrollo del proyecto se implementaron dos algoritmos; K-Means que tiene
como objetivo la partición de los registros en clústeres en el que cada observación pertenece al
35
grupo más cercano basado en la distancia media, y DBSCAN que hace referencia a “Density-
based spatial clustering of applications with noise”, es un algoritmo que agrupa los registros por
clústeres teniendo en cuenta los elementos ruido y modelando la densidad de puntos.
El algoritmo K-Means se ejecutó en el software estadístico R apoyados en la librería
“fpc” instalada anteriormente, mientras que el algoritmo DBSCAN fue programado en Java
usando NetBeans y sus resultados fueron visualizados en un GIS.
Se utilizó varias veces cada uno de los algoritmos para crear diferentes escenarios y poder
brindar una mejor interpretación que permita extraer conclusiones.
Figura 4. Proceso Metodológico para el Desarrollo del Proyecto
Fuente: Elaboración Propia.
•Consolidación de la Información de Interés.
•Depuración de Registros y Limpieza de Datos.
Diseño de la Base de Datos.
•Aplicación de algoritmos de agrupamiento de minería de datos espaciales.
Aplicación de Algoritmos. • Interpretar resultados.
•Utilizar nuevamente algoritmos para refinar resultados si es necesario.
•Extraer conclusiones.
Interpretación de Resultados.
•Elaboración de los mapas de hurtos a personas, con los resultados finales obtenidos por lo algoritmos de agrupamiento.
Elaboración de Mapas.
36
3.3.1. Base de Datos Espacial
Para poder diseñar la base de datos, se partió de un modelo Entidad Relación. El Modelo
de Entidad Relación es un modelo de datos basado en una percepción del mundo real que
consiste en un conjunto de objetos básicos llamados entidades y relaciones entre estos objetos,
implementándose en forma gráfica a través del Diagrama Entidad Relación (Storti, Rios &
Campodónico, 2007).
Las entidades presentes en la base de datos fueron, Hurtos y Cuadrantes como entidades
espaciales y Víctima y Policía como entidades no espaciales, cada una de estas con sus
respectivas relaciones entre sí y atributos necesarios para poder realizar consultas
adecuadamente.
El modelo entidad relación lo podemos ver en la Figura 5, en donde se presentan las
entidades mencionadas anteriormente dentro de cuadros de tono rojo, las relaciones dentro de
rombos de tono azul y los atributos dentro de óvalos de tono amarillo. Las dos entidades
espaciales tienen en la esquina superior derecha la representación de la geometría que cada una
de estas tiene, punto para hurtos y polígono para cuadrantes.
El atributo edad de la entidad no espacial víctima es un atributo calculado, es decir, que
se deriva de operaciones internas a partir de los atributos iniciales (Fecha actual – Fecha de
Nacimiento). Vemos que toda entidad tiene un atributo como identificador único, y se reconoce
fácilmente por estar subrayado.
37
Figura 5. Modelo Entidad Relación de la Base de Datos
Fuente: Elaboración Propia.
Para poder realizar el modelo de tablas se partió del modelo entidad relación, teniendo en
cuenta que cada entidad, atributo multivalorado y relaciones muchos a muchos se convierte cada
uno en una tabla (Tabla 2).
Tabla 2. Modelo de Tablas de la Base de Datos
Victima = (Cedula, Fecha_Nacimiento, Genero)
Hurtos = (ID_Delito, Fecha, Hora, Descripcion)
Cuadrantes = (ID_Cuadrante)
Policia = (ID_Policia, Telefono, Nombre_Nombre, Nombre_Apellido)
Afecta = (Cedula, ID_Delito)
Ocurre = (ID_Delito, ID_Cuadrante)
Asignado = (ID_Cuadrante, ID_Policia)
Fuente: Elaboración Propia.
38
Se obtuvo un total de 7 tablas diferentes, 4 por las entidades y 3 por las relaciones
muchos a muchos del modelo entidad relación. El atributo subrayado es la llave primaria
(Primary Key) de cada entidad y por lo tanto el identificador único de cada una de estas.
Una vez teniendo claro el diseño de la base de datos se procede a hacer la
implementación de esta en PostgreSQL apoyado también de PostGIS para las entidades
espaciales.
Con la creación de la base de datos se procede a generar las tablas y registros a manejar,
en este caso como consiste en una base de datos espacial, usamos PostGIS para importar los
archivos geográficos representados por las entidades Hurtos y Cuadrantes, y para el manejo del
sistema de referencia se usó el SRID 3116 que corresponde a Magna-Sirgas / Colombia Bogotá
Zone (Figura 6). Una vez completo el proceso podemos observar la información en tablas (Figura 7
y Figura 8) con los atributos del modelo entidad relación, excepto una tabla adicional llamada
“geom” que contienen el componente espacial de cada registro.
Figura 6. Archivos Geográficos a Base de Datos Espacial
Fuente: Elaboración Propia.
39
Figura 7. Entidad Espacial Hurtos
Fuente: Elaboración Propia.
Figura 8. Entidad Espacial Cuadrantes
Fuente: Elaboración Propia.
40
Para verificar la información y poder visualizarla fácilmente usamos Quantum GIS, se
conectó la base de datos espacial para poder importar la información al visor del GIS (Figura 9).
Figura 9. Visualización de la Información de la Base de Datos Espacial
Fuente: Elaboración Propia.
Luego de incorporar a la base de datos las dos entidades espaciales y verificar la
información contenida en estas mediante un GIS, agregamos las demás entidades y relaciones no
espaciales para su adecuado funcionamiento. Primero se crearon 4 tablas diferentes, dos para las
entidades Victima y Policía y 2 para las relaciones Afecta y Asignado (Figura 10). Esto se realizó
mediante código SQL en PostgreSQL
41
Figura 10. Creación de las Tablas no Espaciales en la Base de Datos
Fuente: Elaboración Propia.
Posteriormente se hizo la inserción de los datos en cada una de las tablas, podemos ver el
código usado para la inserción de los datos de las tablas Victima y Afecta en las Figura 11 y Figura
12 respectivamente.
42
Figura 11. Inserción De Datos Víctima
Fuente: Elaboración Propia.
Figura 12. Inserción de Datos Afecta
Fuente: Elaboración Propia.
43
Figura 13. Creación e Inserción de Datos Ocurre
Fuente: Elaboración Propia.
Para el caso de la tabla que representa la relación Ocurre, se tuvo que realizar una
consulta espacial para asignar a cada delito el cuadrante en donde ocurrió. Con esta consulta se
creó la tabla y se insertaron los datos de esta búsqueda (Figura 13). Observemos que de 410
registros que se manejaron, esta consulta solo tiene 378 registros, esto ocurre porque hay delitos
que sucedieron en el límite de dos o más cuadrantes y no pertenecen a uno único. Finalizada la
construcción de la base de datos espacial, pasamos a trabajar con los demás insumos.
44
3.3.2. Infraestructura de Datos Espaciales
Otro de los insumos que se manejó, es la información contenida en la infraestructura de
datos espacial suministrada por IDECA, referente a la malla vial, localidades, manzanas, barrios,
infraestructura de seguridad (estaciones de policía, centros de atención inmediata –CAI-,
cuadrantes de seguridad), sitios de afluencia de personas, sitios de interés, zonas comerciales,
residenciales y mixtas y estratificación socioeconómica (Figura 14).
Figura 14. Información de la Infraestructura de Datos Espaciales
Fuente: Elaboración Propia.
Calle 26
Calle 1
45
3.3.3. Algoritmos
Los algoritmos de agrupamiento se aplican a grandes conjuntos de datos, es el proceso de
creación de un grupo de objetos con similitudes entre ellos. Existen diferentes métodos para
llevar a cabo esta agrupación, pero las tres clasificaciones principales son agrupación particional,
agrupación jerárquica, y agrupación basada en la localización (Figura 15).
En el primer grupo se incluye a los algoritmos que crean particiones de los datos de tal
forma que los objetos en una partición (cluster) sean más similares entre sí que a otros objetos de
otras particiones. El agrupamiento jerárquico realiza una secuencia de operaciones de
agrupamiento. Estas pueden ser realizadas de forma “bottom-up” o “top-down”. En el último
grupo se encuentran los algoritmos que agrupan objetos en base a una relación de ubicación o
localidad. Algunos algoritmos de este tipo se basan en la densidad, mientras otros asumen una
distribución aleatoria (Kolatch, 2001).
Figura 15. Algoritmos de Agrupamiento de Minería de Datos Espaciales
Fuente: Clustering Algorithms for Spatial Databases: A Survey
46
3.3.3.1. K-Means
Básicamente este algoritmo busca formar clústeres representados por K objetos llamados
centroides. Cada uno de estos K centroides es el valor medio de los objetos que pertenecen a
dicho grupo o clúster.
Un centroide es el punto central de un conjunto de datos o clúster, punto que minimiza la
distancia total entre cada punto del clúster y el centro.
Para entender mejor el algoritmo, se explica paso a paso a continuación mediante un
ejemplo visualizado en la Figura 16, en donde tenemos un conjunto de puntos rojos con sus
respectivas coordenadas.
Figura 16. Inicio del Algoritmo K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2 Fuente: Elaboración Propia.
47
1. Se seleccionan aleatoriamente K objetos del conjunto de entrada para ser los centroides
iniciales de los clústeres. Seleccionaremos K=2 y serán los puntos 1 y 2 (Figura 17).
Figura 17. Paso 1 Algoritmo K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2 Fuente: Elaboración Propia.
2. Se calculan distancias de cada uno de los datos de entrada a los K centroides (Figura 18).
Figura 18. Paso 2 Algoritmo K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2 Fuente: Elaboración Propia.
48
3. Los datos de entrada se asignan a aquel centroide cuya distancia es mínima (Figura 19).
Figura 19. Paso 3 Algoritmo K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2 Fuente: Elaboración Propia.
4. Se recalculan K nuevos centroides como el valor medio de todos los datos asignados a
ese clúster (Figura 20).
Figura 20. Paso 4 Algoritmo K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2 Fuente: Elaboración Propia.
49
5. Se repite el paso 2, 3 y 4 tantas veces como sea necesario, hasta el momento en que se no
se reasignen elementos y los centroides recalculados sean iguales a los de la iteración
inmediatamente anterior.
Figura 21. Iteración 2 K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2
Fuente: Elaboración Propia.
50
Figura 22. Iteración 3 K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2
Fuente: Elaboración Propia.
Figura 23. Iteración 4 K-Means
Datos de Entrada Centroides
Clúster 1 Clúster 2
Fuente: Elaboración Propia.
51
En este ejemplo el proceso termina en la cuarta iteración (Figura 23). Esto se debe a que en
la cuarta iteración no se asignan nuevos elementos a alguno de los K clústeres y los K centroides
recalculados en la cuarta iteración son exactamente los mismos que los recalculados en la tercera
iteración, dando por terminado el algoritmo con K clústeres, K centroides y todos los elementos
de entrada asignados a uno de estos.
En la Figura 24 se observa este algoritmo en el software R. Inicialmente se carga el
archivo csv a trabajar, indicando cual es el carácter que determina una nueva fila y el decimal. Se
ejecuta el algoritmo K-Means sobre este csv, especificando el número de K y este resultado se
guarda en una nueva variable. Posteriormente se observan los resultados y datos del proceso
ejecutado, tales como el número de puntos de cada clúster y las coordenadas de cada uno de los
centroides. Las líneas finales son para visualizar en pantalla los resultados de los clúster y
centroides generados, establecer colores, tamaños y otros asuntos de visualización.
Figura 24. Comandos Usados en Consola para la Ejecución del K-Means en R.
Fuente: Elaboración Propia.
52
3.3.3.2. DBSCAN
Este algoritmo visita punto por punto todos los elementos del conjunto de entrada y a
cada uno le analiza los dos parámetros definidos por el usuario, Épsilon (e) y MinEle; el primero
define la distancia máxima entre dos elementos para considerarlos vecinos, y el segundo define
el mínimo número de elementos que deben ser vecinos para formar un clúster.
Para entender mejor el algoritmo, se explicara paso por paso mediante un ejemplo
visualizado en la Figura 25, en donde tenemos un conjunto de puntos y usaremos un MinEle de 4
Figura 25. Inicio del Algoritmo DBSCAN
Puntos no Visitados Puntos Visitados
Clúster Fuente: Elaboración Propia.
Se visita un punto cualquiera y se marca como visitado (Figura 26).
53
Figura 26. Paso 1 Algoritmo DBSCAN
Puntos no Visitados Puntos Visitados
Clúster Fuente: Elaboración Propia.
1. Se traza el Épsilon (e) y se cuenta cuantos puntos están dentro de su zona (Figura 27).
Figura 27. Paso 2 Algoritmo DBSCAN
Puntos no Visitados Puntos Visitados
Clúster Fuente: Elaboración Propia.
54
2. Si la cantidad de puntos dentro de Épsilon (e) es menor a MinEle se sigue con otro punto
y se repite los el paso anterior (Figura 28).
Figura 28. Paso 3 Algoritmo DBSCAN e iteraciones 2 a 6
Puntos no Visitados Puntos Visitados
Clúster
Fuente: Elaboración Propia.
55
3. Si la cantidad de puntos dentro de Épsilon (e) es mayor o igual a MinEle, este grupo de
puntos forma un clúster y el punto visitado se convierte en un punto corazón. Se repite
nuevamente el paso 2 con otro punto no visitado (Figura 29).
Figura 29. Paso 4 Algoritmo DBSCAN e iteraciones 7 a 10
Puntos no Visitados Puntos Visitados
Clúster
Fuente: Elaboración Propia.
4. Termina cuando todos los puntos estén marcados como visitados, es decir cuando no
existan más elementos que puedan ser asignados a un cluster.
56
Figura 30. Finalización Algoritmo DBSCAN
Fuente: Elaboración Propia.
A partir de los puntos corazón crecerán los clúster añadiendo aquellos otros que sean
directamente alcanzables por densidad desde el punto corazón. Si dos puntos corazón están a una
distancia Épsilon (e) el uno del otro entonces sus clúster se unen en uno solo.
Los elementos incluidos en un clúster que en un área de Épsilon no incluyen al menos
MinEle elementos se consideran elementos borde.
Aquellos elementos que no pueden ser asignados a ningún clúster durante el proceso son
tratados como ruido. La salida de este algoritmo son clústeres disjuntos; también puede dar lugar
a un conjunto de elementos definidos como ruido, ya que no se pueden incluir en ninguno de los
clúster construidos.
57
Figura 31. Parte del Código Fuente Elaborada en Java usando NetBeans.
Fuente: Elaboración Propia.
58
3.3.4. Modelos
Figura 32. Modelos K-Means
Primer Modelo, K de 3
Segundo Modelo, K de 6
Tercer Modelo, K de 10
Fuente: Elaboración Propia.
59
Los puntos observados en cada uno de los modelos, representan un caso de hurto a
personas en la localidad de estudio, la clasificación por colores representa cada uno de los
clústeres que el algoritmo determinó luego de ser ejecutado. De allí que la distribución de todos
los puntos en todos los modelos es la misma, excepto la distribución de los clústeres,
representados por colores.
Los modelos obtenidos usando el algoritmo K-Means son los que se observan en la Figura
32. El número de clústeres es el mismo número de centroides, definido por la constante K que
establece el usuario inicialmente. Por tal motivo vemos tres modelos, con K igual a 3, 6 y 10.
Inicialmente se observan 3 grandes áreas y se hace notorio el gran clúster de la zona
oriental (Azul). Posteriormente Al usar K 6, se dividen los grandes clústeres de dicha zona del K
3 en tres clústeres diferentes (Azul, Morado y Amarillo), limitando fácilmente seis zonas
delictivas de la localidad. Finalmente usando K 10 se obtienen 10 zonas delictivas y 10
centroides, obteniendo un modelo qué divide algunos clústeres que existían en K 6 y limitando
más algunas zonas.
Como ya se mencionó, este algoritmo depende de valor K utilizado por el usuario, al
escoger un K muy grande, se dividirá mucho más la zona y las áreas tenderán a ser cada vez más
puntuales. Por esta razón, complementamos este algoritmo con el algoritmo DBSCAN para tener
una mejor interpretación de los resultados.
60
Figura 33. Modelo DBSCAN
Primer Modelo, Épsilon 300 y MinEle 10
Segundo Modelo, Épsilon 200 y MinEle 10
Tercer Modelo, Épsilon 100 y MinEle 10
Fuente: Elaboración Propia.
61
Los modelos obtenidos mediante el algoritmo DBSCAN son los que se observa en la
Figura 33. Elaboramos tres modelos usando MinEle constante con un valor de 10 puntos y Épsilon
variando en 300, 200 y 100 metros.
En el primer escenario, usando Épsilon 300 metros, podemos apreciar tres clústeres
diferentes y uno de ellos abarca una gran área en color rosa, los dos restantes tienen un
comportamiento más limitado y puntual. Si realizamos una comparación de este con el primer
modelo K-Means K 3, vemos que los tres clústeres de ambos modelos tienen un comportamiento
muy similar.
Al reducir Épsilon a 200 metros, obtuvimos el siguiente modelo, cada uno de los tres
clústeres de épsilon 300 se dividen en dos y aparecen más elementos ruido (gris), estos no siguen
un patrón delictivo y no se encuentran en los focos del problema. Aun así los clústeres obtenidos
siguen siendo grandes y no podemos establecer conclusiones. Al comparar los seis clústeres de
DBSCAN épsilon 200 con los seis clústeres de K-Means K 6, podemos apreciar grandes
diferencias en el comportamiento de cada uno. Esto se debe a la funcionalidad de los algoritmos,
mientras uno tiene en cuenta la densidad, el otro tienen en cuenta la distancia media a un punto
común y nuestra finalidad es complementar ambos algoritmos.
En el tercer y último modelo que realizamos con el algoritmo DBSCAN, usamos Épsilon
100, se hacen notorios los seis focos delictivos de la zona, es allí en donde se presentan la mayor
ocurrencia de hurtos a personas y es allí en donde se deben tomar acciones para contrarrestar este
fenómeno. Basados en este modelo sus resultados, se usó la información del IDECA relacionada
con la infraestructura de seguridad para generar un modelo más completo y analizar mejor la
localidad de estudio.
62
Los cuadrantes de la policía, estaciones y centros de atención inmediata (CAI) fueron
base del modelo para poder analizar mejor el escenario. Más de 30 cuadrantes y cerca de 6
estaciones de policía cubren la zona, los cuadrantes en rojo son aquellos que tienen presencia de
los focos delictivos encontrados mediante el tercer modelo de DBSCAN.
Se sobrepuso la infraestructura de seguridad sobre el tercer modelo de DBSCAN Épsilon
100, también se sobrepuso sobre el segundo modelo de K-Means K 6, el modelo tenía seis
clústeres delictivos, la misma cantidad que genero el modelo DBSCAN seleccionado.
Cada clúster se representa con un color diferente, también se puede apreciar las
estaciones de policía y los centroides de cada clúster representado por una estrella de un color
similar al clúster al que pertenece (Figura 34).
Figura 34. Modelos Usados Sobre Información del IDECA
Clústeres Tercer Modelo DBSCAN
Centroides Segundo Modelo K-Means
Fuente: Elaboración Propia.
63
Posteriormente se generó un modelo final uniendo los resultados de ambos algoritmos
(Figura 35). De esta forma obtuvimos un modelo en donde tenemos seis clúster que son los focos
delictivos de la localidad (aportados por el tercer modelo de DBSCAN Épsilon 100) y seis
centroides (aportados por el segundo modelo de K-Means K 6), además de la infraestructura de
seguridad de la zona integrada por estaciones de policía y cuadrantes de seguridad. Este es el
modelo final que se obtuvo manejando la totalidad de los datos, la metodología para obtenerlo es
la misma que se siguió para realizar diferentes escenarios delictivos de la localidad pero teniendo
en cuenta variables como mes, día del mes, día de la semana, hora, lugar de ocurrencia del delito,
sexo y edad de la víctima.
Figura 35. Modelo Usado, Clúster DBSCAN, Centroides K-Means, Base IDECA
Fuente: Elaboración Propia.
64
4. PRESENTACIÓN DE RESULTADOS
Figura 36. Escenario Delictivo en la Localidad los Mártires
Fuente: Elaboración Propia.
Calle 26
Calle 1
Punto 1
Punto 2
Punto 3
Punto 4
Punto 5
Punto 6
65
¿Cuáles puntos de la localidad de Los Mártires tienen mayor actividad delincuencial? En
la Figura 36 vemos los puntos críticos de esta localidad:
1. El primer punto está ubicado al norte cerca a las estaciones de Transmilenio CAD y Plaza
de la Democracia, entre la Calle 26 y la Carrera 30 (Figura 37). Allí cerca se encuentra la
Escuela Superior de Ciencias Empresariales y la estación de policía más cercana está
ubicada a 580 metros. Este punto está sobre una zona de estrato 3 y comercial. Cerca se
encuentran algunos sitios relevantes como el Centro Administrativo Distrital, la Plaza de
la Democracia, el Hospital Universitario Mayor y el Davivienda de la Calle 24.
Figura 37. Punto 1 - Elementos vectoriales sobre una ortofotografía del 2015
Fuente: Elaboración Propia.
66
2. El segundo punto se encuentra ubicado sobre la Calle 19 entre las carreras 18 y 22 (Figura
38). La estación de policía más cercana se encuentra a 560 metros de distancia. Cubre una
zona con estrato 2, 3 y comercial. Podemos encontrar cerca el Colegio y la Iglesia de
Nuestra Señora de La Presentación, The Warehouse Art Galery y el Campamento YMCA
Colombia.
Figura 38. Punto 2 - Elementos vectoriales sobre una ortofotografía del 2015
Fuente: Elaboración Propia.
67
3. El punto tres se encuentra al este de la localidad sobre la Calle 13 y Avenida Caracas,
entre las estaciones de Transmilenio Avenida Jiménez y De La Sabana (Figura 39). Cerca
de la Escuela Tecnológica Instituto Técnico Central. Cubre una zona con estrato 2, 3 y
comercial. La estación de policía más cercana está a 730 metros de distancia. Cerca de
allí también podemos encontrar el SENA, la Academia Superior de Artes de Bogotá, el
Banco Popular, la Basílica Menor del Voto Nacional y la Plaza de los Mártires.
Figura 39. Punto 3 - Elementos vectoriales sobre una ortofotografía del 2015
Fuente: Elaboración Propia.
68
4. El cuarto punto o foco delictivo está ubicado al sureste de la localidad cerca a la estación
de Transmilenio Tercer Milenio en una zona de estrato 3 y comercial (Figura 40). La
estación de policía más cercana está a 1.100 metros. Dentro de la zona se encuentra el
Banco de Bogotá, el Hotel Morrison, y una Terminal de Buses de Expreso Bolivariano;
cerca podemos encontrar la Basílica Menor del Voto Nacional, la Plaza de los Mártires el
Instituto de Medicina Legal y el Parque Metropolitano Tercer Milenio.
Figura 40. Punto 4 - Elementos vectoriales sobre una ortofotografía del 2015
Fuente: Elaboración Propia.
69
5. El punto cinco y seis se pueden observar en la Figura 41. El primero está ubicada el
suroeste de la localidad, sobre la Calle 6 entre carreras 27 y 30 y cercana a un cuerpo de
agua y a la estación Comuneros de Transmilenio. Está sobre una zona de estrato 3 y la
estación de policía más cercana está a 500 metros de distancia. Cerca de allí también se
encuentra la Iglesia Corazón del Padre y el Restaurante el Fogón Llanero.
6. El sexto y último punto encontrado, está ubicado el suroeste de la localidad, sobre la
Carrera 30 entre calles 5 y 2, antes de la estación Santa Isabel de Transmilenio. Está
sobre una zona de estrato 3 y la estación de policía más cercana está a 500 metros de
distancia. Cerca de allí está el Salón de Recepciones Alfa y la Olímpica de Santa Isabel.
Figura 41. Punto 5 y 6 - Elementos vectoriales sobre una ortofotografía del 2015
Fuente: Elaboración Propia.
70
En este modelo se tienen en cuenta todos los registros de hurtos a personas sin distinción
de género y edad de la víctima y día, mes y hora de ocurrencia del delito.
Los centroides aportados por el algoritmo K-Means nos indican una ubicación óptima y
estratégica de las estaciones de policía (estrellas), este punto tiene la distancia más corta a cada
uno de los puntos de su respectivo clúster.
Observamos que dos clúster se encuentran cercanos a instituciones de educación, los
cuales tienen afluencia de personas a diferentes horas del día.
Otro clúster se encuentra cerca de un cuerpo de agua, el cual puede servir para que los
delincuentes se oculten y cinco de estos se encuentran cercanas a estaciones de Transmilenio que
muchas veces sirve a los delincuentes para huir.
71
¿Cuáles son los días de la semana y durante qué horas del día hay mayores delitos? Según
los datos generados por el modelo, los días de la semana que tienen más actividad delincuencial
son los Sábados, Domingo y Lunes, entre estos tres días se acumula el 48.78% de los hurtos a
personas. En la Figura 42 vemos los puntos de la localidad Los Mártires que tienen mayor
actividad delincuencial esos días.
Figura 42. Hurtos a Personas los Sábados, Domingos y Lunes
Fuente: Elaboración Propia.
Calle 26
Calle 1
72
Así mismo, según los datos generados por el modelo, la mayor actividad delincuencial se
presenta después de las 8:00 p.m. con el 45.12% de los hurtos a personas. En la Figura 43 vemos
los puntos de la localidad Los Mártires que tienen mayor actividad delincuencial después de esa
hora.
Figura 43. Hurtos a Personas Después de las 8:00 p.m.
Fuente: Elaboración Propia.
Calle 26
Calle 1
73
¿Qué edades y sexos son los más vulnerables para los delincuentes? Según los datos
generados por el modelo, el 34.39% de las víctimas de hurto a personas tienen una edad entre 40
y 49 años. En la Figura 44 vemos los puntos de la localidad Los Mártires que tienen mayor
actividad delincuencial en donde las víctimas tienen esta edad.
Figura 44. Hurtos a Personas Entre 40 y 49 Años
Fuente: Elaboración Propia.
Calle 26
Calle 1
74
Igualmente, según los datos generados por los modelos, el 62.44% de las víctimas de
hurto a personas, son mujeres. En la Figura 45 vemos los puntos de la localidad Los Mártires que
tienen mayor actividad delincuencial contra las mujeres
Figura 45. Hurtos a Mujeres
Fuente: Elaboración Propia.
Calle 26
Calle 1
75
¿La infraestructura policial de cuadrantes es suficiente para actuar frente a los hurtos que
afectan dicha localidad?, ¿será que los Centros de Atención Inmediata (CAI) están distribuidos
adecuadamente para mitigar este fenómeno?
Aunque el sistema policial de cuadrantes trata de reducir el campo de acción de cada
estación de policía y obviamente del personal policial a cargo, tiene una falencia y no es
suficiente para actuar frente a los hurtos que afectan dicha localidad.
Como pudimos observar en las figuras anteriores, muchos de los delitos ocurren en los
límites de la localidad e incluso en el límite de dos o más cuadrantes de policía, ocasionando un
desprendimiento de responsabilidad por parte de los cuadrantes implicados ya que no se sabe
exactamente cual estación de policía debe atender este hurto.
También se encontró que los Centros de Atención Inmediata –CAI- no están distribuidos
adecuadamente para mitigar este fenómeno. Estos están ubicados a una distancia mayor de 500
metros lineales a cada uno de los seis focos delictivos, causando demoras en la atención de una
emergencia y falta de presencia en las zonas más peligrosas, permitiendo así que el accionar
delictivo siga tranquilamente.
Con estos resultados y dada su interpretación y la relevancia de las respuestas obtenidas,
establecemos los siguientes criterios:
Los límites de la localidad o de dos o más cuadrantes, se prestan para el actuar
delictivo y aunque es muy probable que el delincuente no conozca estos límites, la
recurrencia de delitos en esas zonas y su falta de pronta atención, la convierten en
campo de acción para el hurto a personas. Igualmente entre más alejado de una
estación de Policía se encuentre el delincuente, es más fácil efectuar el hurto y la
76
distribución de estas estaciones no es la más apropiada para mitigar el fenómeno,
pues deja muchas zonas alejadas y sin presencia Policial.
Los lugares cercanos a centros educativos son también zonas para el actuar
delictivo, son puntos con gran afluencia de personas y en los alrededores los
delincuentes están atentos para actuar
Los cuerpos de agua son muy usados por los delincuentes, sea como escondite
para tomar por sorpresa a la víctima o sea para huir después del hurto.
Las estaciones de Transmilenio presentan un comportamiento similar que los
cuerpos de agua, los delincuentes lo usan para huir o para esconderse. Cinco de
seis focos delictivos quedan cerca de una estación de Transmilenio.
Una zona a más de 500 metros lineales de una estación de Policía, ya es un punto
en donde fácilmente el delincuente puede actuar, además hay cuadrantes que
presentan escasos delitos y la presencia policial es mayor.
Al momento de un hurto a personas, los delincuentes prefieren actuar después de
las 8pm, preferiblemente los fines de semana y las mujeres son las más propensas
a ser sus víctimas. La edad más vulnerable es entre 40 y 49 años para las víctimas.
Cada uno de los mapas delictivos contribuyó para poder establecer estos criterios, la
unión de estos factores permite conocer y caracterizar el hurto a personas en la localidad Los
Mártires, además establecer posibles zonas de riesgo con características similares a las
encontradas mediante la minería de datos espaciales.
77
5. DISCUSIÓN DE RESULTADOS
En esta sección se discuten los siguientes elementos:
¿Cómo fue el cumplimiento de cada uno de los objetivos específicos del
proyecto? Recordemos los objetivos específicos:
o Conocer los diferentes algoritmos que se emplean en la minería de datos
espaciales, seleccionando e implementando aquellos que permitan hacer
un análisis espacial mediante técnicas de agrupamiento y de localización:
Durante el desarrollo del proyecto, se estudiaron los diferentes métodos de
minería de datos espaciales y se realizó una breve descripción de ellos
(2.1.2 Métodos de Minería de Datos Espaciales). Allí se comprendió la utilidad de
los algoritmos de agrupamiento y la funcionalidad y aporte para este
estudio, ya que permiten precisamente analizar espacialmente elementos
aleatorios o sin un patrón en común, comportamiento similar al de los
hurtos a personas.
o Realizar una limpieza de los registros de la base de datos mediante la
ejecución de un algoritmo, facilitando y permitiendo la posterior
implementación de las técnicas de minería de datos espaciales.
Inicialmente se pensó en usar las bases de datos suministradas por la
Policía Metropolitana de Bogotá y por lo tanto en efectuar algún tipo de
proceso sobres estas para limpiar los registros y poder estandarizar
información o agrupar datos para su posterior uso en el proyecto. Pero
78
debido a la escasa y casi nula ayuda de parte de este, fue necesario la
obtención de datos de otras fuentes y la construcción de una base de datos
simple que no tuvo necesidad de realizar procesos de limpieza como
inicialmente se pensó.
o Caracterizar información referente a los hurtos a personas que afectan la
localidad los Mártires de la ciudad de Bogotá, generando descripciones de
la tendencia delictiva y logrando que este conocimiento sea utilizado por
autoridades, empresarios y comunidad en general. Luego de generar los
diferentes mapas delictivos, pudimos establecer y analizar varios criterios
que permiten hacer una caracterización de los hurtos a personas de la
localidad Los Mártires, además de esto, se desea que esta información sea
pública para que cualquier persona pueda conocer la metodología usada,
los mapas obtenidos y si es posible, que se pueda replicar este estudio con
otras localidades, datos, variables, otros delitos y poder conocer y
caracterizar mucho mejor el escenario delictivo de la capital.
¿Cómo contribuye este proyecto a la caracterización de los delitos que afectan a
Bogotá? La metodología implementada permite usar cualquier dato espacial y
puntual para poder ser analizado, por lo tanto este proyecto se puede replicar en
otros estudios con diferentes variables, zonas o delitos de la capital colombiana y
ayudar o aportar a la caracterización de los delitos que afecta a Bogotá.
¿Cuál es el aporte específico de este proyecto a resolver el problema de
investigación? El aporte específico es la implementación del tan olvidado
componente espacial en un estudio delictivo. Obtener resultados que no son un
79
índice, un porcentaje, un valor o un número resultado de un proceso estadístico;
sino un resultado espacial, es un gran aporte tanto para este estudio como para
estudios similares futuros o la implementación en los existentes que dejan a un
lado este componente tan importante para estos análisis.
¿Cuáles son las ventajas y limitaciones de este proyecto? Una de las principales
limitaciones fue el acceso a los datos de los hurtos a personas. La Policía
Metropolitana de Bogotá tiene una gran cantidad de información de todos los
delitos denunciados, pero desafortunadamente no son de acceso público y ni
siquiera solicitando los datos para uso académico o investigativo se facilitan. Así
que luego de mucho tiempo de trámites y cartas dirigidas solicitando datos,
finalmente se trabajó con los datos suministrados por otras fuentes (33 DATOS).
La segunda limitación fue el software, desafortunadamente no existe un software
libre que maneje los algoritmos implementados en este proyecto, por tal manera
fue necesaria la programación en java del DBSCAN y el manejo del software
estadístico R con una extensión de minería de datos para usar el K-Means. De
todas maneras, a pesar de ser una limitación, se convirtió en una ventaja para el
proyecto, pues programar un algoritmo de este tipo es un buen aporte tanto para
este como para cualquier otro estudio similar y adicionalmente demuestra que es
posible programar otros algoritmos de minería de datos para realizar más análisis.
En cuanto a ventajas aparte de la programación de un algoritmo, podemos
nombrar nuevamente la importancia que se le da al componente espacial, la cual
nos permite tener resultados fáciles de interpretar, analizas y sobretodo con una
gran base para la toma de decisiones.
80
6. CONCLUSIONES
Los algoritmos de minería de datos espaciales son herramientas muy poderosas que vale
la pena implementar en los estudios de análisis espaciales, no todo puede ser Buffer o Intersect
usando un GIS. Estas herramientas permiten analizar otros aspectos que a veces pasan
desapercibidos por el usuario o por el analista.
Existen 5 categorías de minería de datos espaciales y alrededor de 60 algoritmos
diferentes, en este trabajo solo usamos los algoritmos de agrupamiento DBSCAN y K-Means.
Este tipo de herramientas son muy importantes para hacer análisis espacial, modelar y construir
escenarios partiendo de información almacenada en bases de datos.
En total se manejaron 410 registros de hurtos a personas durante el año 2014 dentro de la
localidad Los Mártires de la ciudad de Bogotá. Es posible mejorar y afinar los escenarios
presentados con la inclusión de más datos, pues se estiman más de 1000 denuncias presentadas
durante este periodo en el sector.
Se encontró ausencia de software libre que permita realizar la minería de datos
espaciales, los existentes realizan este proceso pero con datos no espaciales y los que
aparentemente facilitaban ese proceso no son de uso libre. Además de esto ningún paquete GIS
cuenta con este servicio. Debido a esto se vio la necesidad de programar el algoritmo en Java y
en Python para poder ser ejecutado fácilmente en diferentes plataformas GIS, asimismo de usar
un software estadístico que si manejaba estas herramientas.
81
La metodología presentada y los algoritmos usados se pueden implementar
independientemente de la cantidad de datos, y no solamente para analizar los hurtos a personas,
sino para cualquier estudio que implique minería de datos espaciales mediante algoritmos de
agrupación.
El proceso de minería de datos espaciales puede continuar, es decir, se pueden realizar
análisis de minería de datos espaciales usando como datos de entrada los resultados de otro
proceso de minería de datos espaciales. Por ejemplo, usar K-Means con los centroides de cada
modelo como datos de entrada, para determinar una ubicación óptima para los centros de
atención inmediata de la Policía Nacional, o ejecutar nuevamente DBSCAN sobre los clúster
encontrados para generar modelos a nivel micro y detallar mejor el comportamiento delictivo de
ese clúster.
82
7. BIBLIOGRAFÍA
Alcaldía de Bogotá. (2015). Ubicación de la Ciudad [Versión Electrónica], Recuperado el
29 de marzo de 2015, de http://www.bogota.gov.co/ciudad/ubicacion.
Alcaldía Local Los Mártires. (2014). Características Geográficas [Versión Electrónica],
Recuperado el 29 de marzo de 2015, de http://www.martires.gov.co/index.php/mi-
localidad/conociendo-mi-localidad/localizacion-extension-y-caracteristicas-geograficas.
Bachelet P. (2013). Para tener seguridad ciudadana, se necesitan los números. Banco
Interamericano de Desarrollo [Versión Electrónica]. Recuperado el 05 de febrero de 2015, de
http://blogs.iadb.org/sinmiedos/2013/12/18/la-mejor-arma-contra-el-crimen-datos-y-estadisticas/
Garnica N., Olaya A. (2011). Exploración de la Violencia Sexual en la Ciudad de Bogotá:
Una Aplicación de Técnicas de Minería de Datos. Revista Criminalidad, 53(2), Páginas 145-173.
Gutiérrez P. (2008). Caracterización de la Población Carcelaria en Argentina Mediante la
Aplicación de Minería de Datos para la Prevención de Hechos Delictivos. Buenos Aires. Tesis de
Grado en Ingeniería Industrial.
IBM (2004). SPSS Modeler. Plataforma de Análisis Predictiva. Richmond Virginia,
Estados Unidos: International Business Machines.
Kolatch E. (2001). Clustering Algorithms for Spatial Databases: A Survey, Department
of Computer Science, University of Maryland, College Park.
83
Perversi, I. (2007). Aplicación de Minería de Datos para la Exploración y Detección de
Patrones Delictivos en Argentina. Buenos Aires. Tesis de Grado en Ingeniería Industrial.
DANE (2015), Proyecciones del Departamento Administrativo Nacional de Estadística.
El Espectador (2014). Redacción Bogotá. Aumentaron los Índices de Inseguridad en
Bogotá. [Versión Electrónica]. Recuperado el 17 de julio de 2014, de
http://www.elespectador.com/noticias/bogota/aumentaron-los-indices-de-inseguridad-bogota-
articulo-478939
Mongabay (2014). Web de ciencia y medioambiente [Versión Electrónica]. Recuperado
el 17 de julio de 2014, de http://www.mongabay.com/
Riquelme J., Ruiz R., Gilbert K. (2006). Minería de Datos: Conceptos y Tendencias.
Inteligencia Artificial Vol. 10 No 29.
Secretaria de Cultura, Recreación y Deporte (2010). Bogotá y sus Localidades. [Versión
Electrónica], Recuperado el 29 de marzo de 2015, de
http://www.culturarecreacionydeporte.gov.co/bogotanitos/bogodatos/bogota-y-sus-localidades
Secretaria de Cultura, Recreación y Deporte (2015). Localidad Los Mártires. [Versión
Electrónica], Recuperado el 29 de marzo de 2015, de
http://www.culturarecreacionydeporte.gov.co/localidades/los-martires
Secretaría de Planeación (2010). Alcaldía de Bogotá. Bogotá Ciudad de Estadísticas,
Boletín No 33, Seguridad y Convivencia Ciudadana.
Storti, Rios & Campodónico, 2007. Base De Datos: Modelo Entidad Relación. Colegio
Belgrano. Tecnología de la Información y la Comunicación. Buenos Aires. Argentina.