La deserción estudiantil y la mineria de datos

6
Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT. Resumen— Este artículo aborda el tema sobre las deserciones universitarias, con la finalidad de elaborar un modelo que permita identificar el porcentaje de estudiantes que abandonan la carrera semestre a semestre tomando como referencia información obtenida de la Pontificia Universidad Católica del Ecuador Sede Santo Domingo. El análisis de este tema permitirá obtener información que pueda ayudar a prevenir las deserciones. El objetivo de este trabajo es investigar el porcentaje de deserciones por carrera existente en la PUCE SD, conocer el grado de aceptación que ha obtenido la institución periodo a periodo debido al incremento de exigencia como consecuencia de la acreditación de universidades realizada a nivel nacional. La técnica que se ha implementado para obtener los resultados de las deserciones ha sido minería de datos o data mining a través de la herramienta open source denominada Weka, esta herramienta utiliza diferentes algoritmos para la ejecución, el algoritmo utilizado ha sido el de agrupamiento SimpleKMeans. Índice de Términos— deserción, modelo, educación superior, acreditación de universidades, weka. Abstract- This paper addresses the issue of university dropouts, in order to develop a model to identify the percentage of students who drop out of race semester to semester by reference information from the Catholic University of Santo Domingo Ecuador Headquarters. The analysis of this issue will provide information that can help prevent defections. The aim of this paper is to investigate the percentage of desertions by existing career in PUCE SD, determine the degree of acceptance that has earned the institution period to period due to increased demand as a result of the accreditation of universities on a national level. The technique has been implemented to obtain the results of defections has been data mining or data mining through open source tool called weka , this tool using different algorithm to implement the algorithm used was the grouping SimplekMeans. Index Terms-dropout model, higher education, accreditation of universities, weka. I. INTRODUCCIÓN La deserción es uno de los principales problemas que afrontan las instituciones de Educación Superior. Es un problema que preocupa debido a sus consecuencias sociales, institucionales y personales que trae como repercusión este tema. Los estudios revisados de investigación sobre el tema de deserciones universitarias muestran que existen diferentes causas como: escasa información previa, reiterados fracasos en los exámenes finales, origen social, la elección inadecuada de la carrera, características familiares, circunstancias de la vida, entre otras. En este artículo no trataremos a fondo sobre estas causas debido a que es muy complicado tener información real estadística sobre las causas antes mencionadas. Las universidades en el país se encuentran cursando un periodo de acreditaciones, el cual ha sido ejecutado por parte del gobierno poniendo a estas en grandes apuros provocando un incremento necesario en sus exigencias administrativas y educativas, dando a ciertas universidades créditos como también a otras provocando pérdidas económicas y de estudiantes. Este artículo es un grado de avance de investigación sobre la temática de deserciones universitarias en las carreras que existen en la PUCE SD, Ingeniería Comercial, Contabilidad y Auditoría, Comunicación Social, Diseño, Enfermería, Ingeniería de Sistemas, Hotelería y Turismo, Licenciatura en Docencia y Gestión de Educación Básica. El objetivo general de este trabajo de investigación es determinar el porcentaje de deserciones por cada una de las carreras de la PUCE SD. La técnica que se ha implementado para obtener los resultados de las deserciones ha sido minería de datos o data mining a través de la herramienta open source denominada weka, esta herramienta utilizas diferentes algoritmos para el análisis de datos, el algoritmo utilizado ha sido el de agrupamiento SimpleKMeans, este algoritmo permite agrupar la información como conjuntos, haciendo mas fácil su interpretación. Esta herramienta contiene una colección de modelos de visualización y algoritmos para el análisis de datos y Deserciones Universitarias: Caso de estudio: Carreras técnicas más difíciles o menos atractivas. Vega, Daniel., Bonilla, Patricio y González, Luis. Estudiantes PUCE SD 1

Transcript of La deserción estudiantil y la mineria de datos

Page 1: La deserción estudiantil y la mineria de datos

Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT.

Resumen— Este artículo aborda el tema sobre las deserciones universitarias, con la finalidad de elaborar un modelo que permita identificar el porcentaje de estudiantes que abandonan la carrera semestre a semestre tomando como referencia información obtenida de la Pontificia Universidad Católica del Ecuador Sede Santo Domingo.El análisis de este tema permitirá obtener información que pueda ayudar a prevenir las deserciones.El objetivo de este trabajo es investigar el porcentaje de deserciones por carrera existente en la PUCE SD, conocer el grado de aceptación que ha obtenido la institución periodo a periodo debido al incremento de exigencia como consecuencia de la acreditación de universidades realizada a nivel nacional.La técnica que se ha implementado para obtener los resultados de las deserciones ha sido minería de datos o data mining a través de la herramienta open source denominada Weka, esta herramienta utiliza diferentes algoritmos para la ejecución, el algoritmo utilizado ha sido el de agrupamiento SimpleKMeans.

Índice de Términos— deserción, modelo, educación superior, acreditación de universidades, weka.

Abstract- This paper addresses the issue of university dropouts, in order to develop a model to identify the percentage of students who drop out of race semester to semester by reference information from the Catholic University of Santo Domingo Ecuador Headquarters.

The analysis of this issue will provide information that can help prevent defections.

The aim of this paper is to investigate the percentage of desertions by existing career in PUCE SD, determine the degree of acceptance that has earned the institution period to period due to increased demand as a result of the accreditation of universities on a national level.The technique has been implemented to obtain the results of defections has been data mining or data mining through open source tool called weka , this tool using different algorithm to implement the algorithm used was the grouping SimplekMeans.

Index Terms-dropout model, higher education, accreditation of universities, weka.

I. INTRODUCCIÓN

La deserción es uno de los principales problemas que afrontan las instituciones de Educación Superior. Es un problema que preocupa debido a sus consecuencias sociales, institucionales y personales que trae como repercusión este tema.Los estudios revisados de investigación sobre el tema de deserciones universitarias muestran que existen diferentes causas como: escasa información previa, reiterados fracasos en los exámenes finales, origen social, la elección inadecuada de la carrera, características familiares, circunstancias de la vida, entre otras. En este artículo no trataremos a fondo sobre estas causas debido a que es muy complicado tener información real estadística sobre las causas antes mencionadas.Las universidades en el país se encuentran cursando un periodo de acreditaciones, el cual ha sido ejecutado por parte del gobierno poniendo a estas en grandes apuros provocando un incremento necesario en sus exigencias administrativas y educativas, dando a ciertas universidades créditos como también a otras provocando pérdidas económicas y de estudiantes. Este artículo es un grado de avance de investigación sobre la temática de deserciones universitarias en las carreras que existen en la PUCE SD, Ingeniería Comercial, Contabilidad y Auditoría, Comunicación Social, Diseño, Enfermería, Ingeniería de Sistemas, Hotelería y Turismo, Licenciatura en Docencia y Gestión de Educación Básica.El objetivo general de este trabajo de investigación es determinar el porcentaje de deserciones por cada una de las carreras de la PUCE SD.La técnica que se ha implementado para obtener los resultados de las deserciones ha sido minería de datos o data mining a través de la herramienta open source denominada weka, esta herramienta utilizas diferentes algoritmos para el análisis de datos, el algoritmo utilizado ha sido el de agrupamiento SimpleKMeans, este algoritmo permite agrupar la información como conjuntos, haciendo mas fácil su interpretación.Esta herramienta contiene una colección de modelos de visualización y algoritmos para el análisis de datos y

Deserciones Universitarias: Caso de estudio: Carreras técnicas más difíciles o menos atractivas.

Vega, Daniel., Bonilla, Patricio y González, Luis.Estudiantes PUCE SD

1

Page 2: La deserción estudiantil y la mineria de datos

Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT.

modelado predictivo, unido a una interfaz gráfica de usuario para acceder fácilmente a sus funcionalidades.

Los puntos fuertes de weka son: • Está disponible libremente bajo licencia pública

GNU.• Es muy portable porque está completamente

implementado en java y puede correr en casi cualquier plataforma.

• Contiene una extensa colección de técnicas para pre procesamiento de datos y modelado.

• Fácil de utilizar.Las redes neuronales son un paradigma de aprendizaje automático inspirado en la forma en que funciona el sistema nervioso de animales. Es un sistema de interconexión de neuronas que interactúan entre sí para producir una salida a través de estímulos. En inteligencia artificial se los denomina redes neuronales.El porcentaje de deserciones es mayor en las carreras técnicas que en las demás carreras, es la hipótesis que se plantea en este trabajo.A la PUCE SD le interesa conocer el porcentaje de deserciones por carrera, manejando a través de un proyecto con sus estudiantes esta investigación, justificando de esta manera la elaboración y ejecución de este artículo, mediante las siguientes preguntas de investigación.¿Este artículo permitirá tener una visión clara para la toma de decisiones? ¿El porcentaje de deserciones por carrera presentado en este trabajo determinara si las carreras técnicas son más complejas o no?

II. MÉTODOS Y MATERIALES

La herramienta weka soporta varias tareas estándar de minería de datos, especialmente, pre procesamiento de datos, clustering, clasificación, regresión, visualización, y selección. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están disponibles en un fichero plano (flat file) o una relación, en la que cada registro de datos está descrito por un número fijo de atributos (normalmente numéricos o nominales, aunque también se soportan otros tipos). Weka también proporciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de datos. No puede realizar minería de datos multi-relacional, pero existen aplicaciones que pueden convertir una colección de tablas relacionadas de una base de datos en una única tabla que ya puede ser procesada con Weka.1El algoritmo utilizado fue redes neuronales debido a que en minería de datos se manejan dos tipos de técnicas las predictivas y las descriptivas, en nuestro artículos se trata sobre un tema de investigación cuyo estudio necesita ser realizado a través de variables y resultados predictivos, las redes neuronales está dentro del grupo de estas técnicas por ese motivo se escogió esta técnica. Al basarse en el sistema

nervioso y principalmente el en cerebro tiene varias ventajas como:

• Aprendizaje: Las RNA tienen la habilidad de

aprender mediante una etapa que se llama etapa de

aprendizaje. Esta consiste en proporcionar a la RNA

datos como entrada a su vez que se le indica cuál es

la salida (respuesta) esperada.

• Auto organización: Una RNA crea su propia

representación de la información en su interior,

descargando al usuario de esto.• Tolerancia a fallos: Debido a que una RNA

almacena la información de forma redundante, ésta

puede seguir respondiendo de manera aceptable aun

si se daña parcialmente.• Flexibilidad: Una RNA puede manejar cambios no

importantes en la información de entrada, como

señales con ruido u otros cambios en la entrada (por

ejemplo si la información de entrada es la imagen de

un objeto, la respuesta correspondiente no sufre

cambios si la imagen cambia un poco su brillo o el

objeto cambia ligeramente).• Tiempo real: La estructura de una RNA es paralela,

por lo cual si esto es implementado con

computadoras o en dispositivos electrónicos

especiales, se pueden obtener respuestas en tiempo

real.

III. RESULTADOS

El total de estudiantes matriculados por carrera en cada uno de los periodos investigados son:

2

Page 3: La deserción estudiantil y la mineria de datos

Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT.

De acuerdo a los datos recopilados en la investigación y después de haber utilizado la herramienta y aplicado el algoritmo de agrupación se ha obtenido la información y gráficos que se muestran a continuación separados en diferentes grupos según el indicador deseado.

Desertores por Escuelas

Título: Gráfico 1Autores: Los Investigadores

El número de deserciones en los periodos estudiado es relativo al número de estudiantes que ingresan a la carrera o escuela.Teniendo en mayor número a la Escuela de Ciencias Administrativas y Contables seguida de la Escuela de Sistemas.La herramienta utilizada refleja las siguientes líneas y porcentajes según los datos ingresados.

=== Run information ===

Scheme: weka.clusterers.SimpleKMeans -N 8 -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -S 10Relation: deserciones-weka.filters.unsupervised.attribute.Remove-R2-5Instances: 783Attributes: 1 escuela

Test mode: evaluate on training data

=== Clustering model (full training set) ===

kMeans======

Number of iterations: 2Within cluster sum of squared errors: 0.0Missing values globally replaced with mean/mode

Cluster centroids: Cluster#Attribute Full Data 0 1 2 3 4 5 6 (783) (129) (325) (49) (123) (57) (58) (42)===============================================================================================================================================================================================================================================================================================================================================escuela CIENCIAS_ADMINISTRATIVAS_Y_CONTABLES ENFERMERIA CIENCIAS_ADMINISTRATIVAS_Y_CONTABLES DISEÑO SISTEMAS HOTELERIA_Y_TURISMO COMUNICACION_SOCIAL CIENCIAS_DE_LA_EDUCACION

Time taken to build model (full training data) : 0.01 seconds

=== Model and evaluation on training set ===

Clustered Instances

0 129 ( 16%)1 325 ( 4%)22 49 ( 6%) ESCUELAS3 123 ( 16%)4 57 ( 7%)

3

Page 4: La deserción estudiantil y la mineria de datos

Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT.

5 58 ( 7%)6 42 ( 5%)

Desertores según Género

Titulo: Grafico 2Autores: Los Investigadores

Extrañamente la sumatoria entre las carreras, los estudiantes que desertan en mayor cantidad son de sexo femenino, en la escuela que más mujeres desertan es en la de Ciencias Administrativas y Contables, seguido de Enfermería.En este caso la herramienta mostró los siguientes datos:

=== Run information ===

Scheme: weka.clusterers.SimpleKMeans -N 8 -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots 1 -S 10Relation: deserciones-weka.filters.unsupervised.attribute.Remove-R1-3,5Instances: 783Attributes: 1 generoTest mode: evaluate on training data

=== Clustering model (full training set) ===

kMeans======

Number of iterations: 2Within cluster sum of squared errors: 0.0Missing values globally replaced with mean/mode

Cluster centroids: Cluster#Attribute Full Data 0 1 (783) (513) (270)==========================================genero FEMENINO FEMENINO MASCULINO

Time taken to build model (full training data) : 0.01 seconds

=== Model and evaluation on training set ===

Clustered Instances

0 513 ( 66%)1 270 ( 34%) GÉNEROS

Resultados finalesEstudio realizado durante los periodos: 201001, 201002, 201101, 201102, 201201, 201202, 201301.

CarrerasTotal Matriculados

Total Desertores

% Deserciones

CIENCIAS ADMINISTRATIVAS Y CONTABLES 3.815 325 8,5 %

CIENCIAS DE LA EDUCACION 637 42 6,6 %

COMUNICACION SOCIAL 807 58 7,2 %

DISEÑO 864 49 5,7 %

ENFERMERIA 1.314 129 9,8 %

HOTELERIA Y TURISMO 949 57 6,0 %

SISTEMAS 1.104 123 11,1 %

IV. DISCUSIÓN

En este artículo se planteó un tema muy interesante, generador de discusiones en pasillos y hogares como que carrera es más difícil, y que aquellos que siguen carreras técnicas son más capaces y estas son más fuertes. No podremos determinar si es así o no, sin embargo la información reflejada en el transcurso de esta investigación producto de datos reales adquiridos de la PUCE SD muestra que la carrera técnica ofertada, es decir, la escuela de Ingeniería de Sistemas es la que ocupa el primer lugar en porcentaje de deserciones en los periodos estudiados, seguida por la Escuela de Enfermería, se podrá acotar al número de estudiantes que ingresan a cada escuela, a la exigencia de estas, o simplemente a las razones enumeradas al inicio de esta investigación.Lo que podemos concluir de esto es que nuestra hipótesis pudo ser comprobada de forma afirmativa de igual forma las preguntas de investigación.

APÉNDICE

Los apéndices, si son necesarios, aparecen antes del reconocimiento.

4

Page 5: La deserción estudiantil y la mineria de datos

Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT.

REFERENCIAS

[1] P. Reutemann; B. Pfahringer and E. Frank (2004). «Proper: A Toolbox for Learning from Relational Data with Propositional and Multi-Instance Learners». 17th Australian Joint Conference on Artificial Intelligence (AI2004). Springer-Verlag. Consultado el 25-06-2007.W.-

Autores

Daniel VegaEstudiante de Escuela de SistemasPontificia Universidad Católica del Ecuador Sede Santo Domingo

Patricio BonillaEstudiante de Escuela de SistemasPontificia Universidad Católica del Ecuador Sede Santo Domingo

Luis GonzálezEstudiante de Escuela de SistemasPontificia Universidad Católica del Ecuador Sede Santo Domingo

5

Page 6: La deserción estudiantil y la mineria de datos

Pontificia Universidad Católica del Ecuador Sede Santo Domingo-Escuela de Ingeniería de Sistemas. Vega Daniel, Bonilla Patricio, González Luis. DUCT.

REFERENCIAS

[1] P. Reutemann; B. Pfahringer and E. Frank (2004). «Proper: A Toolbox for Learning from Relational Data with Propositional and Multi-Instance Learners». 17th Australian Joint Conference on Artificial Intelligence (AI2004). Springer-Verlag. Consultado el 25-06-2007.W.-

Autores

Daniel VegaEstudiante de Escuela de SistemasPontificia Universidad Católica del Ecuador Sede Santo Domingo

Patricio BonillaEstudiante de Escuela de SistemasPontificia Universidad Católica del Ecuador Sede Santo Domingo

Luis GonzálezEstudiante de Escuela de SistemasPontificia Universidad Católica del Ecuador Sede Santo Domingo

5