Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario...

38
Investigación algorítmica Grupo Plagiatest-T

Transcript of Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario...

Page 1: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Investigación algorítmica

Grupo Plagiatest-T

Page 2: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Integrantes Grupo 4

Lizzett Seminario Huamaní20037185

César Ríos Gárate 20042153Carolina Balbín Ávalos

20050373 Sheyla Díaz Muguruza

20057079Víctor Chávez Lazarte

20062038

Page 3: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Introducción

Descripción del problema◦ Facilidad de acceso a la información◦ Apropiación de ideas ajenas◦ Dificultad para detectar plagio

Extraídos de la campaña ‘Por qué y Cómo debemos Combatir el Plagio’ – PUCP [1]

Page 4: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Introducción

Objetivo◦ Elaborar un Software que permita detectar similitudes

de textos entre diferentes documentos de manera que nos permita determinar el nivel de plagio existente en el documento analizado.

Presentación de los algoritmos investigados◦ Frente a esta problemática se presentan los algoritmos

de Secuencias Maximales, Winnowing y Espacios Vectoriales. Todos ellos presentan una Etapa preprocesamiento y la ejecución propia del Algoritmo.

Page 5: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Algoritmo 1: Secuencias Maximales

Algoritmo capaz de encontrar patrones que se repiten en una colección determinada de textos.

Un patrón es una secuencia de elementos que se repiten.

Utiliza dos parámetros:◦ β: Umbral de frecuencia

Page 6: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Preprocesamiento:Para cada palabra en el documento a

procesar se crea un nodo en el cual se almacena el identificador de la palabra y 2 arreglos; el primero de ellos almacenará una lista con las posiciones en las cuales se encuentra la palabra en el documento y el segundo almacenará una lista con punteros a los nodos de las palabras en las posiciones siguientes a la analizada.

Page 7: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Algoritmo:Se recorren frecuencia definido.

paralelamente la lista de nodos de los documentos a comparar de modo que se detecten secuencias comunes, se considerarán las secuencias encontradas cuyo tamaño supere al umbral de frecuencia

Adicionalmente al hallar la secuencia en cada caso, se tendrá en consideración el umbral de salto, el cual representa la tolerancia que se tiene al realizar la comparación y por ende la búsqueda de las secuencias comunes.

Page 8: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

1era Fase: Construcción de la estructura Hash que representa la información que presentan los documentos

En la casa roja de la esquina

En la puerta de la casa

En la casa de la plaza

Doc 2 Doc 3Doc 1

Buscamos las palabras que aparecen repetidas por documento y le asignamos un código HASH por cada palabra

diferente en cada documento

Page 9: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Nodo Palabra

Identificador de palabra

Diccionario de Listas enlazadas

Identificador de la palabra

Identificador del documento

Lista de las posiciones que ocupa esa palabra

en el documento

Lista de punteros a los nodos de las

palabras siguientes según las posiciones de

dicha palabra

Page 10: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

2da Fase: Almacenamiento de las secuencias maximales en la estructura que se muestra a continuación

Atributo ‘SumaInde

x’

Se ordenan de acuerdo a la longitud de la secuencia Maximal y al atributo SumaIndex

Longitud de la

Secuencia Maximal

Cada unidad describe a

una Secuencia Maximal

Page 11: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Secuencias Maximales

VENTAJAS DESVENTAJAS

Este algoritmo nos permite realizar la comparación entre varios documentos.

La clasificación y longitud de las secuencias maximales nos ayudan a emitir un porcentaje de plagio.

Si en un texto que ha sido copiado se invierten el orden de un conjunto de palabras el algoritmo usado no los reconocerá como plagio ya que no cumplirá con el orden de la secuencia.

Page 12: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Algoritmo 2: Winnowing

El algoritmo presentado es capaz de detectar similitudes entre documentos a nivel de fragmentos.

Un aspecto importante es establecer el criterio de selección de estos fragmentos. Ejemplo: por párrafos o por oraciones.

Page 13: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Preprocesamiento:A cada fragmento del documento se le

aplica una función Hash, la cual nos dará un identificador único por cada uno de ellos.

Se escogen los valores hash más significativos del documento.

A los valores hash escogidos en el paso anterior se les almacena mediante una lista inversa, la cual nos dará las posiciones en las cuales se repite el mismo fragmento dentro del documento.

Page 14: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Cada fracaso supone un capítulo más en la historia de nuestra vida y una lección que nos ayuda a crecer. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo más en nuestra vida y una lección que nos ayuda a madurar y a crecer. Aprende de ellos, y sigue. Por los fracasos no te dejes desanimar.

Documento1 Documento2

Page 15: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Paso 1 : Seleccionamos los fragmentos

Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo más en nuestra vida y una lección para madurar. Aprende de ellos, y sigue. Por los fracasos no te dejes desanimar.

Documento1 Documento2

¿Cómo se aplica al problema?

Page 16: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo más en nuestra vida y una lección para madurar. Aprende de ellos, y sigue. Por los fracasos no te dejes desanimar.

Paso 2 : Eliminamos artículos por cada fragmento y signos de puntuación

Documento1 Documento2

Page 17: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Cada fracaso es un capítulo en historia de nuestra vida No te dejes desanimar por fracasos Aprende de ellos y sigue adelanteCada fracaso constituye un capítulo más en nuestra vida y una lección para madurar Aprende de ellos y sigue Por fracasos no te dejes desanimar

Paso 3 : Ordenamos las palabras alfabéticamente dentro de cada fragmento

Doc1

Doc2

Cada capítulo de en es fracaso historia nuestra vida undejes desanimar fracasos No por teadelante Aprende de ellos sigue y

Cada capítulo constituye en fracaso lección madurar más nuestra para un una vida yAprende de ellos sigue y dejes desanimar fracasos no Por te

¿Cómo se aplica al problema?

Page 18: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Paso 4 : Aplicamos la función hash a cada fragmento previamente ordenado y obtenemos un identificador por cada uno de ellos

Doc1

Doc2

Cada capítulo de en es fracaso historia nuestra vida undejes desanimar fracasos No por teadelante Aprende de ellos sigue y

Cada capítulo constituye en fracaso lección madurar más nuestra para un una vida yAprende de ellos sigue y dejes desanimar fracasos no Por te

17

2035

13

8720

=

¿Cómo se aplica al problema?

Page 19: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Paso 5 : Escoger los valores hash más significativos de cada documento y para esto tener en cuenta el tamaño de la ventana. En el ejemplo, la ventana tendrá valor de 4

Documento1 Documento2

17 20 35 18 76 98 23

20 43 19…

18 32 20 76 91 22 5 19 24 …

W=417 20 35 18 20 35 18

7635 18 76 98 18 76 98

2376 98 23 20 98 23 20

43 23 20 43 19

Más significativos: 17 18 20 19

W=418 32 20 76 32 20 76

9120 76 91 22 76 91 22

591 22 5 19 22 5 19

24

Más significativos:18 20 5

Page 20: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Algoritmo:Para cada par de documentos se

comparan los códigos hash almacenados en la base de datos para cada uno de ellos y se cuenta el número total de coincidencias.

Con este número se procede a hallar el porcentaje de similitud a través la división con el número total de códigos hash.

Page 21: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Winnowing - FingerPrint

VENTAJAS DESVENTAJAS

• La principal virtud de este algoritmo es la sencillez de su implementación.• La detección se realiza de forma rápida.• Para la comparación no sería necesario almacenar todo el documento ya que lo que se compara son los identificadores obtenidos en el preprocesamiento.

Si en un texto se cambian u omiten alguna de las palabras dentro de cada fragmento el algoritmo no lo detectará como plagio ya que para cada uno de los fragmentos seleccionados la función hash dará un valor diferente.

Page 22: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Winnowing - MejorasSe puede almacenar el tamaño de los

fragmentos antes de ser convertidos con la función hash para obtener un mejor alcance del porcentaje de similitud al final de la comparación.

Se puede ordenar las palabras dentro de los fragmentos antes de que se les aplique la función hash, con esto el algoritmo considerará los casos en que se modifique el orden de las palabras.

Page 23: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Algoritmo 3: Modelo del Espacio Vectorial – Similitud entre vectoresEste algoritmo usa como base la

teoría concerniente a los espacios vectoriales para encontrar similitudes entre los fragmentos de los documentos analizados.

En este caso utilizaremos como criterio de comparación la fórmula de la función coseno para dos vectores.

Page 24: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Algoritmo 3: Modelo del Espacio Vectorial – Similitud entre vectores

Preprocesamiento:El algoritmo arma una matriz

para cada documento en la cual cada fila representa un vector en la que cada componente representa la frecuencia con la que esa palabra se repite en el fragmento escogido.

Page 25: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

¿Cómo se aplica al problema?

Algoritmo: Se contrasta fila por fila en cada par de matrices

(las cuales representan a cada par de documentos) de modo que para cada par de vectores representados en dichas filas se aplica la fórmula del coseno para dos vectores.

Con este resultado usamos el criterio de que si el valor obtenido mediante la formula es cercano a uno podemos considerar que se tratan de fragmentos similares en caso contrario no lo serán.

Usando la cantidad de fragmentos similares podemos determinar el porcentaje de similitud total entre los documento comparados.

Page 26: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Modelo del Espacio Vectorial

VENTAJAS DESVENTAJAS

Si en el documento se cambian las posiciones de las palabras este algoritmo podrá detectar el plagio ya que se basa en la obtención de la frecuencia de aparición de cada palabra y no en la posición en que aparece.

Con este algoritmo no es posible poder reconocer exactamente los fragmentos en los cuales se incurrió en plagio, ya que este solo almacena la cantidad de veces que se repite cada palabra.

Page 27: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Cada fracaso supone un capítulo más en la historia de nuestra vida y una lección que nos ayuda a crecer. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo más en nuestra vida y una lección que nos ayuda a madurar y a crecer. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.Documento1 Documento2

Modelo del Espacio Vectorial

Page 28: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Paso 1 : Fragmentamos el documento.

Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo en nuestra vida y una lección. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Documento1 Documento2

Modelo del Espacio Vectorial

Page 29: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Paso 2 : Almacenamos los términos de la partición en una matriz

Cada fracaso es un capítulo en la historia de nuestra vida constituye y una lección

Frag1 D1

Cada fila es una partición de cada documento

Cada columna representa un término

Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo en nuestra vida y una lección. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Doc2Doc1

Modelo del Espacio Vectorial

Frag1 D2

Page 30: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Paso 3 : Almacenamos los términos de la partición en una matriz

Cada fracaso es un capítulo en la historia de nuestra vida constituye y una lección

1 1 0 1 1 1 0 0 0 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 0 0 0 0

Cada fracaso es un capítulo en la historia de nuestra vida. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.

Cada fracaso constituye un capítulo en nuestra vida y una lección. No te dejes desanimar por los fracasos. Aprende de ellos, y sigue adelante.Documento2Documento1

Modelo del Espacio Vectorial

Frag1 D1Frag1 D2

Page 31: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Paso 4 : Aplicamos la función del Coseno

Equivale al producto escalar de dos vectores de documentos (1 y 2) y luego se procede a dividirlo por el producto de la raíz cuadrada del sumatorio de los componentes del vector 1 con la raíz cuadrada del sumatorio de los componentes del vector 2.

Modelo del Espacio Vectorial

Page 32: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Modelo del Espacio Vectorial

Page 33: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Modelo del Espacio Vectorial- Adaptación

11

5

Identificador de la palabraColumna

Cantidad de ocurrencias de la palabra

PALABRA

* Nos ayudaría a evitar la redundancia

Page 34: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Modelo del Espacio Vectorial

Cada fracaso es un capítulo en la historia de nuestra vida 1

1

2

1

3

1

4

1

9

1

5

1

61

7

1

8

1

10

1

11

1

Cada fracaso constituye un capítulo en nuestra vida y una lección 1

1

2

1

12

1

10

1

4

1

5

1

6

1

111

131

141

15

1

Fragmento 1- Documento1

Fragmento 1- Documento2

Page 35: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Modelo del Espacio VectorialSi los identificadores son iguales

se procede a agregarlos a la sumatoria normalmente.

Si hay identificadores en un fragmento y no en el otro se procede a agregar solo en el denominador, según la componente que sea.

* Es útil para archivos muy extensos.

Page 36: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Modelo del Espacio Vectorial

Cada fracaso es un capítulo en la historia de nuestra vida 1

1

2

1

3

1

4

1

9

1

5

1

61

7

1

8

1

10

1

11

1

Cada fracaso constituye un capítulo en nuestra vida y una lección 1

1

2

1

12

1

10

1

4

1

5

1

6

1

111

131

141

15

1

Fragmento 1- Documento1

Fragmento 1- Documento2

Son iguales

Componente aislada

Componente aislada

Page 37: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

ConclusionesDe los algoritmos presentados como

alternativas a la búsqueda de similitudes de texto (elementos de diferentes documentos) podemos concluir que

Page 38: Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní20037185 César Ríos Gárate 20042153 Carolina Balbín Ávalos.

Referencias:GARCIA BLASCO, Sandra

2009 Extracción de Secuencias Maximales de una colección de Textos – Ingeniería Técnica de Informática y Gestión- Universidad Politécnica de Valencia

ALVA MANCHEGO, Fernando

2010 Sistema de Información de Detección de Plagio en documentos digitales usando el método

Document Fingerprinting- Tesis para obtener el título en Ingeniería informática. Pontificia Universidad Católica del Perú

WIKIPEDIA Modelo del Espacio Vectorial

2010http://es.wikipedia.org/wiki/Modelo_de_espacio_vectorial