¿Cómo trabajar en el grafo web?

Post on 10-Jan-2016

72 views 3 download

description

http://reina.usal.es. REcuperación de la INformación Avanzada. ¿Cómo trabajar en el grafo web?. José Luis Alonso Berrocal. Dpto. de Informática y Automática. Estructura de enlaces en el web. Recorrido del grafo web. Básicamente lo podemos recorrer:. Recorrido en anchura (breadth-first). - PowerPoint PPT Presentation

Transcript of ¿Cómo trabajar en el grafo web?

¿Cómo trabajar en el grafo web?¿Cómo trabajar en el grafo web?

José Luis Alonso BerrocalJosé Luis Alonso Berrocal

http://reina.usal.es

Dpto. de Informática y Automática.

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

2 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Estructura de enlaces en el web

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

3 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido del grafo web.

Básicamente lo podemos recorrer:

Recorrido en anchura (breadth-first).

Recorrido en profundidad (depth-first).

El mejor posible (best-first).

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

4 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido del grafo (II)

Recorrido en anchura: 1-2-3-4-7-5-8-9-10-6

Recorrido en profundidad: 1-2-4-5-6-3-7-8-9-10

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

5 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Procedimiento básico

WEB

Urls a seguirUrls visitados

Base de datosFicheros ascii

URL inicialURL inicial

Se carga la páginaSe carga la página

Se extraen los URL

Se extraen los URL

Almacenar lainformación

Almacenar lainformación

Seguir el siguienteURL

Seguir el siguienteURLOperaciones de normalización:

- convertir URL a minúscula - Eliminar anclas - Emplear igual codificación - Heurística para pag. Defecto - Resolver URL relativo

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

6 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido avanzado

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

7 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Recorrido avanzado (II)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

8 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

WebBotHarvest-NGWebvac SpiderSocSciBot 3 y SocSciBot_ToolsSacarinoBot y EloisaBot Tools

Web crawlers para captura de datos

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

9 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Sonda AutomatiCA para la Recuperación de INformaciÓn en el web)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

10 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Clasificación)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

11 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Clasificación II)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

12 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Sacarino (Clasificación III)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

13 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Creación de matrices

0100000000

0000010100

0000001000

1110001010

1010011000

0000100000

0001010000

0001000001

0000001100

0000000110

10

9

8

7

6

5

4

32

1

10987654321

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

14 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Operaciones con matrices

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

15 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Matriz de distancia.

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

16 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Se pueden resumir los datos de la siguiente forma:

Resumen de los datos

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

17 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Tratamiento de los datos

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

18 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Herramienta de cálculo

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

19 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Matriz sparse

0100000000

0000010100

0000001000

1110001010

1010011000

0000100000

0001010000

0001000001

0000001100

0000000110

10

9

8

7

6

5

4

32

1

10987654321

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

20 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

PageRank

jBj j

i xN

xi

1

importancia pagina i

paginas j que enlazan a pagina i

Nº enlaces salientes desde página j

importancia pagina j

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

21 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Estructura de enlaces en el web

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

?

0 1/20 0 0 0 00 0 0

1/2 00 0 0 0 01/5 0 0

1/2 01/2 0 0 0 00 1/2 0

0 01/2 0 0 1/4 11/5 0 0

1 32 4 5 6 87 9 10

0 00 1/2 0 1/4 00 1/2 0

0 00 0 1 0 00 0 0

0 1/20 1/2 0 0 00 0 0

0 00 0 0 1/4 01/5 0 0

0 00 0 0 0 01/5 0 1

0 00 0 0 1/4 01/5 0 0

1

2

3

4

5

6

7

8

9

10

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

22 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Resultado final

---- Iteración 1 ----

0.0500.0700.1500.1950.1250.1000.1000.0450.1200.045

NORM es 1.000000

Residual es 0.380000

---- Iteratión 3 ----

0.0600.0720.0930.1330.1260.1830.1230.0660.0800.066

NORM es 1.000000

Residual es 0.297500

---- Iteración 10 ----

0.0460.0480.0920.1530.1610.1600.1210.0660.0880.066

NORM es 1.000000

Residual es 0.017855

---- Iteración 20 ----

0.0450.0470.0910.1530.1620.1610.1220.0650.0890.065

NORM es 1.000000

Residual es 0.000896

El “eigen vector” principal (contiene los valores del PageRank)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

23 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Pajek

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

24 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Conversión a formato Pajek

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

25 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Representación del grafo

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

26 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Representación del grafo (II)

htt

p:/

/rei

na.

usa

l.es

htt

p:/

/rei

na.

usa

l.es

¿Cómo ¿Cómo trabajar trabajar

en el grafo en el grafo web?web?

27 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.

Representación del grafo (III)

http://reina.usal.es

José Luis Alonso Berrocalberrocal@usal.es