Proyecto Final.pdf

USO DE LAS CADENAS DE MARKOV EN EL

ESTUDIO DEL ALGORITMO PAGERANK

Jenny Sanchez CruzCod. 2879630

Procesos estocasticos

June 20, 2014

1 Introduccion

Se puede observar la eficiencia de los motores de busqueda en el momento en elque al escribir solamente algunas palabras suele aparecer en la primera paginade busqueda la opcion que se necesita. Como cabe esperar, esto se debe a unalgoritmo eficiente de busqueda y ordenamiento de paginas web. Este estudio seenfocara en el algoritmo PageRank desarrollado por los fundadores de Googley utilizado por Google Search cuyo objetivo es organizar las paginas Web yoptimizar las busquedas.

2 Historia

Aunque el indicador que utiliza el algoritmo para el ordenamiento de las paginasya era conocido en el campo de las Matematicas (vector propio o eigenvalue)hasta el momento no haba sido aplicado al campo de la computacion para estefin.

Larry Page y Sergey Brin eran estudiantes de doctorado de la universidad deHarvard al momento de proponer este metodo para la valoracion de paginasweb, fue publicado en el artculo The PageRank Citation Ranking: BringingOrder to the Web.

Aunque este metodo ya haba sido utilizado en otros campos de estudio, no eraconocido en el de la computacion, por esta razon aunque Page y Brin vendan suimplementacion a las empresas del Sillicon Valley a un precio muy bajo, ningunaquiso adquirirlo, gracias a esto siguieron mejorando el algoritmo para utilizarlocomo buscador del motor que sera mas adelante Google. Lo mas importantede este metodo no es el algoritmo en s, sino la optimizacion que han hecho losdesarrolladores de este proyecto, esto es lo que ha hecho de Google el buscadormas utilizado del Planeta.

Otros usos de medidas similares al PageRank:

1

Modelado de visitas de paginas web, considerandolas como receptoras devotos o emisoras de votos. Desarrollado por Jon Kleinberg, profesorde la Universidad de Cornell.

Modelo Input-Output: Propone tratar la economa como una red y medirlos flujos de factores intermedios entre diferentes sectores. Desarrolladopor Wassily Leontief, profesor de Harvard y Premio Nobel de Economagracias a este aporte.

Un ordenamiento similar se realiza con las publicaciones cientficas, envez de paginas son artculos, en vez de hipervnculos son citas hacia otrosartculos. Propuesto por Gabriel Pinski y Francis Narin.

3 Concepto de PageRank

El PageRank de una pagina es la probabilidad de que una persona que navega enla Web entrando a diferentes paginas al azar, entre especficamente a la paginaque se esta observando. Si una pagina tiene varios links como subsecciones dela pagina, estos no son considerados como una pagina diferente.

3.1 Persona sin lmite de tiempo

Este es el caso ideal, la persona tiene probabilidad 1 de seguir navegando en laWeb, en este caso el PageRank de cualquier pagina A se calcula de la siguienteforma:

PR(A) =BS

PR(B)

L(B)

Siendo S el conjunto de las paginas que poseen enlaces hacia A, y L(B) elnumero de enlaces salientes desde B.

3.2 Persona con lmite de tiempo

Una persona comienza a entrar al azar de acuerdo a los enlaces que hay encada pagina que entra, pero tiene una probabilidad d de seguir haciendolo,y (1 d) de terminar su recorrido en la Web. En este caso el PageRankde cualquier pagina es:

PR(A) = (1 d) + d (BS

PR(B)

L(B)

)Siendo S el conjunto de las paginas que poseen enlaces hacia A, y L(B)el numero de enlaces salientes desde B. La probabilidad d de continuarnavegando en la Web es llamada damping factor.

Cuando se publico el artculo en el que se daba a conocer el algoritmo dePageRank, se encontraba la ecuacion anterior para hallar el PageRank,sin embargo, luego publicaron un nuevo artculo usando una ecuacion dis-tinta, la que se define a continuacion es mas precisa.

2

PR(A) =(1 d)N

+ d (BS

PR(B)

L(B)

)Siendo S el conjunto de las paginas que poseen enlaces hacia A, N elnumero de paginas interconectadas, y L(B) el numero de enlaces salientesdesde B. La probabilidad d de continuar navegando en la Web es llamadadamping factor.

4 PageRank modelado como cadena de Markov

Para empezar a modelar el comportamiento de la navegacion de una personaa traves de la Web, se escogera el comportamiento de la persona sin lmite detiempo.

Sea N el numero de paginas Web enlazadas denotadas por {Pagi}iN, i N yXn =Pagina en la que se encuentra la persona luego de n visitas a enlaces, en-tonces Xn es una cadena de Markov, con espacio de estados S = {Pagi}iN, i N , y sea P = {pij} la matriz de transicion, donde pij denota la probabilidad depasar del estado i al estado j. Tenemos que:

pij = P (Xn+1 = j|Xn = i)

Como el PageRank de una pagina se mantendra constante al pasar el tiempo,podemos ver que la probabilidad pij es independiente de n, por lo que tenemosque Xn es estacionario. Ahora, ademas se puede ver que:

P (Xn+1 = j|X1 = i1, X2 = i2, , Xn = in) = P (Xn+1 = j|Xn = in)

Lo anterior es debido a que las probabilidades siempre son constantes, por loque si la persona se encuentra en un estado, las paginas en las que haya estadoanteriormente no afectaran su proxima visita.

3

5 Ejemplo

Se realizara un ejemplo de un grafo dirigido cuyos nodos son las paginas a visi-tar, y las aristas representan los hipervnculos entre ellos, sera un grafo tal quela cadena de Markov, formada como se indico en la seccion anterior, tenga unasola clase, con lo cual sea una cadena de Markov irreducible, ademas de seraperiodica.

A continuacion se encuentra el grafo del problema : se realizara una caminataaleatoria a traves de las paginas, el conjunto de paginas es: {A,B,C,D,E, F,G}.

A

B

C

D

E

F

G

Para definir la matriz de transicion P se observa que, tomando como ejem-plo el nodo A, tiene 13 de probabilidad de pasar a B, D o F , de esta manera seconstruye la matriz.

P =

ABCDEFG

A B C D E F G0 13 0

13 0

13 0

1 0 0 0 0 0 00 12 0

12 0 0 0

0 0 0 0 0 1 00 0 12

12 0 0 0

13 0 0 0

13 0

13

0 0 0 0 1 0 0

Debido a que el algoritmo PageRank fue disenado para ordenar las paginas deacuerdo al mayor numero de visitas, podemos encontrar la distribucion esta-cionaria pi para esta matriz.

Solucionando el sistema de ecuaciones que resulta al resolver la ecuacion pi = piPobtenemos el siguiente vector:

pi =

(3

14,

1

7,

1

14,

1

7,

1

7,

3

14,

1

14

)Ahora al aplicar el Teorema por el cual pij =

1j

, encontramos los valores de

para cada estado, el numero menor es el que indica el estado que se repite con

4

Figure 1: Creacion de las paginas y sus hipervnculos

mas frecuencia.

(A, B , C , D, E , F , G) =

(14

3, 7, 14, 7, 7,

14

3, 14

)Podemos observar que los estados que seran mas seleccionados dentro de lacaminata aleatoria despues de mucho tiempo seran las paginas A y F , seguidospor D,B,E y finalizando, las paginas que seran menos visitadas son: C y G.

6 Simulacion

Se realizo una simulacion en Netlogo con el fin de observar el comportamientode las personas siguiendo una caminata aleatoria a traves de 11 paginas inter-conectadas.Caractersticas de la simulacion:

El numero de personas en la Web esta entre 1 y 100. Permite diferenciar cada persona en la Web y los pasos que hace de acuerdo

a ciertos colores.

Utiliza el damping factor y actualiza el PageRank de cada pagina amedida que recibe mas visitas.

Primero, se inicializa el modelo, creando los hipervnculos entre las paginas ysus PageRank iniciales(Figure 1).

Se comienza la simulacion con una persona navegando en la Web, la paginaen la que se encuentre comienza con PageRank = 1, mientras que las demascomienzan con 0, este proceso puede ser observado en Figure 2. En Figure 3 sepuede observar que las paginas roja y naranja tienen los mayores PageRank enese momento de la simulacion.

5

Figure 2: Persona ubicada en la pagina de color morado

Figure 3: Estado de la simulacion luego de 1000 pasos

6

7 Conclusiones

El algoritmo de PageRank en s mismo es muy completo, incluyendo laspreferencias del tipo de usuario que esta navengando en la Web, la actu-alizacion momentanea del PageRank, etc.

Aunque en este documento no se enfatizo tanto en la forma general delgrafo generado por las paginas Web, se pudo ver la importancia de losprocesos estocasticos aplicados en la computacion.

Este estudio me hizo volver a estudiar las propiedades de la distribucionestacionaria de una cadena de Markov, y ayudo a comprender las aplica-ciones de este en problemas de la sociedad actual.

References

[1] L. Blanco, W. Arunachalam y Dharmaraja, Introduction to proba-bility and Stochastic Processes, primera edicion.

[2] G. George Yin y Qing Zhang, Continuous-Time Markov Chains andApplications, segunda edicion.

[3] Danny Sullivan, http://searchengineland.com/what-is-google-pagerank-a-guide-for-searchers-webmasters-11068, 2014.

[4] Klein Project, http://blog.kleinproject.org/?p=280,2014.

[5] Wikipedia, http://es.wikipedia.org/wiki/PageRank, 2014.

7

Proyecto Final.pdf

Documents

Transcript of Proyecto Final.pdf