Proyecto Final.pdf

7
 USO DE LAS CADENAS DE MARKOV EN EL ESTUDIO DEL ALGORITMO PAGERANK Jenny S´ anchez Cruz od. 2879630 Procesos estoc´ asticos June 20, 2014 1 Introducci´ on Se puede observar la eciencia de los motores de b´usqueda en el momento en el que al escribir solamente algunas palabras suele aparecer en la primera p´ agina de b´ usqueda la opci´ on que se necesita. Como cabe espe rar , esto se debe a un algoritmo eciente de b´ usqueda y ordenamiento de p´ agina s we b. Este estudio se enfocar´ a en el algoritmo PageRank desarrollado por los fundadores de Google y utilizado por Google Search cuyo objetivo es organizar las p´ aginas Web y optimizar las b´ usquedas. 2 Historia Aunque el indicador que utiliza el algoritmo para el ordenamiento de las p´ aginas ya era conocido en el campo de las Matem´ aticas (vector propio o eigenvalue) hasta el momento no hab´ ıa sido aplicado al campo de la computaci´ on para este n. Larry Page y Sergey Brin eran estudiantes de doctorado de la universidad de Harv ard al momen to de propone r este m´ etodo para la valoraci´ on de p´ aginas web, fue publicado en el art´ ıculo “The PageRank Citation Ranking: Bringing Order to the Web”. Aunque este etodo ya hab´ ıa sido utilizado en otros campos de estudio, no era conocido en el de la computaci´ on, por esta raz´ on a unque Page y Brin vend ´ ıan su implementaci´ on a las empresas del Sillicon Valley a un precio muy bajo, ninguna quiso adquirir lo, gracias a esto siguiero n mejor ando el algor itmo para utiliz arlo como buscador del motor que ser´ ıa as adelante Google. Lo m´ as importante de este etodo no es el algoritmo en ı, sino la optimizaci´ on que han hecho los desarrolladores de este proyecto, esto es lo que ha hecho de Google el buscador as utilizado del Planeta. Otros usos de medidas similares al PageRank: 1

Transcript of Proyecto Final.pdf

  • USO DE LAS CADENAS DE MARKOV EN EL

    ESTUDIO DEL ALGORITMO PAGERANK

    Jenny Sanchez CruzCod. 2879630

    Procesos estocasticos

    June 20, 2014

    1 Introduccion

    Se puede observar la eficiencia de los motores de busqueda en el momento en elque al escribir solamente algunas palabras suele aparecer en la primera paginade busqueda la opcion que se necesita. Como cabe esperar, esto se debe a unalgoritmo eficiente de busqueda y ordenamiento de paginas web. Este estudio seenfocara en el algoritmo PageRank desarrollado por los fundadores de Googley utilizado por Google Search cuyo objetivo es organizar las paginas Web yoptimizar las busquedas.

    2 Historia

    Aunque el indicador que utiliza el algoritmo para el ordenamiento de las paginasya era conocido en el campo de las Matematicas (vector propio o eigenvalue)hasta el momento no haba sido aplicado al campo de la computacion para estefin.

    Larry Page y Sergey Brin eran estudiantes de doctorado de la universidad deHarvard al momento de proponer este metodo para la valoracion de paginasweb, fue publicado en el artculo The PageRank Citation Ranking: BringingOrder to the Web.

    Aunque este metodo ya haba sido utilizado en otros campos de estudio, no eraconocido en el de la computacion, por esta razon aunque Page y Brin vendan suimplementacion a las empresas del Sillicon Valley a un precio muy bajo, ningunaquiso adquirirlo, gracias a esto siguieron mejorando el algoritmo para utilizarlocomo buscador del motor que sera mas adelante Google. Lo mas importantede este metodo no es el algoritmo en s, sino la optimizacion que han hecho losdesarrolladores de este proyecto, esto es lo que ha hecho de Google el buscadormas utilizado del Planeta.

    Otros usos de medidas similares al PageRank:

    1

  • Modelado de visitas de paginas web, considerandolas como receptoras devotos o emisoras de votos. Desarrollado por Jon Kleinberg, profesorde la Universidad de Cornell.

    Modelo Input-Output: Propone tratar la economa como una red y medirlos flujos de factores intermedios entre diferentes sectores. Desarrolladopor Wassily Leontief, profesor de Harvard y Premio Nobel de Economagracias a este aporte.

    Un ordenamiento similar se realiza con las publicaciones cientficas, envez de paginas son artculos, en vez de hipervnculos son citas hacia otrosartculos. Propuesto por Gabriel Pinski y Francis Narin.

    3 Concepto de PageRank

    El PageRank de una pagina es la probabilidad de que una persona que navega enla Web entrando a diferentes paginas al azar, entre especficamente a la paginaque se esta observando. Si una pagina tiene varios links como subsecciones dela pagina, estos no son considerados como una pagina diferente.

    3.1 Persona sin lmite de tiempo

    Este es el caso ideal, la persona tiene probabilidad 1 de seguir navegando en laWeb, en este caso el PageRank de cualquier pagina A se calcula de la siguienteforma:

    PR(A) =BS

    PR(B)

    L(B)

    Siendo S el conjunto de las paginas que poseen enlaces hacia A, y L(B) elnumero de enlaces salientes desde B.

    3.2 Persona con lmite de tiempo

    Una persona comienza a entrar al azar de acuerdo a los enlaces que hay encada pagina que entra, pero tiene una probabilidad d de seguir haciendolo,y (1 d) de terminar su recorrido en la Web. En este caso el PageRankde cualquier pagina es:

    PR(A) = (1 d) + d (BS

    PR(B)

    L(B)

    )Siendo S el conjunto de las paginas que poseen enlaces hacia A, y L(B)el numero de enlaces salientes desde B. La probabilidad d de continuarnavegando en la Web es llamada damping factor.

    Cuando se publico el artculo en el que se daba a conocer el algoritmo dePageRank, se encontraba la ecuacion anterior para hallar el PageRank,sin embargo, luego publicaron un nuevo artculo usando una ecuacion dis-tinta, la que se define a continuacion es mas precisa.

    2

  • PR(A) =(1 d)N

    + d (BS

    PR(B)

    L(B)

    )Siendo S el conjunto de las paginas que poseen enlaces hacia A, N elnumero de paginas interconectadas, y L(B) el numero de enlaces salientesdesde B. La probabilidad d de continuar navegando en la Web es llamadadamping factor.

    4 PageRank modelado como cadena de Markov

    Para empezar a modelar el comportamiento de la navegacion de una personaa traves de la Web, se escogera el comportamiento de la persona sin lmite detiempo.

    Sea N el numero de paginas Web enlazadas denotadas por {Pagi}iN, i N yXn =Pagina en la que se encuentra la persona luego de n visitas a enlaces, en-tonces Xn es una cadena de Markov, con espacio de estados S = {Pagi}iN, i N , y sea P = {pij} la matriz de transicion, donde pij denota la probabilidad depasar del estado i al estado j. Tenemos que:

    pij = P (Xn+1 = j|Xn = i)

    Como el PageRank de una pagina se mantendra constante al pasar el tiempo,podemos ver que la probabilidad pij es independiente de n, por lo que tenemosque Xn es estacionario. Ahora, ademas se puede ver que:

    P (Xn+1 = j|X1 = i1, X2 = i2, , Xn = in) = P (Xn+1 = j|Xn = in)

    Lo anterior es debido a que las probabilidades siempre son constantes, por loque si la persona se encuentra en un estado, las paginas en las que haya estadoanteriormente no afectaran su proxima visita.

    3

  • 5 Ejemplo

    Se realizara un ejemplo de un grafo dirigido cuyos nodos son las paginas a visi-tar, y las aristas representan los hipervnculos entre ellos, sera un grafo tal quela cadena de Markov, formada como se indico en la seccion anterior, tenga unasola clase, con lo cual sea una cadena de Markov irreducible, ademas de seraperiodica.

    A continuacion se encuentra el grafo del problema : se realizara una caminataaleatoria a traves de las paginas, el conjunto de paginas es: {A,B,C,D,E, F,G}.

    A

    B

    C

    D

    E

    F

    G

    Para definir la matriz de transicion P se observa que, tomando como ejem-plo el nodo A, tiene 13 de probabilidad de pasar a B, D o F , de esta manera seconstruye la matriz.

    P =

    ABCDEFG

    A B C D E F G0 13 0

    13 0

    13 0

    1 0 0 0 0 0 00 12 0

    12 0 0 0

    0 0 0 0 0 1 00 0 12

    12 0 0 0

    13 0 0 0

    13 0

    13

    0 0 0 0 1 0 0

    Debido a que el algoritmo PageRank fue disenado para ordenar las paginas deacuerdo al mayor numero de visitas, podemos encontrar la distribucion esta-cionaria pi para esta matriz.

    Solucionando el sistema de ecuaciones que resulta al resolver la ecuacion pi = piPobtenemos el siguiente vector:

    pi =

    (3

    14,

    1

    7,

    1

    14,

    1

    7,

    1

    7,

    3

    14,

    1

    14

    )Ahora al aplicar el Teorema por el cual pij =

    1j

    , encontramos los valores de

    para cada estado, el numero menor es el que indica el estado que se repite con

    4

  • Figure 1: Creacion de las paginas y sus hipervnculos

    mas frecuencia.

    (A, B , C , D, E , F , G) =

    (14

    3, 7, 14, 7, 7,

    14

    3, 14

    )Podemos observar que los estados que seran mas seleccionados dentro de lacaminata aleatoria despues de mucho tiempo seran las paginas A y F , seguidospor D,B,E y finalizando, las paginas que seran menos visitadas son: C y G.

    6 Simulacion

    Se realizo una simulacion en Netlogo con el fin de observar el comportamientode las personas siguiendo una caminata aleatoria a traves de 11 paginas inter-conectadas.Caractersticas de la simulacion:

    El numero de personas en la Web esta entre 1 y 100. Permite diferenciar cada persona en la Web y los pasos que hace de acuerdo

    a ciertos colores.

    Utiliza el damping factor y actualiza el PageRank de cada pagina amedida que recibe mas visitas.

    Primero, se inicializa el modelo, creando los hipervnculos entre las paginas ysus PageRank iniciales(Figure 1).

    Se comienza la simulacion con una persona navegando en la Web, la paginaen la que se encuentre comienza con PageRank = 1, mientras que las demascomienzan con 0, este proceso puede ser observado en Figure 2. En Figure 3 sepuede observar que las paginas roja y naranja tienen los mayores PageRank enese momento de la simulacion.

    5

  • Figure 2: Persona ubicada en la pagina de color morado

    Figure 3: Estado de la simulacion luego de 1000 pasos

    6

  • 7 Conclusiones

    El algoritmo de PageRank en s mismo es muy completo, incluyendo laspreferencias del tipo de usuario que esta navengando en la Web, la actu-alizacion momentanea del PageRank, etc.

    Aunque en este documento no se enfatizo tanto en la forma general delgrafo generado por las paginas Web, se pudo ver la importancia de losprocesos estocasticos aplicados en la computacion.

    Este estudio me hizo volver a estudiar las propiedades de la distribucionestacionaria de una cadena de Markov, y ayudo a comprender las aplica-ciones de este en problemas de la sociedad actual.

    References

    [1] L. Blanco, W. Arunachalam y Dharmaraja, Introduction to proba-bility and Stochastic Processes, primera edicion.

    [2] G. George Yin y Qing Zhang, Continuous-Time Markov Chains andApplications, segunda edicion.

    [3] Danny Sullivan, http://searchengineland.com/what-is-google-pagerank-a-guide-for-searchers-webmasters-11068, 2014.

    [4] Klein Project, http://blog.kleinproject.org/?p=280,2014.

    [5] Wikipedia, http://es.wikipedia.org/wiki/PageRank, 2014.

    7