Arquitectura de Google
Unive
rsidad
de Cos
ta R
ica
Escue
la de Cienc
ias de
la C
ompu
tación
e Informática
M.Sc. K
ryscia D
aviana
Ram
írez
Ben
avides
Introd
ucción
�Goo
gle fue fund
ada el 7 de septiembre de
199
8 po
r Larry
Pag
e y Serge
y Brin.
�Goo
gle se enfoc
óen
:�
Pon
er entre la
s prim
eras diez pá
gina
s lo que
el u
suario promed
io está
buscan
do.
�Con
struir un sistem
a qu
e la m
ayoría de las pe
rson
as pue
dan utilizar
sin prob
lemas.
�Gua
rdar to
dos los do
cumen
tos qu
e se enc
uentren en
el rastreo
.
2
Introd
ucción
(co
nt.)
Primera oficina de
Goo
gle.
Con
sigu
ióha
cer func
iona
r va
rias
máq
uina
s totalm
ente diferen
tes co
n un
im
presiona
nte rend
imiento.
Una
máq
uina
hecha
a m
edida,
con tech
o de
LEGO.
Go lego!!! ⇒ ⇒⇒⇒Google!!!
3Tom
ado de
http://roya
l.pingd
om.com
/200
9/03
/02/original-goo
gle-setup-at-stanford-un
iversity/.
Características
�Sus
princ
ipales ven
tajas se deb
en a que
es muy
ráp
ido, y sus
resu
ltad
os son
relev
antes y ba
stan
te bien orde
nado
s.
�Para jerarquizar su
s pá
gina
s utiliza dive
rsos
factores tales
como mod
elo ve
ctorial, texto de
enlaces, Page Rank.
�Goo
gle an
aliza más de 10
0 factores para de
term
inar la
releva
ncia de un
a pá
gina
Web
.�
Entre ello
s, destacan el te
xto de
l enlace (anchor text), el tam
año de
la
fuen
te y la
proximidad
.
4
Características (co
nt.)
�Goo
gle inde
xa m
ás de 3 mil m
illone
s de
pág
inas W
eb, a
unqu
e ofrece
n más resultado
s gracias a los “rastreo
s profun
dos”.
�Hay
varios “rastreado
res”
(crawlers):
�El g
eneral (un
a ve
z al m
es), que
busca en la m
ayoría de la W
WW
.
�El Fresh, q
ue rastrea en las pá
gina
s qu
e se actua
lizan frecue
ntem
ente.
�El d
e no
ticias, q
ue rastrea cad
a 10
minutos.
5
Características (co
nt.)
�Hay
4 tipo
s de
servido
res en
el c
lúster de Goo
gle, situa
dos en
pa
ralelo del servido
r W
eb:
6Tom
ado de
http://es.w
ikiped
ia.org/w
iki/Plataform
a_de
_Goo
gle.
Arquitectura de
Goo
gle
Links
Anc
hors
(Anc
las)
Rep
osito
ry(A
lmac
én)
Diccion
ario
Índice
de
Doc
umen
tos
Servido
r de
URLs
Crawlers
Crawlers
Crawlers
Servido
r de
Alm
acen
amiento
Inde
xado
r
Barrels
Resolve
dor de
URLs
Pag
eRan
kBus
cado
r
Clasifica
dor
(Orden
ador)
Clasifica
dor
(Orden
ador)
Clasifica
dor
(Orden
ador)
7Tom
ado de
http://infolab.stan
ford.edu
/~ba
ckrub/go
ogle.htm
l.
Hardware
�Esp
ecificacione
s de
l hardware
del a
ño 200
3:�
Más de 15
.000
servido
res co
n ve
locida
des co
mpren
dida
s en
tre el
Intel C
eleron
de 53
3 MHz y el Pen
tium III a 1,4 G
Hz du
al (a fech
a de
200
3). S
egún
Pau
l Strassm
an, G
oogle tend
ría en
200
5 un
os
200.00
0 servidores m
ientras qu
e algu
nas fuen
tes indican qu
e el
número de
servido
res po
dría hab
er alcan
zado
los 45
0.00
0 en
200
6.
�Uno
o m
ás disco
s du
ros de
80 GB por servido
r (en 20
03).
�Entre 2 y 4 G
B de mem
oria por m
áquina
.
8
Hardware
(con
t.)
�El tam
año ex
acto de los ce
ntros de
datos
que
Goo
gle utiliza es
descon
ocido, y la
s cifras oficiales se man
tien
en poc
o precisas
intenc
iona
damen
te.
�Seg
ún una
estim
ación de
l año
200
0, la
granja de
servido
res de
Goo
gle estaba
com
puesta por 600
0 proc
esad
ores, 1
2.00
0 discos
duros IDE (do
s po
r máq
uina
).�
Cad
a centro te
nía un
a co
nexión
de fibra óp
tica de
248
8 Mbit/s y otra
de 622
Mbit/s
.
�Los
servido
res ejecutan
un software llam
ado Goo
gle W
eb Serve
r.
9
Hardware
(con
t.)
�Actua
lmen
te G
oogle está
desarrolland
o un
sup
erco
mpu
tado
r en
un ce
ntro de da
tos en
Dallas.
�El p
roye
cto se llam
a Proyecto O2y se esp
era qu
e increm
ente
sustan
cialmen
te la
cap
acidad
de su
red
globa
l actua
l, pe
rmitiend
o ejec
utar m
iles de millone
s de
bús
qued
as al d
ía y
un catálog
o de
otros
servicios
que
cad
a ve
z crece más.
10
Top
olog
ía de Red
�Se estima qu
e Goo
gle man
tien
e más de 45
0.00
0 servidores,
orde
nado
s en
racksde
clustersen
varias ciud
ades del m
undo
.
�Es po
r eso qu
e Goo
gle pu
ede ofrece
r un
servicio más ráp
ido a
los us
uarios
.�
En el año
200
5 Goo
gle ha
bía inde
xado
8.000
millone
s de
sitios W
eb.
�Cua
ndo se hac
e co
nexión
a G
oogle, lo
s servidores D
NS
trad
ucen
la dirección
www.google.com
a va
rias IP's distintas,
perm
itiend
o qu
e se distribuy
a la carga
entre varios clusters.
11
Top
olog
ía de Red
(co
nt.)
�Cad
a cluster
tien
e miles de servidores.
�Los
racksde
Goo
gle están he
chos
a m
edida y pu
eden
con
tene
r en
tre 40
y 80 servidores.
�Cad
a rack
tiene
una
con
exión ethernet
a un
routerlocal q
ue a su ve
z se con
ecta al routercentral u
tilizan
do una
con
exión de
1 G
igab
it.
�Un rack
es algo asíc
omo: 88 du
al-C
PU 2Ghz
servido
res Intel X
eon
con 2G
bytes de
RAM y un disco du
ro de 80
Gby
tes.
12
Top
olog
ía de Red
(co
nt.)
13
Un centro de da
tos do
nde
se pue
den ve
r va
rios racks.
Arquitectura típ
ica de
un
balanc
eado
r de
carga
.
Tom
ado de
http://es.w
ikiped
ia.org/w
iki/Plataform
a_de
_Goo
gle.
Ope
racion
es de los Servido
res
�La may
oría de op
eracione
s so
n de
solo lectura.
�En la actua
liza
ción
de da
tos, la
s co
nsultas se env
ían a otros
servidores, p
ara simplificar lo
s prob
lemas de co
nsistenc
ia.
�Las con
sulta
s se dividen
en subc
onsulta
s y se env
ían po
r diferentes
cana
les en
paralelo, red
uciend
o asíe
l tiempo
de latenc
ia.
�En los fallos de ha
rdware se utiliza te
cnolog
ía R
AID
.�
El s
oftw
are también
estádiseña
do para ge
stiona
r los fallo
s.
�Cua
ndo un
servido
r se cae, los datos to
davía están dispon
ibles en
otros servidores.
Los
racksde
Goo
gle están he
chos
a m
edida y pu
eden
con
tene
r 14
Implem
entación
�Los
leng
uajes de
program
ación utilizad
os son
:�
La am
plia m
ayoría de los mód
ulos que
com
pone
n la arquitectura
están im
plem
entado
s en
C y C
++.
�Ejecu
ción
sob
re Solaris y Linux
.
�Los
Crawlers
y el Servido
r de
URLs están im
plem
entado
s en
Perl.
15
Referen
cias B
ibliog
ráfica
s
�La inform
ación fue tomad
a de
:�
http://es.wikiped
ia.org/w
iki/G
oogle.
�http://en.wikiped
ia.org/w
iki/G
oogle_
platform
.
�http://w
ww.m
axglaser.net/arquitectura-original-de-go
ogle/.
�http://w
ww.promoc
iona
rweb
.com
/goo
gle/arqu
itectura.htm
.
�http://w
ww-gist.d
et.uvigo
.es/~m
artin/ns
t/goo
gle.pd
f.
�http://goo
gle.dirson
.com
/.
�http://roy
al.pingd
om.com
/200
9/03
/02/original-goo
gle-setup-at-
stan
ford-unive
rsity
/.
16
Top Related