Sistema Para Generar Gráficas a Partir de Logs Tcpdum

59
7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 1/59 ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniería en Electricidad y Comutaci!n “Sistema para Generar Gráficas a Partir de Logs Tcpdump Usando Hadoop” INFOR"E DE "ATERIA DE #RADUACI$N Previa a la obtención del Título de IN#ENIERO EN CO"PUTACI$N ESPECIALI%ACI$N SISTE"AS DE INFOR"ACI$N Presentada por  !"G#L ST!L$" %&U' P!L!(U$)!* P#+&, !L-&#+, T,&&#S !&#LL!", GU!*!(U$L . #%U!+,& /001

description

RRRRRR

Transcript of Sistema Para Generar Gráficas a Partir de Logs Tcpdum

Page 1: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 1/59

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Facultad de Ingeniería en Electricidad y Comutaci!n

“Sistema para Generar Gráficas a Partir de Logs Tcpdump UsandoHadoop”

INFOR"E DE "ATERIA DE #RADUACI$N

Previa a la obtención del Título de

IN#ENIERO EN CO"PUTACI$N ESPECIALI%ACI$NSISTE"AS DE INFOR"ACI$N

Presentada por

 !"G#L ST!L$" %&U' P!L!(U$)!*P#+&, !L-&#+, T,&&#S !&#LL!",

GU!*!(U$L . #%U!+,&

/001

Page 2: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 2/59

 !G&!+#%$2$#"T,

 !gradecemos a +ios3 a nuestras

familias3 profesores 4 amigos 5ue

nos proporcionaron fuer6as3 a4uda3

conocimiento 4 apo4o para seguir 

adelante7 ! la 2Sc7 %ristina !bad

por su apo4o 4 colaboración para la

culminación de este pro4ecto7

Page 3: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 3/59

+#+$%!T,&$!

 ! +ios

 ! mis padres

 ! mis familiares

 ! mis amigos

Page 4: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 4/59

T&$)U"! L +# SUST#" T!%$8"

 9999999999999999999999999999999999 MSc. Cristina Abad

PROFESOR DE LA MATERIA

 9999999999999999999999999999999999 Ing. Juan Moreno

PROFESOR DELEGADO DEL DECANO

Page 5: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 5/59

+#%L!&!%$8" #:P&#S!

“La responsabilidad del contenido de esta Tesis de

Grado3 nos corresponden e;clusivamente< 4 el

patrimonio intelectual de la misma a la #S%U#L!

SUP#&$,& P,L$T=%"$%! +#L L$T,&!L”

>&eglamento de Graduación de la #SP,L?

 9999999999999999999999999999999999  @ngel %ru6 Pala5uiba4

 9999999999999999999999999999999999 Pedro Torres !rellano

Page 6: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 6/59

RESU"EN

#l propósito de este pro4ecto de materia de graduación es la de reali6ar un

sistema 5ue genere gráficas a partir de un procesamiento 4 análisis de logs

tcpdump7 #l tamaAo de los Logs a procesar es relativamente grande3 por lo

5ue se necesita un procesamiento masivo de estos datos3 para ello

utili6amos el es5uema 2ap&educe a travBs del -rameCorD Hadoop7

#n el capítulo E3 se anali6a los datos a ser procesados por el sistema3 se

reali6a una breve descripción del formato de Logs así como la conversión de

los mismos7

#n el capítulo /3 se plantea el diseAo de la solución3 las Ferramientas 5ue

utili6amos para desarrollar el sistema3 además e;plica cómo trabaa las fases

2ap&educe en nuestra solución7

#n el capítulo 3 se detalla la implementación 4 el funcionamiento del

sistema3 se describe las pruebas reali6adas en los servicios Ceb de !ma6on

así como los resultados obtenidos7

-inalmente en el capítulo I3 se presentan las conclusiones obtenidas con el

desarrollo de sistema con el es5uema 2ap&educe7 #n las recomendaciones

se sugiere Ferramientas complementarias 5ue podrían a4udar a un meor

análisis de Logs7

Page 7: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 7/59

&NDICE #ENERAL

Pág7

&#SU2#"7777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777J$

K"+$%# G#"#&!L777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777J$$

K"+$%# +# -$GU&!S777777777777777777777777777777777777777777777777777777777777777777777777777777777777777:

K"+$%# +# T!)L!S7777777777777777777777777777777777777777777777777777777777777777777777777777777777777777:$

$"T&,+U%%$8"7777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777E

E7 !"@L$S$S +# +!T,S77777777777777777777777777777777777777777777777777777777777777777777777777777777777/

E7E7 +efinición dataset777777777777777777777777777777777777777777777777777777777777777777777777777777777/

E7/7 +escripción de logs pcap777777777777777777777777777777777777777777777777777777777777777777777

E77 %onversión de logs pcap777777777777777777777777777777777777777777777777777777777777777777777

E77E7 "etStream777777777777777777777777777777777777777777777777777777777777777777777777777777777777IE77/7 -ormato de conversión de logs77777777777777777777777777777777777777777777777777777I

/7 +$S#M, +# L! S,LU%$8" !L P&,)L#2!77777777777777777777777777777777777777777777N

/7E7 $ntroducción paradigma 2ap&educe77777777777777777777777777777777777777777777777777N

/7E7E7 2ap777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777O

/7E7/7 &educe777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777O

/7/7 -rameCorD Hadoop7777777777777777777777777777777777777777777777777777777777777777777777777777771

/77 -rameCorD para las graficas . -ree%Fart777777777777777777777777777777777777777771

/7I7 +iseAo3 estructura de los reportes >gráficos a generar?77777777777777777777E0

/7I7E7 Gráfica de las E0 ips destinos más concurridos7777777777777777777777777E0

/7I7/7 Gráfico de las E0 ips fuentes 5ue más visitaron7777777777777777777777777E0

Page 8: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 8/59

/7I77 !ctividad por Protocolos T%P U+P . $%2P7777777777777777777777777777777EE

/7I7I7 !ctividad por Puertos T%P 4 U+P77777777777777777777777777777777777777777777777EE

/7I7Q7 Gráfico de los pa5uetes por día del mes de !gosto7777777777777777777EE

/7I7R7 Gráfico de los pa5uetes por día del mes de Septiembre777777777777E/

/7I7N7 Gráfico de los pa5uetes por día del mes de ,ctubre77777777777777777E/

/7I7O7 Gráfico de los pa5uetes por día del mes de "oviembre7777777777777E/

/7Q7 +iseAo general con !S7777777777777777777777777777777777777777777777777777777777777777777E/

/7R7 +iseAo 2ap&educe implementando en Hadoop7777777777777777777777777777777EQ

/7R7E7 Proceso 2ap7777777777777777777777777777777777777777777777777777777777777777777777777777777ER

/7R7/7 Proceso %ombine 4 &educe7777777777777777777777777777777777777777777777777777777EO

7 $2PL#2#"T!%$8" * &#SULT!+,S77777777777777777777777777777777777777777777777777777/0

7E7 %onversión Logs pcap a arcFivos de te;to plano777777777777777777777777777777/0

7/7 #s5uema 2ap&educe77777777777777777777777777777777777777777777777777777777777777777777777/E

7/7E7 2ap7777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777//

7/7/7 &educe7777777777777777777777777777777777777777777777777777777777777777777777777777777777777777/I

77 %reación de la GU$77777777777777777777777777777777777777777777777777777777777777777777777777777/Q

77E7 $nterfa6 +esDtop77777777777777777777777777777777777777777777777777777777777777777777777777/R

77/7 $nterfa6 eb777777777777777777777777777777777777777777777777777777777777777777777777777777777777/N

7I7 Pruebas 4 !nálisis de &esultados77777777777777777777777777777777777777777777777777777E

7I7E7 %omparación frente a otras Ferramientas del mercado7777777777777I

%,"%LUS$,"#S * &#%,2#"+!%$,"#S77777777777777777777777777777777777777777777777777R

)$)L$,G&!-K!77777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777O

Page 9: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 9/59

 !"#:,S7777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777I/

 !"#:, !777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777I/

 !"#:, )77777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777IQ

 !"#:, %77777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777IR

Page 10: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 10/59

&NDICE DE FI#URAS

Pág7

-igura E7E #emplo de un log pcap convertido a te;to plano7777777777777777777777777777

-igura E7/ #emplo del formato de conversión de logs pcap a te;to7777777777777777Q

-igura /7E +iseAo de la solución en !ma6on eb Services77777777777777777777777777EI

-igura /7/ +iseAo de la solución basada en 2ap&educe777777777777777777777777777777EI

-igura /7 Split de un log en records >clave3 valor?7777777777777777777777777777777777777777ER

-igura /7I +iseAo del 2ap a la solución777777777777777777777777777777777777777777777777777777777EN

-igura /7Q +iseAo del &educe de la solución7777777777777777777777777777777777777777777777777EO

-igura 7E !cceso a los bits del pa5uete con "etStream77777777777777777777777777777/0

-igura 7/ #ecución 2ap&educe por parte del usuario777777777777777777777777777777777/E

-igura 7 %lase 24Pcap77777777777777777777777777777777777777777777777777777777777777777777777777777777//

-igura 7I ,btención del parámetro grapFic77777777777777777777777777777777777777777777777777//

-igura 7Q $mplementación del 2ap de la solución7777777777777777777777777777777777777777/

-igura 7R $mplementación del &educe de la solución77777777777777777777777777777777777/I

-igura 7N "etbeans $+#777777777777777777777777777777777777777777777777777777777777777777777777777777777/I

-igura 7O $nterfa6 +esDtop en eecución7777777777777777777777777777777777777777777777777777777/R

-igura 71 $nterfa6 eb $nicio777777777777777777777777777777777777777777777777777777777777777777777777/N

-igura 7E0 +iseAo777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777/O

-igura 7EE &eportes777777777777777777777777777777777777777777777777777777777777777777777777777777777777777/1

-igura 7E/ $ntegrantes777777777777777777777777777777777777777777777777777777777777777777777777777777777770

-igura 7E Tiempo de eecución 2ap&educe sobre E7IG) de data7777777777777/

Page 11: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 11/59

&NDICE DE TA'LAS

Pág7Tabla E7 Tiempos obtenidos sobre un dataset de E7IG)77777777777777777777777777777777/1

Tabla /7 Tiempo de procesamiento de datos iresFraD vs 2ap&educe77777777E

Page 12: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 12/59

1

INTRODUCCI$N

Los ata5ues constantes de spammers o cracDers3 Facia redes reales3 Fan

puesto en marcFa la conformación de mecanismos 5ue a4uden de alguna

manera a reducir estos posibles ata5ues7

Uno de estos mecanismos son las denominadas Fone4pots de alta

interacción o Hone4net3 los cuales resultan ser an6uelos para posibles

ata5ues 5ue provienen del e;terior E7 #l estudio 4 análisis de estos ata5uesse convierten en una ventaa de seguridad3 al tener conocimiento de la forma

de actuar dicFos intrusos3 se podrán desarrollar políticas 5ue apunten a tener 

un menor impacto en las redes reales7

#stos ata5ues son monitoreados en la red3 5ue a su ve6 se van almacenando

en registros o logs3 formando una base de datos del tráfico7 #stos datos

masivos guardados en los logs3 pueden ser de mucFa a4uda3 si se obtienen

conocimiento de ellas a travBs de diferentes tipos de gráficos7

La compleidad del tratamiento de estos datos masivos3 Facen 5ue su

procesamiento se vea afectado7 Una alternativa es el paradigma 2ap&educe

5ue permite reali6ar de manera eficiente este procesamiento masivo de logs3

logrando de esta manera abarcar grandes cantidades de datos 4 poderlos

representar gráficamente7

Page 13: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 13/59

2

CAP&TULO (

() AN*LISIS DE DATOS

#l presente capítulo describe el dataset 5ue se utili6ó para la generación

de reportes gráficos7 Se e;ponen las características del dataset3 el

proceso de análisis de su contenido3 así como tambiBn las Ferramientas

usadas para la conversión de los mismos7

()()De+inici!n data,et

Un dataset / es un conunto de información asociada a una fuente

de datos7 #sta información son detalles de sus características

generales >e;tensión3 tablas asociadas3 características de sus datos3

etc7?7

Page 14: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 14/59

3

()-)De,crici!n de log, ca

Los logs pcap son arcFivos 5ue contienen una serie de registros del

tráfico de red capturado3 estos logs son los 5ue utili6amos como

datos de entrada para nuestro pro4ecto7 Para el caso de las capturas

de una Hone4net estos logs suelen ser de gran tamaAo en el orden

de Gigab4tes o más7

Los logs pcap guardan información tales como las fecFa en la 5ue se

envió un pa5uete3 direcciones 2!%3 direcciones $P3 puertos3

protocolos3 data del pa5uete3 etc7

-igura E7E #emplo de un log pcap convertido a te;to plano

().)Con/er,i!n de log, ca

#n la actualidad e;isten programas 5ue manean logs pcap7 #ntre

ellos encontramos a iresFarD 7 #stos programas Facen uso de

librerías diseAadas para cada entorno de programación3 es así como

Fa4 librerías para ava3 %VV3 Jisual )asic3 entre otros7

Lastimosamente3 esos programas cargan los datos a ser anali6ados

Page 15: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 15/59

4

en memoria3 4 por lo tanto no pueden anali6ar arcFivos del orden de

varios Gigab4tes o superior7

#n el presente pro4ecto se transformó los logs pcap a te;to plano

para poderlos usar de manera natural en la plataforma de

procesamiento distribuido utili6ada >Hadoop?7

"uestro trabao está reali6ado en el lenguae de programación ava3

utili6ando la librería "etStream v/7I7

().)() 0NetStream

"etStream I es una librería de ava 5ue nos permite capturar 

4 enviar pa5uetes7 !demás se pueden desarrollar aplicaciones

5ue capturen pa5uetes desde una interface de red3 visuali6arlos

4 anali6arlos desde ava7 La ma4oría de los funciones de

"etStream están en el área de decodificar la estructura de los

pa5uetes 5ue están en representación binaria7

La librería "etStream Fa sido probada para 2icrosoft indoCs

>1OW/000W:PWJista?3 Linu; >-edora3 2andriva3 Ubuntu?3 2ac ,S

:3 -ree)S+3 and Solaris3 con lo cual se cubre un amplio

espectro de sistemas operativos a utili6ar7

Page 16: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 16/59

5

().)-) Formato de con/er,i!n de log,

Para el presente pro4ecto se utili6ó la librería "etStream para

convertir los arcFivos pcap 5ue están en binario al siguiente

formato de te;to plano

Ao, !es" d#a" $ora %$$&!!&ss', I()*uente, i()destino" (uerto)*uente, 

 (uerto)destino, (rotoco+o

-igura E7/ #emplo del formato de conversión de logs pcap a te;to

#n la -igura E7/ observamos el formato final a la 5ue los arcFivos pcap

fueron transformados7 #sta conversión se reali6ó debido a 5ue su formato

binario dificultaba de gran manera la manipulación en Hadoop7 #s por eso

5ue optamos por reali6ar una previa conversión de los arcFivos pcap a

arcFivos de te;to plano3 el cual nos beneficia en el sentido de 5ue aFora

podemos manipular los datos de los pa5uetes dándoles un formato

Page 17: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 17/59

6

específico para nuestros intereses7 "o obstante reali6ar este proceso de

conversión conllevaría más tiempo 5ue tratar de procesar directamente con

los arcFivos pcap7

Page 18: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 18/59

7

CAP&TULO -

-) DISE1O DE LA SOLUCI$N AL PRO'LE"A

#n el presente capítulo se e;plica todo lo referente al diseAo de nuestra

solución para reali6ar las gráficas a partir de Logs pcap7 Se describe el

diseAo general utili6ando los servicios de !ma6on eb Services 4 el

diseAo específico utili6ando el paradigma 2ap&educe usando Hadoop7

-)()Introducci!n aradigma "aReduce

2ap&educe es un paradigma de programación propuesto por Google

Q cu4a implementación Fa sido reali6ada para dar soporte a la

computación paralela sobre grandes colecciones de datos en grupos

de computadores >clXsteres?7 Posterior a la publicación del trabao de

Google3 Fan surgido varias otras implementaciones de 2ap&educe3

utili6ando diversos lenguaes de programación7 #n el presente

pro4ecto utili6amos la versión libre con ma4or aceptación en la

actualidad !pacFe Hadoop R7

Page 19: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 19/59

8

Para la implementación de 2ap&educe es necesario especificar dos

funciones como son Map 4 Reduce7

-)()() "a

La función 2ap o 2apeo recibe un ítem de datos de entrada en

forma de pares >DE3 vE? 4 produce una lista de valores pares

intermedios >D/3 v/? por cada llamada a esta función7

Posteriormente unta todos los valores 5ue tengan una misma

clave 4 los agrupa teniendo una lista de valores por cada clave7

2ap >DE3 vE? Y list >Z/3 v/?

-)()-) Reduce

La función &educe recibe la lista de valores 4 claves enviadas

por el 2apeo3 produce una colección de valores para cada

dominio7 #sto lo Face en cada llamada al &educe3 el retorno de

todas esas llamadas se recoge como la lista de resultado

deseado7

&educe >Z/3 list >v/?? Y list >v/?

Page 20: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 20/59

9

-)-)Frame2or3 4adoo

Hadoop es una plataforma 5ue nos permite desarrollar aplicaciones

distribuidas 5ue tengan 5ue tratar con grandes cantidades de datos

del orden de los Peta b4tes7 Hadoop provee escalabilidad además de

trabaar mu4 bien en un clXster de servidores3 ofrece ventaas de la

programación distribuida aun5ue eso no signifi5ue 5ue el

programador tenga 5ue preocuparse por el paralelismo 4 tolerancia a

fallos de las aplicaciones 5ue desarrolla 4a 5ue Hadoop lo

implementa7

-).)Frame2or3 ara la, gra+ica, 5 0FreeC6art

-ree%Fart N es una librería para gráficos escrita en ava 5ue

facilita generación de gráficos de calidad profesional en nuestras

aplicaciones3 4a sean eb o de escritorio7 #ntre sus características

principales tenemos

• Un !P$ consistente 4 bien documentado con soporte para un

amplio rango de tipos de gráficas7

• Un diseAo fle;ible fácilmente e;tendible3 4 la posibilidad de ser 

usado tanto en tecnologías de servidor >aplicaciones eb? 4

de %liente >SCing3 por eemplo?7

• -ree%Fart está distribuido bao la licencia LGPL7

Page 21: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 21/59

10

-)7)Di,e8o9 e,tructura de lo, reorte, :gr;+ico, a generar<

Para la generación de reportes gráficos nos basamos en los puertos

de ma4or importancia3 así como los protocolos más comunes como

son tcp3 udp entre otros O7 ! continuación se describen los tipos de

reporte 5ue serán generados por el sistema7

-)7)() #r;+ica de la, (= i, de,tino, m;, concurrido,

Para este gráfico se re5uiere el siguiente formato

IP Destino # de concurrencia

-==)(>?).7)@7 NRII(>-)(=).?)7@ E/10(>?)((7)(-.)>= E/EO

-)7)-) #r;+ico de la, (= i, +uente, Bue m;, /i,itaron

Para este gráfico se re5uiere el siguiente formato

IP Fuente # de concurrencia

-==)(>?).7)@7 NRII

(>-)(=).?)7@ E/10(>?)((7)(-.)>= E/EO

-)7).) Acti/idad or Protocolo, TCP UDP 5 IC"P

Para este gráfico se re5uiere el siguiente formato

Tipo protocolo # de concurrencia

TCPEQNOE

Page 22: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 22/59

11

UDPINN0Q

IC"PEI

-)7)7) Acti/idad or Puerto, TCP y UDP

Para este gráfico se re5uiere el siguiente formato

Protocolo TCP # de concurrencia

micro,o+td,:77@< NRRE

ircd :<INI/

,,6 :--<

QRO

6tt :?=<I

+t :-(<I

Protocolo UDP # de concurrencia

netio,n, :(.<ENN0

(.? :netio,dgm< EO

(7.7 :m,,Blm<EQQ

Page 23: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 23/59

12

-)7)@) #r;+ico de lo, aBuete, or día del me, de Ago,to

Para este gráfico se re5uiere el siguiente formato

Mes | día # de concurrencia

Ago,to E EIQAgo,to))Ago,to

/77E

E/1077/1

-)7)) #r;+ico de lo, aBuete, or día del me, de Setiemre

Para este gráfico se re5uiere el siguiente formato

Mes día # de concurrencia

Setiemre E EIQSetiemre))Setiemre

/770

E/1077/1

-)7)) #r;+ico de lo, aBuete, or día del me, de Octure

Para este gráfico se re5uiere el siguiente formato

Mes día # de concurrencia

Octure E EIQOcture))Octure

/77EQ

E/1077/1

Page 24: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 24/59

13

-)7)?) #r;+ico de lo, aBuete, or día del me, de No/iemre

Para este gráfico se re5uiere el siguiente formato

Mes día # de concurrencia

No/iemre E EIQNo/iemre))No/iemre

/77EQ

E/1077/1

-)@)Di,e8o general con AS

Para el desarrollo de nuestra aplicación utili6amos los servicios de

 !ma6on eb Services 5ue permiten3 entre otras cosas3 levantar 

clXsteres Hadoop bao demanda7 ! continuación detallamos los

principales puntos del diseAo >ver -igura /7E?

 

S. :Simle Storage Ser/ice<

#s el servicio de almacenamiento masivo3 transparente 4 de alta

disponibilidad de !ma6on7 !5uí almacenamos nuestro dataset 5ue

son los Logs >input? 4 los resultados del proceso 2ap&educe >output?7

 

EC- :Ela,tic Comute Cloud<

#ste servicio de !ma6on provee los recursos computacionales

necesarios para correr nuestra aplicación 2ap&educe7 #n #%/ se

Page 25: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 25/59

14

implementa la computación paralela dado por Hadoop3 donde los

2ap 4 &educe se eecutarán7

 

4o,t

#s la má5uina donde reside la aplicación gráfica donde se mostrará

los gráficos7

 

ReBue,t

#s el pedido 5ue reali6a el Fost a travBs del $nternet a los servicios de

 !ma6on7 %uando se re5uiere los datos para un gráfico en particular 

se genera un re5uest7

 

Re,on,e

#s la respuesta 5ue el servicio de !ma6on le provee al Fost a travBs

del internet7 #n los re5uest vienen los datos necesarios para un

gráfico en particular7

%uando la aplicación en el Fost reciba el response con los datos

re5ueridos para reali6ar la gráfica3 mediante la librería -ree%Fart

interpretamos los datos a gráficas7

Page 26: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 26/59

15

 

Ela,tic "aReduce

#s un servicio 5ue ofrece !ma6on en el 5ue se puede programar la

eecución de tareas en #%/ 4 S7 #ste servicio nos a4uda en la

eecución automática de los procesos 2ap&educe 4 la transferencia

de arcFivos desde el S al #%/ 4 viceversa7

-igura /7 +iseAo de la solución en !ma6on eb Services

-))Di,e8o "aReduce imlementando en 4adoo

"uestro diseAo se basa en los procesos principales del paradigma

como son el proceso de 2ap 4 el proceso de &educe7 ! continuación

se describe cada uno de ellos7

Page 27: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 27/59

16

-igura /7I +iseAo de la solución basada en 2ap&educe

 !ntes de aplicar el paradigma 2ap&educe reali6amos un proceso de

conversión de los arcFivos pcap Facia arcFivos de te;to plano7 #sta

conversión pasó el contenido binario de los logs a te;to3 lo cual nos

facilita el procesamiento de los datos en Hadoop7

-))() Proce,o "a

Una ve6 5ue se eecuta el re5uerimiento de una gráfica se inicia

el proceso de 2ap7 #ste proceso tiene lugar de la siguiente

manera

• Hadoop particiona el dataset en splits 5ue se los

tratará como te;to7 %reamos nuestra propia clase

MyPcap 5ue es el contenido de un pa5uete de

nuestro log7 Lo 5ue recibe el 2ap son la el tipo de

Page 28: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 28/59

17

protocolo >T%P3 $P3 $%2P3 !&P? 4 el valor es el obeto

24Pcap 5ue contiene los atributos más importantes

de un pa5uete7

-igura /7Q Split de un log en records >clave3 valor?

• La función de 2apeo recibe los pares de >Protocolo3

24Pcap ,bect?3 sobre estos valores se e;trae los

datos dependiendo de los criterios del gráfico a

mostrar7 %uando el usuario eecuta su re5uerimiento

se envía un parámetro 5ue guarda el nXmero de

gráfico deseado7 Se recupera este parámetro en el

2ap para saber 5uB criterios debe aplicar 4 de esa

manera obtener los datos 5ue se re5uieren7 #stos

Page 29: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 29/59

18

datos re5ueridos son enviados en forma de >grapFic

parameter3 one?3 donde la clave es Bl o los valores

5ue se consideran para necesarios para reali6ar la

gráfica 4 one corresponde un nXmero E para denotar 

la concurrencia de la misma7

-igura /7R +iseAo del 2ap a la solución

-))-) Proce,o Comine y Reduce

Los valores intermedios 5ue produce el 2ap son ordenados por 

clave 4 una lista de valores 5ue tienen en comXn a la clave7 #l

proceso &educe toma esta lista de valores con su clave 4 la

cuenta teniendo la concurrencia total del mismo7 #ste proceso

se reali6a en los mismos nodos donde reali6a el 2ap3 4 se le da

el nombre de combine7 #l resultado del combine lo recibe el

&educe 5ue reali6a nuevamente la sumatoria 4 sus resultados

son los finalmente los esperados7

Page 30: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 30/59

19

-igura /7N +iseAo del &educe de la solución

Page 31: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 31/59

20

CAP&TULO .

.) I"PLE"ENTACI$N G RESULTADOS

#n el presente capítulo se e;plica con más detalle el desarrollo del

sistema utili6ando mBtodos 4 librerías para su implementación7 Se

presentan los tipos de gráficos reali6ados así como tiempos de

eecuciones utili6ando Hadoop en los servicios de !ma6on eb Services7

.)()Con/er,i!n Log, ca a arc6i/o, de teHto lano

La conversión de Logs pcap a te;to plano se reali6ó utili6ando la

librería "etStream7 #sta conversión no forma parte del proceso

2ap&educe sin embargo es necesario puesto 5ue define el formato

de los datos de entrada7

Se reali6ó un análisis e;Faustivo al formato binario de los pa5uetes

de los Logs pcap7 #sto nos sirvió para acceder a los bits necesarios

5ue contienen los datos relevantes para nuestro análisis7

Page 32: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 32/59

21

-igura 7O !cceso a los bits del pa5uete con "etStream

#n la -igura 7E observamos como accedemos a los bits de los

campos del pa5uete3 dependiendo del tipo de protocolo accedemos a

sus distintos campos7 $mprimimos en un arcFivo de te;to los campos

5ue obtuvimos con el siguiente formato

.)-)E,Buema "aReduce

#n esta sección se e;plica en detalle la implementación de

2ap&educe en Hadoop7 Para 5ue se eecute 2ap&educe debe Faber 

un pedido o re5uest por parte del usuario7

Page 33: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 33/59

22

-igura 71 #ecución 2ap&educe por parte del usuario

#l usuario elige 5uB tipo de gráfica desea3 el GU$ eecuta un SFell

script donde le envía el parámetro -graphic #grafico_pedido. #steparámetro es importante dentro del proceso 2ap&educe 4a 5ue

denotará el tipo de criterios a considerar en la toma de datos

específicos para reali6ar la gráfica7

.)-)() "a

#n este proceso reali6amos la obtención de datos específicos

para la gráfica7 ,btenemos estos datos basándonos en el

parámetro enviado .grapFic #grafico7 +e esta forma nos

aseguramos de obtener los datos correctos para la gráfica

correcta7

Los datos de entrada al 2ap son >Protocolo3 24Pcap ,bect?3

donde Protocolo es la clave 4 está en Te;to3 4 24Pcap ,bect

es el obeto 5ue creamos para almacenar los datos de un

pa5uete3 podemos decir 5ue el obeto 24Pcap es un pa5uete

Page 34: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 34/59

23

personali6ado con información relevante 4 de interBs a nuestros

propósitos7 #n la -igura 7 se muestra la clase 24Pcap en

 ava donde muestra los datos del pa5uete 5ue guarda7

-igura 7E0 %lase 24Pcap

Una ve6 5ue sabemos lo 5ue recibe cada 2ap procedemos a

obtener los datos7 Para ello tenemos 5ue saber los criterios 5ue

debemos considerar7 %omo Femos dicFo los criterios depende

de la solicitud del usuario3 esta solicitud la sabemos obteniendo

el valor del parámetro .grapFic7

-igura 7EE ,btención del parámetro grapFic

Sabiendo el parámetro enviado por el usuario podemos saber 

los criterios a usar7

Page 35: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 35/59

24

-inalmente el 2ap envía los datos necesarios 5ue cumple los

criterios7 #stos son enviados en la forma >clave3 valor?3 donde la

clave es el o los parámetros re5ueridos >ver -igura 7Q? 4 el

valor es un entero uno bao el tipo de dato $ntritable7

Criterio: Concurrencia de los días por cada mes

-igura 7E/ $mplementación del 2ap de la solución

.)-)-) Reduce

La fase de &educe se encarga del conteo de los valores 5ue

recibe por parte del 2ap7 #ste conteo lo Face a travBs de una

sumatoria de unos 5ue tienen una clave en comXn7 %uando

este &educe se lo Face en el mismo nodo en 5ue se Face el

2ap toma el nombre de combine7 #n la -igura 7N se muestra

la clave 4 valor 5ue recibe el &educe 4 lo 5ue produce como

resultado7

Page 36: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 36/59

25

Siguiendo la secuencia de la Figura! 

-igura 7E $mplementación del &educe de la solución

.).)Creaci!n de la #UI

Para el cumplimiento de la finalidad de nuestro pro4ecto como es el

generar gráficamente reportes a partir de los Logs tcpdump3

reali6amos un GU$ >GrapFical User $nterface? 5ue facilite al usuario

final la interacción con los resultados obtenidos en Hadoop7

Page 37: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 37/59

26

-igura 7EI "etbeans $+#

#n la -igura 7N observamos el $+# de ava "et$eans% 5ue fue el

5ue utili6amos para la generación de nuestro GU$7 La interfa6 del

pro4ecto fue elaborado vía Ceb con la tecnología SP >ava Server 

Pages? 4 Servlets7 +ebido a 5ue las gráficas fueron elaboradas

utili6ando las librerías de ava "&FreeChart% surgió la necesidad de

utili6ar la tecnología SP 5ue utili6a código ava en páginas Ceb

dándole dinamismo a la generación de gráficas7

.).)() Inter+a De,3to

La interfa6 desDtop se elaboró con el obetivo de 5ue el usuario

final no se preocupe en los comandos 5ue debe utili6ar para

lograr una cone;ión 4 la eecución de tareas de los servicios de

Page 38: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 38/59

27

 !ma6on7 La interfa6 se compone de dos secciones importantes

como son la gráfica 5ue se desea obtener 4 el nXmero de

nodos a utili6ar7 %uando se eecuta en la consola se registra un

seguimiento del ob -loC3 es decir se puede observar el estado

cada cierto tiempo definido en este caso cada minuto7 #n la

-igura 71 vemos el seguimiento completo de un ob -loC 5ue

se eecutó en los servicios de !ma6on7

-igura 7EQ $nterfa6 +esDtop en eecución

.).)-) Inter+a e

Una ve6 reali6ado la eecución en la interfa6 desDtop3 los

resultados generados 4a Fan sido guardados en una carpeta

destinada para los mismos 4 5ue se encuentran en el S de

 !ma6on7 La interfa6 Ceb reali6a una e;tracción de estos

Page 39: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 39/59

28

resultados desde el S 4 con la utili6ación de la librería gráfica

-ree%Fart generamos la gráfica correspondiente7

-igura 7ER $nterfa6 eb $nicio

#n la -igura 71 observamos la página principal del GU$3 los

colores utili6ados Facen referencia de algXn modo a la palabra

Fone4 >miel?7 #l GU$ está clasificado en I secciones

• InicioJ Hace referencia al pro4ecto Fone4net de manera

general 4 el alcance de nuestro sistema >ver -igura 71?7

• Di,e8oJ Hace referencia al diseAo 2ap&educe de

nuestro sistema >ver -igura 7E0?7

Page 40: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 40/59

29

-igura 7EN +iseAo

• Reorte,J #n esta sección se muestra los tipos de

gráficos a mostrar3 para ello Femos colocado las

opciones disponibles en radiobuttons para 5ue se elia

una opción a la ve67 unto a estas opciones se encuentra

un botón “Generar” 5ue toma la opción elegida 4 eecuta

los procesos necesarios como son #ecución de nuestro

programa 2ap&educe en !ma6on eb Services3 llenado

de resultados en una base datos3 e;posición de la

gráfica mediante -ree%Fart7 La gráfica se muestra en

una ventana diferente a la ventana principal >ver -igura

7EE?7

Page 41: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 41/59

30

-igura 7EO &eportes

 

Integrante,J #n esta sección se muestra a los

estudiantes 5ue participaron en la reali6ación del

sistema3 se presenta sus nombres3 nXmeros de matrícula

4 carrera >ver -igura 7E/?7

-igura 7E1 $ntegrantes

Page 42: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 42/59

31

7I7Pruea, y An;li,i, de Re,ultado,

Para las pruebas 5ue se reali6aron en el sistema3 se tomó en

consideración dos factores importantes como son el nXmero de

nodos 5ue conforman el clXster 4 el tamaAo del dataset7

+ebido a 5ue el sistema trabaó sobre #lastic 2ap&educe3 los

tiempos 5ue Femos obtenido son la sumatoria de los tiempos de cada

uno de los pasos o “steps” 5ue #lastic 2ap&educe reali6a7 Para ello

Femos separado los tiempos en sus respectivos pasos7

Tiempo

No.Nodo

s

Step 1 "S3to HDFS"

Step 2"MapReduce

"

Step 3"HDFS to

S3"

Total

5 66 minutos 62 segundos 21 segundos 67 min 23seg

8 66 minutos 41 segundos 21 segundos 67 min 2seg

10 65 minutos 35 segundos 23 segundos 65 min 58seg

Tabla E7 Tiempos obtenidos sobre un dataset de E7IG)

Tomando en cuenta el tiempo total de la Tabla E vemos 5ue no Fa4

mucFa diferencia entre el nXmero de nodos7 #sto se debe a 5ue

estamos viendo el tiempo global de los pasos 5ue utili6a #lastic

2ap&educe7 #n el paso E se reali6a la copia del S al H+-S3 lo cual

toma el ma4or tiempo de los pasos debido a 5ue el tamaAo del

Page 43: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 43/59

32

dataset es relativamente grande7 #l paso / reali6a la eecución del

proceso 2ap&educe sobre la data 5ue Fa sido almacenada en el

H+-S7 #n el paso se reali6a la copia del arcFivo de resultados

“part00000” del H+-S al S lo cual por ser un arcFivo relativamente

pe5ueAo no toma mucFo tiempo7

#nfocándonos en el paso / 5ue es el más importante para anali6ar 

nuestro resultado3 sacamos el siguiente gráfico7

-igura 7/0 Tiempo de eecución 2ap&educe sobre E7IG) de data

,bservando la figura 7E podemos notar la diferencia 5ue e;iste en

la utili6ación de varios nodos7 %uando usamos Q nodos el tiempo fue

de R/ segundos al duplicar el nXmero de nodos el tiempo fue de Q

segundos3 esta diferencia se debe a una de las características

Page 44: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 44/59

33

importantes del es5uema 2ap&educe como es la programación

paralela7 La programación paralela Face 5ue más datos se estBn

procesando al mismo tiempo puesto 5ue e;iste ma4or nXmero de

nodos3 de aFí a 5ue el tiempo de procesamiento tienda a disminuir 

conforme a la inclusión de más nodos7

.)7)() Comaraci!n +rente a otra, 6erramienta, del mercado

Para reali6ar una comparación con otra Ferramienta 5ue realice

análisis de tráfico de red Femos escogido a iresFarD7 La

comparación se reali6ó bao el concepto de la capacidad de

procesamiento de pa5uetes sobre un tamaAo de datos

considerable7

&eali6amos una prueba sobre una P% 5ue tiene G) de &!23

en la cual procesamos diferentes tamaAos de dataset 4

obtuvimos los siguientes resultados

90MB 25MB 1!B

#R$SH%R& 

2 min 8min 18seg

No fueposible

M%'R$D()$

47 seg 1 min 28seg

6 min 3seg

Tabla /7 Tiempo de procesamiento de datos iresFarD vs2ap&educe

Page 45: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 45/59

34

%omo podemos observar en la Tabla / el tiempo de

procesamiento FecFo en Hadoop es mucFo menor al tiempo

5ue reali6ó iresFarD7 !demás a medida 5ue la data comien6a

a incrementar de tamaAo3 los tiempos en iresFarD van siendo

significativamente ma4ores esto se debe a 5ue para arcFivos

ma4ores a E00 2) iresFarD tiende a ponerse lento en el

procesamiento 17 !demás de estar limitada a la memoria &!2

de la P% en la 5ue se está eecutando7 %on 2ap&educe se

reduce el tiempo de procesamiento de datos3 en la Tabla /

vemos 5ue para EG) de datos se tuvo un tiempo corto con

respecto a iresFarD 5ue no pudo terminar el procesamiento

por la falta de memoria de la P%7 Las ventaas de 2ap&educe

sobre la Ferramienta iresFarD son 5ue Bsta Xltima no posee

un es5uema de paralelismo 5ue si lo tiene Hadoop7 #n

situaciones en el 5ue los datos a procesar son pe5ueAos >Fasta

los E00 2)? el uso de iresFarD es ustificado3 no así cuando

los datos a procesar son mucFo más grandes >ma4ores a E00

2)? en ese caso una buena alternativa es la programaciónparalela implementada por Hadoop7

 

Page 46: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 46/59

35

CONCLUSIONES G RECO"ENDACIONES

Conclu,ione,

E7 #l inconveniente 5ue presentan las Ferramientas para el análisis de

tráfico de red3 es la capacidad de procesar grandes cantidades de

datos7 #sto limita a 5ue no se realice un análisis completo sobre estos

datos7 #l es5uema 2ap&educe es una alternativa a este

inconveniente3 4a 5ue implementa programación paralela en la 5uepuede eecutar grandes cantidades de datos sobre un grupo de

computadoras o clXster7

/7 #l sistema para generar gráficas a partir de logs tcpdump implementa

el es5uema 2ap&educe a travBs del -rameCorD de !pacFe Hadoop7

#ste sistema reali6a un análisis en todo el dataset3 obteniendo

información de ma4or alcance 5ue si lo FiciBramos con una

Ferramienta comXn para este tipo de análisis7 #l sistema Fa sido

desarrollado como una aplicación Ceb con una interfa6 sencilla en la

5ue el usuario final puede interactuar sin ningXn problema7 Las

pruebas del sistema se reali6aron utili6ando los servicios Ceb de

 !ma6on3 lo cual nos a4udó mucFo 4a 5ue pudimos probar el sistema

con varios nodos es decir en un clXster real7

7 #l servicio #lastic 2ap&educe 5ue provee !ma6on nos a4udó en la

automati6ación de tareas como crear instancias3 eecución del proceso

Page 47: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 47/59

36

2ap&educe3 copiar el dataset de S a #%/ 4 viceversa7 +e esta forma

el usuario final no tiene 5ue preocuparse en los comandos necesarios

para utili6ar los servicios de !ma6on7 La utili6ación de la librería

gráfica -ree%Fart nos proporcionó un buen maneo de los datos a

mostrar3 además de ofrecernos diferentes tipos de gráficos de acuerdo

al tipo de análisis reali6ado7

I7 %abe recalcar 5ue esta e;periencia nos a4udó a fortalecer más los

conocimientos ad5uiridos en la reali6ación de aplicaciones Ceb3 así

como la aplicación de nuevos conocimientos como el es5uema

2ap&educe3 los servicios de !ma6on 5ue sin ninguna duda nos

servirán en el ámbito profesional7

Recomendacione,

 !lgunas de las grandes empresas como Google3 *a6oo3 $)23 entre otras3

Fan apostado a la programación paralela como plataforma para mucFos de

sus servicios3 esto nos da a entender 5ue cada ve6 más va tomando

importancia la implementación de servicios en este tipo de es5uema7 Lautili6ación de nuevas alternativas de desarrollo resulta ase5uible por su bao

costo económico 4 su eficiencia en temas como el procesamiento masivo de

datos7

Page 48: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 48/59

37

E7 #l análisis 5ue reali6amos sobre la data es mu4 limitado 4 poco

profundo3 pero se puede reali6ar un análisis más e;Faustivo en los

datos como por eemplo seguir un comportamiento de una dirección ip

específica3 para ello la inclusión de nuevas Ferramientas como

datamining unto con el es5uema 2ap reduce sería una alternativa

mu4 buena E07

Page 49: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 49/59

38

'I'LIO#RAF&A

E Pa6miAo3 27 4 !vilBs3 7 “%aptura 4 !nálisis de los ata5ues informáticos

5ue sufren las redes de datos de la #SP,L3 implantando una Fone4net con

miras a meorar la seguridad informática en redes de datos del #cuador”7Tesis de grado en la #SP,L 7 Gua4a5uil3 2ar6o /0017

/ !cevedo3 J7 “+efinición +ataset”3[ FttpWWCCC7gvsig7orgWCebWdocdevWtrunD

e;tensionsguideWotraslibreriasWlibreriaderasterWterminologia Y %onsulta

miBrcoles3EQ de ulio de /0017

iresFarD -oundation7 “iresFarD”3 [ FttpWWCCC7CiresFarD7org Y

%onsulta martes /E de ulio /0017

I )ernardc64D 27 “"etStream”3 [ FttpWWnetstream7com Y %onsulta

sábado3 EO de ulio de /0017

Q +ean3 7 4 GFemaCat3 S7 “2ap&educe Simplified +ata Processing on

Large %lusters“7 #n 2emorias del Si;tF S4mposium on ,perating S4stem

Page 50: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 50/59

39

+esign and $mplementation >,S+$ /00I?7 San -rancisco3 %!##7UU73

+iciembre3 /00I7

R TFe !pacFe SoftCare -oundation7 “!pacFe Hadoop”3 [

FttpWWFadoop7apacFe7org Y %onsulta lunes3 /0 de ulio de /0017

N ,bect &efiner4 Limited7 “-ree%Fart”3 [ FttpWWCCC7free7orgWfreecFart Y

%onsulta lunes3/0 de ulio de /0017

O Universidad !utónoma de 2B;ico7 “)itácora Hone4net U"!2”3

[FttpWWCCC7Fone4net7unam7m;WesWreports7plY %onsulta lunes EN de agosto

/0017

1 iresFarD -oundation “iresFarD Perfomance”3 [

FttpWWCiDi7CiresFarD7orgWPerformance Y %onsulta lunes E0 de septiembre

/0017

E0 "auta3 Z73 Lieble3 -7 “,ffline "etCorD $ntrusion +etection 2ining

T%P+U2P +ata to $dentif4 Suspicious !ctivit4”7 Presentado en !-%#!

-ederal +atabase %ollo5uium3 San +iego3 %!##7UU73 Septiembre3 E1117

EE eigle3 #73 -eng3 7 “T$%Z#Ting HigFSpeed Traffic CitF %ommodit4

HardCare and SoftCare”7 #n 2emorias del TFird !nnual Passive and !ctive

2easurement orDsFop >P!2/00/?7 -ort %ollins3 %,##7UU73 2ar6o3 /00/7

Page 51: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 51/59

40

E/ )arse3 #7 L73 onsson3 #7 “#;tracting attacD manifestations to determine

log data re5uirements for intrusion detection”7 #n 2emorias del /0tF !nnual

%omputer Securit4 !pplications %onference7 +iciembre3 /00I7

E !bad3 %73 Ta4lor3 73 Sengul3 %73 *urciD3 73 'Fou3 *73 &oCe3 Z7 “Log

correlation for intrusion detection a proof of concept”7 #n memorias del E1tF

 !nnual %omputer Securit4 !pplications %onference7 +iciembre3 /007

EI SmitF3 -+73 %ampos3 -H73 effa43 Z73 ,tt3 +7 “Fat T%PW$P protocol

Feaders can tell us about tFe Ceb”7 Presentado en !%2 S$G2#T&$%S

Performance #valuation &evieC3 "eC *orD3 "*##7UU73unio3/00E7

EQ TFaDar3 U73 Jarma3 S73 &amani3 !Z7 “Hone4 !nal46er . !nal4sis and

#;traction of $ntrusion +etection Patterns \ Signatures Using Hone4pot”7

Presentado en TFe Second $nternational %onference on $nnovations in

$nformation TecFnolog43 /00Q7

Page 52: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 52/59

41

ANEKOS

ANEKO A %ódigo ava del proceso de mapeo en Hadoop

public class sg2map extends MapReduceBaseimplements Mapper<Text , MyPcap, Text, IntWritable> {

private inal static IntWritable !ne " ne# IntWritable$%&'private inal static Text gparameter " ne# Text$&'private inal static Text err!r " ne# Text$()RR*R(&'private int numBus+ueda " '

public sg2map$& { -

public v!id c!nigure$.!b/!n 0!b& {  numBus+ueda " Integer1parseInt$0!b1get$(grapic(&&'  -

public v!id map$Text 3ey, MyPcap value, *utput/!llect!r<Text,IntWritable> !utput,  Rep!rter rep!rter& tr!#s I*)xcepti!n {

 reali4arBus+ueda$3ey1t!5tring$&,numBus+ueda,value,!utput,rep!rter&'

 -

public static v!id reali4arBus+ueda$5tring 3ey,intnumer!Bus+ueda,MyPcap pcap,*utput/!llect!r<Text, IntWritable>!utput, Rep!rter rep!rter& tr!#s I*)xcepti!n{

 5tringBuilder t!Return " ne# 5tringBuilder$&'

 s#itc$numer!Bus+ueda&{

 case %6 i$3ey1c!mpareT!$(null(&7"&{

gparameter1set$pcap1get8st9ip$&&'  !utput1c!llect$gparameter,!ne&'

  -  brea3'

 case 26 i$3ey1c!mpareT!$(null(&7"&{

gparameter1set$pcap1get5rc9ip$&&'!utput1c!llect$gparameter,!ne&'

  -brea3'

Page 53: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 53/59

42

  case :6 i$3ey1c!mpareT!$(null(&7" ;;3ey1c!mpareT!Ign!re/ase$(udp(&7"&{

  gparameter1set$3ey&'!utput1c!llect$gparameter,!ne&'-brea3'

  case 6 i$$3ey1c!mpareT!Ign!re/ase$(tcp(&""  == 3ey1c!mpareT!Ign!re/ase$(udp(&""& ;;

3ey1c!mpareT!$(null(&7"&{

 i$pcap1get8st9p!rt$&1trim$&1c!mpareT!$((&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(???@(&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(A(&"" ==

  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(2%(&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(2:(&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(22(&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(%:@(&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(%:A(&"" ==  pcap1get8st9p!rt$&1trim$&1c!mpareT!$(%:(&""& {

t!Return1append$pcap1getPr!t!c!l!$&&'t!Return1append$(t(&'t!Return1append$pcap1get8st9p!rt$&&'

  gparameter1set$t!Return1t!5tring$&&'!utput1c!llect$gparameter,!ne&'-

  -  brea3'

  case 6 i $3ey1c!mpareT!$(null(& 7" & {i $pcap1getMes$&1c!mpareT!Ign!re/ase$(ag!st!(& ""

& {t!Return1append$pcap1getMes$&&'t!Return1append$(t(&'t!Return1append$pcap1get8ia$&&'gparameter1set$t!Return1t!5tring$&&'!utput1c!llect$gparameter, !ne&'--brea3'

case ?6 i $3ey1c!mpareT!$(null(& 7" & {i $pcap1getMes$&1c!mpareT!Ign!re/ase$(septiembre(&

"" & { t!Return1append$pcap1getMes$&&'t!Return1append$(t(&'t!Return1append$pcap1get8ia$&&'gparameter1set$t!Return1t!5tring$&&'!utput1c!llect$gparameter, !ne&'--brea3'

  case @6 i $3ey1c!mpareT!$(null(& 7" & {

Page 54: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 54/59

43

i $pcap1getMes$&1c!mpareT!Ign!re/ase$(!ctubre(& ""& {

t!Return1append$pcap1getMes$&&'t!Return1append$(t(&'t!Return1append$pcap1get8ia$&&'gparameter1set$t!Return1t!5tring$&&'!utput1c!llect$gparameter, !ne&'--brea3'

  case A6 i $3ey1c!mpareT!$(null(& 7" & {i $pcap1getMes$&1c!mpareT!Ign!re/ase$(n!viembre(&

"" & {t!Return1append$pcap1getMes$&&'t!Return1append$(t(&'t!Return1append$pcap1get8ia$&&'gparameter1set$t!Return1t!5tring$&&'!utput1c!llect$gparameter, !ne&'--brea3'

  deault6 !utput1c!llect$err!r,!ne&'  brea3'  --

Page 55: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 55/59

44

ANEKO ' %ódigo ava del proceso de reduce en Hadoop

public class sg2reduce extends MapReduceBaseimplements Reducer<Text, IntWritable, Text, IntWritable> {

public sg2reduce$& { -

public v!id reduce$Text 3ey, Iterat!r<IntWritable> values,  *utput/!llect!r<Text, IntWritable> !utput, Rep!rter rep!rter&

tr!#s I*)xcepti!n {

  int sum " '  #ile $values1asCext$&& {

sum D" values1next$&1get$&'

-!utput1c!llect$3ey, ne# IntWritable$sum&&'

--

ANEKO C Gráficas GeneradasGráfica E0 ips destinos más concurridas

Page 56: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 56/59

45

Gráfica E0 ips fuente más concurridas

Gráfica !ctividades Protocolos T%P !&P . $%2P

Page 57: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 57/59

46

Gráfica !ctividades por Puertos T%P . U+P

Gráfica !ctividades de pa5uetes por mes S#PT$#2)&#

Page 58: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 58/59

47

Gráfica !ctividades de pa5uetes por mes ,%TU)&#

Gáfica !ctividades de pa5uetes por mes ",J$#2)&#

Page 59: Sistema Para Generar Gráficas a Partir de Logs Tcpdum

7/21/2019 Sistema Para Generar Gráficas a Partir de Logs Tcpdum

http://slidepdf.com/reader/full/sistema-para-generar-graficas-a-partir-de-logs-tcpdum 59/59

48