Big Data: Realitats i Reptes

57
Jordi Torres www.JordiTorres.eu Big Data: realitats i reptes

description

Aquests setmana m'han convidat a les XII Jornades Fòrum Català d'Informació i Salut per fer la conferència inaugural al CosmoCaixa. Com sempre que puc deixo a l'abast de tothom les transparències per si són del seu interés. Gràcies a la junta de Fòrum CIS per convidar-me, va ser molt enriquidor també per a mi la participació.

Transcript of Big Data: Realitats i Reptes

Page 1: Big Data: Realitats i Reptes

       

Jordi  Torres  www.JordiTorres.eu  

Big Data: realitats i reptes

Page 2: Big Data: Realitats i Reptes

       

Jordi  Torres  www.JordiTorres.eu  

Big Data: realitats i reptes

Page 3: Big Data: Realitats i Reptes

3  

On podem fer un primer tast de Big Data?

Page 4: Big Data: Realitats i Reptes

www.google.es/trends    

Page 5: Big Data: Realitats i Reptes
Page 6: Big Data: Realitats i Reptes

Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics  

Font:    Red  Nacional  de  Vigilancia    Epidemiológica    Ins6tuto    de  Salud  Carlos  III  

Page 7: Big Data: Realitats i Reptes

Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics  

Font:    Red  Nacional  de  Vigilancia    Epidemiológica  Ins6tuto    de  Salud  Carlos  III  

www.google.es/trends    

Page 8: Big Data: Realitats i Reptes

Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics  

Font:    Red  Nacional  de  Vigilancia    Epidemiológica  Ins6tuto    de  Salud  Carlos  III  

www.google.es/trends    

¿?  

Page 9: Big Data: Realitats i Reptes

9  

De què parlem quan parlem de

Big Data?

Page 10: Big Data: Realitats i Reptes

Ens  referim  al  conjunts  de  dades  tan  grans  i  tan  complexos  que  fa  molt  di6cil  el  seu  processat  “ú9l”  amb  les  eines  TIC  convencionals.  

Page 11: Big Data: Realitats i Reptes

Per  exemple,  algunes  xifres  en  Salut:  

 

•  Ac6vitat  Hospitalària            –  Altes  732.684                  –  Visites  3.739.053                  –  Urgències  3.243.778  

•  Visites  Atenció  Primària        44.884.529  

•  Receptes          141.914.284  

Source:  hWp://www.theatlan6c.com/health/archive/2012/05/big-­‐data-­‐can  -­‐save-­‐health-­‐care-­‐0151-­‐but-­‐at-­‐what-­‐cost-­‐to-­‐privacy/257621/  

Page 12: Big Data: Realitats i Reptes

UNA  REALITAT:    Els  pacients  i  els  hospitals  tenen  grans  Volums  de  dades  clíniques,  en  paper  o  electròniques      Però…    que  romanen  sense  u6litzar  “del  tot”  per  la  dificultat  de  "digerir”-­‐les  de  manera  efec6va.  

Source:  hWp://www.theatlan6c.com/health/archive/2012/05/big-­‐data-­‐can  -­‐save-­‐health-­‐care-­‐0151-­‐but-­‐at-­‐what-­‐cost-­‐to-­‐privacy/257621/  

Page 13: Big Data: Realitats i Reptes

13

No només parlem de ”Volum”, també de parlem de “Varietat”

Dades estructurades •  són les dades clàssics dels

pacients (nom, edat, sexe ...)

Dades no estructurats •  receptes de paper •  els registres mèdics •  les notes manuscrites i de veu

de metges i infermeres •  Imatges mèdiques: radiografies,

escàners, RM, TAC … •  …

Page 14: Big Data: Realitats i Reptes

i també de “Velocitat”

Nou allau de dades que provenen de: •  dispositius, •  sensors, •  fitness, •  aparells mèdics diversos, •  dades hospitalàries •  ...

I cal sumar les dades procedents de: •  els mitjans socials •  dels telèfons intel.ligents, •  d'àrees com la genòmica, •  etc, etc, etc.

Source: cetem

ma - m

ataró

Page 15: Big Data: Realitats i Reptes

15  

Definició de Big Data?

Page 16: Big Data: Realitats i Reptes

BIG  DATA:  3V     Velocity  

Volume  

Variety  

Page 17: Big Data: Realitats i Reptes

17  

Altres reptes a tenir en compte?

Page 18: Big Data: Realitats i Reptes

La transferència de dades d’un lloc a un altre –  Enviament de dades enviant discos físics per correus! –  …

Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html

Page 19: Big Data: Realitats i Reptes
Page 20: Big Data: Realitats i Reptes

La transferència de dades d’un lloc a un altre –  Enviament de dades enviant discos físics per correus! –  …

–  Futur?

Les dades no seran mogudes!

Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html

Page 21: Big Data: Realitats i Reptes

Seguretat i privacitat de les dades dels individus –  Els mateixos problemes que apareixen en altres arees –  Solució? Us d’algoritmes d’encriptació avançats? HSM?

Source: http://www.tbase.com/corporate/privacy-and-security

Page 22: Big Data: Realitats i Reptes

Augment de la necessitat d’emmagatzemar dades –  Han sorgit solucions de computació en el cloud.

Sou

rce:

http

://

ww

w.c

usto

dia-

docu

men

tal.c

om/w

p-co

nten

t/upl

oads

/Clo

ud-B

ig-D

ata.

jpg

Page 23: Big Data: Realitats i Reptes

Els inhibidors de Cloud Computing més comuns han de ser abordats aquí també

Security   Privacy   Lack  of  Standards  

Data  Integrity   Regulatory   Data  

Recovery  

Control   Vendor  Maturity   ...  

Page 24: Big Data: Realitats i Reptes

24  

Quina és la utilitat del Big Data?

Page 25: Big Data: Realitats i Reptes

Crear “Valor” a partir de les dades

Page 26: Big Data: Realitats i Reptes

DERIVAR  VALOR  MITJANÇANT    L’APROFITAMENT  DE:                              VOLUME,                                      VARIETY  AND                                                VELOCITY        

Page 27: Big Data: Realitats i Reptes

La  informació  no  és  “acTonable  knowledge”  

DERIVAR  VALOR  MITJANÇANT    L’APROFITAMENT  DE:                              VOLUME,                                      VARIETY  AND                                                VELOCITY        

Page 28: Big Data: Realitats i Reptes

28

                                                                                                   

Knowledge  

Informa6on  

Data  

+

Volume

- +

-

Valu

e

Realitza prediccions dels resultats i comportaments

Enfoc: Machine Learning "funciona" en el sentit que aquests mètodes detecten estructura subtil en les dades amb relativa facilitat sense haver de fer suposicions fortes sobre els paràmetres de les distribucions

Page 29: Big Data: Realitats i Reptes

29  

Quin és el repte real darrera de

tot plegat?

Page 30: Big Data: Realitats i Reptes

The big data problem:

In the end it is a Computing Challenge

Page 31: Big Data: Realitats i Reptes

Exemple: Genòmica

–  Més de 2000 punts de sequenciació arreu

–  Més de 15 petabytes/any de dades genètiques

I en breu…, decenes de centenars de sequenciadors!!!

Image source: https://share.sandia.gov/news/resources/ news_releases/images/2009/biofuel_genes.jpg

Page 32: Big Data: Realitats i Reptes

1 Petabyte = 1000 x (1 Terabyte )

Page 33: Big Data: Realitats i Reptes

assume 100MB/sec

Page 34: Big Data: Realitats i Reptes

more than 5 hours

assume 100MB/sec

scanning 1 Terabyte:

Page 35: Big Data: Realitats i Reptes

scanning 1 Petabyte: more than 5.000 hours

Page 36: Big Data: Realitats i Reptes

Suposem 10.000 discos: Llegir 1 TB requereix 1 segon

Paral.lelisme massiu

Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  

Solució?

Page 37: Big Data: Realitats i Reptes

37  

Quins avenços ens esperen en el

sector TIC?

(*) apartat dedicat als TIC de la sala ;-)

Page 38: Big Data: Realitats i Reptes

38

Tres grups d’ avenços:

Processat de dades mitjançant centenars de milers de servidors

Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.

Noves insfrastructures de sistemes

Page 39: Big Data: Realitats i Reptes

Com s’ho fa google per programar tenint en

compte que les dades provenen de 10.000 discos en paral.lel?

Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  

Page 40: Big Data: Realitats i Reptes

How do companies like google read and process data from 10.000 disks in

parallel? Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  

Page 41: Big Data: Realitats i Reptes

I el processat en temps real? Execució d’una consulta a una base de dades

Temps real

Source: Scalabilit y Challenges for Big Data Science – BerlinBuzzwords, June 4, 2012 © 2012 by Mikio L. Braun

–  Storm –  Kafka

–  S4 –  Spark –  Sur –  Kinesis –  SAMOA –  …

Page 42: Big Data: Realitats i Reptes

42

Tres grups d’ avenços:

Processat de dades mitjançant centenars de milers de servidors

Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.

Noves insfrastructures de sistemes

Page 43: Big Data: Realitats i Reptes

Big Data resource management

Les Bases de Dades relacionals no són adequades per a problemes de Big Data

à Non-relational databases (NoSQL)

Relaxing consistencyàEventual consistency

Big Data characteristics

Requirements from data store

Volume Scalability

Variety Scheme-less

Velocity Relaxed consistency & capacity to digest

NoSQL    Systems  

Page 44: Big Data: Realitats i Reptes

44

Tres grups d’ avenços:

Processat de dades mitjançant centenars de milers de servidors

Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.

Noves insfrastructures de sistemes

Page 45: Big Data: Realitats i Reptes

“Active Storage Fabrics”

Active Storage Fabric Compute Dense Compute Fabric

Archival Storage Disk/Tape

Evolution of Flash Adoption

April 28, 2013 SNIA NVM Summit 4

F L A S H A S M E M O R Y

F L A S H + D I S K

F L A S H A S D I S K

Page 46: Big Data: Realitats i Reptes

Important: Remote Nodes Have Gotten Closer

•  La interconnexió ha esdevingut més ràpida

•  La latència d’una IB és aprox. 2000ns, que és només 20x més lenta que la RAM i 100x més ràpida que els SSD

Source: http://www.slideshare.net/blopeur/hecatonchire-kvm-forum2012benoithudzia

Page 47: Big Data: Realitats i Reptes

47  

Cap a on anem a nivell tecnològic?

Page 48: Big Data: Realitats i Reptes

(1) Nou paradigma de la computació

Old Compute-centric Model

New Data-centric Model

Massive Parallelism Persistent Memory

Flash

Manycore FPGA

Source: Heiko Joerg http://www.slideshare.net/schihei/petascale-analytics-the-world-of-big-data-requires-big-analytics

Page 49: Big Data: Realitats i Reptes

Internet of Things (2)  Internet of Things: Tot connectat al Cloud!

Page 50: Big Data: Realitats i Reptes

Future of Cloud: “Fog” Computing? (3) O tot serà Cloud? (Fog computing?)

Page 51: Big Data: Realitats i Reptes

Parin  atenció    a  la    “moguda  de  IoT”  !  

Page 52: Big Data: Realitats i Reptes

… en molt pocs anys portarem tota la tecnologia (ordinador, telèfon, càmera…) sempre a sobre a través del rellotge, roba, ulleres...

Pas previ per a portar-ho insertat en la pell? Gran impacte en el seu sector, veritat?

Page 53: Big Data: Realitats i Reptes

53  

I per acabar...

Page 54: Big Data: Realitats i Reptes

Infinites! tant per a l'àrea mèdica, com també per a les àrees d'anàlisi de dades (històries mèdiques, anàlisis clíniques ...), la gestió de centres de salut, l'administració hospitalària, la documentació científica (generació, emmagatzematge i explotació) ..

Oportunitats d’usar el Big Data en el seu sector?

Page 55: Big Data: Realitats i Reptes

Per exemple: combinant les dades tradicionals amb altres de noves tant a nivell individual com poblacional realitzant la integració de dades estructurades i no estructurades Etc.

Page 56: Big Data: Realitats i Reptes

Sense oblidar la Internet de les Coses com un dels pilars dels Big Data:

–  Utilització de xips per monitoritzar pacients.

–  en els centres hospitalaris, ajudant a les cures mèdiques tant presencials com en el propi domicili del malalt.

que per exemple permetrà acumular més dades dels pacients i amb això millorar el diagnòstic previ gràcies a l'anàlisi comparativa de perfils amb el mateix diagnòstic

Source: cetem

ma - m

ataró

Page 57: Big Data: Realitats i Reptes

Com ho veuen?

Gràcies per la seva atenció

Trobaran les transparències a www.JordiTorres.eu i @JordiTorresBCN