Big Data: Realitats i Reptes

Post on 10-Dec-2014

353 views 0 download

description

Aquests setmana m'han convidat a les XII Jornades Fòrum Català d'Informació i Salut per fer la conferència inaugural al CosmoCaixa. Com sempre que puc deixo a l'abast de tothom les transparències per si són del seu interés. Gràcies a la junta de Fòrum CIS per convidar-me, va ser molt enriquidor també per a mi la participació.

Transcript of Big Data: Realitats i Reptes

       

Jordi  Torres  www.JordiTorres.eu  

Big Data: realitats i reptes

       

Jordi  Torres  www.JordiTorres.eu  

Big Data: realitats i reptes

3  

On podem fer un primer tast de Big Data?

www.google.es/trends    

Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics  

Font:    Red  Nacional  de  Vigilancia    Epidemiológica    Ins6tuto    de  Salud  Carlos  III  

Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics  

Font:    Red  Nacional  de  Vigilancia    Epidemiológica  Ins6tuto    de  Salud  Carlos  III  

www.google.es/trends    

Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics  

Font:    Red  Nacional  de  Vigilancia    Epidemiológica  Ins6tuto    de  Salud  Carlos  III  

www.google.es/trends    

¿?  

9  

De què parlem quan parlem de

Big Data?

Ens  referim  al  conjunts  de  dades  tan  grans  i  tan  complexos  que  fa  molt  di6cil  el  seu  processat  “ú9l”  amb  les  eines  TIC  convencionals.  

Per  exemple,  algunes  xifres  en  Salut:  

 

•  Ac6vitat  Hospitalària            –  Altes  732.684                  –  Visites  3.739.053                  –  Urgències  3.243.778  

•  Visites  Atenció  Primària        44.884.529  

•  Receptes          141.914.284  

Source:  hWp://www.theatlan6c.com/health/archive/2012/05/big-­‐data-­‐can  -­‐save-­‐health-­‐care-­‐0151-­‐but-­‐at-­‐what-­‐cost-­‐to-­‐privacy/257621/  

UNA  REALITAT:    Els  pacients  i  els  hospitals  tenen  grans  Volums  de  dades  clíniques,  en  paper  o  electròniques      Però…    que  romanen  sense  u6litzar  “del  tot”  per  la  dificultat  de  "digerir”-­‐les  de  manera  efec6va.  

Source:  hWp://www.theatlan6c.com/health/archive/2012/05/big-­‐data-­‐can  -­‐save-­‐health-­‐care-­‐0151-­‐but-­‐at-­‐what-­‐cost-­‐to-­‐privacy/257621/  

13

No només parlem de ”Volum”, també de parlem de “Varietat”

Dades estructurades •  són les dades clàssics dels

pacients (nom, edat, sexe ...)

Dades no estructurats •  receptes de paper •  els registres mèdics •  les notes manuscrites i de veu

de metges i infermeres •  Imatges mèdiques: radiografies,

escàners, RM, TAC … •  …

i també de “Velocitat”

Nou allau de dades que provenen de: •  dispositius, •  sensors, •  fitness, •  aparells mèdics diversos, •  dades hospitalàries •  ...

I cal sumar les dades procedents de: •  els mitjans socials •  dels telèfons intel.ligents, •  d'àrees com la genòmica, •  etc, etc, etc.

Source: cetem

ma - m

ataró

15  

Definició de Big Data?

BIG  DATA:  3V     Velocity  

Volume  

Variety  

17  

Altres reptes a tenir en compte?

La transferència de dades d’un lloc a un altre –  Enviament de dades enviant discos físics per correus! –  …

Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html

La transferència de dades d’un lloc a un altre –  Enviament de dades enviant discos físics per correus! –  …

–  Futur?

Les dades no seran mogudes!

Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html

Seguretat i privacitat de les dades dels individus –  Els mateixos problemes que apareixen en altres arees –  Solució? Us d’algoritmes d’encriptació avançats? HSM?

Source: http://www.tbase.com/corporate/privacy-and-security

Augment de la necessitat d’emmagatzemar dades –  Han sorgit solucions de computació en el cloud.

Sou

rce:

http

://

ww

w.c

usto

dia-

docu

men

tal.c

om/w

p-co

nten

t/upl

oads

/Clo

ud-B

ig-D

ata.

jpg

Els inhibidors de Cloud Computing més comuns han de ser abordats aquí també

Security   Privacy   Lack  of  Standards  

Data  Integrity   Regulatory   Data  

Recovery  

Control   Vendor  Maturity   ...  

24  

Quina és la utilitat del Big Data?

Crear “Valor” a partir de les dades

DERIVAR  VALOR  MITJANÇANT    L’APROFITAMENT  DE:                              VOLUME,                                      VARIETY  AND                                                VELOCITY        

La  informació  no  és  “acTonable  knowledge”  

DERIVAR  VALOR  MITJANÇANT    L’APROFITAMENT  DE:                              VOLUME,                                      VARIETY  AND                                                VELOCITY        

28

                                                                                                   

Knowledge  

Informa6on  

Data  

+

Volume

- +

-

Valu

e

Realitza prediccions dels resultats i comportaments

Enfoc: Machine Learning "funciona" en el sentit que aquests mètodes detecten estructura subtil en les dades amb relativa facilitat sense haver de fer suposicions fortes sobre els paràmetres de les distribucions

29  

Quin és el repte real darrera de

tot plegat?

The big data problem:

In the end it is a Computing Challenge

Exemple: Genòmica

–  Més de 2000 punts de sequenciació arreu

–  Més de 15 petabytes/any de dades genètiques

I en breu…, decenes de centenars de sequenciadors!!!

Image source: https://share.sandia.gov/news/resources/ news_releases/images/2009/biofuel_genes.jpg

1 Petabyte = 1000 x (1 Terabyte )

assume 100MB/sec

more than 5 hours

assume 100MB/sec

scanning 1 Terabyte:

scanning 1 Petabyte: more than 5.000 hours

Suposem 10.000 discos: Llegir 1 TB requereix 1 segon

Paral.lelisme massiu

Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  

Solució?

37  

Quins avenços ens esperen en el

sector TIC?

(*) apartat dedicat als TIC de la sala ;-)

38

Tres grups d’ avenços:

Processat de dades mitjançant centenars de milers de servidors

Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.

Noves insfrastructures de sistemes

Com s’ho fa google per programar tenint en

compte que les dades provenen de 10.000 discos en paral.lel?

Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  

How do companies like google read and process data from 10.000 disks in

parallel? Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  

I el processat en temps real? Execució d’una consulta a una base de dades

Temps real

Source: Scalabilit y Challenges for Big Data Science – BerlinBuzzwords, June 4, 2012 © 2012 by Mikio L. Braun

–  Storm –  Kafka

–  S4 –  Spark –  Sur –  Kinesis –  SAMOA –  …

42

Tres grups d’ avenços:

Processat de dades mitjançant centenars de milers de servidors

Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.

Noves insfrastructures de sistemes

Big Data resource management

Les Bases de Dades relacionals no són adequades per a problemes de Big Data

à Non-relational databases (NoSQL)

Relaxing consistencyàEventual consistency

Big Data characteristics

Requirements from data store

Volume Scalability

Variety Scheme-less

Velocity Relaxed consistency & capacity to digest

NoSQL    Systems  

44

Tres grups d’ avenços:

Processat de dades mitjançant centenars de milers de servidors

Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament.

Noves insfrastructures de sistemes

“Active Storage Fabrics”

Active Storage Fabric Compute Dense Compute Fabric

Archival Storage Disk/Tape

Evolution of Flash Adoption

April 28, 2013 SNIA NVM Summit 4

F L A S H A S M E M O R Y

F L A S H + D I S K

F L A S H A S D I S K

Important: Remote Nodes Have Gotten Closer

•  La interconnexió ha esdevingut més ràpida

•  La latència d’una IB és aprox. 2000ns, que és només 20x més lenta que la RAM i 100x més ràpida que els SSD

Source: http://www.slideshare.net/blopeur/hecatonchire-kvm-forum2012benoithudzia

47  

Cap a on anem a nivell tecnològic?

(1) Nou paradigma de la computació

Old Compute-centric Model

New Data-centric Model

Massive Parallelism Persistent Memory

Flash

Manycore FPGA

Source: Heiko Joerg http://www.slideshare.net/schihei/petascale-analytics-the-world-of-big-data-requires-big-analytics

Internet of Things (2)  Internet of Things: Tot connectat al Cloud!

Future of Cloud: “Fog” Computing? (3) O tot serà Cloud? (Fog computing?)

Parin  atenció    a  la    “moguda  de  IoT”  !  

… en molt pocs anys portarem tota la tecnologia (ordinador, telèfon, càmera…) sempre a sobre a través del rellotge, roba, ulleres...

Pas previ per a portar-ho insertat en la pell? Gran impacte en el seu sector, veritat?

53  

I per acabar...

Infinites! tant per a l'àrea mèdica, com també per a les àrees d'anàlisi de dades (històries mèdiques, anàlisis clíniques ...), la gestió de centres de salut, l'administració hospitalària, la documentació científica (generació, emmagatzematge i explotació) ..

Oportunitats d’usar el Big Data en el seu sector?

Per exemple: combinant les dades tradicionals amb altres de noves tant a nivell individual com poblacional realitzant la integració de dades estructurades i no estructurades Etc.

Sense oblidar la Internet de les Coses com un dels pilars dels Big Data:

–  Utilització de xips per monitoritzar pacients.

–  en els centres hospitalaris, ajudant a les cures mèdiques tant presencials com en el propi domicili del malalt.

que per exemple permetrà acumular més dades dels pacients i amb això millorar el diagnòstic previ gràcies a l'anàlisi comparativa de perfils amb el mateix diagnòstic

Source: cetem

ma - m

ataró

Com ho veuen?

Gràcies per la seva atenció

Trobaran les transparències a www.JordiTorres.eu i @JordiTorresBCN