Baina bigdata le futur eldorado

42
Les Big Data Le nouvel Eldorado Prof. Karim Baïna [email protected] Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Chef du Département Génie Logiciel Chef de Service de Coopération Première rencontre du Digital Smart Systems Førum autour de « Big Data : Nouvelles voies de R&D et d’Innovation » Mercredi 01 Juin 2016, ENSIAS

Transcript of Baina bigdata le futur eldorado

Page 1: Baina bigdata le futur eldorado

Les Big DataLe nouvel Eldorado

Prof. Karim Baï[email protected]

Professeur d'Enseignement SupérieurENSIAS, Université Mohammed V de Rabat, Maroc

Co-responsable du Diplôme Universitaire « Big Data Scientist »

Chef du Département Génie LogicielChef de Service de Coopération

Première rencontre duDigital Smart Systems Førum

autour de« Big Data : Nouvelles voies de R&D et

d’Innovation »Mercredi 01 Juin 2016, ENSIAS

Page 2: Baina bigdata le futur eldorado

© Karim Baïna 2016 2

Big Data – Introduction

Première rencontre duDigital Smart Systems Førum

autour de« Big Data : Nouvelles voies de R&D et

d’Innovation »Mercredi 01 Juin 2016, ENSIAS

Page 3: Baina bigdata le futur eldorado

© Karim Baïna 2016 3

Big Data 4 V

● VOLUME

– 90% des données universelles ont été créées durant les 5 dernières années

– de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion

– La taille de l'univers digital plus que double chaque 2 ans

● VELOCITY (Fréquence de production de la donnée)

– 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population)

– Une voiture moderne embarque plus de 100 capteurs

– 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux

– 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde

● VARIETY

● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels)

● VERACITY

● Données incertaines, entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte)

– La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis.

Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner)

Samsung 16TB (Technologie SSD)Le plus large HD

Page 4: Baina bigdata le futur eldorado

© Karim Baïna 2016 4

Big Data – étude d'opportunité de Recherche (index de volume de

recherche google)

https://www.google.com/trends/

Le marché du Big Data s'élèverait à 40 milliards de dollars pour l'année 2015

et il connaitra, selon les prévisions, une croissance de 14% chaque année jusqu'en 2020

Page 5: Baina bigdata le futur eldorado

© Karim Baïna 2016 5

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

Information Systems

Page 6: Baina bigdata le futur eldorado

© Karim Baïna 2016 6

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

GridComputing

Information Systems

Cloud Computing

Page 7: Baina bigdata le futur eldorado

© Karim Baïna 2016 7

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

GridComputing

Information Systems

Cloud Computing

ComputationalLinguistics

KM

Data Management

Page 8: Baina bigdata le futur eldorado

© Karim Baïna 2016 8

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

GridComputing

Information Systems

Maths &Statistics

Cloud Computing

ComputationalLinguistics

KM

Data Management

Operational Research

Page 9: Baina bigdata le futur eldorado

© Karim Baïna 2016 9

Big Data -Un domaine au carrefour

de plusieurs disciplines et d'expertises

IoT/IoE

Digital Humanities

Social Networking

GridComputing

Software engineering

Information Systems

Cloud Computing

ComputationalLinguistics

KM

Software programming

Data Management

Operational ResearchMaths &

Statistics

Page 10: Baina bigdata le futur eldorado

© Karim Baïna 2016 10

Vue globale de l'Architecture et des Processus Big Data

Real Time Processing

Big Data Zone

atake

© Amir Gandomi, et al. 2015, International Journal of Information Management

Page 11: Baina bigdata le futur eldorado

© Karim Baïna 2016 11

Démarche Big Data

● Démarche INDUCTIVE/INFERENTIELLE (typique dans les Big Data) : Les données (observations) sont collectées sans formuler préalablement d'hypothèse et les explications sont dérivées de ces données par généralisation des faits observés pour produire un modèle scientifique de la réalité dit prévisionnel.

– alias : observationnelle, corrélative, régressive

● Démarche DÉDUCTIVE : Le chercheur a une vue théorique du monde naturel, basée sur des concepts et théories acceptés, et cherche à vérifier certaines hypothèses quant aux causes d'un phénomène. Ces hypothèses sont ensuite testées au cours de l'analyse, et c'est par le jeu de leurs acceptations/rejets que se construisent les théories explicatives. Les scientifiques qui pratiquent cette approche sont qualifiés de rationalistes.

– alias : expérimentale

Page 12: Baina bigdata le futur eldorado

© Karim Baïna 2016 12

Big Data – Paradigm Shift

Première rencontre duDigital Smart Systems Førum

autour de« Big Data : Nouvelles voies de R&D et

d’Innovation »Mercredi 01 Juin 2016, ENSIAS

Page 13: Baina bigdata le futur eldorado

Big Data – L'univers digital devient de plus en plus large et interconnecté

© IBM

(10^12)

Page 14: Baina bigdata le futur eldorado

© Karim Baïna 2016 14

Big Data – Perception du Volume de l'univers digital

Lune

Terre

2/3 6,6x

TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)

Page 15: Baina bigdata le futur eldorado

© Karim Baïna 2016 15

Volume - Big Data « data-intensive » Paradigm shift : Data Locality

Principle 1 : spread data across a cluster of computersPrinciple 2 : keep work physically close to the data

(partition/fragmentation)

Pour le Grid Computing « computing-intensive »les serveurs de traitements sont fixés et la datlocality n'est pas la priorité !

● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas les données initiales seulement des résultats intermédiaires.

Data at Rest

Page 16: Baina bigdata le futur eldorado

© Karim Baïna 2016 16

Volume - Big Data Paradigm shift :Synchronous batch processing

Le Grid Computing « computing-intensive » est defacto asynchrone !

Data at Rest

Page 17: Baina bigdata le futur eldorado

© Karim Baïna 2016 17

Variété - Big Data :multitude des formats de données

OLAP

non-structuré semi-structuré structuré

Page 18: Baina bigdata le futur eldorado

© Karim Baïna 2016 18

Varieté - Big Data Paradigme shift :Schema on Run/Read (aka ELT)

● Avec le Big Data - Schema on Run/Read (aka ELT) :

– Collecte des données non ou semi-structurées depuis les sources

– Stockage les données brutes sans structures explicites

– Compatible avec la démarche inductive (zéro hypothèse)

– Exploration et Analyse les données « programmatoirement » le programme s'adapte au format et pas l'inverse !!

– Stockage dans une structure cible pour de futures analyses

– Cycle de vie court et flexible

La Business Intelligence suit le paradigme « Schema on Load/Write » (aka ETL). L'Objet & les dimensions d'analyse sont pré-organisées selon l’utilisation envisagée, Collecte des données de production structurées selon un format intial et Stockage dans un hyper-cube structuré. A chaque fois que les données évoluent, il y a nécessité de mise à niveau du datawarehouse et remise en question de la stratégie d’organisation de l’information (Cycle de vie très long et rigide)

Page 19: Baina bigdata le futur eldorado

© Karim Baïna 2016 19

Vélocité - Big Data paradigm shift :Real Time Analysis Processing (RTAP)

● Les données (événements) arrivent vers les calculs et sont traitées à la volée avant même d'être stockées

● Les traitements peuvent accueillir plusieurs millions d'événements par seconde.

Pattern recognition/correlation/scoring rules

Data in Motion

Page 20: Baina bigdata le futur eldorado

© Karim Baïna 2016 20Recommandationde services/produits

Prévision Catastrophes naturelles

...

Prévision des évolution des épidémies

Traitement des échanges boursiers

Sécurité territoriale

Mesure de la Perception du citoyen

Mesure de la Satisfaction du client

Anticiper les picsde la circulation

Sécurité du citoyen

Page 21: Baina bigdata le futur eldorado

© Karim Baïna 2016 21

Exemple pratique : Calcul de la carte du bonheur par pays

Un échantillonJson de Tweeter

Un dictionnaired'émotion

Page 22: Baina bigdata le futur eldorado

© Karim Baïna 2016 22

Exemple pratique : Calcul de la carte du bonheur par pays (en 7 mini-requêtes HiveQL)

I) Charger Dictionnaire d'émotioncreate table dictionary (word string, rating int)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/home/hadoop/AFINN.txt' into TABLE dictionary;

II) Charger Tweets depuis stockage flumecreate external table load_tweets(id BIGINT, text STRING, country STRING) ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe' LOCATION '/user/flume/tweets'Tokeniser les tweetscreate table split_words as select id as id, split(text,' ') as words, country from load_tweets;Applatir les mots des tweetscreate table tweet_word as

select id as id, word, location from split_words LATERAL VIEW explode(words) w as word;

III) Croiser Tweets & Dictionnairecreate table tweet_word_join as

select tweet_word.id, tweet_word.word, country, dictionary.ratingfrom tweet_word LEFT OUTER JOIN dictionary ON(tweet_word.word =dictionary.word);

Calculer moyenne score de chaque Tweetcreate table tweet_rating_avg as

select id, country, AVG(rating) as rating from tweet_word_join GROUP BY id, country order by rating DESC;Calculer moyenne score de chaque Payscreate table location_rating_avg as

select country, AVG(rating) as rating from tweet_rating_avg GROUP BY country order by rating DESC;

-Like

Page 23: Baina bigdata le futur eldorado

© Karim Baïna 2016 23

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 24: Baina bigdata le futur eldorado

© Karim Baïna 2016 24

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 25: Baina bigdata le futur eldorado

© Karim Baïna 2016 25

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 26: Baina bigdata le futur eldorado

© Karim Baïna 2016 26

Big Data & visualisation « Dataviz »

http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/

Page 27: Baina bigdata le futur eldorado

© Karim Baïna 2016 27

Big Data & visualisation « Dataviz »

http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline

Page 28: Baina bigdata le futur eldorado

© Karim Baïna 2016 28

Big Data & visualisation « Dataviz »

Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world

Visualizing Big Data:Social Network Analysisby Michael Lieberman, 2014

Page 29: Baina bigdata le futur eldorado

© Karim Baïna 2016 29

Big Data – un écosystème de nouveaux concepts et technologies

Page 30: Baina bigdata le futur eldorado

© Karim Baïna 2016 30

Dev Ops Engineer

Builds the cluster

Data AnalystSQL & NoSQL guru

Big Data Developer/Insight Developer

Insight Developer, Productise insight

Data Scientist

Data Manager,Machine learning expert

Data Innovator

Business Analyst,Data Value services

INFRA DATA ENGINEERING DATA SCIENCE DATA INNOVATION

Big Data – Quels Profils et Compétences ?

Page 31: Baina bigdata le futur eldorado

© Karim Baïna 2016 31

● Pour devenir Spécialiste de Big Data

– Un Statisticien devra apprendre à manipuler des données distribuées et qui ne tiennent pas en mémoire RAM d'une seule machine

– Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à écrire et exécuter des algorithmes décisionnels à l'échelle et faire du reporting sur des données stockées en format brute

– Un DBA devra apprendre à manipuler des données non-structurées

– Un ingénieur Génie Logiciel devra apprendre la modélisation statistique et la communication des résultats

© Bill Howe

Big Data – Quels Profils et Compétences ?

Page 32: Baina bigdata le futur eldorado

© Karim Baïna 2016 32

Big Data – Eldorado pour la R&D et l'Innovation

Première rencontre duDigital Smart Systems Førum

autour de« Big Data : Nouvelles voies de R&D et

d’Innovation »Mercredi 01 Juin 2016, ENSIAS

Page 33: Baina bigdata le futur eldorado

© Karim Baïna 2016 33

Nuage des topics liés à 15 conférences sur le Big Data de 2016

Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total

Page 34: Baina bigdata le futur eldorado

© Karim Baïna 2016 34

Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total

cloud 50 2,96%computing/tation 39 2,30%analysis/tics 36 2,13%application(s) 36 2,13%system(s) 28 1,65%semantic(s) 26 1,54%architecture(s)/al 24 1,42%management/ing 24 1,42%learning 23 1,36%service 23 1,36%network/ing 21 1,24%web/2 21 1,24%business 20 1,18%model/lling 20 1,18%security 17 1,00%social 17 1,00%privacy 16 0,95%enterprise 15 0,89%method/ologies 15 0,89%knowledge 14 0,83%smart 13 0,77%recommendations/der 9 0,53%virtual/isation 7 0,41%iot 6 0,35%sensor/itive 6 0,35%trust/ed/worthy 6 0,35%interoperability 2 0,12%

Topics liées à 15 conférences sur le Big Data de 2016 – top 30

Page 35: Baina bigdata le futur eldorado

© Karim Baïna 2016 35

Analyse de 1692 occurrences de 443 mots du domaine (sans doublons) au total

data enterpriseapplications

learningmodel/lling techniques/logy

mobilescale/able

0

20

40

60

80

100

120

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

7,00%

Distribution des apparitions de mots dans les CFP

mot

fré

qu

en

ce d

'ap

pa

ritio

n

science/tist 13 0,77%bioinformatics/logical/logy/medical/metrics 12 0,71%health 8 0,47%market/ing 8 0,47%transport/ation8 0,47%energy 7 0,41%home 7 0,41%ehealth 5 0,30%governance 5 0,30%healthcare 5 0,30%cities 3 0,18%econometrics/nomics 3 0,18%human 3 0,18%medical 3 0,18%banking 2 0,12%hospitals 2 0,12%industrial 2 0,12%

Topics liées à 15 conférences sur le Big Data de 2016 – par domaine

Page 36: Baina bigdata le futur eldorado

© Karim Baïna 2016 36

Top 20 des topics liées à 10 études d'opportunités Big Data (282 pages,

115.623 mots)

service(s)value/able/ed

computation/al/allytool/kit

0,00%

1,00%

2,00%

3,00%

4,00%

5,00%

6,00%

distribution des apparitions des mots dans les études d'opportunité Big Data

mots

fré

qu

en

ce d

'ap

pa

ritio

n

privacy/vate/tivally 554 4,91%governance/nment 392 3,48%analytic/al/ze.. 370 3,28%social/itycs/etal/etally/ities/economic/logical/ethnical311 2,76%global/ization/lly/world 287 2,54%decision/ding/cisive 283 2,51%individual/lized 251 2,23%usability/er/sable/age/ed/ful/fulness220 1,95%policy/maker/making 213 1,89%science/tific/tifically 208 1,84%protection/tected/tecting/tective 2011,78%system/ic/ematic/emacally 1881,67%computation/al/ally 167 1,48%secure/ly/ing/ities 167 1,48%acces/ssibility/ssible 164 1,45%digital/lisation/tally/tised 163 1,45%Marketing 159 1,41%predict/able/ted/ting/tive/tion/tor 154 1,37%Mobile 125 1,11%

Analyse de 11280 occurrences de 229 mots du domaine (sans doublons) au total

Page 37: Baina bigdata le futur eldorado

© Karim Baïna 2016 37

Big Data Opportunité 1 - Services (446 occurrences)

risk

price/cing/stats/discrimination

production/ve/ivity

smart/er/erplanet/meter/phone

devices

bank/ing

transport/ation/ing

car/automtive/mobile

telecom

interoperability

interconnect/ed/ting/tivity

0 10 20 30 40 50 60 70 80 90 100

Nombre d'occurrences dans les études d'opportunité Big Data

Apparition

Op

po

rtu

nité

Big

Da

ta

Page 38: Baina bigdata le futur eldorado

© Karim Baïna 2016 38

Big Data Opportunité 2 - Security (396 occurrences )

risk

crime/minal

fraud/ulent

surveillance

account/ability/ant

prevent/tion/ting/tive

anomalies

anonymise/sation

trust/ed/ing/ees

terrorism/ist

cameras

0 10 20 30 40 50 60 70 80 90 100

Nombre d'occurrences dans les études d'opportunité Big Data

Apparition

Op

po

rtru

nité

Big

Da

ta

Page 39: Baina bigdata le futur eldorado

© Karim Baïna 2016 39

Big Data Opportunité 3 - Smart Governement (350 occurrences)

citizen

population

civil/ian/ized/rights

regulatate/lation/lating/lator/latory

popular/rity/rly

democracy/tic/tization/tized

political/ciations/tics

vote/r

0 10 20 30 40 50 60 70 80

Nombre d'occurrences dans les études d'opportunité Big Data

Apparition

Op

po

rtu

nité

Big

Da

ta

Page 40: Baina bigdata le futur eldorado

© Karim Baïna 2016 40

Big Data Opportunité 4 - Health (176 occurrences)

medical

genome/tic/ticist/alogy/e

bioinformatics/logical/logy/med/medical/metric/tech

senior

clinical/cian

epicentre/demic/demics/miologic/logical

pharmacy/ceutical/cogenomics

doctor

cancer

0 5 10 15 20 25 30 35 40 45

Nombre d'occurrences dans les études d'opportunité Big Data

Opportunité Big Data

Ap

pa

ritio

n

Page 41: Baina bigdata le futur eldorado

41

Opportunités Big Data – Améliorer le quotidien du citoyen Marocain

Améliorer la Sécurité Routière – plus de campagnes et de signalisation dans les régions/véhicules à haut risque

Améliorer la qualité du transport – mieux desservir la demande en période de pic

Améliorer les services sociaux – mieux desservir les régions selon les spécialités manquantes

Réduire le chômage et augmenter l'employabilité – mieux connecter offreurs et demandeurs d'emploi, anticiper les besoins du marché d'emploi

Améliorer l'éducation – mieux servir les régions marginalisées

Page 42: Baina bigdata le futur eldorado

42

Big Data – Sans oublier bien évidemment de Préparer le Maroc de

demainÉnergies

Desertec

Développement durable& Économie verte

Développement humain & Économie équitable

Environnement

Logistique

Industrie & Services