$1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr...

93
ANALISI DEI DATI PER IL MARKETING 2020 Marco Riani [email protected] http://www.riani.it

Transcript of $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr...

Page 1: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

ANALISI DEI DATIPER IL MARKETING

2020

Marco [email protected]

http://www.riani.it

Page 2: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

INFORMAZIONI SUL CORSO

• Orario (lezioni in stremaing)• MER 9.15-10.45 (frontale)• MER 14.15-15.45 (frontale)• VEN 14.00 -16.00 (esercitazione in Excel e

Matlab)

• Ricevimento– GIO 11.00-13.00– VEN 9.00-11.00

Page 3: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

E’ necessario registrarsi per accedere ai computer del

laboratorio!• http://www.cce.unipr.it/html/labinfo

Page 4: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

INFORMAZIONI SUL CORSO

• Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale

• Tutti i lucidi saranno disponibili su www.riani.it/ADM

• Le lezioni registrate saranno messe a disposizione su canale youtube oppure su canale di Microsoft stream

Page 5: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Calendario degli esami

• 16 dicembre 2020 ore 8.30• 15 gennaio 2021 ore 11.00• 29 gennaio 2021 ore 11.00• 26 maggio 2020 ore 11.00• 09 giugno 2021 ore 11.00• 23 giugno 2021 ore 11.00• 08 settembre 2021 ore 11.00• Primo appello: a computer

Page 6: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

LIBRO DI TESTO

• Sergio Zani – Andrea CerioliANALISI DEI DATI E DATA MINING

PER LE DECISIONI AZIENDALIGiuffrè – 2007 +

MATERIALE AGGIUNTIVO SU www.riani.itE’ consentito tenere questo libro

durante l’esame !

Page 7: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SOFTWARE

• SPSS: Statistical Package for Social Sciences www.spss.com

• Excel 2016

• MATLAB 2020b www.mathworks.com

Page 8: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB

• Software leader nel mondo per l’analisi dei dati

• Nei colloqui di lavoro vi chiederanno se conoscete MATLAB (oltre ad Excel)

• Completamente gratuito per gli studenti di UNIPR

• Ogni studente di UNIPR registrato sul sito mathworks.com ha 10GB di spazio gratuito

Page 9: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB

• I consulenti MATLAB non si muovono con meno di 1500 per diem

• Gli studenti di UNIPR hanno un’area riservata in cui possono fare più di 100 ore di corso on line

Page 10: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB

Page 11: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB

• La certificazione rilasciata on line da questo corso può essere condivisa sui social

Page 12: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB• Certe funzioni sono molto lunghe da

implementare in Excel. Altre sono praticamente impossibili da implementare.

• In MATLAB bastano 2 o 3 righe di codice per ottenere l’output richiesto.

• Al momento dell’esame lo studente può controllare facilmente l’esattezza della soluzione eseguendo le funzioni MATLAB

• MATLAB è correntemente utilizzato in molte lauree specialistiche e master

Page 13: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché MATLAB

• Non è necessario scaricare MATLAB in quanto esiste anche la versione di MATLAB on line e può essere utilizzato da qualsiasi browser

• http://matlab.mathworks.com

Page 14: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Nel sito per la maggior parte degli esercizi ci saranno sia le soluzione tramite Excel sia tramite MATLAB

Page 15: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MODALITÀ DI ESAME (prova scritta tradizionale)

• Quattro (tre) domande, ciascuna costituita da vari punti:– aspetti di calcolo– aspetti di commento e di interpretazione dei

risultati circa della medesima importanza– Commento dei risultati ottenuti da SPSS e/o

altro software

Page 16: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MODALITÀ DI ESAME (prova al computer)

• Si parte da un dataset dentro un file Excel:– Elaborazione dei dati con Excel (Matlab)– Componenti aggiuntivi di Excel per effettuare

determinate operazioni statistiche– Commento ai risultati

Page 17: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Il foglio "dati" contiene le risposte da un questionario riguardante l'attitudine verso la scienza (SCIENZA), il titolo di studio (TITOLO_STUDIO) e la classe di età (ETA).La codifica della variabile SCIENZA è la seguente1= per niente favorevole2= poco favorevole3= indifferente4= favorevole5= molto favorevoleLa codifica della variabile TITOLO_STUDIO è la seguente1= licenza elementare2= licenza media3= diploma di scuola media superiore4= laurea triennale5= laurea specialistica6= dottorato di ricercaLa codifica della variabile ETA è la seguente:1= < 20 anni2= 20-30 anni3= 30-40 anni4= 40-50 anni5= 50-70 anni6= >70 anni

Page 18: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

1) Calcolare la tabella di contingenza tra le variabili SCIENZA (righe) e TITOLO_STUDIO (colonne)2) Calcolare la tabella delle frequenze teoriche nell'ipotesi di indipendenza tra le due variabili3) Calcolare il valore del test chi quadrato ed il relativo p-value. Commentare il risultato ottenuto. Qual è il valore del test chi quadrato che ci attendiamo nell'ipotesi di indipendenza stocastica dei due fenomeni? 4) Calcolare i profili riga. Dire qual è il profilo riga che si discosta di meno dalla media e qual è quello che si discosta maggiormente dalla media.5) Calcolare l'inerzia totale 6) Discutere la quota di varianza spiegata dalle prime due dimensioni latenti7) Trovare le coordinate dei punti riga e colonna da rappresentare nel grafico. Commentare il grafico che si ottiene.8) Con riferimento alle righe, calcolare il contributo di ogni punto riga all'inerzia della prima dimensione e il contributo della prima dimensione all'inerzia dei punti riga. 9) Calcolare e commentare l'indice gamma di Goodman e Kruskall

Page 19: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Dati di partenza

Page 20: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Risoluzione punto 1

Page 21: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Risoluzione punto 7

Page 22: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Commento al grafico

Commento al grafico:chi presenta il titolo di studio "licenza elementare"generalmente non è assolutamente favorevole alla "Scienza". Al contrario, la posizione "molto favorevole alla scienza" si riscontra prevalentemente da parte di coloro che hanno la laurea (oppure il dottorato di ricerca). L'asse x si può interpretare come anni di studio (andando da sinistra verso destra gli anni di studio aumentano) e allo stesso tempo come posizione verso la scienza (andando da sinistra verso destra la posizione verso al scienza tende ad aumentare).

Page 23: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Perché il corso di analisi dei dati (analytics)?

Page 24: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Obiettivi del corso

• Illustrare i metodi statistici per il trattamento delle informazioni d’interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative.

• Fornire un supporto conoscitivo razionale per le decisioni

Page 25: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

EVOLUZIONE DI CONCETTI• Statistica (descrittiva e inferenziale)

• Analisi dei dati multidimensionali

• Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni)

• Scavare in insiemi di dati molto numerosi per estrarre informazioni utili– Text mining– Web mining

Page 26: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

PUNTO DI PARTENZA dell’analisi dei dati

• MATRICE DEI DATI: X riferita a n unità e p variabili

Ipermercati Sup. addetti vendite

Centro TorriEsselunga

. . .

Page 27: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Es di matrice dei dati

Page 28: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MATRICE DEI DATI

npnsn

ipisi

ps

pn

xxx

xxx

xxx

X

1

1

1111

xis = modalità che presenta la variabile s-esima nell’unità statistica i-esima

Significato dei vettori riga e dei vettori colonna

Tipologia delle unità statistiche

Page 29: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Tipologia di variabili (fenomeni) della matrice dei dati

• Qualitativi (categorici) nominali:Esempi: sesso, tipo di laurea, forma giuridica delle

impreseBINARI (DICOTOMICI) O CON CATEGORIE

MULTIPLE (POLITOMICI)• Qualitativi (categorici) ordinali:

giudizi: insuff., suff., discreto, buono, ottimo• Quantitativi:

peso, fatturato, n. dipendenti

Page 30: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Tab. 1.1 – 25 Home theatre, 7 variabilipag. 8

MARCA PREZZO POTENZA CASSE DVDREC WIREL. DVX RDS

1 Akai 4200 208 150 4 0 0 0 0

2 Hitachi K180 161 160 4 0 0 0 1

3 Lg DAT200 210 320 4 0 0 0 1

….

25Yamaha

YHT941 850 1000 8 1 1 1 1

Page 31: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Tipologia delle unità nella matrice dei dati

• X di dimensioni n x p• Individui (questionari)• Aziende• Prodotti o marche• Unità territoriali (province, …)• Tempi (serie storiche o temporali)

Page 32: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

DATI ASSOLUTI E RELATIVI

• Esempio: n aziende• DATI ASSOLUTI:• Fatturato, valore aggiunto, n. addetti, …• DATI RELATIVI:• Fatturato per addetto, valore aggiunto sul

fatturato, ROE, …• A PRIORI DEFINISCO LO SCOPO

DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE

Page 33: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Es. Banca Marketing strategico

• Ciclo vitale• Next Product• Segmentazione comportamentale• Rischio di abbandono• Sensitività del valore del portafoglio clienti

Page 34: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

ANALISI DEL CICLO VITALE

PRODOTTI

ETA’

LAV

SESSO

STATO CIVILE

Page 35: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Es. Relazione tra stato civile e possesso di

cassette di sicurezza

• STATO CIVILE 21: CONIUGATO IN SEPARAZIONE LEGALE

0 10 11 20 21 22 35 50 9990

0.02

0.04

0.06

0.08

0.1

0.12

0.14

1.778 2.63

0.5755

2.464

12.34

1.745 2.405

1.56

0

Cassette di sicurezza p-value=

2.087117e-69

Page 36: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Output del modello di ciclo vitale

• Una spezzata che riporta la probabilità stimata di possedere un macroprodotto al variare dell’età per ogni combinazione di

• SESSO• STATO CIVILE• PROFESSIONE

Page 37: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Prob. di posseSSO: «Assicurazione danni» Maschio, Separato, Dirigente

<18 18-30 31-42 43-54 55-66 67-78 >780

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Page 38: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

UTILIZZI DEL MODELLO

• Il modello segnala in automatico le combinazioni di classe età, professione e stato civile con la più elevata probabilità di possedere il prodotto. – Es.M, divorziati, infermieri e medici, età 31-42

anni• Il modello segnala i clienti per cui il

modello prevede il possesso del prodotto ma in realtà non è presente

Page 39: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

NEXT PRODUCT (orizzonte di breve)

PRODOTTI

ETA’ LAV

?

?

?

VarCOGE

SESSO

STATO CIVILE

Page 40: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

OBIETTIVO

• VARIABILE RISPOSTA• Y=1 (sì ASS DANNI ultimi 6 mesi e lo

posseggono attualmente)• Y=0 (no ass DANNI attualmente)• Quali sono i comportamenti finanziari che

meglio separano i due gruppi?• Quali sono le variabili più importanti (a

priori consideriamo un set di variabili esplicative)

Page 41: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Riepilogo variabili potenzialisessostato civileprofessioneclasse di etàtotale prodotti possedutiuso di Internetpossesso di InternetDebiti a breve (ammontare)Debiti a lungo (ammontare)Raccolta diretta + IndirettaImpieghiFondi (importo)Fondi (numero)numCertificati di depositoDepositi a risparmiocc saldo (Italia +Estero)azioni (ammontare)obbligazioni (ammontare)

Page 42: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

CONCETTO DA RIBADIRE

• A PRIORI DEFINISCO LO SCOPO DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE

Page 43: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA

• Problema (domanda)• Raccolta di dati• Analisi dei dati• Conclusione provvisoria (risposta)• Estensioni, generalizzazioni, nuovi

problemi• Il vero indicatore d’intelligenza non è la

conoscenza, ma l’immaginazione (A. EINSTEIN)

Page 44: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempio di questionario• INDAGINE SULL’ATTEGGIAMENTO DEI GIOVANI NEI

CONFRONTI DELLA MODA• Sesso maschio 1 femmina 2• Età │_│_│• Quale scuola frequenti?• Liceo classico 1 liceo scientifico 2 ragioneria 3

altra 4• Taglia 38 40 42 44 46 48

50 52 • Quanta importanza attribuisci al modo di vestire?• nulla 1 scarsa 2 media 3 molta 4

moltissima 5 • Come definiresti il tuo stile di vestire?• sportivo 1 elegante-classico 2 casual • A quanto ammonta la tua “paghetta” settimanale? € …

Page 45: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

• X riferita a n unità e p variabili (features): • X = [ xis ]• Visualizzazione delle informazioni e scoperta di

eventuali valori anomali• Studio delle relazioni tra variabili- Quantitative (correlazione)- Qualitative nominali e ordinali (ASSOCIAZIONE)

MATRICE DEI DATI:

Page 46: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

TECNICHE DI ANALISI DEI DATI

– TRATTAMENTI PRELIMINARI DEI DATI (cap. III)• “pulizia” dei dati• Dati mancanti (missing values)• Valori anomali (outliers)

– VISUALIZZAZIONE DEI DATI (cap. V)• Grafici univariati, bivariati e multivariati

– RIDUZIONE DELLE DIMENSIONI (cap. VI e VII)• Analisi delle componenti principali e Analisi delle

corrispondenze

Page 47: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Riduzione delle dimensioni (componenti principali, principal

components, PCA)• Da una matrice n x p ad una matrice n x r

con (r <<p)

Page 48: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

– FORMAZIONE DI GRUPPI OMOGENEI• Misure di dissimilarità e di similarità tra oggetti o

individui per variabili quantitative, qualitative e miste (cap. VIII)

• Cluster analysis (cap. IX): metodi gerarchici e non gerarchici

• Segmentazione dei prodotti e dei consumatori

TECNICHE DI ANALISI DEI DATI

Page 49: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Formazione di gruppi omogenei

• Da una matrice n x p ad una matrice k x p con (k << n)

1 x p

1 x p

1 x p

Page 50: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SEGMENTAZIONE COMPORTAMENTALE

(cluster analysis)

Page 51: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Operazione preliminare Individuazione dei valori

anomali (outliers)

Gr 1

Gr. 5

Gr. 8

Gr. 6Gr 2

Gr. 7

Page 52: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Centroidi e matrici di covarianze: definiscono la posizione,

l’orientamento e l’ampiezza dei diversi ellissoidi (gruppi)

۞

۞

۞

۞

۞

۞

Page 53: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Probabilità di appartenenza di un’unità ai diversi gruppi (un’unità

non appartiene completamente ad un gruppo)

Gr 1 (0.3)

Gr. 5 (0)

Gr. 8 (0)

Gr. 6 (0)Gr 2 (0.6)

Gr. 7 (0)

Ciascun cliente è attribuito ad ogni segmento con una certa probabilità

Page 54: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Cluster analysis individuzione di gruppi omogenei) + PCA

(riduzione delle dimensioni) • Input (n x p) Output (n x 2)

Page 55: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Cluster analysis individuzione di gruppi omogenei) + PCA

(riduzione delle dimensioni) • Input (n x p) Output (4 x 2)

Page 56: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempio

• Indicatori di qualità della vita delle province italiane (matrice di input dimensione 103 x 7)

Page 57: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Matrice di outputPC1 e PC2 sono due indicatori sintetici

I colori indicano l’appartenenza ai diversi gruppi

Page 58: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Rappresentazioni dei punti (province) e delle variabili (features) nello spazio

delle prime due CP

Page 59: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Caratteristiche dei file di esercitazione

• Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/ADM/index.htm

Page 60: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Struttura dei file

• File di input (sempre in formato Excel): xxx.xlsx

• File di output (in formato Excel): xxx(out).xlsx • File di output (in formato MATLAB solo

codice): xxxout.m• File di output (in formato MATLAB live script

codice e output del codice): xxxMLX.mlx

Page 61: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Obiettivo

• Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura

• File di input (sempre in formato Excel): htSS.xlsx

• File di output (in formato Excel): htSS(out).xlsx

• File di output: htssout.m• File di output (MATLAB): htssMLX.mlx

Page 62: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

SCOSTAMENTI STANDARDIZZATI

• MILIOLI, RIANI, ZANI, 2016, pp. 154-155• Definizione: zi = (xi –M)/ σ

ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta)

• Proprietà:

1. M = O

2. σ = 13. puri numeri (confrontabili)

MATRICE DEGLI SCOST. STAND. : Z

Page 63: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Ripasso scost. standardizzati

Peso AltezzaA 67 180B 82 167C 74 183D 69 167E 61 167F 93 176

Media 74,33 173,33σ 10,55 6,65

Peso Altezza

-0,695 1,003

0,727 -0,952

-0,032 1,454

-0,506 -0,952

-1,264 -0,952

1,770 0,401

Media 0 0σ 1 1

Valori originali Scostamenti standardizzatiσ

Mxz ii

−=

Page 64: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Panoramica su MATLAB

• Vettori/Matrici (solo dati numerici)• Dati booleani• https://www.mathworks.com/videos/introdu

cing-matlab-fundamental-classes-data-types-68991.html

• Cell e structure (dati misti numerici e qualitativi)

• https://www.mathworks.com/videos/introducing-structures-and-cell-arrays-101508.html

Page 65: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Video di introduzione a MATLAB

• https://www.mathworks.com/videos/introduction-to-matlab-81592.html

Page 66: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Introduzione a MATLAB

• Data una matrice n x p denominata X• X(3,2) = estrae l’elemento 3,2• X(3,:) = estrae la riga 3• X(:,2) = estrae la colonna 2• X(3:4,1:2) = estrae gli elementi all’incrocio

delle righe 3 e 4 e colonne 1 e 2

Page 67: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esempi (supponiamo che la table si chiami X)• Estrazione della riga della table

denominata «P0320»: X('P0320',:)

• Estrazione delle righe della tabledenominate «P0256» e «P0214» e delle prime 3 colonne:

X({'P0256' 'P0214'},1:3)Estrazione della colonna riferita alla variabile «Height»X(:,'Height') oppure X.Height

Page 68: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Importazione di una zona di Excel

• Funzione readtable• https://www.mathworks.com/help/matlab/r

ef/readtable.html

Page 69: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Standardizzazione robusta

• Occorre sostituire M con Me e σ con il MAD

• MAD=Me(|xi –Me|)• Definizione: zi = (xi –Me)/MAD

Page 70: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Calcolo delle statistiche descrittive

• Esercizio: calcolare le statistiche descrittive (media, min, max, standard deviation, varianza, asimmetria e curtosi) per le 3 variabili quantitative presenti nel file ht_SD.xls

• In Excel controllare le formule della varianza dell’asimmetria e della curtosi tramite l’implementazione manuale

Page 71: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Indici di asimmetriaAsimmetria positiva e negativa

Page 72: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

L’indici di curtosi serve per capire se la distribuzione è leptocurtica (code leggere

o iponomali) oppure platicurtica (code pesanti oppure ipernormale)

Page 73: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Formule da utilizzare per gli indici di asimmetria e curtosi

• Indice di curtosi (v. p. 189 libro stat)

• Indice di asimmetria (p. 176)

Page 74: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Traccia di soluzione in Excel

• Dopo aver installato (attivato) il componente aggiuntivo Analisi dei dati

Page 75: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Traccia di soluzione in Excel

Page 76: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Traccia di soluzione in Excel

Page 77: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Output

Page 78: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Ponderazione delle unità

Unità statistiche:• con la stessa importanza• con importanza diversa: ponderazione

Vettore dei pesi (relativi):w = [w1, …, wi, …, wn]’

Esempio dei settori dell’industria (p. 23 e seg.)

Page 79: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Aprire il file Ind_ec.xlsx (indicatori economici) – Calcolare medie e deviazioni standard pesate

per le variabili VA/FATT, COSTO DEL LAVORO PER DIPENDENTE, RETRIBUTIONE LORDA PER DIPENDENTE, INVESTIMENTI PER ADDETTO. Utilizzare come variabile peso il numero di addetti

Page 80: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Media semplice e media ponderata

• Caso particolare:• wi = 1/n → media aritmetica semplice

• Confronto con media ponderata in distribuzione di frequenze

Page 81: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Scostamento quadratico medio ponderato (v. libro di statistica)

Page 82: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Distribuzioni di frequenza con classi equispaziate e non

• Distribuzione di frequenza

• File di partenza: ex23_DE.xls

Page 83: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Distribuzioni di frequenza con classi equispaziate e non

• Tabelle a doppia entrata

• File di partenza: ex23_DE.xls

Page 84: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Creazione di classi da variabili quantitative

• EXCEL: se le classi sono equispaziate si può utilizzare la tabella pivot, altrimenti bisogna utilizzare la funzione frequenza oppure preliminarmente la funzione CERCA.VERT e creare la tabella pivot sulla variabile categorizzata

Page 85: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MATRICE PARTIZIONATA

Partizione: suddivisione d’un insieme in gruppi disgiunti

Partizione delle n unità della matrice dei dati: analisi distinta per ciascun gruppo di unità ed analisi complessiva.

Esempio: clienti con e senza carta fedeltà

Page 86: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Esercizio

• Aprire il file HT.sav oppure htgruppi.xlsx. Calcolare media e standard deviation delle variabili Prezzo e Potenza distinte per la presenza o assenza di RDS.

Page 87: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

Traccia di soluzione tramite EXCEL

• Ci sono tre possibilità• Utilizzo del menu Dati|Subtotali• Filtri + funzione subtotale• Tabelle pivot

Page 88: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

ESTRAZIONE DI UN CAMPIONE CASUALE

• File di input: SondUSA.xls oppure SondUSA.sav

Page 89: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

ESTRAZIONE DI UN CAMPIONE CASUALE (EXCEL)

• Funzione casuale.tra o generazione di numeri casuali uniformi dal componente aggiuntivo Analisi dei Dati

• Utilizzo della funzione INDICE per estrarre i dati

Page 90: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

MATRICE DEI DATI A TRE VIE

• X = [ xist ]• di dimensioni n x p x q• n unità statistiche• p variabili• q tempi

Page 91: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

ESEMPI

• Panel di consumatori:Campione costituito dai medesimi individui

(famiglie) “interrogati” più volte in tempi successivi

www.acnielsen.it (6.000 famiglie)

• Misura dell’audience televisiva:www.auditel.it

Page 92: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

AUDITEL

• Dal 1986, Auditel rileva, 24 ore su 24, minuto per minuto, “tutta” la TV, nazionale e locale, vista attraverso diverse fonti: terrestre, satellitare, analogica e digitale.

• Perché Auditel?Perché la misurazione degli ascolti è un elemento fondamentale per la pianificazione degli spazi pubblicitari, risorse di cui la TV vive.Perché è necessario un organismo “super partes” che operi con trasparenza e affidabilità.

• AUDIWEB

Page 93: $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* - Riani · 2020-03-21 · $1$/,6, '(, '$7, 3(5 ,/ 0$5.(7,1* 0dufr 5ldql puldql#xqlsu lw kwws zzz uldql lw,1)250$=,21, 68/ &2562 2udulr 0(5 iurqwdoh

ANALISI DI MATRICI A TRE VIE

• Analisi distinte per ogni tempo:si ripete q volte lo studio consueto della matrice dei dati n x p.

• Analisi dinamiche:• si studia l’evoluzione nel tempo di ogni unità

con riferimento alle p variabili, • oppure l’evoluzione temporale dei valori di

ogni singola variabile con riferimento alle n unità