Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il...

29
SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Correlazione e regressione 28/1/2005

Transcript of Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il...

Page 1: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

SMIDa.a. 2004/2005

Corso di Metodi Statistici in Biomedicina

Correlazione e regressione

28/1/2005

Page 2: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

RelazioniChe rapporto c'è tra la pressione arteriosa e il peso corporeo?

relazione tra due variabili continue C'è un legame tra peso corporeo e complicanze cardiovascolari?

una variabile continua (il peso) e una variabile nominale (incidente cerebro-vascolare: si/no)

Che rapporto c'è tra sesso e rischio cardiovascolare? due variabili nominali (sesso: maschio/femmina, complicanza cardiovascolare: si/no)

Page 3: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Variabili continuey

x

rapporto tra x e y descritto

dall’equazione

y = a + bx

a è l'intercetta (y per x = 0)

la retta che meglio interpola i

dati (best fit)

b la pendenza (slope) della retta

operazione su un campione di dati della popolazione

Page 4: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

InterpolazioneIl campione fornisce una stima (non una certezza) dei parametri della popolazione per ogni valore della x esistono molti possibili valori

della y che hanno una distribuzione Gaussianail problema è trovare una intercetta e una pendenza della retta tali da minimizzare la distanza di ciascuno dei punti dalla retta

Come per la varianza è conveniente elevare al quadrato le deviazioni dei punti rispetto alla retta e minimizzare la somma dei quadrati delle deviazionimetodo dei “minimi quadrati” o least squares method

Page 5: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

ResiduiSono le deviazioni dei

singoli punti dalla retta

le deviazioni dovute alla regressionedistanza delle singole yidalla y media (cioè dalla linea orizzontale)

x

y

y

x

Page 6: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Stima variabilità dei dati

9,003,01,691,30,250,50,64-0,82,251,50,640,81,69-1,30,49-0,70,000,01,691,310,24-3,22,25-1,5

(dev. regr.)2dev. regr.residui2residui

i punti possono essere più o meno distanti dalla retta ∑residui

2 = 7,40 ∑regressione2 = 23,43

se i punti sono molto vicini esiste un rapporto stretto

Page 7: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Coefficiente di correlazione

∑residui2 + ∑regressione

2

∑regressione2

r =

detto anche coefficiente di Pearson

∑residui = 7,40r = 23,24 / 30,83 = 0,76

∑regressione = 23,43

I rapporti tra due variabili possono essere, oltre che consensuali e ascendenti rapporto direttooppure discordanti e discendenti rapporto inverso

Page 8: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

55

57

59

61

63

65

67

69

150 160 170 180 190 200

altezza (cm)

peso

(Kg)

peso = 10 + 0,3 altezza

Utilizzo di pacchetti statistici!R2 = 0,9507

y = 10 + 0,3 x

Relazione funzionale

r = 0,9750

Page 9: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

valore che minimizza la distanza (al quadrato) tra il valore yi

sperimentale ed il valore yiteorico

40

45

50

55

60

65

70

75

80

85

90

95

150 155 160 165 170 175 180 185 190

Altezze (cm)

Peso

(kg)

Minimi quadrati

r = 0.7624y = 1,1039 x – 125.75 R2 = 0.5812

Page 10: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Variabili ordinali

uso approccio diverso dal metodo dei minimi quadrati Stadi di malattia, numero di individui affetti, ecc.)

le variabili x e y vengono ordinate in serie crescenti per testare il loro accordo gerarchico (ranghi)

L’accordo è ideale quando al più basso valore di x corrisponde il più basso valore di y e così via fino ad arrivare ai valori massimi

Coefficiente di correlazione di Spearmancoincide con il coefficiente di correlazione

per serie di dati >20

Page 11: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Esempio ambiguo

145155165175185195

0 1 2 3 4 5 6

Tipo di diploma

Alte

zza

(cm

)Date le altezze (cm) di studenti verso il tipo di diploma acquisito qual è il tipo di correlazione?

Correlazione nulla?!

Tipo di calcolo identico sia per effettuare un'analisi di correlazione o un'analisi di regressione dei dati

Page 12: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Altra espressioneCoefficiente di Pearson indica grado di correlazione

r = ∑ (xi – mx) (yi – my) / √ ∑ (xi – mx)2 ∑ (yi – my)2

Il valore di r assume tutti i numeri reali tra -1 ≤ r ≤ 1Valori positivi di r indicano correlazione positiva

Valori negativi di r indicano correlazione negativar = 0 indica assenza di correlazioner = 1 si ha correlazione diretta completa (funzionale)r = – 1 correlazione inversa completa (funzionale)

Correlazione non implica relazione causale!

Page 13: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

CovarianzaCome si è definita la varianza di una variabile x

Var(x) = ∑ (xi – mx)2 / N si definisce covarianza di due variabili x ed y come:

Cov(x, y) = ∑ (xi – mx) (yi – my) / N

Varianza non è altro che la covarianza di x con x stessoIl coefficiente di correlazione

Può essere quindi visto comer = ∑ (xi – mx) (yi – my) / √ ∑ (xi – mx)2 ∑ (yi – my)2

r(x,y) = Cov(x, y) / √ Var(x) Var(y)

Page 14: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Validità della correlazione

02000400060008000100001200014000160001800020000

0 5 10 15 20

0

5000

10000

15000

20000

25000

0 5 10 15 20

R buono ma ingannevolecresce rapidamente, ha un massimo e poi tende

a decrescere

r = 0,773627Pensione annua (€) rispetto agli anni di contributi

R = 0,773622R buono e valido

cresce costantemente all’aumentare degli anni di contributi

Page 15: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

CorrelazioneSi calcola quando siamo interessati a quantificare la forza dell'associazione tra due variabili continue e la direzione del loro accordo R2 detto coefficiente di determinazione, esprime in che misura la variabilità di una certa variabile y si associa a quella di un'altra variabile x

R2 = 0.70 0.70 = 0.49Se r = 0.70Questo vuol dire che il 49% della variabilità di y è spiegato dalla concomitante variabilità di x

stime valide solo se i valori di x sono casuali

Page 16: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

RegressioneIn un problema di regressione le due variabili non svolgono più un ruolo simmetrico (associazione)Nella regressione lo studio consiste nella ricerca della relazione funzionale tra i valori della variabile x ed i valori medi della variabile y

non è tanto la forza dell'associazione tra le due variabili quanto

la stima di una variabile essendo nota l'altrache sarà ovviamente più o meno precisa in dipendenza della forza della loro correlazione

Page 17: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Uso della regressionepeso = 10 + 0,3 · altezza

peso [Kg] = 10 [Kg] + 0,3 [Kg/cm] · altezza [cm]possiamo stimare che un soggetto alto 150 cm ha un peso di 55 kg e uno alto 200 cm pesi 70 Kg

ci fideremo poco di questa stima se il coefficiente di correlazione è basso (ad esempio se r = 0.3)

R2 = 0.09 indica che solo il 9% della variabilità del peso è spiegata dalla variabilità dell'altezza

Viceversa daremmo valore alla stima se r = 0.80 (R2 = 0.64) o r = 0.90 (R2 = 0.81)

Page 18: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

ConclusioneCorrelazione e regressione non sono la stessa cosa

Si può trovare un’identica correlazione tra due serie di valori senza che questo implichi che le due serie di valori siano descritte da rette identiche

cioè con la stessa intercetta e la stessa pendenza

Viceversa noi possiamo comunque essere interessati a stimare un certo valore di y a partire da un valore dato di x

ossia la regressione di y su xanche se la forza dell’associazione non è elevata

Page 19: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Regressione multiplaPossiamo stimare la pressione arteriosa media a partire dal peso dei pazienti e stabilire la forza di questa associazione (correlazione) Tuttavia oltre al peso corporeo, molti altri fattori possono influenzare la pressione arteriosa, ad es. il numero di sigarette fumate, l'apporto di sale, ecc…Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi

Se la variabile è influenzata da più variabili essa può essere stimata con la regressione multipla

Page 20: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Parametri Possiamo immaginare un'equazione analoga alla regressione lineare ma fondata su più variabili

la pressione arteriosa media (PAM) può essere stimata in base al peso e al fumo

Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi

PAM = a + b · peso + c · n_sigarette

b e c sono i coefficienti del peso corporeo e del numero di sigarette

a è l'intercetta della regressione multipla

Page 21: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Correlazione multipla

PAM a = 90 mmHg, b = 0.6 Kg, c = 0.5 sigarette

PAM = 90 + 0.6 · 100 + 0.5 · 20 = 160 mmHgLe equazioni multiple possono avere molte variabili indipendenti e altrettanti coefficienti (b, c, d, e, ….)

peso

un uomo che pesa 100 Kg e fuma 20 sigarette al giorno

numero sigarette

coefficienti di regressione indicati con la lettera Bi

Page 22: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Componenti multipleNella regressione multipla la forza dell'associazione tra la variabile dipendente e le variabili indipendenti è espressa dal coefficiente di regressione multipla (R) e dal relativo coefficiente di determinazione (R2)Ai singoli coefficienti di regressione che compongono l'equazione si può attribuire una significatività

basta paragonare di volta in volta il coefficiente di determinazione (R2) del modello (full model)

con un secondo coefficiente di determinazione (R’2) calcolato escludendo la variabile corrispondente cioè con un modello ridotto (reduced model)

Page 23: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Verifica dei modelliSe l'R2 non si modifica vuol dire che il coefficiente non è significativo viceversa sarà tanto più

significativo quanto più si abbassa l'R2

I valori espressi nei coefficienti di regressione consentono di predire la variabile dipendente ma non ci danno alcuna informazione sul loro peso relativo

Per predire la pressioneè più importante il peso o il fumo?

I coefficienti di regressione sono espressi in unità di misura differenti e i loro valori non possono essere paragonati

Page 24: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

StandardizzazionePer rendere paragonabili i valori dei coefficienti di regressione possiamo standardizzarli Una volta trasformati i coefficienti di regressione in coefficienti di regressione standardizzati (o beta) possiamo metterli a confronto e stabilire l'importanza relativa di ciascuna variabile indipendente

il peso è un determinante per la pressione arteriosa media 2 volte più importante del fumo!

Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1

Page 25: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Scelta delle variabiliUn modello statistico è tanto più efficiente quanto minore è il numero di variabili indipendenti (explanatory variables) che utilizza per predire) la variabile dipendente con adeguata accuratezza

Una variabile indipendente con una coefficiente standardizzato basso contribuisce poco alla stima della variabile dipendente e complica inutilmente l'equazione multipla

Se, ad esempio, abbiamo 7 variabili indipendenti ci possiamo chiedere quali di queste 7 vale la pena introdurre nell'equazione

Page 26: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Costruzione dei modelli Per costruire un modello multiplo possiamo partire da una sola variabile indipendente quindi aggiungerne una seconda

Se il coefficiente di determinazione (R2) aumenta possiamo giudicare opportuno utilizzare anche la seconda variabile indipendente

Procediamo quindi con una terza variabile e ripetiamo la stessa verifica e così via

Questo modo di procedere introducendo una variabile per volta è la tecnica stepwise

I dati vengono in genere presentati in tabelle

Page 27: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Tabelle di scelta

----4

n.s.1 %0,49sale3

< 0,0116 %0,48fumo2

<0,010,32peso1

probabilitàvariazioneR2variabilestep

Introducendo la seconda variabile l'R2 passa da 0.32 a 0.48 (cioè l'equazione predice con accuratezza del 16% più alta la variabile dipendente)

stop quando non c'è più guadagno in significativitàquesto aumento di R2 è significativo

Page 28: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

Sequenza variabili Utilizzare una gerarchia predeterminata in base alla nostra conoscenza dei fenomeni

oppure lasciarci guidare dal computer

Decidiamo di introdurre prima il peso perché il rapporto tra peso e pressione è stato largamente confermato

la forza dell'associazione espressa da un certo coefficiente standardizzato è influenzata dalle oscillazioni casuali dei dati

mentre il rapporto fumo/pressione è meno certofumatori abituali non più ipertesi dei non fumatori

Page 29: Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1 . Scelta delle

MulticollinearitàUna variabile indipendente che molto correlata alla variabile dipendente delude quando viene inserita nella regressione multipla

Se l'apporto alimentare di sale e la pressione arteriosa sono correlati tra loro l'r risulta elevato (0.5)

essa si correla anche alle variabili precedentemente introdotte (multicollinearità) e per questo aggiunge poche informazioni all'equazione

introducendolo nel modello multiplo l'R2 varia 1%i pazienti che introducono più sale sono anche più grassi e fumano molto e viceversa