Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il...
Transcript of Nessun titolo diapositivasquarcia/DIDATTICA/MSB/6_C... · più importante del fumo! Se il...
SMIDa.a. 2004/2005
Corso di Metodi Statistici in Biomedicina
Correlazione e regressione
28/1/2005
RelazioniChe rapporto c'è tra la pressione arteriosa e il peso corporeo?
relazione tra due variabili continue C'è un legame tra peso corporeo e complicanze cardiovascolari?
una variabile continua (il peso) e una variabile nominale (incidente cerebro-vascolare: si/no)
Che rapporto c'è tra sesso e rischio cardiovascolare? due variabili nominali (sesso: maschio/femmina, complicanza cardiovascolare: si/no)
Variabili continuey
x
rapporto tra x e y descritto
dall’equazione
y = a + bx
a è l'intercetta (y per x = 0)
la retta che meglio interpola i
dati (best fit)
b la pendenza (slope) della retta
operazione su un campione di dati della popolazione
InterpolazioneIl campione fornisce una stima (non una certezza) dei parametri della popolazione per ogni valore della x esistono molti possibili valori
della y che hanno una distribuzione Gaussianail problema è trovare una intercetta e una pendenza della retta tali da minimizzare la distanza di ciascuno dei punti dalla retta
Come per la varianza è conveniente elevare al quadrato le deviazioni dei punti rispetto alla retta e minimizzare la somma dei quadrati delle deviazionimetodo dei “minimi quadrati” o least squares method
ResiduiSono le deviazioni dei
singoli punti dalla retta
le deviazioni dovute alla regressionedistanza delle singole yidalla y media (cioè dalla linea orizzontale)
x
y
y
x
Stima variabilità dei dati
9,003,01,691,30,250,50,64-0,82,251,50,640,81,69-1,30,49-0,70,000,01,691,310,24-3,22,25-1,5
(dev. regr.)2dev. regr.residui2residui
i punti possono essere più o meno distanti dalla retta ∑residui
2 = 7,40 ∑regressione2 = 23,43
se i punti sono molto vicini esiste un rapporto stretto
Coefficiente di correlazione
∑residui2 + ∑regressione
2
∑regressione2
r =
detto anche coefficiente di Pearson
∑residui = 7,40r = 23,24 / 30,83 = 0,76
∑regressione = 23,43
I rapporti tra due variabili possono essere, oltre che consensuali e ascendenti rapporto direttooppure discordanti e discendenti rapporto inverso
55
57
59
61
63
65
67
69
150 160 170 180 190 200
altezza (cm)
peso
(Kg)
peso = 10 + 0,3 altezza
Utilizzo di pacchetti statistici!R2 = 0,9507
y = 10 + 0,3 x
Relazione funzionale
r = 0,9750
valore che minimizza la distanza (al quadrato) tra il valore yi
sperimentale ed il valore yiteorico
40
45
50
55
60
65
70
75
80
85
90
95
150 155 160 165 170 175 180 185 190
Altezze (cm)
Peso
(kg)
Minimi quadrati
r = 0.7624y = 1,1039 x – 125.75 R2 = 0.5812
Variabili ordinali
uso approccio diverso dal metodo dei minimi quadrati Stadi di malattia, numero di individui affetti, ecc.)
le variabili x e y vengono ordinate in serie crescenti per testare il loro accordo gerarchico (ranghi)
L’accordo è ideale quando al più basso valore di x corrisponde il più basso valore di y e così via fino ad arrivare ai valori massimi
Coefficiente di correlazione di Spearmancoincide con il coefficiente di correlazione
per serie di dati >20
Esempio ambiguo
145155165175185195
0 1 2 3 4 5 6
Tipo di diploma
Alte
zza
(cm
)Date le altezze (cm) di studenti verso il tipo di diploma acquisito qual è il tipo di correlazione?
Correlazione nulla?!
Tipo di calcolo identico sia per effettuare un'analisi di correlazione o un'analisi di regressione dei dati
Altra espressioneCoefficiente di Pearson indica grado di correlazione
r = ∑ (xi – mx) (yi – my) / √ ∑ (xi – mx)2 ∑ (yi – my)2
Il valore di r assume tutti i numeri reali tra -1 ≤ r ≤ 1Valori positivi di r indicano correlazione positiva
Valori negativi di r indicano correlazione negativar = 0 indica assenza di correlazioner = 1 si ha correlazione diretta completa (funzionale)r = – 1 correlazione inversa completa (funzionale)
Correlazione non implica relazione causale!
CovarianzaCome si è definita la varianza di una variabile x
Var(x) = ∑ (xi – mx)2 / N si definisce covarianza di due variabili x ed y come:
Cov(x, y) = ∑ (xi – mx) (yi – my) / N
Varianza non è altro che la covarianza di x con x stessoIl coefficiente di correlazione
Può essere quindi visto comer = ∑ (xi – mx) (yi – my) / √ ∑ (xi – mx)2 ∑ (yi – my)2
r(x,y) = Cov(x, y) / √ Var(x) Var(y)
Validità della correlazione
02000400060008000100001200014000160001800020000
0 5 10 15 20
0
5000
10000
15000
20000
25000
0 5 10 15 20
R buono ma ingannevolecresce rapidamente, ha un massimo e poi tende
a decrescere
r = 0,773627Pensione annua (€) rispetto agli anni di contributi
R = 0,773622R buono e valido
cresce costantemente all’aumentare degli anni di contributi
CorrelazioneSi calcola quando siamo interessati a quantificare la forza dell'associazione tra due variabili continue e la direzione del loro accordo R2 detto coefficiente di determinazione, esprime in che misura la variabilità di una certa variabile y si associa a quella di un'altra variabile x
R2 = 0.70 0.70 = 0.49Se r = 0.70Questo vuol dire che il 49% della variabilità di y è spiegato dalla concomitante variabilità di x
stime valide solo se i valori di x sono casuali
RegressioneIn un problema di regressione le due variabili non svolgono più un ruolo simmetrico (associazione)Nella regressione lo studio consiste nella ricerca della relazione funzionale tra i valori della variabile x ed i valori medi della variabile y
non è tanto la forza dell'associazione tra le due variabili quanto
la stima di una variabile essendo nota l'altrache sarà ovviamente più o meno precisa in dipendenza della forza della loro correlazione
Uso della regressionepeso = 10 + 0,3 · altezza
peso [Kg] = 10 [Kg] + 0,3 [Kg/cm] · altezza [cm]possiamo stimare che un soggetto alto 150 cm ha un peso di 55 kg e uno alto 200 cm pesi 70 Kg
ci fideremo poco di questa stima se il coefficiente di correlazione è basso (ad esempio se r = 0.3)
R2 = 0.09 indica che solo il 9% della variabilità del peso è spiegata dalla variabilità dell'altezza
Viceversa daremmo valore alla stima se r = 0.80 (R2 = 0.64) o r = 0.90 (R2 = 0.81)
ConclusioneCorrelazione e regressione non sono la stessa cosa
Si può trovare un’identica correlazione tra due serie di valori senza che questo implichi che le due serie di valori siano descritte da rette identiche
cioè con la stessa intercetta e la stessa pendenza
Viceversa noi possiamo comunque essere interessati a stimare un certo valore di y a partire da un valore dato di x
ossia la regressione di y su xanche se la forza dell’associazione non è elevata
Regressione multiplaPossiamo stimare la pressione arteriosa media a partire dal peso dei pazienti e stabilire la forza di questa associazione (correlazione) Tuttavia oltre al peso corporeo, molti altri fattori possono influenzare la pressione arteriosa, ad es. il numero di sigarette fumate, l'apporto di sale, ecc…Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi
Se la variabile è influenzata da più variabili essa può essere stimata con la regressione multipla
Parametri Possiamo immaginare un'equazione analoga alla regressione lineare ma fondata su più variabili
la pressione arteriosa media (PAM) può essere stimata in base al peso e al fumo
Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della stima e pertanto sarebbe riduttivo escluderle dall'analisi
PAM = a + b · peso + c · n_sigarette
b e c sono i coefficienti del peso corporeo e del numero di sigarette
a è l'intercetta della regressione multipla
Correlazione multipla
PAM a = 90 mmHg, b = 0.6 Kg, c = 0.5 sigarette
PAM = 90 + 0.6 · 100 + 0.5 · 20 = 160 mmHgLe equazioni multiple possono avere molte variabili indipendenti e altrettanti coefficienti (b, c, d, e, ….)
peso
un uomo che pesa 100 Kg e fuma 20 sigarette al giorno
numero sigarette
coefficienti di regressione indicati con la lettera Bi
Componenti multipleNella regressione multipla la forza dell'associazione tra la variabile dipendente e le variabili indipendenti è espressa dal coefficiente di regressione multipla (R) e dal relativo coefficiente di determinazione (R2)Ai singoli coefficienti di regressione che compongono l'equazione si può attribuire una significatività
basta paragonare di volta in volta il coefficiente di determinazione (R2) del modello (full model)
con un secondo coefficiente di determinazione (R’2) calcolato escludendo la variabile corrispondente cioè con un modello ridotto (reduced model)
Verifica dei modelliSe l'R2 non si modifica vuol dire che il coefficiente non è significativo viceversa sarà tanto più
significativo quanto più si abbassa l'R2
I valori espressi nei coefficienti di regressione consentono di predire la variabile dipendente ma non ci danno alcuna informazione sul loro peso relativo
Per predire la pressioneè più importante il peso o il fumo?
I coefficienti di regressione sono espressi in unità di misura differenti e i loro valori non possono essere paragonati
StandardizzazionePer rendere paragonabili i valori dei coefficienti di regressione possiamo standardizzarli Una volta trasformati i coefficienti di regressione in coefficienti di regressione standardizzati (o beta) possiamo metterli a confronto e stabilire l'importanza relativa di ciascuna variabile indipendente
il peso è un determinante per la pressione arteriosa media 2 volte più importante del fumo!
Se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1
Scelta delle variabiliUn modello statistico è tanto più efficiente quanto minore è il numero di variabili indipendenti (explanatory variables) che utilizza per predire) la variabile dipendente con adeguata accuratezza
Una variabile indipendente con una coefficiente standardizzato basso contribuisce poco alla stima della variabile dipendente e complica inutilmente l'equazione multipla
Se, ad esempio, abbiamo 7 variabili indipendenti ci possiamo chiedere quali di queste 7 vale la pena introdurre nell'equazione
Costruzione dei modelli Per costruire un modello multiplo possiamo partire da una sola variabile indipendente quindi aggiungerne una seconda
Se il coefficiente di determinazione (R2) aumenta possiamo giudicare opportuno utilizzare anche la seconda variabile indipendente
Procediamo quindi con una terza variabile e ripetiamo la stessa verifica e così via
Questo modo di procedere introducendo una variabile per volta è la tecnica stepwise
I dati vengono in genere presentati in tabelle
Tabelle di scelta
----4
n.s.1 %0,49sale3
< 0,0116 %0,48fumo2
<0,010,32peso1
probabilitàvariazioneR2variabilestep
Introducendo la seconda variabile l'R2 passa da 0.32 a 0.48 (cioè l'equazione predice con accuratezza del 16% più alta la variabile dipendente)
stop quando non c'è più guadagno in significativitàquesto aumento di R2 è significativo
Sequenza variabili Utilizzare una gerarchia predeterminata in base alla nostra conoscenza dei fenomeni
oppure lasciarci guidare dal computer
Decidiamo di introdurre prima il peso perché il rapporto tra peso e pressione è stato largamente confermato
la forza dell'associazione espressa da un certo coefficiente standardizzato è influenzata dalle oscillazioni casuali dei dati
mentre il rapporto fumo/pressione è meno certofumatori abituali non più ipertesi dei non fumatori
MulticollinearitàUna variabile indipendente che molto correlata alla variabile dipendente delude quando viene inserita nella regressione multipla
Se l'apporto alimentare di sale e la pressione arteriosa sono correlati tra loro l'r risulta elevato (0.5)
essa si correla anche alle variabili precedentemente introdotte (multicollinearità) e per questo aggiunge poche informazioni all'equazione
introducendolo nel modello multiplo l'R2 varia 1%i pazienti che introducono più sale sono anche più grassi e fumano molto e viceversa