Medidas de expresión para microarrays de Affimetrix

52
Medidas de expresión para microarrays de Affimetrix

description

Medidas de expresión para microarrays de Affimetrix. Tipos de microarrays. Las tecnologías para fabricar microarrays utilizan dos tipos de técnicas diferentes: Fabricar las pruebas (“probes”) in vitro para sembrarlas (“spot”) después sobre el chip - PowerPoint PPT Presentation

Transcript of Medidas de expresión para microarrays de Affimetrix

Page 1: Medidas de expresión para microarrays de Affimetrix

Medidas de expresión para microarrays de Affimetrix

Page 2: Medidas de expresión para microarrays de Affimetrix

2

Tipos de microarrays

• Las tecnologías para fabricar microarrays utilizan dos tipos de técnicas diferentes:– Fabricar las pruebas (“probes”) in vitro para

sembrarlas (“spot”) después sobre el chip• Típicamente: chips de cDNA pero también pueden

ser chips de oligonucleótidos

– Fabricar las pruebas in situ, sobre el chip• Típicamente chips de oligonucleótidos de

Affymetrix, pero no los únicos

Page 3: Medidas de expresión para microarrays de Affimetrix

3

Visión general del proceso en chips Affy

@Affymetrix

Page 4: Medidas de expresión para microarrays de Affimetrix

4

• Como en otros microarrays tras escanear la imagen se obtiene una serie de valores de intensidad de cada elemento del chip.

• Estos valores deben preprocesarse antes de realizar cualquier análisis basado en ellos.

• Esto consiste básicamente en:– Corrección del ruido de fondo– Normalización– Resumen de los valores del probe-set

De la intensidad de la imagen a las medidas de expresión

Page 5: Medidas de expresión para microarrays de Affimetrix

5

Medidas de expresión (absoluta)

• A diferencia de los chips de cDNAs, aquí las medidas de expresión son absolutas: cada chip se hibrida con un único tejido

• Hay muchos métodos para estimar la expresión, (más de 30 publicados)

• Cada método contempla de forma explícita o implícita las tres formas de preprocesado: corrección del fondo, normalización y resumen.

Page 6: Medidas de expresión para microarrays de Affimetrix

6

Métodos principales que estudiamos

– Microarray Suite (MAS)• Oficial de Affymetrix. Versiones 4.05.0

– dChip: Li and Wong• Basado en modelos multichip

– RMA (Bioconductor)• Mejora del anterior

Page 7: Medidas de expresión para microarrays de Affimetrix

M.A.S. 4.0 y 5.0

Page 8: Medidas de expresión para microarrays de Affimetrix

8

M.A.S. 4.0

• 1ª medida introducida por Affymetrix

• Corrección del fondo– Ej=PMj-MMj

• Normalización– Global: Transformaciones de forma que la

media de todo el chip sea la misma.

• Resumen de los probesets– Promedio de diferencias absolutas

Page 9: Medidas de expresión para microarrays de Affimetrix

9

MAS 4: Media de diferencias absolutas

j

jj MMPMdiffAvg )(1

.

• Ignora los pares que se desvían más de 3σ de µ• Presenta muchos problemas conocidos

– 1/3 de los MM son mayores que los PM– Pueden aparecer valores MM negativos– El uso de los MM añade ruído

• Ha sido sustituida por otras (MAS 5.0)

Page 10: Medidas de expresión para microarrays de Affimetrix

10

MicroArray Suite 5.0 (i)

• Utiliza un estadístico robusto, el biweight de Tukey, para:– ponderar el fondo (bg) y – calcular (estimar) la señal

• El biweight de Tukey Tbi pondera los valores por su distancia a la mediana m– Mide tendencia central pero– Realiza un ajuste de outliers

Page 11: Medidas de expresión para microarrays de Affimetrix

11

MicroArray Suite 5.0 (ii)

• El valor de MM no siempre tiene sentido, – p.ej si MM > PM no lo tiene

• En este caso: se introduce el background específico de un conjunto de pruebas i de tamaño n basado en los pares de pruebas j:

SBi = Tbi(log(PMi,j)-log(MMi,j)) : j = 1,…,n

• SB se utiliza para decidir como se ajusta el background– Si es grande los datos suelen ser fiables– Si es pequeño mejor basarse tan sólo en PM

Page 12: Medidas de expresión para microarrays de Affimetrix

12

Se introduce el Mismatch idealizado: IM:

, , ,

,, ,

,,, ,

1

si

si y (contraste)2

si y (contraste)

2contraste 0.03, escala 10

i

contrast SBiscale

i j i j i j

i ji j i j iSB

i ji ji j i j i

contrast

MM MM PM

PMMM PM SB

PMIMMM PM SB

MicroArray Suite 5.0 (iii)

Page 13: Medidas de expresión para microarrays de Affimetrix

13

MAS 5.0 (iv): Medida de expresión

• Tras calcular el Mismatch Idealizado se estima la intensidad de las pruenbas individuales (Probe Values) por:

PVi,j=log[max(PMi,j-IMi,j,δ)] , δ=2-20

• Expresión de la prueba

Señali=Tbi(PVi,1,…,PVi,n)

Page 14: Medidas de expresión para microarrays de Affimetrix

14

• No tiene mucho sentido promediar las pruebas entre arrays, pues éstos pueden tener características de hibridación intrínsecamente distintas

• El método no mejora “aprendiendo” del funcionamiento entre arrays de las pruebas individuales

Idea: Ajustar modelos basados en multiples arrays

MAS 5.0 (v): Críticas

Page 15: Medidas de expresión para microarrays de Affimetrix

Modelos multi-chip

Page 16: Medidas de expresión para microarrays de Affimetrix

16

Motivación para modelos multi-chip

• En 2001 Cheng Li & Wing Wong introducen el resumen de la intensidad de las pruebas basado en modelos.

• Basado en una observación bien simple:– Los valores de expresión dentro de un

probeset son muy estables entre arrays,– Es decir es menor la variabilidad inter-chips

que intra-chips.

Page 17: Medidas de expresión para microarrays de Affimetrix

17

Estabilidad entre arrays: 1 chip

Page 18: Medidas de expresión para microarrays de Affimetrix

18

Estabilidad entre arrays: 2 chips

Page 19: Medidas de expresión para microarrays de Affimetrix

19

Estabilidad entre arrays: 5 chips

Page 20: Medidas de expresión para microarrays de Affimetrix

20

Estabilidad entre arrays: 10 chips

Page 21: Medidas de expresión para microarrays de Affimetrix

21

Modelización de las pruebas a nivel de señal individual

Pruebas 1 2 3

chip 1

chip 2

Page 22: Medidas de expresión para microarrays de Affimetrix

22

Modelización de las pruebas a nivel de señal individual

• Li & Wong realizan las siguientes suposiciones:– La señal de cada prueba es proporcional a:

• Cantidad de muestra diana (target):

• Afinidad de la secuencia específica de la prueba por la diana: j– Gran afinidad no significa gran especificidad

• Una prueba puede dar una señal alta con una diana y también con otras secuencias (muy afin y poco específica)

– La señal del MM sólo depende de la cantidad de diana

• MMij = i + ij + ij

– La señal del PM depende de la diana y la afinidad

• PMij = i + ij +ij + ij

Page 23: Medidas de expresión para microarrays de Affimetrix

23

Modelos Multiplicativos

• Asumiendo las suposiciones anteriores y tomando como base de la estimación la diferencia PMij – MMij se obtiene el modelo

multiplicativo:

PMij – MMij= j x i + ij

La estimación se realiza utilizando métodos robustos con eliminación de outliers y re-estimaciones sucesivas hasta la convergencia

Page 24: Medidas de expresión para microarrays de Affimetrix

24

Criticas al modelo de Li-Wong

• El modelo supone homocedasticidad, es decir que la distribución de los errores tiene variancia constante.

• En la práctica, la mayoría de medidas biológicas, presenta errores dependientes depende de la intensidad: a mayor valor suelen tener mayor varianza.

Page 25: Medidas de expresión para microarrays de Affimetrix

El método RMA

Page 26: Medidas de expresión para microarrays de Affimetrix

26

Robust Multi-Array Average

• Para compensar algunas deficiencias del método de dChip, Irizarry et al. introducen un método basado en – Modelización lineal del logaritmo del modelo

anterior– Con la estimación basada en métodos de

estadística robustos.

• Método “preferido” actualmente por muchos usuarios de Bioconductor.

Page 27: Medidas de expresión para microarrays de Affimetrix

27

Robust Multi-array Average (RMA)

I. Ajusta el fondo (background) basandose sólo en los valores PM

II. Toma logaritmos base 2 de cada intensidad ajustada por el background.

III. Realiza una normalización por cuantiles de los valores del paso 2 entre todos los chips.

IV. Realiza un pulido de medianas separadamente para cada conjunto de pruebas sobre una matriz de datos que tiene los arrays en filas y los “probesets” en columnas.

V. Utiliza los efectos filas estimados del punto 4 como medidas específicas de expresión para cada array.

Page 28: Medidas de expresión para microarrays de Affimetrix

28

(I) RMA. Ajuste del fondo (1)

• El método supone que el perfect match depende de una señal y un fondo:

PM = Signal + Background

• siendo– Signal: S ~ exp(λ) y– Background: B ~ N(μ,σ2)

Page 29: Medidas de expresión para microarrays de Affimetrix

29

Densidad de probabilidad de una ley exponencial con pàrámetro alfa=1000

yexp<-dexp(x=1:60000, rate=0.001)plot(1:60000,yexp, t="l", ylim=c(0,0.001),

xlab="Signal",ylab="Exponential

density; Rate =0.0001")

Page 30: Medidas de expresión para microarrays de Affimetrix

30

Densidad de probabilidad de una ley normal

de media 1000 y variancia 300^2

ynorm<-dnorm(x=-300000:300000, mean=1000,sd=300^2)

plot(-300000:300000,ynorm,

t="l",xlab="Backgrnd", ylab="f(b)", main="Normal

density; mu=1000; sigma=300^2")

-3 e+05 -1 e+05 1 e+05 3 e+05

0

e+

00

1

e-0

62

e

-06

3

e-0

64

e

-06

Normal density; mu=1000; sigma=300^2

Background

f(b

)

Page 31: Medidas de expresión para microarrays de Affimetrix

31

Densidad combinada de señal + background

z<-yexp+ynorm2

plot(1:60000,z, t="l", ,xlab="Background+ signal",ylab="f(bck+sig)", main="Combined density:

Normal + exponential")

0 10000 20000 30000 40000 50000 60000

0

e+

00

2

e-0

44

e

-04

6

e-0

48

e

-04

1

e-0

3

Combined density: Normal + exponential

Background+signal

f(b

ck+

sig)

Page 32: Medidas de expresión para microarrays de Affimetrix

32

(I) RMA: Ajuste del fondo (2)

( ) ( )( ) ( ) 122

22

2

-/)(-/)--PM(

/)(-/)--PM(

--PM)PM|S(E

σλσ+μΦσλσμΦ

σλσ+μφσλσμφσ+

λσμ=Densidad de la N(0,1)

Función de distribución de N(0,1)

Estimamos μ, σ, y alfa por separado de cada chip, utilizando la distribución observada de PMs.Introduciendo estos estimadores en la fórmula superiorse obtiene un estimador de E(S|PM) para cada valor de PMÉstos serán los valores ajustados para el background.

Page 33: Medidas de expresión para microarrays de Affimetrix

33

(I) RMA: Ajuste del fondo (y 3)

• ¿Estimación de μ, σ, y alfa?– Estimamos la moda de la distribución de PM utilizando un

estimador de nucleo.– Estimamos la densidad de los valores de PM que se encuentran

por debajo de la moda La moda de esta segunda densidad se toma como estimación de μ.

– Suponemos que los datos que quedan a la izquierda de la estimación de μ son los valores del fondo que quedan por debajo de la media Utilizamos estas observaciones para estimar σ.

– Restamos la estimación de μ de todas las observaciones mayores que la estimación. La moda de esta distribución resultante se toma como estimación de alfa

Page 34: Medidas de expresión para microarrays de Affimetrix

34

Den

sity

Estimación de la densidad de PM basada en datos simulados

Los datos debajo de la moda se utilizan para estimar los parámetros de fondo, μ y σ.

Page 35: Medidas de expresión para microarrays de Affimetrix

35

Den

sity

Estimación de nucleo de los datos que se encuentran Por debajo de la moda de la distribución de PM

Estimación def μ = 1612

Estos datos se utilizan para estimar σ= 642.3.

Page 36: Medidas de expresión para microarrays de Affimetrix

36

Den

sity

Estimación nucleo de los valoresPM – μ mayores de cero

Estimate of 1/λ = 2019

^

La media de estos valores sería un estimador más adecuado para alfa en este ejemplo(La media vale 9848 y alfa=10000.)

Page 37: Medidas de expresión para microarrays de Affimetrix

37

(III) RMA: Normalización por cuantiles

• La idea de este método es forzar la distribución empírica de las intensidades de las pruebas para que sea la misma para cada chip de un experimento.

• Esta distribución común se obtiene promediando cada cuantil entre chips de la manera siguiente:

1. Tras el ajuste de fondo buscar el mínimo valor log2(PM) en cada chip.

2. Promediar los valores del paso 1.

3. Substituir cada valor del paso por el promedio calculado en el paso 2.

4. Repetir los pasos 1 hasta 3 para los segundos valores más pequeños, los terceros más pequeños, … hasta el mayor valor.

Page 38: Medidas de expresión para microarrays de Affimetrix

38

Diagrama esquemático de la normalización por cuantiles

Page 39: Medidas de expresión para microarrays de Affimetrix

39

Page 40: Medidas de expresión para microarrays de Affimetrix

40

Page 41: Medidas de expresión para microarrays de Affimetrix

41

Page 42: Medidas de expresión para microarrays de Affimetrix

42

(IV) RMA: Pulido de medianas• Dado un probe set con J probe pairs, sea yij el valor

ajustado por el fondo, transformado logaritmicamente y normalizado por quantil del chip i y prueba j.

• Supongamos yij = μi + αj + eij con α1 + α2 + ... + αn = 0.

• Se realiza un pulido de medianas de Tukey sobre la matriz de valores yij con yij in la fila ith y la columna jth.

Expresión génica del probe set en el chip i

Residuos de la j-esima pruebaSobre el chip i-esimo

Influencia de la afinidad de las pruebasPor la j-esima prueba del probe set

Page 43: Medidas de expresión para microarrays de Affimetrix

43

(IV) RMA: Pulido de medianas

• Sea yij el valor ajustado de yij que resultará del procedimiento de pulido de medianas.

• Sea αj = y.j – y.. con y.j =Σiyij , y..=ΣiΣjyij, ("I" indica el número de chips).

• Sea μi = yi. =Σjyij / J• μi es la medida de expresión

correspondiente a cada probeset para el chip i.

Page 44: Medidas de expresión para microarrays de Affimetrix

44

An ExampleSuppose the following are background-adjusted, log2-transformed, quantile-normalized PM intensitiesfor a single probe set. Determine the final RMAexpression measures for this probe set.

1 2 3 4 51 4 3 6 4 72 8 1 10 5 113 6 2 7 8 84 9 4 12 9 125 7 5 9 6 10

Gen

eChi

p

Probe

Page 45: Medidas de expresión para microarrays de Affimetrix

45

An Example (continued)

4 3 6 4 7 8 1 10 5 11 6 2 7 8 8 9 4 12 9 12 7 5 9 6 10

48797

rowmedians

0 -1 2 0 3 0 -7 2 -3 3-1 -5 0 1 1 0 -5 3 0 3 0 -2 2 -1 3

matrix afterremoving

row medians

Page 46: Medidas de expresión para microarrays de Affimetrix

46

An Example (continued) 0 -1 2 0 3 0 -7 2 -3 3-1 -5 0 1 1 0 -5 3 0 3 0 -2 2 -1 3

0 -5 2 0 3

column medians

0 4 0 0 0 0 -2 0 -3 0-1 0 -2 1 -2 0 0 1 0 0 0 3 0 -1 0

matrix aftersubtracting

column medians

Page 47: Medidas de expresión para microarrays de Affimetrix

47

An Example (continued)

0 4 0 0 0 0 -2 0 -3 0-1 0 -2 1 -2 0 0 1 0 0 0 3 0 -1 0

0 0-1 0 0

rowmedians

matrix afterremoving

row medians

0 4 0 0 0 0 -2 0 -3 0 0 1 -1 2 -1 0 0 1 0 0 0 3 0 -1 0

Page 48: Medidas de expresión para microarrays de Affimetrix

48

An Example (continued) 0 4 0 0 0 0 -2 0 -3 0 0 1 -1 2 -1 0 0 1 0 0 0 3 0 -1 0

0 1 0 0 0

column medians

matrix aftersubtracting

column medians

0 3 0 0 0 0 -3 0 -3 0 0 0 -1 2 -1 0 -1 1 0 0 0 2 0 -1 0

Page 49: Medidas de expresión para microarrays de Affimetrix

49

An Example (continued)

0 3 0 0 0 0 -3 0 -3 0 0 0 -1 2 -1 0 -1 1 0 0 0 2 0 -1 0

All row medians and column medians are 0.Thus the median polish procedure has converged.This above is the residual matrix that we willsubtract from the original matrix to obtain thefitted values.

Page 50: Medidas de expresión para microarrays de Affimetrix

50

An Example (continued)

0 3 0 0 0 0 -3 0 -3 0 0 0 -1 2 -1 0 -1 1 0 0 0 2 0 -1 0

4 3 6 4 7 8 1 10 5 11 6 2 7 8 8 9 4 12 9 12 7 5 9 6 10

4 0 6 4 78 4 10 8 116 2 8 6 99 5 11 9 127 3 9 7 10

original matrix residuals from median polish

matrix of fitted values

4.28.26.29.27.2

row means= μ1

= μ2

= μ3

= μ4

= μ5

^

^

^

^

^

RMAexpressionmeasuresfor the 5 GeneChips

Page 51: Medidas de expresión para microarrays de Affimetrix

51

R Commands for Obtaining RMA Expression

Measures from Affymetrix .CEL Files

# load the affy package.library(affy)#Set the working directory to the directory containing #all the .CEL files.setwd("C:/z/Courses/Smicroarray/AffyCel")#Read the .CEL file data.Data<-ReadAffy()#Compute the RMA measures of expression.expr=rma(Data)#Write the data to a tab-delimited text file.write.exprs(expr, file="mydata.txt")

Page 52: Medidas de expresión para microarrays de Affimetrix

52

Agradecimientos

• Esta presentación se ha basado en los artículos originales de Boldstat e Irizarry así como en presentaciones de Ben Boldstat y el documento "RMA explained" (de quien no he localizado la autoría )

• Gracias a todos ellos por hacer accesible su material.