Bioinformatics – Functional Genomics – Dr. Víctor Treviño.

of 23/23
MICROARRAYS EXCERSIZE - GEO Bioinformatics – Functional Genomics – Dr. Víctor Treviño
  • date post

    11-Apr-2015
  • Category

    Documents

  • view

    117
  • download

    2

Embed Size (px)

Transcript of Bioinformatics – Functional Genomics – Dr. Víctor Treviño.

  • Diapositiva 1
  • Bioinformatics Functional Genomics Dr. Vctor Trevio
  • Diapositiva 2
  • [email protected] MeV del sitio de TM4 (www.tm4.org)
  • Diapositiva 3
  • [email protected] GEO es una base de datos genrica en formato standard para almacenar y compartir datos de microarreglos Como ejemplo vamos a buscar datos de Cncer de Mama Busque Breast Cancer en GEO Filtre para Homo Sapiens Seleccione Series Agregue Schmidt en el query (deben aparecer 3) Localice Schmidt-Gehrmann- Breast-GSE11121
  • Diapositiva 4
  • [email protected] ARCHIVO/I D CONTENIDO GSMMuestra GPLPlataforma: Informacin del diseo del microarreglo GSEMatriz de datos, Serie Original proporcionada por autores GDSData Set : Procesado por el NCBI, anlisis bsico ya hecho OtrosInformacin adicional proporcionada por autores Descargue el Series Matrix File Algo de ayuda del archivo
  • Diapositiva 5
  • [email protected] Descomprima el GSE11121...gz Abra en Excel el archivo GSE11121_series_matrix.tx t (texto, delimitado) Comentatios con (!) Serie Samples Datos normalizados por arreglo Datos NO Normalizados entre arreglos Cada columna es una muestra (GSM) Cada rengln es un gen
  • Diapositiva 6
  • [email protected] Abra MeV Use File Load Data MeV puede leer archivos de diferentes formatos El nuestro es de tipo Affymetrix pero obtenido desde GEO Use Select File Loader GEO Files Use Spotted para que no cambie los datos. MeV manual In addition to being formatted correctly, the input data should already be normalized.
  • Diapositiva 7
  • [email protected] Muestras en horizontal Genes en Vertical Color en la Interseccin es el valor de intensidad Cambio de colores (Scheme) Y escalas (Scale) Use valores cercanos al Lower, MidPoint y Upper
  • Diapositiva 8
  • [email protected] Siempre vea Expression Image Realice la operacin Log2 (si los datos no son ya logaritmicos) Adjust Log Trans.. Log2 Ahora nos falta normalizar entre arreglos usamos Adjust Sample Normalize Samples Esto Estandariza los datos v ij = (v ij mean(v i )) / sd(v i ) Donde i es la muestra y j es el gen
  • Diapositiva 9
  • [email protected] Ajuste la visualizacin para que muestre Verde = Valores de expresin BAJOS Negro = Valores de expresin Medios Rojo = Valores de Expresin ALTOS Lmites Prcticos menores que los extremos Considere los valores de sus datos (encerrados en valos) +4.21 (mximo) Mnimo -4.31 0.05 50% datos (mediana) Distribucin De los datos
  • Diapositiva 10
  • [email protected] Dado que lemos un GEO, las muestras no aparecen agrupadas en MeV, tenemos que indicar cuales son nuestros grupos de muestras para poder hacer operaciones estadsticas Para agrupar muestras Use Cluster Manager Sample Clusters Use el botn Cluster by List Import En el texto puede pegar las muestras que desee agrupar Tiene que pegarlas EXACTAMENTE como aparecen en MeV (incluso comillas si estas aparecen)
  • Diapositiva 11
  • [email protected] Para hacer los grupos requiere de informacin clnica o relacionada a las muestras del experimento Por ejemplo, puede guiarse del mismo archivo GSE data matrix.txt y de los renglones samples characteristics 1. Copiar y pegar especial (transposed) muestras e informacin clnica y los nombres 2. Ordenar por carcterstica (grade) 3. Agregar Comillas (usando la funcin concatenate) 1. =CONCATENATE("""",B2,"""") 4. Tomar los nombres de las muestras y ponerlos en el Cluster Paste List de Mev, Use OK 5. Use Store Cluster y especifique el Nombre (Label) y Color del grupo 1 1 2 2 5 5 3 3 4 4
  • Diapositiva 12
  • [email protected] Statistics->T-test Between Subjetcs Para comparar un grupo vs otro Variance Asumption Usar Unequal variance Para que sea mas general P-Value Parameters 0.05 cuando se hace 1 prueba, saldrn 5% de falsos Vamos a hacer + 20,000 pruebas t, tenemos que fijar el valor crtico mucho mas abajo Usar 0.00005 = (1/20000) o incluso menor
  • Diapositiva 13
  • [email protected] Informacin General Use t-Test Expression Image Significant Genes Se ve clara la diferencia? No estn muy bien ordenados verdad? Se ve clara la diferencia? No estn muy bien ordenados verdad?
  • Diapositiva 14
  • [email protected] Establezca los genes significativos como la fuente de datos activa usando botn derecho y Set as Data Source (debe enmarcarse en verde indicando la activacin) Use Clustering Hierarchical Active las 2 casillas de Tree Selection : Gene Tree y Sample Tree Use Euclidean Distance Use Average Linkage (vea siguiente diapositiva para explicacin) Active las 2 casillas de Tree Selection : Gene Tree y Sample Tree Use Euclidean Distance Use Average Linkage (vea siguiente diapositiva para explicacin)
  • Diapositiva 15
  • [email protected] Clustering son mtodos de agrupar objetos mediante la similitud de sus propiedades Por ejemplo puedo agrupar autos en base a su color, forma, tamao, desempeo o potencia Tambin los puedo agrupar considerando todas las carctersticas al mismo tiempo Para agrupar objetos por similitud, requerimos una funcin de similitud o en su caso, una funcin de distancia Una medida de distancia tipica es la distancia euclideana Cual es la distancia entre los puntos A y B ? A B -2 +3 +1
  • Diapositiva 16
  • [email protected] Como podras agrupar los objetos del A a la G ? Que grupos se forman? Claramente A+B+C vs F+G+E Donde ponemos a D ? Junto A+B+C o junto F+G+E ? Observa el cluster ABC, A y B estn muy juntos, deberamos separar a C ? A B -2 +3 +1 C D E F G
  • Diapositiva 17
  • [email protected] El mtodo de agrupamiento jerrquico considera y resuelve las cuestiones observadas Se basa en calcular una matriz de distancias Luego agrupa todos los pares de muestras ms cercanas (cuya distancia sea mnima) Por ejemplo AB, luego FG Luego va uniendo las sobrantes dependiendo de la distancia y el mtodo de ligamiento (linkage) Ms cercano (single linkage) Ms lejano (complete linkage) Promedio (average linkage) Mas usado en genmica funcional E se unira a FG luego C a AB Luego D a EFG y luego DEFG a ABC A B -2 +3 +1 C D E F G ABCDEFG
  • Diapositiva 18
  • [email protected] ABCDEF B0.50 C1.411.12 D2.693.164.03 E4.274.745.022.92 F4.925.395.593.610.71 G4.595.035.153.580.750.56 XY A2.53 B33 C3.52 D04 E-1.51.5 F-21 G-1.50.75 Matriz de Distancias Datos Promedio = 1.265 Promedio = 3.3
  • Diapositiva 19
  • [email protected] En nuestro caso un objeto (A o B) podra ser la muestra o el gen. Si el objeto es la muestra, tenemos 1223 genes dif. Exp., como calculamos la distancia euclideana? Donde X ij es la expresin del gen j en la muestra i o k Luego se obtiene la matriz de distancias y luego el rbol jerrquico En 2 dimensiones, cual es la distancia entre los puntos A y B ? A B -2 +3 +1
  • Diapositiva 20
  • [email protected] Seleccione HCL(2) HCL Tree Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 3 Grado 1 Grado 3 Grado 2 Grupo mayoritariamente Grado 1 Grupo mayoritariamente Grado 1 Clustering por Muestras Clustering Por Genes
  • Diapositiva 21
  • [email protected] Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 1 Grupo mayoritariamente Grado 1 Genes expresados BAJO en Grupo 3 y ALTO en Grupo 1 Grado 1 Grado 3 Grado 2
  • Diapositiva 22
  • [email protected] Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 1 Grupo mayoritariamente Grado 1 Genes expresados ALTO en Grupo 3 y BAJO en Grupo 1 Grado 1 Grado 3 Grado 2
  • Diapositiva 23
  • [email protected] Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 3 Grupo mayoritariamente Grado 1 Grupo mayoritariamente Grado 1 Genes con poca diferencia podran ser falsos Grado 1 Grado 3 Grado 2