Caracterización genética de líneas dobles haploides de ...

INSTITUTO POLITÉCNICO NACIONAL

CENTRO INTERDISCIPLINARIO DE INVESTIGACIÓN PARA EL DESARROLLO INTEGRAL REGIONAL

UNIDAD SINALOA

Caracterización genética de líneas dobles haploides de maíz para el desarrollo de híbridos

con potencial agronómico en Sinaloa

TESIS

QUE PARA OBTENER EL GRADO DE MAESTRÍA EN RECURSOS NATURALES Y MEDIO AMBIENTE

PRESENTA:

CARLOS ALBERTO RÍOS SANDOVAL

GUASAVE, SINALOA; MÉXICO DICIEMBRE 2017

IV

Agradecimiento a proyectos El trabajo de tesis se desarrolló en el Departamento de Biotecnología Agrícola del

Centro Interdisciplinario de Investigación para el Desarrollo Integral Regional

(CIIDIR) Unidad Sinaloa del Instituto Politécnico Nacional (IPN). El presente

trabajo fue apoyado económicamente a través de los proyectos Sustentabilidad

del maíz: Búsqueda de bacterias solubilizadoras de fosfato en maíz, análisis de la

diversidad genética de maíces criollos y diversidad de hongos micorrízicos

arbusculares asociados al cultivo de maíz (Con número de registro 20161778),

Propagación de aguacate no comercial y obtención de extractos crudos con

potencial actividad biológica (Con número de registro 20170317),

Microorganismos asociados a maíz, tomate y otros cultivos de importancia

económica para el desarrollo agrícola sustentable en Sinaloa (Con número de

registro 20170939) y Selección asistida por genotipificación por secuenciación de

líneas dobles haploide duplicados de maíz blanco y amarillo con alto contenido de

aceite para el subtrópico Mexicano perteneciente al proyecto de investigación de

recursos fiscales 2015 de INIFAP. El alumno Carlos Alberto Ríos Sandoval fue

apoyado con una beca CONACYT con clave: 425092.

V

Dedicatoria y Agradecimientos Este trabajo va dedicado a todas las personas que han sido parte de mi

formación, pero especialmente a mi familia, principalmente a mis padres quienes

siempre me han guiado por un camino donde siempre busqué superarme, a mi

hija por ser mi mayor inspiración, mi motivo, mi motor de mejorar cada día, a mis

directores de tesis, y a mis amigos del laboratorio de Genómica Funcional. ¡Con

su ayuda este logro fue posible!

Agradezco al Centro Interdisciplinario de Investigación para el Desarrollo Integral

Regional (CIIDIR) Unidad Sinaloa, por abrirme sus puertas y proveerme la

oportunidad de realizar una maestría. A mis directores de tesis el Dr. Eduardo

Sandoval Castro y el Dr. Ignacio Eduardo Maldonado Mendoza, por todo su

tiempo, paciencia y conocimientos compartidos durante mi estancia en este centro

de investigación, quedando completamente agradecido por que hayan sido parte

de mi crecimiento profesional. A mi comité tutorial Dr. Carlos Ligne Calderón

Vázquez, Dra. Ana Laura Domínguez Orozco, M.C. Luis Alberto Peinado Fuentes

por sus consejos, siempre buscando enriquecer este proyecto. Al Dr. Abraham

Cruz Mendivil por su apoyo, ayuda y asesoramiento en el aprendizaje de

principios básicos de bioinformática. Al M.C Eric Gerardo González Segovia por la

capacitación en análisis bioinformáticos para la identificación de SNPs en datos

crudos de secuenciación masiva. A mis compañeros de laboratorio: Carolina

Valdez, Nadia Douriet, Priscila Gaytan, Mireya Higuera, Juan Pablo Valenzuela,

María Fernanda Dávila, María Fernanda Medina, y a los demás compañeros de

prácticas profesionales por su apoyo, amistad incondicional y por hacerme sentir

parte del laboratorio de Genómica Funcional.

Un agradecimiento más al Departamento de Servicio de Análisis Genético para la

Agricultura (SAGA) perteneciente al Centro Internacional de Mejoramiento de

Maíz y Trigo por el servicio de secuenciación y genotipado de las líneas de maíz

utilizadas en este trabajo por medio de la tecnología DArT-GBS por parte del

programa MasAgro Biodiversidad.

VI

ÍNDICE

GLOSARIO ............................................................................................................. IX

ÍNDICE DE FIGURAS .......................................................................................... XIII

ÍNDICE DE CUADROS ........................................................................................ XV

RESUMEN .......................................................................................................... XVI

ABSTRACT ....................................................................................................... XVIII

1. INTRODUCCIÓN .............................................................................................. 1

2. ANTECEDENTES ............................................................................................. 3

2.1 Maíz ........................................................................................................... 3

2.1.1 Descripción botánica. ................................................................................. 3

2.1.2 Tipos de maíz. ............................................................................................ 4

2.1.3 Importancia nutrimental. ............................................................................. 5

2.1.4 Importancia económica. ............................................................................. 7

2.1.5 Principales usos del maíz. .......................................................................... 8

2.2 Diversidad genética del maíz. .................................................................... 9

2.2.1 Marcadores moleculares para el estudio de la diversidad genética. ........ 11

2.3 Genética de poblaciones .......................................................................... 13

2.4 Nuevas tecnologías de secuenciación masiva. ........................................ 14

2.4.1 Plataformas de secuenciación. ................................................................ 14

2.4.1.1 Illumina HiSeq. ......................................................................................... 16

2.5 Genotipado por Secuenciación. ............................................................... 18

2.6 DArTSeq. ................................................................................................. 21

2.7 Genes candidatos para la biosíntesis de lípidos. ..................................... 21

2.8 Uso de líneas Dobles Haploides como estrategia para el fitomejoramiento.22

2.9 Programa de fitomejoramiento de maíz de INIFAP. ................................ 24

3. JUSTIFICACIÓN ............................................................................................. 26

VII

4. HIPÓTESIS ..................................................................................................... 27

5. OBJETIVOS .................................................................................................... 28

5.1 Objetivo General. ..................................................................................... 28

5.2 Objetivos específicos. .............................................................................. 28

6 MATERIAL Y MÉTODOS ............................................................................... 29

6.1 Genotipado y determinación de los índices de diversidad genética para

las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío. ...................... 29

6.1.1 Material genético a utilizar. ....................................................................... 29

6.1.2 Composición genética de líneas DH de maíz blanco y amarillo. .............. 29

6.1.3 Extracción de ADN genómico. ................................................................. 30

6.1.4 Preparación de bibliotecas por el método de DArTSeq............................ 30

6.1.5 Secuenciación por síntesis. ...................................................................... 31

6.1.6 Búsqueda de SNPs. ................................................................................. 31

6.1.7 Índices de diversidad genética. ................................................................ 32

6.1.8 Número de SNPs. .................................................................................... 32

6.1.9 Determinación del porcentaje de datos perdidos. .................................... 33

6.1.10 Heterocigosidad observada y esperada. .................................................. 33

6.1.11 Índice de contenido polimórfico (PIC). ...................................................... 33

6.2 Estructura poblacional de maíces del Bajío y Noroeste de México. ......... 34

6.2.1 Distancia genética. ................................................................................... 34

6.2.2 Análisis de estructura. .............................................................................. 35

6.2.3 Construcción de dendograma. ................................................................. 36

6.2.4 Análisis de escalamiento multidimensional. ............................................. 36

7 RESULTADOS ............................................................................................... 37

7.1 Caracterización genética. ......................................................................... 37

7.2 Análisis de estructura poblacional. ........................................................... 39

VIII

7.2.1 Agrupamiento mediante MDS. ................................................................. 44

7.2.2 Agrupamiento de las 120 líneas de maíz. ................................................ 47

8 DISCUSIÓN .................................................................................................... 50

8.1 Objetivo 1. Determinar índices de diversidad genética para las

poblaciones y los individuos de maíz blanco y amarillo del Noroeste y el Bajío. .. 50

8.2 Objetivo 2. Obtener la estructura genética de las poblaciones de maíz

blanco y amarillo del Noroeste y Bajío de México. ................................................ 57

9 CONCLUSIONES ........................................................................................... 63

10 BIBLIOGRAFÍA ............................................................................................... 64

ANEXOS ............................................................................................................... 75

IX

GLOSARIO

Ácidos grasos: Biomolécula de naturaleza lipídica formada por una larga cadena

hidrocarbonada lineal de longitud variable, la cual contiene en uno de sus

extremos un grupo carboxílico (-COOH). Son ácidos orgánicos de más de seis

átomos de carbono. Pueden ser saturados, mono-insaturados, di-insaturados y

poli-insaturados. Son los principales componentes de las grasas y aceites.

Aceite de maíz: Líquido graso de color ambarino obtenido por extrusión,

extracción física o ambos proveniente del germen de la semilla de maíz

(embriones de Zea mays L.).

Aceite vegetal: Compuesto orgánico líquido obtenido a partir de semillas u otras

partes de las plantas. Este se acumula en los tejidos de las plantas como fuente

de energía. Tienen diversos usos, principalmente para consumo humano y

también para la producción de biocombustibles.

Alelo homocigoto mayor: Alelo que se presentó un mayor número de veces en

un determinado locus dentro del genoma.

Alelo homocigoto menor: Alelo que se presentó un menor número de veces en

un locus en particular dentro del genoma. Se encuentra en menor proporción que

el alelo homocigoto mayor.

Diploide: Genotipo formado por dos series de cromosomas, es decir, pares de

cromosomas homólogos y se representa como 2n.

Dístico: Se aplica a cualquier órgano dispuesto en dos filas, como las hojas de

las gramíneas.

Diversidad genética: Variaciones heredables que ocurren en cada organismo,

entre los individuos de una población y entre las poblaciones dentro de una

especie. Es el resultado de las diferencias que existen entre las distintas

versiones (alelos) de las unidades de herencia (genes) de los individuos de una

especie.

Doble haploide: Genotipo que se forma a partir de células haploides (n) que

experimentan una duplicación cromosómica (2n), debido a un proceso

espontáneo o inducido artificialmente.

X

Escutelo: Cotiledón transformado en órgano absorbente, adosado al

endospermo.

Fitomejoramiento: Conjunto de actividades destinadas a mejorar las cualidades

genéticas de un cultivo, como mayor rendimiento, mejor calidad de grano,

resistencia a plagas o enfermedades, tolerancia a factores ambientales adversos

(sequía, inundación, salinidad), entre otros.

Frecuencia del alelo menos común: Filtrado en que se determina la frecuencia

a la que ocurre el alelo menos común en un locus determinado de una población

dada, eliminando aquellos loci que se encuentren pocamente representativos.

Gen: Unidad de material genético que, junto con otras, está dispuesta en un

orden fijo a lo largo de un cromosoma, y determina la aparición de los caracteres

hereditarios en los seres vivos.

Gen candidato: Gen al que se hace responsable de un rasgo de importancia,

tanto por la posición que ocupa en el mapa genómico (candidato posicional) como

por las propiedades de la proteína que codifica (candidato funcional).

Genoma: Totalidad del material genético que posee un organismo en particular.

Genotipado: Proceso de determinación del genotipo o contenido genómico, en

forma de ADN, específico de un organismo biológico, mediante un procedimiento

de laboratorio.

Grupo heterótico: Agrupamiento de la diversidad genética, caracterizándose por

la distancia genética y el diferente origen geográfico de los materiales.

Haploide: Genotipo formado sólo por una serie de cromosomas y se representa

con la letra n.

Heterocigosidad observada: Medida de la variación genética de una población

respecto a un locus particular. Se define como la frecuencia de heterocigotos para

ese locus.

Heterocigosidad esperada: Fracción estimada de todos los individuos

que podrían ser heterocigóticos para cualquier locus tomado al azar.

Heterocigosis: Condición en la que los cromosomas homólogos presentan dos

alelos diferentes.

XI

Heterosis: Fenómeno que ocurre cuando se cruzan dos líneas totalmente

homocigotas y el producto o híbrido resultante, presenta un valor agronómico

mayor que el promedio. También es llamado vigor híbrido.

Híbrido: Descendencia individual de cualquier cruzamiento entre parentales de

distinto genotipo.

Homocigosis: Condición en la que los cromosomas homólogos presentan alelos

idénticos.

Indel: Es una contracción de "inserción o deleción", en referencia a los dos tipos

de mutaciones genéticas que se consideran a menudo juntas a causa de su

efecto similar y la incapacidad de distinguir entre ellas en una comparación de dos

secuencias.

Índice de contenido polimórfico: Medida de la informatividad de un marcador

genético, que depende del número de alelos para ese locus y de sus frecuencias

relativas.

Marcador molecular: Segmento de ADN con una ubicación física identificable

(locus) en un cromosoma y cuya herencia genética se puede rastrear.

Un marcador puede ser un gen, o puede ser alguna sección del ADN sin función

conocida.

Mestizo: Es la cruza de un organismo con un genotipo dominante desconocido

con organismos que son homocigóticos recesivos para ese rasgo.

Nucleótido: Compuesto químico orgánico fundamental de los ácidos nucleicos,

constituido por una base nitrogenada, un azúcar y una molécula de ácido

fosfórico.

Parental: Progenitor o progenitores de una progenie, esto es, el individuo o los

individuos cuya reproducción, ya sea sexual o asexual, provoca la transmisión de

una herencia genética.

Población: Grupo de individuos que se aparean entre sí para dar lugar a la

siguiente generación.

Polimorfismo: Variación en la secuencia de un lugar determinado del ADN entre

los individuos de una población.

XII

Polimorfismo de nucleótido simple (SNP). Variación natural en un único par de

nucleótidos en una situación determinada del genoma de dos o más individuos.

Polística: Dícese de lo que está dispuesto en varias filas.

Secuenciación de ADN: Conjunto de métodos y técnicas bioquímicas cuya

finalidad es la determinación del orden de los nucleótidos (A, C, G y T) en

un oligonucleótido de ADN.

Transposón: Secuencias de ADN con capacidad de mudarse de un sitio a otro

de los genomas de los organismos eucariontes y procariontes.

UPGMA (Unweighted Pair Group Method with Arithmetic Mean): Es un

método de agrupamiento jerárquico aglomerativo simple (de abajo hacia arriba),

utilizado para agrupar a aquellos individuos que tengan mayor similitud entre si.

XIII

ÍNDICE DE FIGURAS

Figura 1 Principales estructuras que conforman a la semilla de

maíz.

4

Figura 2 Producción nacional de grano de maíz en México. 8

Figura 3 Representación esquemática de la secuenciación por

Illumina HiSeq 2500.

18

Figura 4 Preparación de bibliotecas mediante la metodología de

Genotipado por Secuenciación para diferentes individuos

y descubrimiento de SNPs.

20

Figura 5 Diagrama de flujo de los análisis bioinformáticos

realizados a partir de los 35,770 SNPs.

32

Figura 6 Gráfico de barra representativo del número de SNPs

identificados en las cuatro poblaciones de maíz.

37

Figura 7 Gráfico de barra representativo del número de SNPs

identificados según el tipo de línea de maíz.

38

Figura 8 Estructura poblacional de 120 líneas de maíz estimada

con 35,770 SNPs. Valores de Ln (P) para un rango de K

de 1 a 5.

42

Figura 9 Estructura poblacional de 120 líneas de maíz estimada

con 35770 SNPs. Valores de ΔK para un rango de K de 2

a 4.

42

Figura 10 Estructura poblacional de 120 líneas de maíz cuando K =

2

43

Figura 11 Gráfico de Escalamiento Multidimensional (MDS) de las

líneas parentales de maíz blanco y amarillo del Bajío y

Noroeste de México.

44

Figura 12 Gráfico de Escalamiento Multidimensional (MDS) de los

61 parentales y las 40 cruzas simples.

45

Figura 13 Gráfico de Escalamiento Multidimensional (MDS) del

panel completo de individuos.

46

Figura 14 Dendograma construido por el método UPGMA de 120

líneas de maíz blanco y amarillo del Noroeste y Bajío de

48

XIV

México.

Figura 15 Dendograma construido por el método UPGMA de las 61

líneas parentales de maíz blanco y amarillo del Noroeste

y Bajío de México.

49

XV

ÍNDICE DE CUADROS

Cuadro 1 Clasificación de los tipos de maíz 5

Cuadro 2 Peso y composición de las distintas partes del grano de

maíz.

6

Cuadro 3 Composición nutricional de los granos de maíz.

7

Cuadro 4 Comparación de genomas de maíz reportados.

11

Cuadro 5 Comparación de plataformas de secuenciación masiva y

capilar.

16

Cuadro 6 Clasificación de 120 líneas de maíz por tipo de línea,

color de grano y región de origen.

29

Cuadro 7 Índices de diversidad genética para las 120 líneas de

maíz.

38

Cuadro 8 Índices de diversidad genética de las 61 líneas

parentales.

39

Cuadro 9 Predicción de cruzas simples de maíz amarillo. 40

Cuadro 10

Cuadro 11

Cuadro 12

Predicción de cruzas simples de maíz blanco.

Total de predicciones para cruzas simples de maíz amarillo.

Total de predicciones para cruzas simples de maíz blanco.

41

74

75

XVI

RESUMEN

El cultivo de maíz representa una de las actividades de mayor importancia

económica en la región noroeste de México, y su rentabilidad se basa en el uso

de variedades hibridas para alcanzar altos rendimientos. La tecnología doble

haploide (DH) es usada en los programas modernos de fitomejoramiento para el

desarrollo rápido de líneas homocigotas, y en combinación con tecnologías de

genotipificación, permiten la identificación de patrones heteróticos de una manera

más eficiente. Recientemente, el INIFAP ha generado líneas DH a partir de cuatro

poblaciones de maíz subtropical con alto contenido de aceite, pero estas aún no

han sido genotipificadas. En la presente investigación analizó la diversidad y

estructura genética poblacional de dichas líneas DH con alto contenido de aceite

mediante la tecnología de Genotipificación por Secuenciación (GBS) para

identificar líneas parentales potencialmente viables para la producción de híbridos

con alto contenido de aceite. Se analizaron 120 materiales pertenecientes a las

regiones del Bajío y el Noroeste de México. En total se identificaron 35,770 SNPs,

posteriormente a un filtrado del alelo menos frecuente (MAF) al 0.05 restaron solo

26,596 SNPs. A partir de estos SNPs se determinaron los índices de diversidad

genética (PIC, Ho y He) y la distancia genética entre los 120 genotipos. El número

de SNPs por cada línea varió de 25,238 a 34,829. El PIC para las cuatro

poblaciones estuvo entre 0.487 y 0.489, sugiriendo que los marcadores presentes

son moderadamente informativos, la Ho varió de 0.10 y 0.15 y la He fue de 0.43,

indicando una deficiencia de heterocigosidad debido a la presencia de líneas DH

en el análisis. La estructura poblacional se analizó a partir de tres diferentes

aproximaciones, el Análisis de Escalamiento Multidimensional (MDS), la

construcción de un dendrograma por el método UPGMA y el análisis de

agrupamiento bayesiano implementado en STRUCTURE. Los resultados

muestran tres agrupaciones para MDS y el dendrograma con UPGMA, que

separa a la población blanca del Noroeste, la población blanca del Bajío y a las

dos poblaciones amarillas. Mientras que el análisis de STRUCTURE muestra dos

grupos, uno conformado por parentales, y el otro por cruzas y mestizos. Los

XVII

resultados generados permiten analizar y proponer un sistema de cruzas a partir

de los parentales genéticamente más contrastantes para asegurar un mayor vigor

híbrido en rendimiento y contenido de aceite el cuál es el principal objetivo del

programa de mejoramiento establecido por el INIFAP.

XVIII

ABSTRACT

Maize cultivation is considered one of the activities with major economic

importance at northwestern Mexico.The profitability is mostly due to the use of

comercial hybrid varieties, achieving high yields. Double haploid (DH) technology

have been used in most of the modern plant breeding programs. This tecnology

ease the rapid development of homozygous lines, and in combination with

genotyping technologies, allow the identification of heterotic patterns efficiently.

Recently, INIFAP has generated DH lines arising out of four populations of

subtropical maize lines with high oil content, however these have not yet been

genotyped. In the present research the diversity and population genetic structure

from those DH lines with high oil content was analyzed with Genotyping by

Sequencing (GBS) technology. These results could be used to identify viable

parental lines with advantageous traits for the production of hybrids with high oil

content. A total of 120 materials from the Bajio and Northwest regions of Mexico

were analyzed. In total, 35,770 SNPs were identified, after minor allele frequency

(MAF) correction at 0.05 only 26,596 SNPs were obtained. Genetic diversity

indexes (PIC, Ho and He) and the genetic distance among the 120 genotypes

were estimated. The number of SNPs per line varied from 25,238 to 34,829. The

PIC varied from 0.487 to 0.489 in the four populations, suggesting that the SNPs

identified are reasonably informative. The Ho varied from 0.10 to 0.15 and the He

was 0.43, indicating a deficiency of heterozygosity due to the presence of DH lines

in the analysis. The population structure was analyzed using three different

approaches, the Multidimensional Scaling (MDS) analysis, the construction of a

dendrogram by the UPGMA method and the bayesian cluster analysis

implemented in STRUCTURE. The results showed three groups for MDS and

dendrogram with UPGMA, which clustered the white population from the

Northwest, the white population of the Bajio and the two yellow populations. While

the analysis of STRUCTURE showed only two groups, one clusterig to parental

lines, and the other to crosses and mestizos lines. These results allow to analyze

and propose a system of crosses from genetically more contrasting parents to

ensure a greater hybrid vigor in terms of yield and oil content for the breeding

program established by INIFAP.

1

1. INTRODUCCIÓN

El cultivo de maíz representa una de las actividades de mayor importancia

económica en la región noroeste de México. El estado de Sinaloa cuenta con

grandes extensiones dedicadas para este cultivo. La rentabilidad de esta actividad

se basa en su amplia extensión y en el alto rendimiento de producción de grano

por hectárea (Fundación Produce Sinaloa, 2008). Esto último se ha logrado

gracias a la producción de nuevas variedades híbridas mejoradas que año con

año son liberadas por empresas semilleras trasnacionales (Palacios et al., 2008;

Ortega et al., 2012). Mientras que en Estados Unidos, las dos principales

trasnacionales liberan entre 30 y 40 nuevos híbridos cada año a costos tan

elevados que amenazan la rentabilidad de la actividad, en México sólo se liberan

entre 2-3 nuevos híbridos por año (Dudley, 2007; González-Estrada et al., 2007;

FIRA, 2011).

Una de las alternativas que recientemente se han aplicado en el

fitomejoramiento para obtener híbridos de una forma más rápida, es la inducción

de líneas doble haploide (DH), una técnica que permite obtener líneas

endogámicas ~ 100% homocigotas en un corto plazo, las cuales se utilizan como

parentales para la producción de híbridos con características de interés

agronómico o nutrimental. Por lo anterior mencionado, estas estrategias están

siendo utilizadas para la producción de nuevas variedades híbridas nacionales.

Hasta ahora, la producción de nuevos híbridos se ha basado fundamentalmente

en actividades encaminadas a la selección de características de alta y de baja

heredabilidad, medidas a través del fenotipo (Guillen et al., 2009).

El uso de la tecnología DH enfocada al mejoramiento del maíz, está basada en la

inducción de la haploidía in vivo y la duplicación cromosómica obteneniendo loci

duplicados completamente iguales, debido a la inhibición mitótica. Esta tecnología

es reconocida ampliamente por su eficiencia en disminuir los ciclos de

mejoramiento al obtener líneas endogámicas en un menor tiempo (Prasana et al.,

2013).

En el Noroeste y Bajío de México, el Instituto Nacional de Investigaciones

Forestales y Pecuarias (INIFAP) ha realizado un esquema de mejoramiento de

maíz buscando producir maíces hibridos con ACA. Actualmente, el INIFAP cuenta

2

con poblaciones de maíz blanco y amarillo con ACA pertenecientes a ambas

regiones, que han sido caracterizadas y mejoradas a partir del año 2002 hasta la

actualidad. Dicho germoplasma es la base utilizada para generar líneas doble

haploide de maíz con potencial para producir híbridos con ACA (Preciado-Ortiz et

al., 2013; Ortega-Corona et al., 2015).

En este sentido, el INIFAP está llevando a cabo un importante esfuerzo

para la producción de nuevas líneas dobles haploides de maíz blanco y amarillo

con alto contenido de aceite y rendimiento de grano para la generación de nuevos

híbridos que pudieran competir con aquellos ya colocados en el mercado

nacional. Sin embargo, para lograrlo se requiere de un gran esfuerzo

interdisciplinario y del empleo de estas nuevas tecnologías que permitan hacer

más eficiente el proceso. Por tal motivo, la presente investigación tuvo por

objetivo llevar a cabo la caracterización genética de poblaciones de maíz blanco y

amarillo producidas por el INIFAP en las regiones del Noroeste y el Bajío a través

de nuevas tecnologías de secuenciación para identificar las variantes

estructurales de cada genotipo y generar información de utilidad para las

personas encargadas de realizar mejoramiento genético de maíz en Sinaloa. La

información sobre la caracterización molecular de la diversidad genética y su

estructura poblacional es de suma importancia para el desarrollo de nuevos

híbridos mejorados que puedan competir en el mercado nacional (Wu et al.,

2016).

3

2. ANTECEDENTES

2.1 Maíz.

El maíz (Zea mays L.) es el cereal más cultivado y con mayor producción

en el mundo, seguido por el arroz y el trigo (FAOSTAT, 2017). El maíz es el cereal

que logra el mayor rendimiento de grano por hectárea, es una planta de tipo C4

con una alta tasa fotosintética otorgándole un gran potencial de producción de

carbohidratos por unidad de superficie (Paliwal et al., 2001). La palabra maíz es

de origen prehispánico la cual significa “lo que sustenta la vida”. Este cereal

pertenece a la familia de las Poáceas o gramíneas, tribu Maydeas, género Zea y

especie mays. Esta especie es considerada de gran importancia económica entre

las Poáceas de la tribu de las Maydeas (Sánchez-Ortega, 2014). Existen otras

especies pertenecientes al género Zea, de las cuales destacan el teosinte y las

del género Tripsicum, siendo formas silvestres cercanas de Zea mays (Acosta,

2009; OECD, 2003).

2.1.1 Descripción botánica.

El maíz es una planta monocotiledónea, cuenta con un sistema radical

fibroso, conformado por raíces primarias fibrosas las cuales presentan raíces

adventicias, que nacen en los primeros nudos por encima de la superficie dando

anclaje a la planta en el suelo, tiene un solo tallo erecto de altura variable (1 - 6

m), y hasta 30 hojas de gran tamaño, alternadas y paralelinervias, estas se

encuentran abrazadas al tallo y en el haz presentan vellosidades. Es una planta

monoica, lo que significa que la misma planta presenta inflorescencias masculinas

y femeninas bien diferenciadas. Esta característica facilita las labores de

polinización y producción de nuevas cruzas. Es capaz de desarrollar una o dos

yemas laterales en la axila de las hojas, esto en la mitad superior de la planta, las

cuales terminan en una inflorescencia femenina que pasa a ser una mazorca

cubierta en hojas, teniendo la capacidad de almacenar reservas en los granos. En

la mazorca se pueden formar alrededor de 400 a 1,000 granos acomodados de 8

a 24 hileras aproximadamente. Los estilos largos que salen de la punta del olote,

son conocidos comúnmente como pelos de elote, y cada uno de ellos puede ser

equivalente a un grano en caso de ser polinizados. La inflorescencia masculina o

panoja se ubica en la parte superior de la planta, es una espiga central con

4

ramificaciones laterales que producen el polen. Estas ramificaciones también

llamadas espiguillas se distribuyen a lo largo del eje central o raquis de forma

polística y en las ramas con arreglo dístico. Las espiguillas están protegidas por

dos glumas, estas contienen tres estambres los cuales producen los granos de

polen. La coloración de la panoja puede ser de distintos colores ya sea verde,

morada, rojiza o amarilla dependiendo de las glumas y anteras. (Paliwal et al.,

2001; Kato et al., 2009).

La mazorca siendo indehiscente mantiene en ella cada uno de sus granos

cubiertos por varias hojas, cada grano o semilla denominado cariópside está

formado principalmente por tres estructuras diferentes: el pericarpio, el

endospermo y el germen (Fig. 1), los cuales pueden variar de proporción según

rasgos genéticos y ambientales. El fruto maduro consta del pericarpio, el germen

el cual es diploide y el endospermo que es triploide. Los granos se desarrollan a

partir de la acumulación de productos que obtiene la planta durante la fotosíntesis,

la absorción de nutrientes a través de las raíces y del metabolismo de la planta

(Paliwal, 2001; Sánchez-Ortega, 2014).

Figura 1. Principales estructuras que conforman a la semilla de maíz (Figura tomada del URL:

http://www.dacsa.com).

2.1.2 Tipos de maíz.

El maíz al tener una gran variabilidad en cuanto a color, textura,

composición y apariencia en sus granos, puede ser clasificado en distintos tipos

http://www.dacsa.com/

5

según: a) la constitución del endospermo y del grano; b) el color del grano; c) el

ambiente en que es cultivado; d) la madurez, y e) su uso (Cuadro 1).

Cuadro 1. Clasificación de los tipos de maíz (Paliwal et al., 2001).

Clasificación Tipo

Constitución del endospermo

y del grano

Duro, dentado, reventón, dulce, harinoso, ceroso y

tunicado dentro de los más importantes.

Color del grano Amarillo, anaranjado, blanco, verde, púrpura, rojo,

azul y negro.

Ambiente en que es cultivado Tropical, subtropical y templado.

Madurez

Extra temprana (80-90 días a la madurez), temprana

(90-100 días a la madurez), intermedia (100-110

días a la madurez), tardía (100-130 días a la

madurez).

Uso

Consumo humano, alimento forrajero, con proteína

de calidad, con alto contenido de aceite, para

producción de harinas y nixtamalización.

En cuanto a su uso se pueden clasificar como maíces de especialidad,

los cuales han sido mejorados para proporcionar una característica en especial,

como los maíces con proteína de alta calidad, con alto contenido de aceite,

cerosos con alta amilosa, dulces, reventones entre otros. Por otra parte están los

maíces comunes los cuales no han sido mejorados para dar alguna característica

en específico a los granos (Paliwal et al., 2001).

2.1.3 Importancia nutrimental.

El maíz es uno de los cultivos con mayor importancia en el mundo por su

aporte calórico a la dieta humana, aportando al menos un 30% de las calorías que

consumen millones de personas en países en desarrollo. La importancia de la

producción del grano va más allá del consumo humano y también es utilizado

como alimento para el ganado y para la obtención de aceites, de igual forma, los

subproductos de este cultivo sirven como materia prima para muchos otros

productos industriales (Semagn et al., 2012).

El maíz amarillo presenta un importante valor nutrimental por ello es

cultivado alrededor del mundo. Algunos reportes indican que el maíz amarillo

6

destinado para alimentar animales al menos triplica al maíz blanco usado para la

alimentación humana. Aunque en algunas regiones del mundo la demanda de

maíz forrajero aumenta con rapidez, el maíz sigue siendo una fuente importante

de alimento para el hombre. A pesar de que los maíces amarillos presentan un

mayor aporte nutrimental, normalmente para consumo humano, el cultivo de maíz

blanco es preferido sobre las variedades amarillas (FAO y CIMMYT, 1997).

El grano de maíz a partir de sus tres diferentes estructuras proporciona

distintos tipos de nutrimentos. En los tipos de maíces comunes, el endospermo

constituye cerca del 84% del peso seco total del grano, el embrión abarca el 10%,

y el pericarpio y el escutelo comprenden el 6% restante. El pericarpio se

caracteriza por tener alto contenido de fibra cruda, el endospermo está compuesto

por un alto contenido de almidón y un menor porcentaje de proteína, por último el

embrión o germen posee un alto contenido de lípidos y en menor proporción

proteínas y minerales. El maíz es considerado nutricionalmente superior a

muchos otros cereales excepto en su contenido de proteínas. El cuadro 2 muestra

los distintos componentes del grano de acuerdo a su análisis proximal y en el

cuadro 3 la composición nutricional del grano en 100 g de harina de maíz.

Cuadro 2. Peso y composición de las distintas partes del grano de maíz (Paliwal et al., 2001).

Composición (%) Endospermo Embrión Pericarpio Escutelo

Almidón 87.6 8.3 7.3 5.3

Grasas 0.8 33.2 1.0 3.8

Proteínas 8.0 18.4 3.7 9.1

Cenizas 0.3 10.5 0.8 1.6

Azúcares 0.6 10.8 0.3 1.6

Resto 2.7 18.8 86.9 78.6

Materia seca 83.0 11.0 5.2 0.8

7

Cuadro 3. Composición nutricional de los granos de maíz (Miracle, 1966).

Contenido 100 g de harina de maíz

Agua (%) 12

Calorías 362

Proteínas (g) 9.0

Grasas (g) 3.4

Carbohidratos (g) 74.5

Fibra (g) 1

Cenizas (g) 1.10

Calcio (mg) 6

Hierro (mg) 1.8

Fósforo (mg) 178

Tiamina (mg) 0.3

Riboflavina (mg) 0.08

Niacina (mg) 1.9

2.1.4 Importancia económica.

El maíz es el cereal más importante en producción a nivel mundial, seguido

por el arroz y el trigo. En el año 2014 su producción fue de 1,038,281,036 ton,

siendo los principales países productores: Estados Unidos (361,091,140 ton),

China (215,646,300 ton) y Brasil (79,877,714 ton), los cuales contribuyen con el

63% de la producción mundial de maíz. En el caso de México se encuentra en el

séptimo lugar en producción de maíz a nivel mundial, contribuyendo con el 2.2%

de la producción mundial, equivalente a 23,273,257 ton (FAOSTAT, 2017).

En México, el cultivo de maíz representó el 17% del valor de producción del

sector agrícola en el año 2014 con una producción que representó un ingreso de

72,000 millones de pesos (mdp), en el año 2015 representó el 19% del valor del

sector agrícola con un valor de 84,500 mdp, y en el año 2016 presentó un valor de

producción de 85,000 mdp (SIAP, 2016). El estado de Sinaloa se encuentra entre

los siete principales productores de maíz. Su producción representa el 29% de la

8

producción nacional (Fig. 2), siendo el principal productor con una derrama

económica de al menos 24,000 mdp según registros recientes del Servicio de

Información Agroalimentaria y Pesquera de México (SIAP, 2016) indican que la

superficie de cultivo cosechada en Sinaloa es de 541,654 ha con una producción

de 5, 380,042 toneladas equivalente a un rendimiento de 9.95 ton/ha de maíz.

Figura 2. Producción nacional de grano de maíz en México (SIAP, 2016).

Debido a su importancia económica, en Sinaloa la producción de maíz

como monocultivo se ha convertido en una práctica común. Esto ha provocado la

modificación gradual de las condiciones ambientales; haciendo dependiente al

sistema de la continua intervención humana para su funcionamiento, con una gran

dependencia a los agroinsumos. Estas modificaciones han desencadenado una

serie de problemas fitosanitarios que deben ser tratados con agentes químicos o

biológicos, incrementando con ello los costos de producción y comprometiendo la

rentabilidad de esta actividad (Fundación Produce Sinaloa, 2008).

2.1.5 Principales usos del maíz.

El maíz al ser de gran importancia económica y nutrimental en nuestro país

presenta una gran variedad de usos, de los cuales no solo destaca el uso para

alimentación humana. Una de las bondades de utilizar el maíz como alimento, es

que puede ser utilizado tanto fresco como procesado, como fuente de materia

prima para la industria ya sea de forma directa o a partir de subproductos de este

mismo. En el ámbito agropecuario, el maíz se utiliza para la alimentación de aves

9

y ganado lo que proporciona mayor valor nutricional a sus carnes y derivados

(Espinoza et al., 2004; Domínguez-Mercado, 2012).

Generalmente el uso que se hace del maíz está en función del tipo de

grano, ya que maíces duros y dentados son utilizados principalmente para la

alimentación humana, e incluso hay algunos tipos de maíces que han sido

obtenidos con propósitos específicos como los maíces harineros que se producen

para la producción de alimentos, maíces reventones que se consumen

principalmente como palomitas. La planta de maíz es un magnífico alimento

forrajero para el ganado, en especial para las vacas lecheras. Es utilizada como

forraje en varias etapas del crecimiento de la planta, en especial al momento de la

emisión de la panoja o posterior. Cerca del 40% del maíz producido en los países

tropicales es usado para la alimentación animal; el maíz proporciona la más alta

tasa de conversión a carne, leche y huevo comparado con otros granos que se

usan con el mismo propósito. Su alto contenido de almidón y bajo contenido de

fibra hace que sea una alta fuente de concentración de energía para la producción

de ganado (López-Pereira, 1992).

Existe una gran cantidad de productos alimenticios a base de maíz que

pasan por procesos industriales y que son manufacturados y comercializados a

gran escala. Estos productos incluyen tortillas, harinas de maíz, masa, variedad

de bocadillos, cereales para el desayuno, espesantes, pastas, jarabes,

endulzantes, aceite de maíz, bebidas sin alcohol, cerveza y whiskey, alimentos

varios para consumo humano o para los animales domésticos y productos

industriales. El almidón de maíz es el producto más importante del procesamiento

húmedo y es usado en numerosas aplicaciones alimenticias e industriales

(Watson, 1988). La extracción de almidón y aceite comprenden cerca del 70% de

los productos; el 30% restante está principalmente en la forma de fibras sobre

todo celulosa y hemicelulosa las cuales son en su mayoría convertidas en

alimento para animales o para la producción de biocombustibles como el

bioetanol (Paliwal et al., 2001; Zamora-Hernández et al., 2014).

2.2 Diversidad genética del maíz.

La diversidad genética se define como el conjunto de variaciones

heredables que ocurren en cada organismo, entre los individuos de una población

10

y entre las poblaciones de una especie, en un sentido amplio es el componente

más básico de la biodiversidad (Piñero et al., 2008). Teóricamente, las especies

que contienen una alta diversidad genética tendrán una alta capacidad de

adaptación a diferentes condiciones ambientales y de resistencia a enfermedades

y patógenos (Paliwal et al., 2001).

El maíz es originario de América, particularmente de la región sur de

México. Su domesticación inició hace alrededor de 8,000 años a partir del teosinte

(Zea mays sp. mexicana), el cual es su progenitor silvestre, e incluso se ha

reportado que aún son compatibles reproductivamente (Karn et al., 2017). Desde

su domesticación, el maíz ha sido cultivado en una gran variedad de condiciones

geográficas y ambientales. Esta amplia diversidad ecológica ha conducido a la

acumulación de una alta diversidad genética en su genoma (Rocandio-Rodríguez

et al., 2014).

Esta alta diversidad genética ha dado origen a una gran variedad de razas.

Tan sólo en México se han encontrado 59 razas, 6 centros de diversidad y 11

regiones biogeográficas del maíz, de los cuales 6 están vinculados con los

centros de diversidad entre los que se encuentran las regiones del Noroeste y el

Bajío. En la región del Bajío se encuentran las razas: Ancho, Bofo, Complejo

Serrano de Jalisco, Conejo, Elotero de Sinaloa, Mushito, Pepitilla, Vandeño y

Zamorano Amarillo. En la región del Noroeste se encuentran las razas: Chapalote,

Dulcillo del Noroeste, Elotero de Sinaloa, Jala, Maíz Blando de Sonora, Onaveño,

Reventador, Tablilla de Ocho, Tabloncillo y Tabloncillo Perla. Siendo estos los

más característicos de cada región (Perales y Golicher, 2014).

El genoma del maíz es muy complejo y presenta una amplia diversidad en

relación al de otras especies cultivables. Actualmente están reportados los

genomas de la variedad B73, PH207 y del maíz palomero toluqueño (Schnable et

al., 2009; Vielle-Calzada et al., 2009, Hirsch et al., 2016). En el cuadro 4 se

muestra una comparación entre los genomas reportados de maíz. Se ha

reportado que el maíz contiene casi un 60% de transposones en su genoma

(Schnable et al., 2009) lo cual hace difícil su análisis debido a la alta repetibilidad

de secuencias que presentan estos elementos genéticos transponibles.

11

Cuadro 4. Comparación de genomas de maíz reportados.

Variedad Longitud (pares de

bases)

Número de genes Autor

B73 2,300,000,000 32,000 Schnable et al.,

2009

Palomero

de Toluca

2,900,000,000 44,000 Vielle-Calzada et

al., 2009

PH207 2,450,000,000 39,300 Hirsch et al., 2016

2.2.1 Marcadores moleculares para el estudio de la diversidad genética.

Un marcador genético o marcador molecular es un segmento del ADN que

tiene una ubicación física identificable (locus) en un cromosoma, y que además se

puede rastrear su herencia genética a través de distintas técnicas de genotipado

en su progenie. Los marcadores idóneos son los de ADN, siendo válido cualquier

fragmento que se encuentre muy cerca del gen o de la secuencia de interés y que

lógicamente afecte al carácter en estudio. Los marcadores de ADN se basan

fundamentalmente en el análisis de las diferencias en pequeñas secuencias del

ADN entre individuos. Las técnicas empleadas para ello son muy diversas y dan

el nombre a los distintos tipos de marcadores, los cuales pueden ser de carácter

dominante o codominante (Azofeifa-Delgado, 2006).

Para la caracterización molecular pueden ser utilizados diversos tipos de

marcadores genéticos, incluyendo polimorfismos de longitud de fragmentos de

restricción (RFLPs), polimorfismos en la longitud de fragmentos amplificados

(AFLP), repeticiones de secuencia simple o microsatélites (SSR) o polimorfismos

de nucleótido simple (SNPs) (Dillman et al., 1997; Warburton et al., 2002; Reif et

al., 2003; Xia et al., 2004, 2005).

Recientemente, los SNPs se han convertido en los marcadores

moleculares más utilizados en análisis de caracterización genética debido a que

se encuentran abundantemente en el genoma de la planta, proporcionan grandes

12

cantidades de información, además de ser flexibles ya que a la misma información

obtenida se le pueden realizar diversos análisis con aplicaciones diferentes,

teniendo una buena relación en cuanto a costo y eficiencia.

Los SNPs son un tipo de polimorfismo simple, el cual se basa en el cambio

de un nucleótido por otro. Básicamente, este tipo de polimorfismo es generado

por errores en la incorporación de nucleótidos durante la replicación, o por

mutagénesis causada por la modificación química de las bases o por daños

producidos por radiación ionizante o ultravioleta. Muchos de los SNPs se

encuentran en regiones intergénicas, pero miles de estos se han localizado dentro

de los genes. Aunque algunos de estos SNPs no realizan un daño aparente o no

cambian alguna característica del individuo, otros pueden tener diferentes

implicaciones funcionales dependiendo de la región en la que sean localizados

dentro de un gen (Oliva y Vidal, 2006).

Los marcadores moleculares han mostrado un alto potencial en el

desarrollo de programas de mejoramiento genético. Uno de los principales

objetivos del uso de marcadores moleculares en los programas de mejoramiento

genético es seleccionar rasgos de importancia agronómica a partir de datos

genotípicos que se encuentran a lo largo de todo el genoma que permitan

predecir con una precisión suficiente la selección de un rasgo agronómico definido

(Lorenz et al., 2011).

Los análisis con marcadores moleculares proporcionan un enfoque

alternativo importante para caracterizar la diversidad genética, la estructura de la

población y las relaciones genéticas entre poblaciones o materiales de

mejoramiento de líneas élite dentro de una colección de germoplasma de maíz

determinado. La implementación de programas de mejoramiento asistido por

marcadores moleculares ha sido de gran utilidad para hacer más eficiente al

programa mismo, ya que permite seleccionar apropiadamente las líneas

parentales para la producción de cruzas, asignar grupos heteróticos y a la

conformación de un conjunto básico de germoplasma (Wu et al., 2016). La

diversidad genética que puede ser obtenida a través de marcadores moleculares

es cuantificada a través de índices de diversidad, siendo los más utilizados el

número de alelos, polimorfismos y la heterocigosidad. Debido a que la diversidad

genética de una especie está determinada por componentes tanto intra- como

13

inter-poblacionales, es necesario analizar cómo se distribuye entre y dentro de las

poblaciones (Sosa et al., 2010).

2.3 Genética de poblaciones

La genética ha tenido varias aplicaciones que han ayudado a solucionar

problemas en la historia de la humanidad, entre ellas la domesticación de

animales y plantas de cultivo. Esta actividad ayudó al desarrollo de varias

civilizaciones tanto en el viejo como en el nuevo mundo, quienes domesticaron

diversos cultivos para su alimentación básica como el maíz hace

aproximadamente 10 mil años. El cambio genético bajo la domesticación se fue

acelerando a través de los miles de años de selección en los cultivos para obtener

mayor producción o para destinarlos a usos particulares que entonces eran una

necesidad (Allendorf y Luikart, 2009).

La estructura genética de una población, está definida como una

comunidad de individuos que comparten un grupo genético común y que difiere

de otros grupos. El conocer esta información puede ayudar a determinar su

capacidad para ser mejorada o modificada por selección. La comprensión de este

proceso es de gran importancia para decidir el rumbo de la selección de las

plantas y las estrategias de selección que pueden ser implementadas (Hayward y

Breese, 1993).

En especies que exhiben heterosis, como el maíz, la información de la

estructura poblacional de los individuos pertenecientes a ciertas poblaciones es

de gran importancia para determinar la capacidad de combinación de líneas que

son utilizadas como probadores genéticamente divergentes, siendo útil para

clasificar a los individuos en grupos heteróticos. La clasificación de los grupos

heteróticos se basa en la asociación positiva entre el rendimiento de grano y la

divergencia genética que existe entre las líneas parentales utilizadas en la cruza

estando dentro de cierto rango de diversidad (Olmos et al., 2014).

Las tecnologías modernas de mejoramiento genético prometen promover el

uso de la diversidad genética existente en las poblaciones, siendo inherente en

cualquier programa de mejoramiento el conocimiento básico de la diversidad

genética y la estructura de la población del material de mejoramiento. Lo anterior

14

permite predecir el grado de herencia, la variación genética y los niveles de

heterosis (Romay et al., 2013).

2.4 Nuevas tecnologías de secuenciación masiva.

El desarrollo de las nuevas tecnologías de secuenciación, NGS (Next

Generation Sequencing) han tenido éxito debido a sus sistemas de detección tan

sensibles y la mejora a la par de la bioinformática para el análisis de una gran

cantidad de datos que son producidos por medio de estas técnicas, permitiendo la

secuenciación y re-secuenciación del genoma de varios individuos dentro de una

población, además han tenido un papel de gran importancia en la comprensión de

la biología de plantas y en el desarrollo de estrategias que le permite a las plantas

responder a diversos estreses abióticos y bióticos (Elshire et al., 2011; Yadav et

al., 2016).

Con el rápido desarrollo de las tecnologías de secuenciación y de la

bioinformática, han surgido herramientas muy poderosas que permiten detectar

variaciones naturales que se encuentran en rasgos complejos en los cultivos a

través de tecnologías de alta resolución, tal es el caso del Análisis de Asociación

Genómica (GWAS, por sus siglas en ingles Genome-wide association study)

(Huang y Han, 2014). El objetivo principal del GWAS es encontrar variaciones o

SNPs que se encuentren significativamente asociadas a algún rasgo fenotípico de

importancia agronómica. En maíz el GWAS ha permitido la detección de SNPs

asociados con rasgos fenotípicos como la altura de la planta, contenido de aceite

y almidón en la semilla, e incluso la presencia de resistencia a algunas

enfermedades como el carbón de la espiga provocada por Sporisorium reilianum

(Weng et al., 2011; Wang et al., 2012; Li et al., 2013; Liu et al., 2016)

2.4.1 Plataformas de secuenciación.

Actualmente, el método de secuenciación tipo Sanger está siendo

reemplazado parcialmente por diferentes tecnologías o plataformas NGS. La

tecnología de secuenciación Sanger permite obtener secuencias de entre 400 y

900 pares de bases (pb) en un tiempo aproximado de dos horas teniendo bajos

rendimientos, en cambio las tecnologías NGS permiten la producción de millones

de secuencias con una buena relación costo-productividad en un tiempo corto

15

(Chiu y Miller, 2016). Existe una variedad de plataformas que generan un gran

número de secuencias cortas también llamadas lecturas (comúnmente llamadas

reads, por su traducción del ingles), que pueden ser ensambladas de novo en

secuencias contiguas o ser alineadas a un genoma de referencia en la búsqueda

de variaciones. Estas lecturas son producidas a partir de fragmentos de

bibliotecas sin que sea necesario realizar clonaciones in vivo de vectores para

realizar la secuenciación, aunque presentan la desventaja de producir lecturas de

menor longitud en comparación del método Sanger (Zhang et al., 2011). Sin

embargo, el alto número de lecturas y la posibilidad de alinearlas con un genoma

de referencia hacen de NGS una tecnología bastante informativa y confiable.

En el Cuadro 5 se muestra una comparación de cinco de las principales

plataformas de secuenciación masiva (Roche 454, SOLiD, Illumina, PacBio,

Oxford Nanopore), y el sistema de secuenciación capilar (Sanger). Algunos de

estos sistemas de secuenciación masiva se encuentran en desarrollo o incluso

emergiendo al mercado, como Pacific Biosciences (PacBio) secuenciación en

tiempo real de molécula única (SMRT), Illumina Tru-seq con la tecnología de

lecturas sintéticas largas y la plataforma de secuenciación Oxford Nanopore (Lee

et al., 2016).

En la actualidad, la tecnología de Illumina es la plataforma NGS mas

utilizada, aunque las nuevas plataformas de "tercera generación", como las

basadas en la secuenciación nanopore, están ganando confiabilidad y cada vez

son más utilizadas (Chiu y Miller, 2016).

Las tecnologías NGS emplean la amplificación clonal de moléculas

sencillas, separadas espacialmente y pudiendo utilizar fragmentos sintéticos de

ADN llamados adaptadores, los cuales son ligados a los fragmentos de ADN de

cada muestra, y la secuenciación se lleva a cabo mediante PCR en emulsión

(pirosecuenciación Roche 454, ABI SOLiD) o amplificación en puente (Illumina

HiSeq), según cada plataforma (Morozova y Marra, 2008; Mardis, 2008).

16

Cuadro 5. Comparación de plataformas de secuenciación masiva y capilar.

Plataforma Roche 454 Illumina AB SOLiD Sanger

Equipo GS FLX+ HiSeq 2500 5500 SOLiD 3730xl

Método de

secuenciación

Piro-

secuenciación

Secuenciación

por síntesis

Secuenciación

por ligación

Terminación

de cadena

Longitud típica

de la lectura 700 pb 50-300 pb 35-50 pb 400-900 pb

Precisión 99.9% 98% 99.9% 99.9%

Rendimiento

(lecturas por

corrida)

> de 1 millón 600-4000

millones

1000 - 1500

millones N/A

Tiempo de

corrida 20 h 6 h-11 díasa 1-2 semanas 2 h

Costo del

equipo ++ ++++ ++++ ++

Costo de la

secuenciación +++ + + ++++

Ventajas clave

Lecturas largas,

tiempos de

ejecución

rápidos

Altos

rendimientos,

bajo costo por

base

Bajo costo por

base

Lecturas

largas,

tiempos de

ejecución

rápidos

Desventajas

clave

Bajo

rendimiento

Instrumentación

costosa

Muchas lecturas

cortas

Rendimientos

bajos

aDepende del modo de corrida, modo rápido o modo estándar (Chiu y Miller, 2016).

2.4.1.1 Illumina HiSeq.

En el año 2006, la compañía Solexa lanza al mercado el sistema GA

(Genome Analyzer), para el año 2007 la compañía es comprada por Illumina

adoptando esta tecnología. Inicialmente el sistema GA lograba un rendimiento de

1 Gb por corrida, el cual se incrementó gradualmente hasta 85 Gb en la serie

GAIIx a finales del 2009. En el año 2010 Illumina lanza el sistema Hiseq 2000, el

cual adopta la misma tecnología de secuenciación por síntesis, pero optimizada

para obtener hasta 600 Gb por corrida en 8 días (Liu et al., 2012). El secuenciador

utiliza fragmentos de ADN con adaptadores previamente ligados, que

desnaturalizados a hebras sencillas, e insertados en la celda de flujo, seguido de

17

una amplificación en puente para crear grupos (clusters), que contienen

fragmentos de ADN clonal. La amplificación de puente mediante PCR se realiza

en la superficie de la celda de flujo desnaturalizando el extremo 3' del fragmento

de ADN y replicando la hebra complementaria. Las sucesivas rondas de

replicación y desnaturalización mediante amplificación por PCR resultan en la

generación de miles de copias de fragmentos clonalmente amplificados en un

grupo estrechamente circunscrito. Los reactivos de secuenciación, incluyendo la

ADN polimerasa y un oligonucleótido para secuenciación, se pasan entonces a

través de la celda de flujo. Para cada ciclo, un único nucleótido marcado

fluorescentemente que contiene un terminador reversible se añade a la cadena

complementaria dentro de cada grupo individual en un enfoque de secuenciación

por síntesis. Después de la obtención de imágenes del dispositivo de carga

acoplada, la división del marcador fluorescente permite añadir el siguiente

nucleótido. El número de ciclos que producen la longitud de lectura final se

especifica de antemano, y la secuenciación también se puede hacer desde ambos

extremos (secuenciación pareada) usando un segundo cebador a la hebra de

ADN recién sintetizada (Chiu y Miller, 2016). En comparación con las plataformas

454 y SOLID, HiSeq 2000 es el más barato en secuenciación con un costo de $

0,02 dólares por un millón de bases (en el Instituto de Genómica de Beijing, en

China). Con la multiplexación incorporada con los adaptadores código de barra,

podría manejar miles de muestras simultáneamente. HiSeq 2000 necesita el

Software Controlador HiSeq (HCS) para el control de programa, el cual es un

Software Analizador en Tiempo Real (RTA) útil para realizar el llamado de base

en el equipo (Es decir identificar los nucleótidos correspondientes en cada

fragmento secuenciado). Con un disco duro de 3 TB en HiSeq 2000 y con la

ayuda de los reactivos Truseq v3 y los softwares asociados, HiSeq 2000 ha

elevado sustancialmente el rendimiento de la secuenciación (Liu et al., 2012). En

la figura 3 se muestra una descripción gráfica de cómo se lleva a cabo la

preparación de la biblioteca y la secuenciación por síntesis.

18

Figura 3. Representación esquemática de la secuenciación por Illumina HiSeq 2500. A: La librería

para la NGS es preparada mediante la fragmentación de ADN genómico y ligando adaptadores

específicos en los extremos de los fragmentos. B: La librería es cargada en la celda de flujo y los

fragmentos se unen a la superficie de la misma, cada fragmento unido es amplificado en

agrupamientos clonales mediante amplificación de puente. C: Se añaden reactivos de

secuenciación, incluyendo nucleótidos marcados fluorescentemente, y se incorpora la primera

base. Se visualiza la celda de flujo y se registra la emisión de cada grupo. La longitud de onda de

la emisión y su intensidad se utilizan para identificar los nucleótidos. Este ciclo se repite n veces

para crear una lectura con una longitud de “n” bases (normalmente 100 bases, figura tomada de

Illumina Inc., 2016).

2.5 Genotipado por Secuenciación.

Existen nuevas tecnologías de secuenciación masiva que han desarrollado

nuevos enfoques para el genotipado (Batley, 2015). Uno de ellos es el

Genotipado por Secuenciación (GBS, genotyping-by-sequencing), basado en la

reducción de la complejidad del genoma por medio de enzimas de restricción, y

en la utilización de adaptadores tipo código de barras que permiten el genotipado

de múltiples muestras en paralelo obteniendo marcadores moleculares de alta

19

densidad (Fig. 4). Hasta un millón de SNPs en cada muestra de ADN pueden ser

generados usando GBS, lo que hace posible reducir el sesgo de evaluación y

mejorar la resolución de la caracterización molecular en una colección de

muestras (Elshire et al., 2011; Poland et al., 2012; Poland y Rife, 2012).

En la actualidad la aplicación de NGS ha dado lugar a notables avances en

la secuenciación de genomas completos. El GBS ha surgido como una poderosa

herramienta que puede ser utilizada para diferentes aplicaciones genéticas, tales

como el análisis de la diversidad genética y la selección genómica (Poland y Rife,

2012; Crossa et al., 2013; Zhang et al., 2015).

La tecnología del GBS ha tenido aplicaciones importantes en la

caracterización genética y en el mejoramiento de cultivos de maíz, soya, arroz,

sorgo y algodón, indicando que el GBS es una herramienta metodológica factible

para el mejoramiento en este tipo de cultivos, teniendo una mayor resolución y

con una disminución del trabajo intensivo en el laboratorio en comparación con

otras tecnologías de genotipado (Semagn et al., 2012; Jarquín et al., 2014; Zhang

et al., 2015).

Previo a GBS, se han utilizado plataformas para la identificación de SNPs

en Maíz basadas en chips de Illumina (GoldenGate que contiene 1,536 SNPs,

MaizeSNP50 BeadChip, que contiene 56,110 SNPs y MaizeSNP3072 que

contiene 3072 SNPs) y en secuenciación masiva para su caracterización

molecular (Lu et al., 2009; Semagn et al., 2012; Li et al., 2013; Tian et al., 2015

Wu et al., 2016). Pero estos chips contienen un número finito de SNPs y esta

limitado a los SNPS presentes en la variedad B73, lo que puede producir una baja

resolución en los análisis de caracterización molecular, sobre todo en aquellos en

los que se analizan líneas de origen trópical. Además de que estos chips no

permiten la detección de nuevos SNPs que se encuentren en las líneas que no

han sido previamente caracterizadas. Por tales motivos existe una tendencia de

reemplazo de los chips de genotipado por el uso de secuenciación masiva y

nuevas tecnologías de genotipificación.

20

Figura 4. Preparación de bibliotecas mediante la metodología de Genotipado por Secuenciación

para diferentes individuos y descubrimiento de SNPs. Los círculos de colores rojo, naranja amarillo

y azul representan los diferentes adaptadores código de barras utilizados, el círculo de color verde

representa el adaptador común para todos los individuos. Una combinación de dos enzimas de

restricción puede ser utilizada para la digestión del ADN genómico (Figura tomada de Singh y

Singh, 2015).

Actualmente existen estudios donde se ha utilizado infinidad de veces el

GBS como método de genotipado, pero además existen otras tecnologías como

RNA-seq que pueden ser utilizadas para realizar el genotipado de accesiones. El

uso de RNA-seq permite buscar marcadores tipo SNP exclusivamente en

regiones codificantes, al realizar la comparación de la secuencia de los genes

21

mensajeros con regiones que contienen marcadores ya reportados, e incluso con

genomas de referencia para la búsqueda de nuevos marcadores.

2.6 DArTSeq.

La empresa Tecnología de Arreglos para la Diversidad (DArT) de

Camberra, Australia, ha desarrollado una plataforma de genotipado basada en

GBS llamada DArTSeq, la cual proporciona la oportunidad de seleccionar

fracciones del genoma que corresponden predominantemente a regiones

codificantes. Las enzimas de restricción utilizadas en este método separan las

secuencias con bajo número de copias de las fracciones repetitivas del genoma,

siendo las secuencias con bajo número de copias más informativas para el

descubrimiento de marcadores, especialmente para el mejoramiento genético.

Estos fragmentos representativos son secuenciados a partir de las nuevas

tecnologías de secuenciación, específicamente con la plataforma HiSeq de

Illumina (Kilian et al., 2012; Li et al., 2015; Pailles et al., 2017).

A diferencia del enfoque de GBS en maíz que genera una gran densidad de

marcadores pero con un alto contenido de datos perdidos (hasta un 50%),

haciendo necesaria la imputación precisa de datos para la detección de

heterocigotos, en el enfoque de DArTSeq se generan una menor cantidad de

marcadores (50,000 a 350,000 SNPs), pero tiene una cobertura mucho mayor y

presenta una menor cantidad de datos perdidos (20% o menor) en comparación

con el GBS (Chen et al., 2016; Wu et al., 2016). Además, al utilizar una

combinación de enzimas de restricción, DArTSeq ofrece un perfil genómico

asequible a través de la generación de SNPs de alta densidad, y permite la

identificación de variaciones de presencia y ausencia (PAV), pudiéndose obtener

de 40,000 a 200,000 marcadores de este tipo (Sansaloni et al., 2011; Chen et al.,

2016).

2.7 Genes candidatos para la biosíntesis de lípidos.

La realización de estudios de caracterización genética ha permitido a los

investigadores encontrar genes que regulan características con importancia

económica entre los cultivos que se producen en la actualidad. Estas

características incluyen en plantas la resistencia o tolerancia a enfermedades,

mayor productividad, tiempo de floración, estructura de las raíces, producción de

22

algún metabolito como en la biosíntesis de lípidos y otros aspectos favorables que

se muestran en la naturaleza. En maíz, se han identificado genes que están

relacionados con la biosíntesis de lípidos, específicamente los genes: FAD2 y

WRI1a que están asociados con la producción de insaturaciones en los ácidos

grasos. Por otro lado ACP, LACS y COPII que están asociados con la cantidad de

aceite (Li et al., 2013). Es por ello que ahora con las NGS es posible identificar el

locus marcador que está estrechamente asociado a los principales genes

involucrados en la biosíntesis de lípidos y estos pueden ser utilizados para una

posterior selección en los programas de mejoramiento de líneas de maíz en las

que el aceite sea la característica fenotípica que se desea mejorar (Kozik et al.,

2013).

2.8 Uso de líneas Dobles Haploides como estrategia para el

fitomejoramiento.

El mejoramiento genético de plantas puede describirse como un conjunto

de actividades destinadas a mejorar las cualidades genéticas de un cultivo. Es por

ello que los mejoradores desarrollan nuevas variedades con objetivos específicos:

mayor rendimiento, mejor calidad de grano, resistencia a plagas o a

enfermedades, tolerancia a factores ambientales adversos (sequía, inundación,

salinidad), entre otros. El desarrollo de nuevos hibridos que cumplan con las

necesidades de los agricultores, normalmente es un proceso largo en el cual es

necesario obtener primeramente líneas que sean endogámicas, y presenten poca

variación genética, es decir que sean casi 100% homocigotas. Estas líneas

endogámicas seleccionadas con ciertas características definidas se utilizan para

realizar cruzas biparentales, buscando que la progenie tenga las características

mejoradas de ambos padres. Sin embargo la producción de líneas parentales

endogámicas es un poceso demasiado tardío, siendo hasta 7 u 8 ciclos de

autofecundaciones al menos en el caso del maíz. Para desarrollar nuevas

variedades en un menor tiempo es posible utilizar la tecnología de Dobles

Haploides (DH), la cual se basa en la duplicación cromosómica de genotipos

haploides disminuyendo su variabilidad genética, esto permite acortar

considerablemente la producción de híbridos mejorados debido a que hace

posible un desarrollo más rápido de líneas totalmente homocigotas en

23

aproximadamente 2 ó 3 generaciones. Esto en comparación con el proceso

tradicional de mejoramiento genético, donde el desarrollo de líneas endogámicas

requiere de 6 a 8 generaciones. (Forster y Thomas, 2005; Geiger y Gordillo, 2009;

Chang y Coe, 2009; Prasanna et al., 2013).

La tecnología DH consiste en tres fases: 1) inducción de haploidía in vivo o

in vitro a partir de una línea inductora, 2) duplicación cromosómica con colchicina,

y 3) autofecundación para tener más semilla. En cualquiera de los dos métodos,

dobles haploides o mejoramiento tradicional, la fuente de germoplasma

heterocigoto son plantas provenientes de cruzas entre dos o múltiples parentales

mejorados presentes en grupos heteróticos, constituyendo la base para la

creación de nuevas líneas DH. La haploidía es inducida por la polinización de las

inflorescencias femeninas del germoplasma fuente con el polen de un genotipo

que tiene la capacidad de inducir haploides. Las mazorcas del germoplasma

fuente son cosechadas y se realiza una selección de los granos que presentan

embriones haploides. La línea inductora tiene el gen R1-nj el cual produce una

coloración purpura en el endospermo del grano por producción de antocianinas,

utilizándola como marcador de haploidía. Las semillas haploides son tratadas con

un inhibidor de la mitosis para duplicar artificialmente sus cromosomas

produciendo plantas dobles haploides (Prigge y Melchinger, 2012; Prasanna et al.

2013).

La caracterización genética de líneas DH puede proporcionar información

de utilidad que puede ayudar a los mejoradores de maíz. Por un lado, dando la

ventaja de poder realizar estudios de asociación genética entre el genotipo y las

características de interés agronómico (Forster y Thomas, 2005) y por otro lado, a

través de un modelo matemático es posible predecir la eficiencia de los nuevos

híbridos sin tener que esperar hasta su cosecha (He et al., 2014; Jarquín et al.,

2014; Sonah et al., 2015; Zhang et al., 2015). Esta asociación de caracteres

agronómicos con los marcadores moleculares ha mostrado que es posible realizar

predicciones para diferentes rasgos agronómicos, como los tiempos de floración,

contenido de almidón, la altura de la planta, entre otros. En consecuencia, han

surgido avances considerables en los sistemas de selección para la producción

de híbridos que han ido remplazando a los sistemas tradicionales, basados en la

24

producción de cruzas en base a la observación del fenotipo o al comportamiento

de un solo gen (Xu y Crouch, 2008).

Debido a que el maíz es uno de los cereales de mayor demanda y

representa uno de los principales cultivos con mayor derrama económica en

México. En los últimos años se han venido liberando híbridos mejorados de maíz

a partir de sistemas de selección tradicionales y se empiezan a incorporar estas

nuevas tecnologías de fitomejoramiento como las líneas DH y marcadores

moleculares. Sin embargo, la liberación de híbridos mejorados por empresas o

instituciones mexicanas no compite con los híbridos liberados por las empresas

transnacionales debido a la gran capacidad de estas compañías para liberar

nuevas variedades en un periodo corto de tiempo y con rendimientos superiores a

los que se observan en líneas mejoradas producidas por empresas nacionales

(FIRA, 2011).

2.9 Programa de fitomejoramiento de maíz de INIFAP.

Las dos zonas productoras de maíz más importantes que se encuentran en

México se localizan en las regiones Noroeste y Bajío del país. Por tal motivo, es

necesario diseñar una estrategia para la producción eficiente de semilla nacional

para obtener híbridos con potencial agronómico que sean capaces de

establecerse en dichas regiones y de obtener rendimientos y valor agregado altos

tal como un elevado contenido de aceite que permita competir con las empresas

transnacionales.

Poblaciones de maíz blanco y amarillo tanto del Noroeste como del Bajío

de México se han venido mejorando a partir de un esquema de selección

recurrente de medios hermanos, utilizando como unidad de selección al promedio

fenotípico de las familias de medios hermanos que han sido evaluadas en

ensayos repetidos y como unidad de recombinación a la semilla remanente de las

semillas que tengan mejor comportamiento, al polinizar una familia a un solo

individuo, se puede decir que se realiza selección en uno solo de los sexos, ya

que al germoplasma fuente se le retira la espiga para evitar la producción de

polen. En este esquema se ha buscado el aumento del contenido de aceite y el

rendimiento de grano. Este programa iniciado en el año 2004 por parte del INIFAP

hoy en día cuenta con líneas de maíz blanco y amarillo con mayor contenido de

25

aceite (6%-8%) y un rendimiento de grano comparable al de híbridos comerciales

(oscilando entre 8 y 11 toneladas por hectárea). A partir de estas líneas en el año

2013 se obtuvieron líneas DH que servirán en este trabajo como material fuente

para la selección de parentales que serán utilizados para realizar las cruzas y

obtener híbridos mejorados.

Estas poblaciones de maíz blanco y amarillo, anteriormente han sido objeto

de estudio. Preciado-Ortiz et al. (2013), analizaron la respuesta de la selección

recurrente sobre el desarrollo agronómico, contenido de aceite, perfil de ácidos

grasos y capacidad antioxidante lipofílica de las cuatro poblaciones, encontrando

que no ocurrió una descompensación del rendimiento de grano al aumentar el

contenido de aceite en grano. Además se presentaron un aumento del ácido

oleico y linolénico, y una disminución del ácido linoleico conforme aumentaban los

ciclos de mejoramiento. Los rendimientos alcanzados por las poblaciones

oscilaron entre 8 y 11 ton/ha en el último ciclo en que fueron evaluadas.

Por otro lado, Ortega-Corona et al. (2015) analizaron la respuesta del

proceso de selección recurrente, el rendimiento de grano y características de

interés agronómico en las cuatro poblaciones (PBN, PBB, PAN y PAB) cultivadas

en la región del Bajío de México. Ellos observaron una respuesta de selección

positiva con un incremento gradual de aceite por ciclo de 0.31, 0.40, 0.27 y 0.30%

para PAB, PAN, PBB y PBN respectivamente, sin afectar el rendimiento del grano

o las características agronómicas de la planta. Esto fue debido a que la selección

del germoplasma que se usó para el siguiente ciclo de mejoramiento, fue

seleccionado primordialmente a partir del rendimiento de grano y en segunda

instancia, por el contenido de aceite en el grano; de esta manera fue posible

lograr un incremento en el porcentaje de aceite del grano de maíz sin afectar el

rendimiento.

Vázquez-Carrillo et al. (2015) evaluaron el uso de estos maíces con alto

contenido de aceite, en relación a la calidad y textura (propiedades físicas,

térmicas y reológicas) del grano, masa y tortillas, observando que los maíces con

alto contenido de aceite produjeron tortillas más suaves. El alto contenido de

aceite en las tortillas redujo su absorción de agua y la capacidad de hinchamiento

del almidón, pero inhibió la retrogradación del almidón, por lo que se mantuvo

más blanda durante el almacenamiento.

26

El esquema de mejoramiento de maíces con ACA y alto rendimiento se desarrolla

actualmente en INIFAP del Valle del Fuerte, realizando selección a partir de líneas

parentales DH acoplado con el uso de marcadores moleculares, tecnologías de

secuenciación masiva y bioinformatica. El esquema va enfocado a encontrar

variaciones genéticas que puedan estar asociados a rasgos que son de

importancia para el INIFAP como el ACA, el rendimiento de grano, el contenido de

proteína.

3. JUSTIFICACIÓN

La producción de maíz en México, es de gran importancia para la

agricultura y la economía nacional. Su importancia radica en el rendimiento a

partir de semillas provenientes de híbridos mejorados. Sin embargo, la liberación

de híbridos mejorados pertenecientes a empresas o instituciones mexicanas no

compite con los híbridos comerciales producidos por empresas transnacionales

presentes en el mercado nacional. Las líneas producidas por INIFAP no cuentan

con la información de su composición genética, por ello, resulta indispensable

obtener su perfil genético y evaluar la diversidad de las poblaciones de maíz

blanco y amarillo del Bajío y el Noroeste, la cual será de utilidad para los

mejoradores genéticos de maíz, facilitando la utilización de las líneas producidas

por INIFAP, y promoviendo la generación de nuevos híbridos mejorados con

potencial agronómico para cada región. La obtención de los perfiles genéticos

mediante GBS de las líneas DH disminuirá los tiempos de los esquemas de

mejoramiento genético, permitiendo conocer la diversidad genética y la estructura

poblacional existente en las poblaciones de maíz del Bajío y el Noroeste pudiendo

separar grupos heteróticos existentes en las líneas DH y proponer cuales líneas

de maíz blanco y amarillo del Bajío y el Noroeste pueden generar mejores cruzas.

27

4. HIPÓTESIS

El análisis de diversidad genética y de estructura poblacional de líneas

dobles haploides de maíz mediante genotipado por secuenciación, permitirá

proponer cuales líneas de maíz blanco y amarillo del Bajío y el Noroeste pueden

generar mejores cruzas.

28

5. OBJETIVOS

5.1 Objetivo General.

Determinar la composición genética de las poblaciones de maíz blanco y amarillo

del Noroeste y el Bajío de México mediante la tecnología de genotipado por

secuenciación.

5.2 Objetivos específicos.

Determinar índices de diversidad genética para las poblaciones y los

individuos de maíz blanco y amarillo del Noroeste y el Bajío.

Obtener la estructura genética de las poblaciones de maíz blanco y

amarillo del Noroeste y Bajío de México.

29

6 MATERIAL Y MÉTODOS

6.1 Genotipado y determinación de los índices de diversidad genética

para las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío.

6.1.1 Material genético a utilizar.

El material genético se proporcionó por el INIFAP y consistió en un panel

de 120 muestras obtenidas de las poblaciones Amarilla del Bajío (PAB) y del

Noroeste (PAN), Blanca del Bajío (PBB) y del Noroeste (PBN). Se realizó una

clasificación de las líneas en cuanto a su origen geográfico, el tipo de línea

(parental, cruza y mestizo) y por el color del grano (Cuadro 6). El análisis se

realizó en una muestra de siete parentales PAB, nueve parentales PAN, siete

parentales PBB, 38 PBN, 20 cruzas simples de PAB con PAN, 20 cruzas simples

de PBB con PBN, nueve mestizos blancos y 10 mestizos amarillos, siendo las 120

líneas de maíz evaluadas en total.

Cuadro 6. Clasificación de 120 líneas de maíz por tipo de línea, color de grano y región de origen.

Genotipos No. de líneas Color del grano Región de origena

Blanco Amarillo B N B x N N x B

Parental 61 45 16 14 47

Cruza 40 20 20 15 25

Mestizo 19 9 10 9 10

aRegión de origen: B= Genotipo perteneciente al Bajío, N= Genotipo perteneciente al Noroeste, B

x N= Genotipo creado a partir de una hembra del Bajío y un polinizador del Noroeste y N x B=

Genotipo creado a partir de una hembra del Noroeste y un polinizador del Bajío.

6.1.2 Composición genética de líneas DH de maíz blanco y amarillo.

Las semillas se germinaron para obtener tejido foliar del cual se hizo la

extracción de ADN. La germinación de las semillas se llevó a cabo por medio de

la técnica de papel secante enrollado (Warham, 1998). Brevemente, se utilizó una

toalla de papel secante realizando un doblez en la parte inferior de 5 cm para

crear un receptáculo para la semilla, se colocaron 3 semillas de cada genotipo, se

humedeció el papel secante con agua destilada y se enrolló, posteriormente se

pasaron los rollos de dos en dos a bolsas de plástico, y se colocaron en

condiciones de oscuridad y a temperatura ambiente durante 72 horas.

30

Posteriormente, se sacaron a la luz una vez que el coleóptilo emergió y se

realizaron riegos mínimos sólo para mantener la humedad en el papel secante.

Las plántulas se mantuvieron por diez días para realizar la colección de

aproximadamente 4 cm de tejido foliar para cada extracción de ADN.

6.1.3 Extracción de ADN genómico.

Se realizó la extracción de ADN genómico a partir de tejido foliar de maíz

mediante el protocolo estándar de CTAB (bromuro de hexa-decil-tri-metil-amonio)

al 2% (Stewart y Via, 1993) con algunas modificaciones. Para monitorear la

integridad del ADN, se llevó a cabo una electroforesis en gel de agarosa al 1%

durante 1 hora, con una carga eléctrica de 90 v y 30 mAmps. Por

espectrofotometría se determinó la concentración y calidad del ADN en el rango

de absorbancia de 260/280 empleando un equipo NanoDrop 2000c a partir de 1

µL de la muestra. El ADN se aceptó como “puro” cuando las muestras tuvieron

una razón 260/280 > 1.8, si la razón es apreciablemente baja se repitió la

extracción, debido a que, valores < 1.8 indican contaminación de muestra por

proteínas, fenol u otro contaminante que pueda absorber fuertemente a 280 nm.

6.1.4 Preparación de bibliotecas por el método de DArTSeq.

Después de la verificación de la calidad e integridad del ADN se realizó una

dilución a 60 ng/µL, y se envió una alícuota de 30 µL en placas de 96 pozos para

la preparación de las bibliotecas de DArTSeq-GBS. La preparación de las

bibliotecas se llevó a cabo en el Servicio de Análisis Genéticos para la Agricultura

(SAGA) del Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT),

Texcoco, México, según la metodología reportada por Sansaloni et al. (2011). Se

utilizó un par de enzimas de restricción sensibles a la metilación para reducir la

complejidad del genoma (PstI y HpaII). Se ligaron adaptadores tipo código de

barras (uno diferente para cada individuo) y adaptadores comunes para todos los

individuos, se hizo una combinación de los individuos en un tubo y se realizó una

amplificación para enriquecer los fragmentos que posteriormente fueron

secuenciados.

31

6.1.5 Secuenciación por síntesis.

Posterior a la preparación de las bibliotecas se llevó a cabo la

secuenciación tipo “Single end” en los canales de las celdas de flujo de un

secuenciador Illumina HiSeq 2500 en SAGA-CIMMYT. Primero los adaptadores

de los fragmentos se unieron por complementariedad a los oligonucletidos

presentes en la celda de flujo de Illumina. Cada fragmento se amplificó en clones,

creando agrupaciones a través de la amplificación por puente. Cuando los

agrupamientos estuvieron completos, los templados fueron secuenciados por el

extremo en que se encuentra el adaptador código de barras, el cual permite

identificar posteriormente por medios bioinformáticos a que individuo pertenecen

cada una de las lecturas producidas por el secuenciador.

6.1.6 Búsqueda de SNPs.

Previo a la búsqueda de los SNPs se analizó la calidad de las lecturas

mediante el software FastQC. Este paso es muy importante ya que permite

verificar que las secuencias crudas que se utilizarán para el llamado de SNPs

cuenten con suficiente calidad (valores > 30 en la escala de Phred aseguran una

exactitud de la secuenciación de 99.9 %).

Una vez determinada la calidad de las secuencias se realizó la

identificación de SNPs presentes en las líneas evaluadas a través del software

propiedad de la compañía DArT. Este proceso fue realizado en el CIMMYT,

proporcionando como resultado una matriz de presencia/ausencia de marcadores

tipo SNP. El proceso consiste en lo siguiente: las lecturas son filtradas a partir de

los sitios de corte de las enzimas PstI (CTGCAG) y HpaII (CCGG) y del código de

barras de cada línea. Se tomaron sólo las lecturas que tengan estas

características y se seleccionaron las primeras 68-69 pb de las lecturas, ya

seleccionadas éstas se unieron creando un solo archivo con todas las lecturas

separadas por códigos de barras, este archivo se alineó con un conjunto de datos

de genotipado de maíces tropicales y subtropicales, disponibles en una base de

datos perteneciente al CIMMYT. Para conocer cuales secuencias pertenecen a

cada individuo para poder realizar el llamado de SNPs, el software genera una

matriz donde las secuencias se organizan de acuerdo a su código de barras y que

32

corresponde a cada una de las líneas de maíz. Finalmente, ya que se conoce a

que individuo pertenece cada lectura, se llevó a cabo la búsqueda de las variantes

tomando como un SNP el cambio de un nucleótido comparando cada línea con el

conjunto de marcadores identificados en maíz por el CIMMYT como referencia

(Chen et al., 2016).

6.1.7 Índices de diversidad genética.

En la figura 5 se muestra el procedimiento realizado para la determinación

de los índices de diversidad genética de las cuatro poblaciones de maíz.

Figura 5. Diagrama de flujo de los análisis bioinformáticos realizados a partir de los 35,770 SNPs.

6.1.8 Número de SNPs.

A partir del archivo de presencia/ausencia generado por SAGA-CIMMYT

sin filtrar por MAF a 0.05, el cual contiene todos los genotipos evaluados y los

marcadores presentes en cada uno de ellos se realizó un conteo del número total

de SNPs identificados en las cuatro poblaciones de maíz. Con el macro de

Microsoft Excel “FiRe v2.2” se determinó cuales marcadores pertenecen a cada

33

uno de los 120 genotipos (Garcion y Metraux, 2006). Con Microsoft Excel se

obtuvo un promedio del número de marcadores identificados por población (PBB,

PBN, PAB y PAN) y por el tipo de línea (parental, cruza, mestizo).

6.1.9 Determinación del porcentaje de datos perdidos.

Además del archivo de presencia/ausencia, SAGA-CIMMYT proporcionó un

archivo hapmap que contiene los SNPs presentes en los 120 individuos. A partir

de este archivo se creó un archivo de entrada con la terminal Bash de Linux,

utilizando el comando “sed”, reemplazando los valores presentes en el hapmap

por datos bi-alélicos. Posteriormente con la librería adegenet en R se determinó el

porcentaje de datos perdidos presente en los SNPs identificados.

6.1.10 Heterocigosidad observada y esperada.

Para determinar el porcentaje de heterocigosidad de los SNPs obtenidos

de cada línea se utilizó el software Bio-R (Pacheco et al., 2016) para cuantificar la

variación genética que existe entre las 120 líneas, y entre las 61 líneas parentales

presentes en las cuatro poblaciones. El valor de heterocigosidad observada

describe la proporción de loci heterocigotos detectados en cada línea, y el valor

de heterocigosidad esperada se refiere a la fracción estimada de todos los

individuos que podrían ser heterocigóticos para cualquier locus tomado al azar.

Los valores de heterocigosidad van de 0 a 1, siendo 0 totalmente homocigoto y 1

totalmente heterocigoto. El archivo de entrada para este software consiste en una

matriz que representa el tipo de alelo presente en cada línea, indicados con

valores del 1 al 3; siendo homocigoto mayor con valor de 1, homocigoto menor

con valor de 2 y heterocigoto con valor de 3. Los marcadores utilizados fueron

filtrados por el software a partir de la frecuencia del alelo menos comun con un

valor menor del 5% (MAF = 0.05) y 0% de datos perdidos.

6.1.11 Índice de contenido polimórfico (PIC).

Se calculó el PIC para el total de las 120 líneas de maíz, además por

separado para las 61 líneas parentales. Este se calculó a partir de los SNPs

identificados en cada línea en el software PowerMarker v3.25 empleando la

siguiente fórmula (Liu, 2002):

34

𝑃𝐼𝐶𝐼 = 1 − ∑ 𝑃𝑖𝑗2

𝑛−1

𝑗=1

− ∑ ∑ 2𝑃𝑖𝑗2 𝑃𝑖𝑘

2

𝑛

𝑘=𝑗+1

𝑛−1

𝑗=1

Donde Pij y Pik son las frecuencias alélicas del j-esimo y el k-esimo alelo del

marcador i, respectivamente, y la sumatoria se extiende sobre todos los alelos.

Esto se hace para referir al valor de cada marcador respecto con la

cantidad de polimorfismos mostrados. Los valores de PIC, también proporcionan

una estimación de la probabilidad de encontrar un polimorfismo entre dos

muestras aleatorias del germoplasma.

Los valores de PIC se representaron para las cuatro poblaciones de maíz y

para las líneas parentales, a partir de los valores de PIC de los marcadores

presentes en cada individuo.

6.2 Estructura poblacional de maíces del Bajío y Noroeste de México.

6.2.1 Distancia genética.

La matriz de distancia genética de Rogers (Rogers, 1972) se determinó

para los 120 individuos y para 61 los parentales a partir de los SNPs presentes en

cada una de las líneas de maíz, mediante la siguiente formula en R:

𝑀𝑅𝑥𝑦 = √∑ ∑ (𝑃𝑙𝑎𝑥 − 𝑃𝑙𝑎𝑦)2𝑛𝑙

𝑎=1𝐿𝑙=1

2𝐿

Dónde: Plax es la frecuencia estimada del alelo a, dentro del locus l, en el

genotipo x; L el número de loci, y nl el número de alelos dentro del locus, Play es

la frecuencia estimada del alelo a, dentro del locus l, en el genotipo y (Pacheco et

al., 2016). Los valores de distancia genética van de 0 a 1, valores cercanos a 0

indican que los individuos son muy parecidos y los valores cercanos a 1 indican

que los individuos son muy diferentes.

A partir de este valor se realizó una predicción de posibles cruzas simples

que se pueden realizar a partir de las líneas parentales que presentan mayor

distancia genética entre sí (Pavlov et al., 2016).

35

6.2.2 Análisis de estructura.

Pritchard et al. (2000) describe un método de agrupamiento basado en modelos

para el uso de datos de genotipos multi locus para inferir la estructura poblacional

y asignar cada uno de los individuos a las diferentes poblaciones posibles a

inferir. Ellos asumen un modelo en el que hay un cierto número de poblaciones K

(donde K puede ser desconocido), cada una de las cuales se caracteriza por un

conjunto de frecuencias de alelos en cada locus. Los individuos de la muestra son

asignados (probabilísticamente) a las poblaciones, o conjuntamente a dos o más

poblaciones si sus genotipos indican que se mezclan. Este modelo no asume un

proceso de mutación en particular, y puede aplicarse a la mayoría de los

marcadores genéticos comúnmente utilizados como en nuestro caso los SNPs,

siempre y cuando no estén estrechamente vinculados. Esto no es posible verificar

debido a que nuestros marcadores no se encuentran ubicados con referencia al

genoma de B73, por lo que no se pueden seleccionar SNPs distribuidos a lo largo

del genoma para realizar el análisis de estructura poblacional.

Se realizó un análisis de agrupamiento para conocer la estructura

poblacional de las 120 líneas de maíz mediante el software STRUCTURE 2.3.4 a

partir del número de SNPs proporcionados por el CIMMYT para un valor de K de

1 a 5 esperando encontrar al menos 4 agrupaciones. Para cada K se corrieron 10

replicas con un periodo de calentamiento previo de 10,000 iteraciones con 10,000

repeticiones (Pritchard et al., 2000; Falush et al., 2003; Hubisz et al., 2009). El

número de posibles grupos fue determinado de acuerdo a los resultados del

STRUCTURE y a la corrección ΔK sugerida por Evanno et al. (2005). En cuanto

al número más probable de Evanno se seleccionó el número de poblaciones

representado en el gráfico como el punto con un mayor ΔK, en cuanto al gráfico

de Ln(P) se tomó como número de poblaciones a partir del punto en que el gráfico

alzanzó un estado de “plateau” donde se presentan valores menores de

desviación estándar. La estructura poblacional resultante se ilustró con el software

CLUMPP (Earl y vonHoldt, 2012). Este análisis nos permitió condensar la

información genética de cada una de las líneas. Se realizó una comparación entre

las poblaciones de maíz blanco y amarillo del Bajío y el Noroeste, además se

realizó una comparación entre cada uno de los individuos en base a esta

información permitiéndonos observar los resultados de una forma gráfica. El

36

análisis mostró un conjunto de colores que representan a los “clusters” o

agrupamientos de las líneas con información genética más parecida.

6.2.3 Construcción de dendograma.

A partir de la matriz de distancia genética de Rogers se tomó la matriz

inferior y se crearon dos archivos de texto, uno para las 120 líneas de maíz y otro

para los 61 parentales. Estos archivos fueron utilizados para alimentar el software

MEGA 7.0 con el que se construyeron los dendrogramas. En MEGA se construyó

un dendograma por el método del grupo de pares sin ponderar con media

aritmética (UPGMA de las siglas en inglés Unweighted Pair Group Method using

Arithmetic averages). Se marcó cada subgrupo que pueda existir entre las líneas

de maíz, buscando la separación por color de grano: blanco y amarillo, región a la

que pertenecen: Bajío y Noroeste, y al tipo de genotipo al que pertenecen:

parentales, cruzas o mestizos (Kumar et al., 1994).

6.2.4 Análisis de escalamiento multidimensional.

Se realizó un Análisis de Escalamiento Multidimensional (MDS) a partir de

los 35,770 SNPs, con el software Bio-R (Pacheco et al., 2016) creando tres

archivos de salida que contienen las coordenadas de cada individuo un gráfico

3D, creado a partir de las similitudes que existen entre los genotipos. Los tres

archivos de salida pertenecen a a) las líneas parentales, b) las líneas parentales y

las cruzas, y c) al conjunto en total de las líneas de maíz. Estos tres archivos de

salida se utilizaron como archivo de entrada para el software Curly Whirly donde

se visualizaron los gráficos de MDS clasificando a las líneas parentales por

población, y a los demás genotipos por cruzas simples y mestizos (Milne, 2014).

37

7 RESULTADOS

7.1 Caracterización genética.

Se genotiparon 120 líneas de maíz blanco y amarillo pertenecientes a las

regiones del Bajío y el Noroeste de México. El genotipado mediante la tecnología

DArTSeq-GBS permitió identificar un total de 35,770 marcadores tipo SNP. A

partir del total de SNPs se identificaron diferente número de marcadores por

individuo que oscilan entre 25,238 SNPs y 34,829 SNPs, teniendo un promedio de

29,126 SNPs en el panel completo. Una vez identificados los SNPs que

pertenecen a cada línea fue posible determinar el promedio de SNPs que fueron

identificados para cada población (PBB: 28,993 SNPs; PBN: 29,885 SNPs; PAB:

27,991 SNPs; PAN: 28,386 SNPs), además se determinó también según el tipo

de línea (Cruzas Amarillas 25,796 SNPs; Cruzas Blancas: 26,482 SNPs; Mestizos

Amarillos: 29,294 SNPs; Mestizos Blancos: 31,216 SNPs; Parentales Amarillos:

31,216 SNPs; Parentales Blancos: 31,443 SNPs). En las figuras 6 y 7 se muestra

el número de SNPs identificados por población y tipo de línea. Después del

filtrado con MAF < 0.05 se obtuvieron 26,596 SNPs los cuales fueron utilizados

para realizar la determinación de los índices de diversidad genética restantes

(PIC, Ho y He), mientras que la estructura genética poblacional de los 120

individuos se obtuvo con el total de SNPs.

Figura 6. Gráfico de barra representativo del número de SNPs identificados en las cuatro

poblaciones de maíz. PBB: Población blanca del Bajío; PBN: Población blanca del Noroeste; PAB:

Población amarilla del Bajío; PAN: Población amarilla del Noroeste.

0

5000

10000

15000

20000

25000

30000

35000

Nú

mer

o d

e SN

Ps

Poblaciones de maíz

Promedio del contenido de SNPs por población de maíz

PBB PBN PAB PAN

38

Figura 7. Gráfico de barra representativo del número de SNPs identificados según el tipo de línea

de maíz. CA: cruza amarilla; CB: cruza blanca; MA: mestizo amarillo; MB: mestizo blanco; PA:

parental amarillo; PB: parental blanco.

El porcentaje de datos perdidos calculado para el set de los 35,770 SNPs

fue del 18.57% respectivamente. En cuanto a los índices de diversidad genética,

la información detallada de las cuatro poblaciones y el panel completo se

encuentra en el cuadro 7. El valor de PIC para los 120 individuos fue de 0.488

indicando que los marcadores presentes en las líneas son muy polimórficos, y que

son confiables y representativos de la información proporcionada de los índices

de diversidad genética.

Cuadro 7. Índices de diversidad genética para las 120 líneas de maíz.

Grupo N° de líneas PIC Ho He

Población amarilla

del Bajío 22 0.489 ± 0.086 0.157 ± 0.094 0.436 ± 0.006

Población amarilla

del Noroeste 24 0.488 ± 0.086 0.143 ± 0.077 0.435 ± 0.005

Población blanca

del Bajío 19 0.489 ± 0.086 0.134 ± 0.088 0.433 ± 0.005

Población blanca

del Noroeste 55 0.487 ± 0.086 0.101 ± 0.095 0.430 ± 0.005

Panel completo 120 0.488 ± 0.086 0.125 ± 0.092 0.433 ± 0.006

0

5000

10000

15000

20000

25000

30000

35000

Promedio de SNPs identificados por tipo de línea de maíz

CA CB MA MB PA PB

Núm

ero

de

SN

Ps

Tipo de línea de maíz

39

La tasa de heterocigosidad observada de las 120 líneas fue relativamente

baja teniendo un valor de 0.125. Al excluir a las cruzas y los mestizos del análisis

disminuyen los valores de heterocigosidad para los maíces parentales de las

cuatro poblaciones. Por lo que fue necesario determinar los índices de diversidad

genética para las 61 líneas parentales que representan a las cuatro poblaciones.

La información respectiva de los índices de diversidad genética de las 61 líneas

parentales se encuentra en el cuadro 8.

Cuadro 8. Índices de diversidad genética de las 61 líneas parentales.

Grupo N° de líneas PIC Ho He

Población Amarilla

del Bajío 7 0.480 ± 0.087 0.036 ± 0.024 0.435 ± 0.002

Población Amarilla

del Noroeste 9 0.482 ± 0.087 0.062 ± 0.071 0.438 ± 0.003

Población Blanca del

Bajío 7 0.481 ± 0.087 0.022 ± 0.003 0.438 ± 0.005

Población Blanca del

Noroeste 38 0.484 ± 0.087 0.057 ± 0.072 0.438 ± 0.004

Panel completo 61 0.483 ± 0.087 0.051 ± 0.064 0.438 ± 0.004

Los valores para el PIC de los 61 individuos sugieren que los marcadores

presentes en estas líneas son muy polimórficos. En cuanto a la heterocigosidad

observada los valores bajos obtenidos para las 61 líneas parentales de las 4

poblaciones son normales para líneas que son endogámicas, estas tuvieron

valores por encima del 94% de homocigosis.

7.2 Análisis de estructura poblacional.

Los valores de distancia genética de Rogers presentes en las 120 líneas

oscilaron entre 0.014 (parental PBN24-DH24-Us / parental PBN23-DH23-Us) y

0.254 (parental PBB178 / mestizo PABXPAN155A), teniendo individuos que son

más contrastantes genéticamente unos de otros. La matriz de distancia genética

del panel completo de los 120 individuos se encuentra vinculada en la siguiente

liga electrónica:

https://www.dropbox.com/s/0o5p9pvu2gz433u/DistGenRogersCIMMYT_R.c

sv?dl=0.

https://www.dropbox.com/s/0o5p9pvu2gz433u/DistGenRogersCIMMYT_R.csv?dl=0

https://www.dropbox.com/s/0o5p9pvu2gz433u/DistGenRogersCIMMYT_R.csv?dl=0

40

A partir de la matriz de distancia genética se realizaron predicciones de

posibles cruzas simples de maíz con las líneas parentales que presentaron mayor

distancia genética entre sí (> 0.22), considerando que sean maíces con el mismo

color de grano. Las predicciones se muestran en los cuadros 9 y 10, siendo 20

cruzas de maíz amarillo y 20 cruzas de maíz blanco respectivamente. El resto de

las predicciones de las líneas parentales se encuentran en los cuadros 11 y 12 del

anexo A.

Cuadro 9. Predicción de cruzas simples de maíz amarillo

Parental A Parental B Distancia Genética

PAN146-DH14-Us PAB226 0.230667552

PAN144-DH12-Us PAN133 0.230262825

PAN146-DH14-Us PAB223 0.229438296

PAN146-DH14-Us PAB218 0.228721721

PAN146-DH14-Us PAN133 0.227943555

PAN144-DH12-Us PAB236 0.227652527

PAN144-DH12-Us PAB226 0.225996763

PAN144-DH12-Us PAB223 0.225975751

PAN141-DH9-Us PAB226 0.225943622

PAN136 PAN133 0.225887527

PAN146-DH14-Us PAB236 0.225629912

PAN155A PAN133 0.225384895

PAN144-DH12-Us PAB218 0.225379894

PAN139 PAN133 0.225325965

PAN144-DH12-Us PAB209-DH6-Us 0.225140586

PAB235 PAB223 0.224664329

PAN136 PAB226 0.224570885

PAN146-DH14-Us PAB209-DH6-Us 0.22454497

PAN136 PAB209-DH6-Us 0.224410437

PAN146 PAN133 0.224160695

41

Cuadro 10. Predicción de cruzas simples de maíz blanco


PBN33-DH32-Us PBB187 0.239634755

PBN54-DH54-Us PBB178 0.230502973

PBN33-DH32-Us PBB183 0.230361306

PBN33-DH32-Us PBB183-DH6-Us 0.229570423

PBN54-DH54-Us PBB178-DH1-Us 0.229154928

PBN32-DH32-Us PBB187 0.22912937

PBN62-DH62-Us PBB183 0.229097422

PBN54-DH54-Us PBB187 0.228372132

PBN54-DH54-Us PBB198 0.228094774

PBN54-DH54-Us PBB183 0.22787383

PBN58-DH58-Us PBB187 0.227850441

PBN22-DH22-Us PBB187 0.227814089

PBN62-DH62-Us PBB178 0.227786527

PBN33-DH32-Us PBN13-DH13-Us 0.227748579

PBN62-DH62-Us PBB187 0.227508602

PBN62-DH62-Us PBB183-DH6-Us 0.227459558

PBN47-DH47-Us PBB187 0.227438174

PBN54-DH54-Us PBB180 0.227222565

PBN62-DH62-Us PBB198 0.227157294

PBN85-DH85-Us PBB187 0.227053931

Los resultados del análisis de estructura poblacional para las 120 líneas de

maíz obtenidos con STRUCTURE para un rango de K entre 1 y 5 establecen que

los individuos se agrupan en dos poblaciones al mostrar el valor más alto de Ln

(P) cuando el número más probable de agrupaciones es dos, además el gráfico

de ΔK presenta el pico más alto en el número dos, indicando de igual forma que

existen dos poblaciones (Fig. 8 y 9). Tanto los resultados del STRUCTURE como

la corrección de Evanno sugiere que las líneas analizadas están organizadas en

dos poblaciones (K = 2), un grupo conformado por líneas parentales y el otro

grupo conformado por cruzas y mestizos, separando las líneas más homocigotas

de las más heterocigotas (Fig. 10).

42

Figura 8. Estructura poblacional de 120 líneas de maíz estimada con 35,770 SNPs. Valores de Ln

(P) para un rango de K de 1 a 5.

Figura 9. Estructura poblacional de 120 líneas de maíz estimada con 35770 SNPs. Valores de ΔK

para un rango de K de 2 a 4.

43

Gru

po

1 (

cru

za

s y

me

stizo

s)

Gru

po

2 (

pa

ren

tale

s)

Fig

ura

10.

Estr

uctu

ra p

ob

lacio

na

l de 1

20 lín

eas d

e m

aíz

cuan

do K

= 2

. C

ada u

na

de las 1

20 lín

eas e

s r

epre

senta

da p

or

un

a b

arr

a

vert

ica

l, q

ue e

sta

part

icio

nada e

n 2

se

gm

ento

s c

olo

reados,

los n

om

bre

s d

e c

ad

a lín

ea

se e

ncuen

tran

en

el eje

X,

mie

ntr

as q

ue e

l

va

lor

de

asig

nació

n p

ara

ca

da g

rupo s

e e

ncue

ntr

a e

n e

l eje

Y.

44

7.2.1 Agrupamiento mediante MDS.

A partir de los tres archivos de entrada que se obtuvieron para el software

CurlyWhirly se muestran tres gráficos distintos, uno para las 61 líneas parentales,

otro de los 61 parentales con 40 cruzas simples, y el último con las 120 líneas.

Los resultados del análisis de escalamiento multidimensional para las líneas

parentales representadas en la figura 11 nos muestran que primeramente estas

se encuentran separadas según el color de la semilla, además se observa otro

tipo de agrupación, estando agrupadas en 3 grupos según la posición que estos

ocupan en el espacio 3D.

Figura 11. Gráfico de Escalamiento Multidimensional (MDS) de las líneas parentales de maíz

blanco y amarillo del Bajío y Noroeste de México. Los individuos pertenecientes a cada población

están ilustrados por puntos de color rojo, azul, verde y rosa representando a la Población blanca

del Noroeste (PBN), la Población Blanca del Bajío (PBB), la Población Amarilla del Noroeste

(PAN) y la Población Amarilla del Bajío (PAB) respectivamente.

45

Los individuos pertenecientes al primero de estos tres grupos se

encuentran en la Población Blanca del Noroeste, el segundo grupo corresponde a

la Población Blanca del Bajío y el tercer grupo a las Poblaciones Amarillas del

Bajío y el Noroeste, las cuales no muestran una agrupación definida por ubicación

geográfica al mezclarse los individuos de una población con otra.

En la figura 12 se muestra un gráfico en 3D con las líneas parentales y las

40 cruzas simples, los 101 genotipos se separan por el color de grano, las líneas

parentales blancas del Bajío se separan en un grupo, las líneas parentales

blancas del Noroeste en otro grupo y las líneas parentales tanto del Bajío como

del Noroeste permanecen formando un mismo grupo, en cuanto a las cruzas de

maíces blancos se agrupan hacia cada una de las poblaciones tanto del Bajío

como del Noroeste, mientras que las cruzas de maíces amarillos se encuentran

dispersas entre ambas poblaciones.

Figura 12. Gráfico de Escalamiento Multidimensional (MDS) de los 61 parentales y las 40 cruzas

simples. Los individuos pertenecientes a cada población están ilustrados por puntos de color rojo,

azul, verde, rosa representando a la Población Blanca del Noroeste (PBN), la Población Blanca del

Bajío (PBB), la Población Amarilla del Noroeste (PAN), la Población Amarilla del Bajío (PAB), y las

cruzas simples respectivamente.

46

En la figura 13 se muestra el total de las 120 líneas conteniendo a los 61

parentales, las 40 cruzas y los 19 mestizos, clasificando por población únicamente

a las líneas parentales; las líneas mestizas se encuentran ubicadas

espacialmente entre las líneas parentales separándose por el color del grano,

estando separados los maíces amarillos de los blancos, encontrándose los

maíces amarillos dispersos y los maíces blancos más cercanos a las poblaciones

del Bajío y del Noroeste. La mayoría de las cruzas de maíz y de mestizos se

ubicaron cerca de las líneas que se utilizaron como parentales durante la cruza.

Figura 13. Gráfico de Escalamiento Multidimensional (MDS) del panel completo de individuos. Los

individuos pertenecientes a cada población están ilustrados por puntos de color rojo, azul, verde,

rosa, representando a la Población Blanca del Noroeste (PBN), la Población Blanca del Bajío

(PBB), la Población Amarilla del Noroeste (PAN), la Población Amarilla del Bajío (PAB)

respectivamente, mientras que las cruzas y los mestizos por puntos de color amarillo y morado.

En todos los gráficos los maíces blancos se encuentran en la región

positiva del eje X, mientras que los maíces amarillos se encuentran en la región

negativa de este mismo eje, además se observa que la Población Blanca del

47

Noroeste se encuentra en la región positiva del eje Y, mientras que la Población

Blanca del Bajío se encuentra en la región negativa de este mismo eje; en cuanto

a las poblaciones amarillas, éstas se encuentran dispersas a lo largo de todo el

eje Z, ubicándose en la región negativa del eje X y la región positiva del eje Y.

7.2.2 Agrupamiento de las 120 líneas de maíz.

Los resultados del análisis de agrupamiento realizado mediante la

construcción del dendograma por el método UPGMA a partir de la distancia

genética de Rogers para los 120 individuos fueron consistentes con los

observados a partir de MDS (Fig. 14). Es posible distinguir claramente dos grupos

diferentes entre las 120 líneas de maíz, un grupo está conformado por las

poblaciones amarillas del Bajío y el Noroeste, las cuales se encuentran

mezclados teniendo varias subpoblaciones; el otro grupo muestra claramente dos

subpoblaciones separadas representando a las poblaciones blancas del Bajío y

Noroeste de México. Además de lo anterior mencionado, en el dendograma se

muestran cada uno de los individuos clasificados según el color del grano y la

población de origen, teniendo como tal a las cuatro poblaciones agrupadas en tres

grupos fijos, el primero representando a las poblaciones amarillas del Bajío y el

Noroeste, el segundo a la población blanca del Bajío y el tercero a la población

blanca del Noroeste. Dentro de este mismo se observa que las líneas de maíz

que pertenecen a la población amarilla del Bajío y la población amarilla del

Noroeste están más estrechamente relacionadas, en cambio la población blanca

del Bajío y la población blanca del Noroeste presentan una mayor diferencia entre

si estableciendo los dos grupos anteriormente mencionados.

En cuanto al dendograma realizado para las 61 líneas parentales se

muestra que estas se agrupan en las cuatro principales poblaciones, lográndose

distinguir claramente cada una de ellas según el color del grano y la región a la

que pertenecen, teniendo más definido que individuos pertenecen a las

poblaciones blancas del Bajío y del Noroeste y a las poblaciones amarillas del

Bajío y del Noroeste lo cual no es tan consistente con el análisis MDS para las

líneas parentales, que aunque se encuentra la separación según el color de la

semilla, las poblaciones amarillas se encuentran mezcladas entre sí (Fig. 15).

48

Figura 14. Dendograma construido por el método UPGMA de 120 líneas de maíz blanco y amarillo

del Noroeste y Bajío de México. Los individuos pertenecientes a cada población están ilustrados

por líneas de color azul, rojo, rosa y verde representando a las Poblaciones Blancas del Bajío y

Noroeste (PBB y PBN), y a las Poblaciones Amarillas del Bajío y el Noroeste (PAB y PAN)

respectivamente.

49

Figura 15. Dendograma construido por el método UPGMA de las 61 líneas parentales de maíz

blanco y amarillo del Noroeste y Bajío de México. Los individuos pertenecientes a cada población

están ilustrados por líneas de color azul, rojo, rosa y verde representando a las Poblaciones

Blancas del Bajío y Noroeste (PBB y PBN), y a las Poblaciones Amarillas del Bajío y el Noroeste

(PAB y PAN) respectivamente.

50

8 DISCUSIÓN

8.1 Objetivo 1. Determinar índices de diversidad genética para las

poblaciones y los individuos de maíz blanco y amarillo del Noroeste y

el Bajío.

El INIFAP ha iniciado un programa de mejoramiento genético de líneas de

maíz con alto contenido de aceite. En este momento el programa ya se encuentra

en el ciclo 14 de selección recurrente y a partir de estas líneas se generaron los

materiales dobles haploides con el que se está trabajando en esta investigación.

El programa de mejoramiento genético iniciado por INIFAP está evolucionando

con nuevas tecnologías para el fitomejoramiento y pretende incursionar en el

tema de selección asistida por marcadores moleculares para su programa de

mejoramiento genético. Esta investigación representa la primera fase de

evaluación de marcadores moleculares para el programa de mejoramiento

genético del INIFAP. Generar información acerca de los perfiles genómicos de

líneas parentales que se producen en el estado de Sinaloa por parte del INIFAP

es una tarea de gran importancia para el desarrollo de nuevas variedades que

puedan resultar en la producción de nuevos híbridos nacionales que puedan

competir con los híbridos comerciales en su rendimiento en grano pero con un

mayor contenido de aceite.

Actualmente existen muchas características de interés agronómico, como

el rendimiento de grano, u otras características de especialidad como el alto

contenido de aceite o el alto contenido de proteína, entre otras. Las líneas

utilizadas en este estudio fueron seleccionadas principalmente con base a estas

características para poder producir híbridos mejorados en dichos aspectos. Estás

líneas muestran rendimientos hasta de 14 ton/ha en cruzas, un contenido de

aceite mayor al 8%, y de proteína mayor al 11% en líneas parentales,

considerándose como maíces de especialidad. Estos tiene la oportunidad de

generar nuevos nichos de mercado, obteniendo productos derivados del maíz con

mayor calidad (Preciado-Ortiz et al., 2013; Vázquez-Carrillo et al., 2014 Ortega-

Corona et al., 2015).

Para poder caracterizar genéticamente el panel completo de las 120 líneas

de maíz del INIFAP se utilizaron marcadores moleculares de tipo SNP. Estos

51

presentan ventajas respecto a otros marcadores, debido a que los SNPs además

de estar presentes en todos los organismos vivientes, éstos se encuentran

dispersos a lo largo del genoma; proporcionan una gran cantidad de información

al permitirnos identificar una mayor cantidad de loci que presentan variación; son

flexibles para realizar diferentes análisis como de diversidad genética o

introgresión de genomas; permiten inspeccionar regiones génicas e intergenicas;

son marcadores co-dominantes lo cual nos permite estimar la heterocigosidad

presente en los individuos y además tienen una buena relación costo/efectividad

(Reif et al., 2003, Yadav et al., 2016).

El DNA fue secuenciado en multiplex con la tecnología de DArTSeq-GBS

mediante el uso de adaptadores de código de barras diferente para cada una de

las líneas. El uso de esta tecnología permite identificar SNPs en diferentes

regiones del genoma del maíz, a diferencia de utilizar SNPChip de Ilumina que se

limita a identificar SNPs previamente identificados en la variedad de maíz B73.

En este trabajo se identificaron un total de 35,770 SNPs en los 120

individuos. Sin embargo, después de un filtrado para el alelo menos frecuente

MAF < 0.05 permanecieron sólo 26,596 SNPs; siendo los marcadores que se

encontraron con mayor frecuencia, eliminando todos aquellos alelos raros que se

indentifacron con una frecuencia menor al 5%. Cada individuo presentó diferente

número de marcadores variando desde 25,238 SNPs para la línea parental

amarilla PAB218 hasta 34,829 SNPs para la línea mestiza PABxPAN146. El

hecho de que el número de SNPs identificados (35,770) sea mayor a los que

presentó la línea con mayor diversidad de SNPs (34,829), es debido a que

algunos individuos presentan diferentes SNPs en comparación a esta misma, los

941 SNPs identificados adicionales están presentes en cualquiera de los otros

119 individuos.

Los SNPs están ganando importancia en los estudios de diversidad

genética, al existir cada vez mas genomas secuenciados a partir de las nuevas

tecnologías de secuenciación masiva, y el lograr producir una mayor densidad de

marcadores, detectando una gran cantidad de loci variables utilizados para

realizar este tipo estudios. Las principales ventajas de estos marcadores son que

se producen en los genomas de las plantas a una frecuencia mucho mayor que

los SSRs, teniendo una densidad de 6 a 22 SNPs por 1 kb en la secuencia, y que

52

además pueden ser genotipados en sistemas de alto rendimiento con enfoques

multiplex como el del presente estudio. Los polimorfismos de SSR y SNP se

generan a través de diferentes mecanismos (deslizamiento de replicación para

SSR vs. mutación puntual para SNPs) y los dos tipos de marcador pueden

proporcionar vistas diferentes de la estructura de una población dada (Singh et al.,

2013; Xu et al., 2017).

El analizar una mayor densidad de marcadores moleculares permite

encontrar un mayor número de sitios que presentan variaciones dentro de los

genomas de los individuos a evaluar. Cada una de estas variaciones puede ser

específica para cada individuo o estar compartida con otros, este hecho indica

que aquellos individuos que presenten la mayor coincidencia de marcadores son

agrupados en base a este aspecto, que tiene que ver con la similitud que existe

entre cada una de las líneas de maíz. En estudios de diversidad genética y de

estructura poblacional es de suma importancia contar con marcadores

moleculares que nos permitan identificar los niveles de diversidad, así como la

distancia genética entre los individuos. Lo anterior permite determinar la utilidad

de los marcadores a utilizar, la pureza genética de las líneas de maíz que se

están evaluando, y la similitud o disimilitud que existe entre cada uno de los

genotipos. Además el utilizar una mayor densidad de marcadores permite

obterner de manera más confiable y representativa la diversidad genética,

estructura poblacional, GWAS, huellas genómicas, mapeos de QTLs y selección

genómica de las poblaciones analizadas. Idealmente el secuenciar genomas

completos puede ayudar a identificar todos los SNPs presentes a lo largo del

genoma; sin embargo los altos costos son considerados como una gran barrera,

el uso de alternativas de menor costo como la utilizada en el presente estudio

permiten identificar hasta 1 millon de SNPs con imputación, siendo una elección

prometedora al proveer de una estrategia de genotipado con buena relación

costo-efectividad (Glaubitz et al., 2014; Xu et al., 2017).

En el trabajo realizado por Chen et al (2016) se analizaron 561 líneas

endogámicas de maíz del CIMMYT (CMLs, CIMMYT maize inbred lines) de

maíces tropicales de tierras altas y bajas, y subtropicales de distintas partes del

mundo, encontrando 88,600 SNPs con la tecnología de DArTSeq-GBS utilizando

una combinación de dos enzimas de restricción (PstI y HpaII); despues de un

53

filtrado MAF < 0.05, datos perdidos > 40 % y heterogeneidad > 10%, se retuvo un

subconjunto de 18,082 SNPs, los cuales se utilizaron para calcular la diversidad

genética y estructura poblacional.

Wu et al (2016) analizaron un panel de 538 CMLs que corresponden a

líneas en regiones con clima tropical y subtropical, además de 6 líneas de clima

templado tratando de determinar la diversidad genética que existe en las líneas

del CIMMYT de alrededor del mundo. Ellos reportan 955,690 SNPs crudos con la

tecnología de GBS utilizando la enzima ApeKI, pero después de un filtrado MAF <

0.05 permaneció un subconjunto de 362,008 SNPs utilizados posteriormente para

el análisis de diversidad y estructura poblacional. La disminución del número de

marcadores posteriormente al filtrado de SNPs realizado con MAF < 0.05 se debe

principalmente a la gran cantidad de datos perdidos presentes en el conjunto de

SNPs identificados en este panel, por lo que el numero de marcadores con baja

representabilidad es demasiado alto, haciendolos poco frecuentes, siendo

eliminados durante este paso del filtrado. Para los índices de diversidad

encontraron valores de Ho, He y PIC de 0.01, 0.31 y 0.25, respectivamente. Los

valores de Ho fueron menores a los encontrados en nuestro trabajo. En

concordancia con nuestro estudio se presentó un valor de Ho menor a la He.

Sugerimos que esto se debe a que las líneas del CIMMYT tienen varios ciclos de

autofecundación (> 6) lo que hace que las líneas avancen en endogamia

haciéndolas cada vez más puras. Nuestros valores de PIC fueron mayores por lo

que se deduce que los marcadores reportados en la publicación mencionada son

menos informativos que los SNPs identificados en nuestro trabajo.

Mengesha et al., (2017) analizaron 128 líneas endogámicas pertenecientes

a un esquema de mejoramiento en África para producir híbridos resistentes a

sequía y a Striga hermonthica. En total se encontraron 143,415 SNPs con la

tecnología de GBS utilizando la enzima de restricción ApeKI, realizaron un filtrado

de MAF < 0.05. Después del filtrado de todos los SNPs, solo 3297 marcadores

permanecieron y fueron usados para realizar los posteriores análisis de diversidad

genética y estructura poblacional. Durante el proceso de la preparación de las

bibliotecas pueden ocurrir errores técnicos como la baja amplificación de ciertas

regiones que provoquen una baja cobertura de los genomas durante la

secuenciación, provocando que algunas regiones no se encuentren tan

54

representativas dentro del análisis de genotipado por secuenciación, al existir esta

baja cobertura las frecuencias alélicas de cada marcador disminuyen, y al estar

menos frecuentes estos se pierden durante el filtrado de MAF < 0.05, quedando

solo los SNPs mas representativos de la diversidad presente dentro las líneas de

maíz evaluadas. Los valores para los índices de diversidad genética reportados

fueron de Ho = 0.13, He = 0.40 y PIC ≥ 0.20. Estos valores de Ho son mayores

que los reportados en nuestro trabajo. Nuestras líneas son más puras

genéticamente al presentar una menor heterocigosidad en los alelos identificados.

Los valores de He son menores que los reportados en nuestro trabajo, por lo que

se considera que las líneas pertenecientes a este panel de líneas endogámicas

de maíz tienen una menor diversidad genética que nuestro panel de estudio.

El GBS ha mostrado ser una herramienta muy poderosa en estudios de

diversidad y estructura genética poblacional. Sin embargo, tiene la desventaja de

obtener una baja cobertura de secuenciación, lo que resulta en una tasa muy alta

de datos perdidos. Recientemente han surgido modificaciones a la técnica original

de GBS para tratar de mejorar su cobertura en el genoma objetivo. DArTSeq

presenta una ventaja en dicho tema, al utilizar dos enzimas de restricción (una de

corte raro y otra de corte frecuente) esto permite tener una mejor resolución y

cobertura del genoma. En nuestro set de datos el porcentaje de datos perdidos

alcanzó el 18.57, siendo menor que lo reportado en otros trabajos como el de Wu

et al. (2016) que presentan valores de hasta el 55%, incluso después de filtrar los

marcadores con MAF < 0.05. En otros trabajos como el de Chen et al. (2016) el

porcentaje de datos perdidos se encontró cerca del 18% al igual que lo

encontrado en este trabajo. La diferencia entre ambos trabajos es que en el

trabajo realizado por Wu et al. (2016) el genotipado se realizó con GBS

convencional encontrando una gran densidad de marcadores pero con un alto

contenido de datos perdidos y en el trabajo de Chen et al. (2016) que aunque

encontraron una menor cantidad de marcadores tipo SNPs, encontraron una

menor proporción de datos perdidos al utilizar DArTSeq-GBS. Los altos niveles de

datos perdidos en una base de datos pueden convertirse en un problema con los

posteriores análisis y en la interpretación erronea de los mismos, como el realizar

análisis de asociación genómica. Para disminuir los niveles de datos perdidos es

posible realizar la imputación de datos, aunque por lo general esto no es

55

necesario para los análisis de diversidad genética. La imputación consiste en usar

información de otros genotipos para llenar los datos perdidos.

En cuanto a los índices de diversidad genética, podemos observar valores

para Ho de 0.125 ± 0.092 para el panel completo de 120 individuos. Esta alta

variación en nuestro panel de diversidad, es debida a la presencia de cruzas

simples, las cuales tienen una mayor heterocigosidad, debido al cruzamiento de

los parentales, produciendo diferentes alelos en algunos de los loci. Por tal motivo

el análisis se realizó nuevamente, solo para las líneas parentales buscando

encontrar valores más cercanos a 0. Las líneas parentales DH son consideradas

como líneas puras u homocigotas. Sin embargo en nuestro análsis, las líneas

parentales no alcanzaron el 100% de homocigosidad. Lo anterior puede ser

explicado por la naturaleza de la técnica de GBS en la que ocurren errores

durante el proceso de llamado de SNPs o en el proceso de la secuenciación de

DNA. A pesar de que para la aplicación exitosa de tecnologías de secuenciación

HiSeq, la calidad de los datos de lectura es crucial. Al comparar las tasas de error

esperadas y observadas, los puntajes de calidad asignados por el software de

identificación de base son generalmente precisos. Nuestros datos de

secuenciación fueron filtrados mediante un estricto control de calidad con base en

los valores de calidad de Phred eliminando las partes de los fragmentos que

tuvieran baja calidad, no se observó una tasa de error significativamente mayor al

final de las lecturas después del filtrado de calidad, la cual es una regíon que

normalmente presenta valores bajos de calidad, traduciéndose como errores en la

determinación de las bases. Al comparar con secuencias de genomas de

referencia, en especial con el genoma de la variedad de maíz B73 que es una

línea templada con nuestras líneas que son tropicales, se puede encontrar una

acumulación regional de bases de baja calidad y posiciones únicas con tasas de

error notablemente elevadas debido a la diferenciación genética que existe entre

líneas templadas y líneas tropicales, los cuales son aspectos importantes a

considerar al analizar las variaciones de nucleótidos presentes en cada individuo

(Minoche et al., 2011).

La Heterocigosidad esperada (He) es un índice de diversidad genética y se

refiere al número de genotipos heterocigotos que debería haber en una población

si esta se encontrara en equilibrio. El término esperado se refiere a que en la

56

población debería haber ciertas proporciones de genotipos homocigotos

dominantes, homocigotos recesivos y heterocigotos de acuerdo a las

proporciones establecidas en las leyes de Mendel y el número de alelos

detectado. Estas proporciones se cumplen solamente en las poblaciones

naturales en las que existe entre otras cosas, reproducción aleatoria. Este

supuesto no se cumple en las poblaciones sujetas a mejoramiento genético donde

la reproducción es dirigida hacia la selección de ciertos caracteres de interés. En

nuestra población de estudio, las líneas parentales presentaron una Ho muy

cercana a cero lo cual es carácterístico de líneas endogámicas en las que se

llevan a cabo autofecundaciones y/o duplicación cromosómica durante el proceso

de obtención de líneas DH como es el caso del presente estudio. Las líneas

parentales de maíz aquí analizadas pertenecen a un esquema de selección para

mejoramiento genético, los cruzamientos no son realizados al azar, sino dirigidos

con propósitos específicos para el mejoramiento genético. Por ejemplo se busca

cruzar las líneas que muestren los mejores rasgos agronómicos para su selección

como el alto contenido de aceite o el alto rendimiento en grano.

El valor del PIC nos indica que tan informativo puede ser un marcador, la

informatividad para un marcador genético se define como la probabilidad de que

un descendiente de una pareja sea informativo, es decir, que se pueda deducir el

origen parental de cada uno de los alelos de ese locus. En este trabajo el valor de

PIC se mantuvo por encima de 0.483. Botstein et al. (1980) estableció rangos

para los valores de PIC con base en las frecuencias alélicas que se presentan en

cada locus como altamente informativos (PIC > 0.5), razonablemente informativos

(PIC < 0.5 pero > 0.25) y ligeramente informativos (PIC < 0.25). En base a esta

publicación, los marcadores estudiados en este trabajo son considerados como

razonablemente informativos.

La caracterización genética de las líneas de maíz contribuye

significativamente al desarrollo positivo del programa de mejoramiento ya que

permite seleccionar las líneas parentales que serán utilizadas por el INIFAP para

realizar la selección de genotipos para el mejoramiento genético, y generar cruzas

simples que puedan establecerse en la región Noroeste de México,

particularmente en Sinaloa. El uso de marcadores moleculares como una

estrategia de apoyo para desarrollar nuevas variedades de híbridos nacionales

57

proporciona una gran cantidad de información para los mejoradores. Cuando

éstos son razonablemente informativos pueden ayudar a seleccionar genotipos

con rasgos de importancia agronómica. Adicionalmente, permite utilizar otras

técnicas de mejoramiento como la Selección Asistida por Marcadores (MAS por

sus siglas en inglés) o Análisis de Asociación Genómica, para determinar que

marcadores están asociados significativamente con rasgos de importancia

económica, tales como alto rendimiento, elevado contenido de aceite y de

proteína en grano. Esta información es muy util para el mejorador, quien puede

utilizarla para seleccionar los genotipos que tengan los rasgos deseados para la

producción de cruzas por un menor costo y en un menor tiempo en comparación

con esquemas de mejoramiento convencional. Además le permite realizar

predicciones de las cruzas a realizar entre los genotipos más contrastantes

genéticamente, buscando producir semilla en un menor tiempo, a menor precio y

con mayor valor nutricional.

8.2 Objetivo 2. Obtener la estructura genética de las poblaciones de maíz

blanco y amarillo del Noroeste y Bajío de México.

Los resultados de STRUCTURE permitieron separar a las líneas por su

grado de heterocigosidad, separando a las líneas parentales de las cruzas y

mestizos. Aunque estas líneas parentales pertenecen a dos regiones de

adaptación ambiental contrastantes (el Bajío y el Noroeste de México), y con color

del grano distinto (blanco y amarillo), los resultados del Structure no mostraron

ninguna subagrupación ni por el ambiente de adaptación ni por su color de grano.

En el análisis de estructura poblacional de Wu et al. (2016) se definen

claramente tres poblaciones, separando a las 538 CMLs según su zona de

adaptación, teniendo como tal CMLs tropicales de tierras bajas, subtropicales de

tierras medias, y tropicales de tierras altas, con un valor de poblaciones más

probables igual a 3 (K = 3). A diferencia de este trabajo, no tenemos esa

separación de los individuos por su región de origen, posiblemente se deba a los

tipos de líneas analizados, en el trabajo anterior se utilizaron solamente líneas

endogámicas que son utilizadas como parentales, teniendo muy baja variabilidad

genetcia, en cambio en el panel de INIFAP las líneas utilizados son líneas

endogámicas utilizadas como parentales y además cruzas simples que surgen del

58

cruzamiento de estas líneas parentales de forma inter e intra poblacional, por lo

que el definir la pertenencia de los 120 individuos tiene una mayor dificultad, el

software STRUCTURE agrupa a los individuos que presenten las frecuencias

alélicas mas parecidas, por lo que la variabilidad genética existente en las cruzas

simples y mestizos propicia una diferenciación en estas frecuencias en contra de

las líneas parentales, mostrando estos dos principales grupos.

Mengesha et al. (2017) muestran en sus resultados del análisis de

Structure que las 128 líneas endogámicas del esquema de mejoramiento del

Instituto de Agricultura Tropical de África tienen un número más probable de

agrupaciones igual a 4 (K = 4). Los resultados del análisis de estructura de la

población en este estudio claramente separaron las líneas endogámicas en cuatro

grupos de acuerdo con sus antecedentes genéticos, estableciendo poblaciones

biparentales resistentes a S. hermonthica y tolerantes a la sequía.

El análisis de estructura poblacional al ser utilizado con líneas

endogámicas, puede ser utilizado para determinar la procedencia de cada línea,

ya sea por el lugar de adaptación geográfica en que se cultiva, o por el pedigrí

que cada una de las líneas presenta, o incluso si un individuo pertenece a una

mezcla de ambas poblaciones. La principal desventaja del STRUCTURE es su

tiempo de ejecución, llegando a durar hasta un mes utilizando el número de

repeticiones recomendado por el autor.

Se construyó un dendograma a partir de la matriz de distancia genética de

Rogers calculada para el total de 120 líneas de maíz y los 61 parentales. Este

dendograma separó a los 120 individuos en tres principales poblaciones, la

Población Blanca del Noroeste, la Población Blanca del Bajío, y en un mismo

grupo a las Poblaciones Amarillas del Bajío y del Noroeste. Esto se debe a que

existen individuos que son progenie de las líneas parentales, e incluso son cruzas

interpoblacionales (cruzas de individuos del Noroeste con el Bajío) lo cual dificulta

la asignación a alguna población. Cuando se analizó un dendograma creado a

partir de las 61 líneas parentales, excluyendo cruzas y mestizos, se marca una

clara diferenciación entre los individuos que pertenecen a cada una de las cuatro

poblaciones base. La presencia de diferente número de marcadores e incluso

marcadores específicos en cada individuo permite su separación en los diferentes

grupos, agrupando aquellos que comparten más marcadores entre sí.

59

En el trabajo de Wu et al. (2016) se calculó de igual forma una matriz de

distancia genética a partir de los 362,008 SNPs para las 538 CMLs y las 6 líneas

templadas como grupo externo. A partir de esta matriz de distancia genética se

construyó un dendograma, mostrando una separación de las CMLs por la zona de

adaptación geográfica de cada uno de los genotipos, se encontraron tres grupos

principales, maíces tropicales de tierras bajas, maíces subtropicales de tierras

medias, y los maíces tropicales de tierras altas. El grupo externo correspondiente

a los maíces de tierras templadas, se basó principlamente en líneas endogámicas

comerciales de Estados Unidos (B37, B73, B84, Mo17, C103, Oh43). Estas se

situaron cerca de las líneas tropicales de tierras altas, posiblemente al ser mayor

la altura sobre el nivel del mar, las temperaturas en esas localizaciones es baja al

igual que en las zonas templadas.

Mengesha et al. (2017) calcularon una matriz de distancia genética de 128

líneas endogámicas a partir de 3,297 SNPs. Sus resultados mostraron en el

análisis de Structure cuatro grupos principales. La separación de las líneas de

acuerdo a la distancia genética entre ellas, permitió definir cuatro grupos

heteróticos de líneas endogámicas biparentales resistentes a S. hermonthica y

tolerantes a sequía.

Chen et al. (2016) realizaron un análisis de MDS para 561 CMLs a partir de

18,082 SNPs identificados para este panel. El análisis permitió definir tres

principales agrupaciones según el ambiente de adaptación, logrando definir que

líneas pertenecen a maíces de clima tropical adaptadas a tierras bajas, maíces de

clima subtropical adaptadas a tierras medias, y maíces de clima tropical

adaptadas a tierras altas.

En el presente estudio, se realizó un análisis MDS a partir de los 35,770

SNPs identificados en los 120 individuos para poder visualizarlos en un plano de

3D para definir los grupos heteróticos presentes. El análisis de escalamiento

multidimensional o MDS se basa en las similitudes que tienen los objetos que se

están evaluando para establecer un sistema de coordenadas en 3D, posicionando

más cerca a aquellos individuos que presentaron un mayor número de

marcadores similares entre sí. Los resultados muestran que al analizar sólo a las

líneas parentales, estas se agruparon en tres poblaciones, la primera integrada

por maíces blancos del Bajio, la segunda por maíces blancos del noroeste y la

60

tercera agrupando a los maíces amarillos del Bajío y del Noroeste. Al analizar las

61 líneas parentales junto con las 40 cruzas progenie de estos mismos

parentales, las líneas parentales se agruparon de forma similar, mientras que las

cruzas se posicionaron cerca de las líneas parentales que las conforman. Al

analizar el panel completo de 120 individuos conteniendo líneas parentales,

cruzas y mestizos; las líneas parentales se agruparon de forma similar a los otros

dos análisis, mientras que los mestizos al igual que las cruzas se posicionaron

cerca de al menos uno de los parentales que conforman la cruza.

El uso de marcadores moleculares de tipo SNP permite definir grupos

heteróticos entre las líneas caracterizadas genéticamente. El establecer estos

grupos heteróticos ayuda a seleccionar a los individuos que presentan

características diferentes entre cada grupo y poder realizar cruzas biparentales

esperando características deseables de cada parental en el híbrido. Además de

los análisis de estructura, el uso de la matriz de distancia genética permite

seleccionar a aquellos genotipos más contrastantes de acuerdo a su composición

genética. Por tal motivo se seleccionaron aquellos genotipos que presentaron la

mayor distancia genética entre sí, para la realización de las predicciones de

cruzas simples, buscando que la cruza de estos genotipos produzca un valor

mayor de la heterosis en rendimiento de grano. En el trabajo realizado por Pavlov

et al. (2016) reportan que existe una correlación positiva (r = 0.57) entre la

distancia genética y la heterosis con respecto de los parentales para el

rendimiento de grano. Aunque la correlación no es muy alta, la tendencia indica

que a mayor distancia genética, la heterosis tiende a incrementar. Además de la

distancia genética existente entre los genotipos se buscó que estos pertenecieran

a grupos heteróticos distintos, realizando la predicción para cruzas simples

interpoblacionales, es decir cruzar maíces del Bajío con maíces del Noroeste de

México.

Tanto en el dendograma como en el grafico 3D se muestran claramente 3

principales agrupamientos, la población blanca del Noroeste, la población blanca

del Bajío, y las poblaciones amarillas del Noroeste y el Bajío. Tanto la población

blanca del Noroeste como la del Bajío presentaron un mayor número de

marcadores en comparación con las poblaciones amarillas del Noroeste y Bajío

de México, lo que indica que existe una diferencia de marcadores que puede

61

ayudar a diferenciar mejor dichas poblaciones. Si tomamos en cuenta el número

de marcadores que pertenecen a cada individuo dentro de las predicciones de

cruzas, tenemos que la posible cruza simple de maíz amarillo entre los individuos

PAN146-DH14-Us y PAB226 comparten el 68.1 % de los marcadores mientras

que cada uno de ellos presentan el 20.2 % y el 11.7% de marcadores únicos para

cada línea respectivamente. Estas diferencias en la presencia de marcadores en

cada línea hace que la asignación según los loci que presenten cada uno de ellos

los haga más similares o más contrastantes genéticamente, lo cual permite

separarlos en los diferentes grupos.

El uso de marcadores moleculares para la caracterización genética de

líneas de maíz pertenecientes al INIFAP ha permitido determinar la pureza

genética de cada una de las líneas, así como la diversidad genética que existe

entre ellas y el nivel de informatividad que existe en estos mismos. Estos

marcadores fueron de utilidad para determinar la estructura poblacional presente

en este estudio, determinando grupos heteróticos para las poblaciones de maíces

blancos y amarillos del Noroeste y Bajío de México, permitiendo además

establecer un sistema de predicción de cruzas en base a la distancia genética que

existe entre cada genotipo y la pertenencia a alguna de las poblaciones,

buscando la cruza entre los genotipos más contrastantes genéticamente,

esperando que la heterosis para el rendimiento en grano aumente. La

identificación de estos marcadores moleculares más la medición de valores

fenotípicos de importancia agronómica, serán de utilidad para realizar

posteriores análisis de asociación genómica entre el genotipo y los rasgos

deseables para estas líneas de selección como el alto contenido de aceite, mayor

contenido de proteína y mayores rendimientos en producción de grano. Identificar

marcadores que están significativamente asociados a alguna de estas

características es de suma importancia ya que permitirá aprovechar la tecnología

de mejoramiento conocida como selección asistida por marcadores, la cual

permite seleccionar rasgos de interés agronómico que estén asociados a estas

variaciones puntuales dentro del genoma.

En este caso los marcadores moleculares identificados por el CIMMYT por

medio de la tecnología de genotipado por DArTSeq-GBS, permitieron solamente

determinar la diversidad genética y la estructura poblacional de los individuos

62

pertenecientes a cada población, debido a que en la identificación de SNPs no se

proporciona la posición física de cada marcador al compararlo con un genoma de

referencia, durante este trabajo se realizo una identificación de SNPs para su

posterior imputación (rellenado de datos faltantes) y análisis de asociación

genómica en trabajos futuros.

63

9 CONCLUSIONES

Se identificaron 35,770 SNPs en los 120 individuos, que fueron utilizados para

la determinación de los índices de diversidad genética existentes en las cuatro

poblaciones de maíz.

Las cuatro poblaciones analizadas presentaron altos índices de diversidad

genética.

La distancia genética entre los individuos permitió seleccionar genotipos

contrastantes para la predicción de cruzas con mayor potencial de rendimiento

en grano.

El análisis de estructura poblacional permitió identificar a las líneas

primeramente por el color de grano y después por su origen, teniendo dos

poblaciones de maíces blancos y una población mezclada de maíces amarillos

de ambas regiones.

El análisis de agrupamiento sólo separó a las líneas parentales de cruzas y

mestizos.

El uso de marcadores moleculares para la caracterización genética de las

líneas parentales del INIFAP permite establecer diferentes grupos heteróticos

definidos por la región de origen y el color de la semilla.

Estos resultados permitirán a los mejoradores del INIFAP establecer un

esquema de mejoramiento asistido por marcadores moleculares eficiente para

la producción de hibridos mejorados para el estado de Sinaloa.

64

10 BIBLIOGRAFÍA

Acosta, R. 2009. El cultivo del maíz, su origen y clasificación. El maíz en

Cuba. Cultivos tropicales, vol. 30, no. 2, p. 113-120.

Allendorf, F. W., & Luikart, G. 2009. Conservation and the genetics of

populations. John Wiley & Sons.

Azofeifa-Delgado, Á. 2006. Uso de marcadores moleculares en plantas;

aplicaciones en frutales del trópico. Agronomía mesoamericana, 172:221-

242.

Batley, J. 2015. Plant genotyping: Methods and protocols. 2015th Ed.. New

York, NY: Springer New York.

Botstein, D., White, R. L., Skolnick, M., & Davis, R. W. 1980. Construction

of a genetic linkage map in man using restriction fragment length

polymorphisms. American Journal of Human Genetics, 323:314–331.

Chang, M. T., & Coe Jr, E. H. 2009. Double haploids. In Molecular Genetic

Approaches to Maize Improvement pp. 127-142. Springer Berlin

Heidelberg.

Chen, J., Zavala, C., Ortega, N., Petroli, C., Franco, J., Burgueño, J., &

Hearne, S. J. 2016. The Development of Quality Control Genotyping

Approaches: A Case Study Using Elite Maize Lines. PloS one, 116,

e0157236.

Chiu, C., & Miller, S. 2016. Next-generation sequencing. Molecular

microbiology: diagnostic principles and practice, 3rd ed. ASM Press,

Washington, DC.

Crossa, J., Beyene, Y., Kassa, S., Perez, P., Hickey, J. M., Chen, C., de

Los Campos, G., Burgueño, J., Windhausen, V. S., Buckler, E. S., Jannink,

J., Lopez-Cruz, M. A. & Babu, R. 2013. Genomic prediction in maize

breeding populations with genotyping-by-sequencing. G3 3:1903–1926

65

Dillman, C., Bar-Hen, A., Guerin, D., Charcosset, A. & Murigneux, A. 1997.

Comparison of RFLP and morphological distances between maize Zea

mays L. inbred lines. Consequences for germplasm protection purposes.

Theoretical and Applied Genetics. 95:92–102.

Domínguez-Mercado, C.A. 2012. Red de valor para maíz con alta calidad

de proteína. Institución de enseñanza e investigación en ciencias Agrícolas.

Tesis de Maestría en Ciencias.

Dudley, J. W. 2007. From means to QTL: The Illinois long-term selection

experiment as a case study in quantitative genetics. Crop Science 47:522-

531.

Earl, D. A., & VonHoldt, B. M. 2012. STRUCTURE HARVESTER: a website

and program for visualizing STRUCTURE output and implementing the

Evanno method. Conservation genetics resources, 42:359-361.

Espinoza, F., Argenti, P., Urdaneta, G., Araque, C., Fuentes, A., Palma, J.,

& Bello, C. 2004. Uso del forraje de maíz Zea mays hidropónico en la

alimentación de toretes mestizos. Zootecnia Trop, 224:303-315. Elshire, R. J., Glaubitz, J. C., Sun, Q., Poland, J. A., Kawamoto, K.,

Buckler, E. S., & Mitchell, S. E. 2011. A robust, simple genotyping-by-

sequencing GBS approach for high diversity species. PloS one, 65,

e19379.

Evanno, G., Regnaut, S., & Goudet, J. 2005. Detecting the number of

clusters of individuals using the software STRUCTURE: a simulation

study. Molecular ecology, 14(8):2611-2620.

Falush, D., Stephens, M., & Pritchard, J. K. 2003. Inference of population

structure using multilocus genotype data: linked loci and correlated allele

frequencies. Genetics, 1644:1567-1587.

FAOSTAT. 2017. Base de datos estadísticos de la FAO. Disponible en:

http://faostat.fao.org/ consultado en abril de 2017.

FIRA. 2011. Resumen de costos para producir maíz de riego en el ciclo OI

2011-12, en el municipio de Guasave Sinaloa. Disponible en:

http://www.fira.gob.mx/Nd/SINALOA_MAIZ_PV_2012_P.pdf/ consultado en

enero de 2016.

https://link.springer.com/journal/122

http://faostat.fao.org/

http://www.fira.gob.mx/Nd/SINALOA_MAIZ_PV_2012_P.pdf/

66

Food and Agriculture Organization of the United Nations, FAO. &

International Maize and Wheat Improvement Center, CIMMYT. 1997. El

maíz blanco: un grano alimentario tradicional en los países en desarrollo.

Digitizer.Fao.

Forster, B. P., & Thomas, W. T. 2005. Double haploids in genetics and

plant breeding. Plant Breeding Rev, 25:57-88.

Fundación Produce Sinaloa 2008. Memoria II Jornada de transferencia de

tecnología de cultivo de maíz. Fundación Produce Sinaloa.

Garcion, C., & Métraux, J. P. 2006. FiRe and microarrays: a fast answer to

burning questions. Trends in plant science, 117, 320-322.

Geiger, H. H. & Gordillo, G. A. 2009. Double haploids in hybrid maize

breeding. Maydica 54:485-499.

Glaubitz, J. C., Casstevens, T. M., Lu, F., Harriman, J., Elshire, R. J., Sun,

Q., Buckler, E. S. 2014. TASSEL-GBS: a high capacity genotyping by

sequencing analysis pipeline. PLoS One 9:e90346

González-Estrada, A.; Gutiérrez, I., J; Espinoza, C., A.; Vázquez, C., A.; &

Wood, S.. 2007. Impacto económico del maíz en México: Híbrido H-50.

INIFAP-SAGARPA. Publicación técnica No. 24. 83 p. México, D.F.

Guillen, C. P., De la Cruz, L. E., Castañón, N. G., Osorio, O. R., Brito, M. N.

P., Lozano, R. A., & López, N. U. 2009. Aptitud combinatoria general y

específica de germoplasma tropical de maíz. Tropical and Subtropical

Agroecosystems, 101:101-107.

Hayward, M. D., & Breese, E. L. 1993. Population structure and variability.

In Plant Breeding pp. 16-29. Springer Netherlands.

He, J., Zhao, X., Laroche, A., Lu, Z. X., Liu, H., & Li, Z. 2014. Genotyping-

by-sequencing GBS, an ultimate marker-assisted selection MAS tool to

accelerate plant breeding. Frontiers in plant science, 5.

Huang, X., & Han, B. 2014. Natural variations and genome-wide

association studies in crop plants. Annual review of plant biology, 65:531-

551.

Hirsch, C., Hirsch, C. D., Brohammer, A. B., Bowman, M. J., Soifer, I.,

Barad, O., & Fields, C. J. 2016. Draft Assembly of Elite Inbred Line PH207

67

Provides Insights into Genomic and Transcriptome Diversity in Maize. The

Plant Cell, tpc-00353. Hubisz, M. J., Falush, D., Stephens, M. & Pritchard, J. K. 2009. Inferring

weak population structure with the assistance of sample group information.

Molecular Ecology Resourses 9:1322–1332.

Illumina Inc. 2016. An introduction to Next-Generation Sequencing

technology. Disponible en: http://www.illumina.com/content/dam/illumina-

marketing/documents/products/illumina_sequencing_introduction.pdf

consultado en octubre de 2016.

Jarquín, D., Kocak, K., Posadas, L., Hyma, K., Jedlicka, J., Graef, G., &

Lorenz, A. 2014. Genotyping by sequencing for genomic prediction in a

soybean breeding population. BMC genomics, 151:740.

Karn, A., Gillman, J. D., & Flint-Garcia, S. A. 2017. Genetic analysis of

teosinte alleles for kernel composition traits in maize. G3: Genes,

Genomes, Genetics, 74:1157-1164.

Kato, T. A., Mapes, C., Mera, L. M., Serratos, J. A., & Bye, R. A. 2009.

Origen y diversificación del maíz: una revisión analítica. Universidad

Nacional Autónoma de México, Comisión Nacional para el Conocimiento y

Uso de la Biodiversidad. México, DF, 116.

Kilian, A., Wenzl, P., Huttner, E., Carling, J., Xia, L., Blois, H., ... &

Aschenbrenner-Kilian, M. 2012. Diversity arrays technology: a generic

genome profiling technology on open platforms. Data Production and

Analysis in Population Genomics: Methods and Protocols, 888:67-89.

Kozik, E. U., Nowakowska, M., Staniaszek, M., Dyki, B., Stepowska, A., &

Nowicki, M. 2013. More than meets the eye: A multi-year expressivity

analyses of tomato sterility in ps and ps-2 lines. Australian Journal of Crop

Science, 713:2154.

Kumar, S., Tamura, K., & Nei, M. 1994. Mega. Bioinformatics, 102:189-191. Lee, H., Gurtowski, J., Yoo, S., Nattestad, M., Marcus, S., Goodwin, S. &

Schatz, M. 2016. Third-generation sequencing and the future of

genomics. bioRxiv, 048603.

http://www.illumina.com/content/dam/illumina-marketing/documents/products/illumina_sequencing_introduction.pdf

http://www.illumina.com/content/dam/illumina-marketing/documents/products/illumina_sequencing_introduction.pdf

68

Li, H., Peng, Z., Yang, X., Wang, W., Fu, J., Wang, J. & Liu, J. 2013.

Genome-wide association study dissects the genetic architecture of oil

biosynthesis in maize kernels. Nature Genetics, 451:43-50.

Li, H., Vikram, P., Singh, R. P., Kilian, A., Carling, J., Song, J. & Sehgal, D.

2015. A high density GBS map of bread wheat and its application for

dissecting complex disease resistance traits. BMC genomics, 161:216.

Liu, J. 2002. POWERMARKER–A powerful software for marker data

analysis. Raleigh, NC: North Carolina State University, Bioinformatics

Research Center http://www. powermarker.net.

Liu, L., Li, Y., Li, S., Hu, N., He, Y., Pong, R. & Law, M. 2012. Comparison

of next-generation sequencing systems. BioMed Research

International, Vol 2012:1-11. Liu, N., Xue, Y., Guo, Z., Li, W., & Tang, J. 2016. Genome-Wide

Association Study Identifies Candidate Genes for Starch Content

Regulation in Maize Kernels. Frontiers in Plant Science, 7.

López-Pereira, M. A. 1992. The economics of quality protein maize as an

animal feed. Case studies of Brazil and El Salvador. CIMMYT Economics

Working Paper 92-06. Mexico, DF.

Lorenz, A. J., Chao, S., Asoro, F. G., Heffner, E. L., Hayashi, T., Iwata, H. &

Jannink, J. L. 2011. 2 Genomic Selection in Plant Breeding: Knowledge and

Prospects. Advances in agronomy, 110:77.

Lu Y., Yan J., Guimaraes C. T., Taba S., Hao Z., Gao S., Chen S., Li J.,

Zhang S., Vivek B. S., Magorokosho C., Mugo S., Makumbi D., Parentoni

S. N., Shah T., Rong T., Crouch J. H. & Xu Y. 2009. Molecular

characterization of global maize breeding germplasm based on genome-

wide single nucleotide polymorphisms. Theor Appl Genet 120:93–115.

Mardis, E. R. 2008. Next-generation sequencing platforms. Annual review

of analytical chemistry, 6:287-303.

Mengesha, W. A., Menkir, A., Unakchukwu, N., Meseka, S., Farinola, A.,

Girma, G., & Gedil, M. 2017. Genetic diversity of tropical maize inbred lines

combining resistance to Striga hermonthica with drought tolerance using

SNP markers. Plant Breeding, 1363:338-343.

69

Milne, I. 2014. Graphical applications for visualization and analysis of

genotype data sets. In Plant and Animal Genome XXII Conference. Plant

and Animal Genome. Minoche, A., Dohm, J., Himmelbauer H. 2011. Evaluation of genomic

highthroughput sequencing data generated on Illumina HiSeq and Genome

Analyzer systems. Genome Biology 12:R112. Miracle, M. P. 1966. Maize in tropical Africa. Madison, WI, USA, The

University of Wisconsin Press.

Morozova, O., & Marra, M. A. 2008. Applications of next-generation

sequencing technologies in functional genomics. Genomics, 925:255-264.

Oliva, R., & Vidal, J. 2006. Genoma Humano Nuevos avances en

investigación, diagnóstico y tratamiento. Volumen, 2:215.

Olmos, S. E., Delucchi, C., Ravera, M., Negri, M. E., Mandolino, C., &

Eyhérabide, G. H. 2014. Genetic relatedness and population structure

within the public argentinean collection of maize inbred

lines. Maydica, 591:16-31.

Organisation for Economic Cooperation and Development. 2003.

Consensus Document on the Biology of Zea mays subsp. mays Maize.

OECD Environment, Health and Safety, Publications Series on

Harmonisation of Regulatory Oversight in Biotechnology, 27:11-27. Paris,

Francia.

Ortega-Corona, A., R. E. Preciado, O., A. D. Terrón, I., A. S. Cruz, M., H.

Vallejo, D., S. García, L., O. Cota, A., M. J. Guerrero, H. y S. O. Serma, Z.

2012. Selección recurrente para incrementar el contenido de aceite en

cuatro poblaciones de maíz. Memoria de Resúmenes del XXIV Congreso

Nacional y IV Internacional de Fitogenética. Sociedad Mexicana de

Fitogenética, A. C. y Universidad Autónoma de Nuevo León. Monterrey,

Nuevo León, México. 24 a 28 de septiembre de 2012. p. 66.

Ortega-Corona, A. 2015. Selection response for oil content and agronomic

performance in four subtropical maize populations. Maydica, 603, 1-8.

Pacheco, A., Alvarado, G., Rodríguez, F., Crossa, J. & Burgueño, J. 2016.

BIO-R Biodiversity Analysis whith R for Windows. Version 1.0, International

Maize and Wheat Improvement Center.

70

Pailles, Y., Ho, S., Pires, I. S., Tester, M., Negrão, S. & Schmöckel, S. M.

2017. Genetic Diversity and Population Structure of Two Tomato Species

from the Galapagos Islands. Frontiers in Plant Science. 2017;8:138.

doi:10.3389/fpls.2017.00138.

Palacios, V. O., Ortega-Corona, A., Guerrero, H., M.J. & Hernández, C.,

J.M. 2008. Proyecto FZ002. Conocimiento de la diversidad y distribución

actual del maíz nativo y sus parientes silvestres en México. Componente 1.

Maíces nativos de los estados del norte de México. Informe final de

actividades 2007-2008 en el estado de Sinaloa. CONABIO. INIFAP.

Documento sin publicar. Culiacán, Sinaloa, México. 81 p.

Paliwal, R. L., Granados, G., Lafitte, H. R., Violic, A. D., & Marathée, J. P.

2001. El maíz en los trópicos: Mejoramiento y producción No. 28. Food &

Agriculture Org.

Pavlov, J., Delić, N., Živanović, T., Ristić, D., Čamdžija, Z., Stevanović, M.,

& Tolimir, M. 2016. Relationship between genetic distance, specific

combining abilities and heterosis in maize Zea mays L.. Genetika, 481: 165-

172.

Perales, H., & Golicher, D. 2014. Mapping the Diversity of Maize Races in

Mexico. PloS one, 912:114

Piñero, D., Caballero-Mellado, J., & Cabrera-Toledo, D. 2008. La diversidad

genética como instrumento para la conservación y el aprovechamiento de

la biodiversidad: estudios en especies mexicanas. Capital natural de

México, 1:437-494.

Poland, J. A., & Rife, T. W. 2012. Genotyping-by-sequencing for plant

breeding and genetics. The Plant Genome, 53:92-102.

Poland, J., Endelman, J., Dawson, J., Rutkoski, J., Wu, S., Manes, Y., &

Jannink, J. L. 2012. Genomic selection in wheat breeding using genotyping-

by-sequencing. The Plant Genome, 53:103-113. .

Prasanna, B. M., Chaikam, V., & Mahuku, G. 2013. Tecnología de dobles

haploides en el mejoramiento de maíz: teoría y práctica. CIMMYT.

Preciado-Ortiz, R. E., García-Lara, S., Ortiz-Islas, S., Ortega-Corona, A., &

Serna-Saldivar, S. O. 2013. Response of recurrent selection on yield,

71

kernel oil content and fatty acid composition of subtropical maize

populations. Field Crops Research, 142:27–35.

Prigge, V., & Melchinger, A. E. 2012. Production of haploids and doubled

haploids in maize. In Plant cell culture protocols pp. 161-172. Humana

Press.

Pritchard, J. K., Stephens, M., & Donnelly, P. 2000. Inference of population

structure using multilocus genotype data. Genetics, 1552:945-959.

Reif, J. C., Melchinger, A. E., Xia, X. C., Warburton, M. L., Hoisington, D.

A., Vasal, S. K., Beck, D., Bohn, M. & Frisch, M. 2003. Use of SSRs for

establishing heterotic groups in subtropical maize. Theoretical and Applied

Genetics 107:947–957

Rocandio-Rodríguez, M., Santacruz-Varela, A., Córdova-Téllez, L., Lopez-

Sanchez, H., Castillo-González, F., Lobato-Ortiz, R., & García-Zavala, J. J.

2014. Detection of genetic diversity of seven maize races from the high

central valleys of Mexico using microsatellites. Maydica, 592014:144-151.

Rogers, J. S. 1972. Measures of genetic similarity and genetic distance. In:

Studies genetics VII, no. 7213. University of Texas Publication, Austin. Romay, M. C., Millard, M. J., Glaubitz, J. C., Peiffer, J. A., Swarts, K. L.,

Casstevens, T. M. & McMullen, M. D. 2013. Comprehensive genotyping of

the USA national maize inbred seed bank. Genome biology, 146, R55. Sánchez-Ortega, I. 2014. Maíz I Zea mays. Departamento Biología Vegetal

I Fisiología Vegetal. Facultad de Biología, Universidad Complutense.

Madrid. Reduca Biología. Serie Botánica. 7 2: 151-171.

Sansaloni, C., Petroli, C., Jaccoud, D., Carling, J., Detering, F.,

Grattapaglia, D., & Kilian, A. 2011. Diversity Arrays Technology DArT and

next-generation sequencing combined: genome-wide, high throughput,

highly informative genotyping for molecular breeding of Eucalyptus. In BMC

Proceedings Vol. 5, No. 7, p. P54. BioMed Central.

Schnable, P. S., Ware, D., Fulton, R. S., Stein, J. C., Wei, F., Pasternak,

S.... & Minx, P. 2009. The B73 maize genome: complexity, diversity, and

dynamics. Science, 3265956:1112-1115.

Semagn, K., Magorokosho, C., Vivek, B. S., Makumbi, D., Beyene, Y.,

Mugo, S., & Warburton, M. L. 2012. Molecular characterization of diverse

72

CIMMYT maize inbred lines from eastern and southern Africa using single

nucleotide polymorphic markers. BMC genomics, 131:113.

SIAP. 2016. Producción Agropecuaria. Servicio de Información

Agroalimentaria y Pesquera, México.

Singh, N., Choudhury, D. R., Singh, A. K., Kumar, S., Srinivasan, K., Tyagi,

R. K., ... & Singh, R. 2013. Comparison of SSR and SNP markers in

estimation of genetic diversity and population structure of Indian rice

varieties. PLoS One, 8(12), e84136. Singh, B. D., y Singh, A. K. 2015. High-Throughput SNP Genotyping.

In Marker-Assisted Plant Breeding: Principles and Practices pp. 367-400.

Springer India.

Sonah, H., O'Donoughue, L., Cober, E., Rajcan, I., & Belzile, F. 2015.

Identification of loci governing eight agronomic traits using a GBS‐GWAS

approach and validation by QTL mapping in soya bean. Plant biotechnology

journal, 132:211-221.

Sosa, P. A., González-Pérez, M. A., Moreno, C., & Clarke, J. B. 2010.

Conservation genetics of the endangered endemic Sambucus palmensis

Link Sambucaceae from the Canary Islands. Conservation

Genetics, 116:2357-2368.

Stewart Jr, C. N., y Via, L. E. 1993. A rapid CTAB DNA isolation technique

useful for RAPD fingerprinting and other PCR applications. Biotechniques,

145:748-750.

Tian, H. L., Wang, F. G., Zhao, J. R., Yi, H. M., Wang, L., Wang, R., ... &

Song, W. 2015. Development of maizeSNP3072, a high-throughput

compatible SNP array, for DNA fingerprinting identification of Chinese

maize varieties. Molecular Breeding, 356:136.

Vázquez-Carrillo, M. G., Santiago-Ramos, D., Gaytán-Martínez, M.,

Morales-Sánchez, E., & de Jesús Guerrero-Herrera, M. 2015. High oil

content maize: Physical, thermal and rheological properties of grain, masa,

and tortillas. LWT-Food Science and Technology, 601:156-161.

Vielle-Calzada, J. P., de la Vega, O. M., Hernández-Guzmán, G., Ibarra-

Laclette, E., Alvarez-Mejía, C., Vega-Arreguín, J. C., ... & Herrera-Estrella,

73

A. 2009. The Palomero genome suggests metal effects on domestication.

Science, 3265956:1078-1078.

Wang, M., Yan, J., Zhao, J., Song, W., Zhang, X., Xiao, Y., & Zheng, Y.

2012. Genome-wide association study GWAS of resistance to head smut in

maize. Plant science, 196:125-131.

Warburton, M. L., Xia X. C., Crossa, J., Franco J., Melchinger, A. E., Frisch,

M., Bohn, M., Hoisington, D. A. 2002. Genetic characterization of CIMMYT

maize inbred lines and open pollinated populations using large scale

fingerprinting methods. Crop Science 42:1832–1840.

Warham, E. J. 1998. Ensayos para la semilla de maíz y de trigo: Manual de

laboratorio. Cimmyt.

Watson, S.A. 1988. Corn marketing, processing, and utilization. In G.F.

Sprague & J.W. Dudley, eds. Corn and corn improvement, p. 882-940.

Madison, WI, USA, American Society of Agronomy.

Weng, J., Xie, C., Hao, Z., Wang, J. & Liu, C. 2011. Genome-Wide

Association Study Identifies Candidate Genes That Affect Plant Height in

Chinese Elite Maize Zea mays L. Inbred Lines. PLoS ONE 612: e29229.

Wu, Y., San Vicente, F., Huang, K., Dhliwayo, T., Costich, D. E., Semagn,

K., ... & Babu, R. 2016. Molecular characterization of CIMMYT maize inbred

lines with genotyping-by-sequencing SNPs. Theoretical and Applied

Genetics, 1-13.

Xia, X. C., Reif, J. C., Hoisington, D. A., Melchinger, A. E., Frisch, M. &

Warburton, M. L. 2004. Genetic diversity among CIMMYT maize inbred

lines investigated with SSR markers: I. Lowland tropical maize. Crop

Science 44:2230–2237

Xia, X. C., Reif, J. C., Melchinger, A. E., Frisch, M., Hoisington, D. A., Beck,

D., Pixley, K, Warburton, M. L. 2005. Genetic diversity among CIMMYT

maize inbred lines investigated with SSR markers: II. Subtropical, tropical

midaltitude, and highland maize inbred lines and their relationships with

elite US and European maize. Crop Science 45:2573–2582

Xu, Y., & Crouch, J. H. 2008. Marker-assisted selection in plant breeding:

from publications to practice. Crop Science, 482:391-407.

74

Xu, C., Ren, Y., Jian, Y., Guo, Z., Zhang, Y., Xie, C., Fu, J., Wang, H.,

Wang, G. & Xu, Y., l. 2017. Development of a maize 55 K SNP array with

improved genome coverage for molecular breeding. Molecular Breeding.

37:20.

Yadav, P., Vaidya, E., Rani, R., Yadav, N. K., Singh, B. K., Rai, P. K., &

Singh, D. 2016. Recent Perspective of Next Generation Sequencing:

Applications in Molecular Plant Biology and Crop

Improvement. Proceedings of the National Academy of Sciences, India

Section B: Biological Sciences, 1-15.

Zamora-Hernández, T., Prado-Fuentes, A., Capataz-Tafur, J., Barrera-

Figueroa, B. E., & Peña-Castro, J. M. 2014. Demostraciones prácticas de

los retos y oportunidades de la producción de bioetanol de primera y

segunda generación a partir de cultivos tropicales. Educación

química, 252:122-127.

Zhang, J., Chiodini, R., Badr, A., & Zhang, G. 2011. The impact of next-

generation sequencing on genomics. Journal of genetics and

genomics, 383:95-109.

Zhang, X., Pérez-Rodríguez, P., Semagn, K., Beyene, Y., Babu, R., López-

Cruz, M. A., San Vicente, F., Olsen, M., Buckler, E., Jannink, J. L.,

Prasanna, B. M. & Crossa J. 2015. Genomic prediction in biparental tropical

maize populations in water-stressed and well-watered environments using

low-density and GBS SNPs. Heredity 114:291–299.

75

ANEXOS

ANEXO A. Predicción de cruzas simples de maíz blanco y amarillo.

Cuadro 11. Total de predicciones para cruzas simples de maíz amarillo.


PAN146-DH14-Us PAB226 0.230667552

PAN144-DH12-Us PAN133 0.230262825

PAN146-DH14-Us PAB223 0.229438296

PAN146-DH14-Us PAB218 0.228721721

PAN146-DH14-Us PAN133 0.227943555

PAN144-DH12-Us PAB236 0.227652527

PAN144-DH12-Us PAB226 0.225996763

PAN144-DH12-Us PAB223 0.225975751

PAN141-DH9-Us PAB226 0.225943622

PAN136 PAN133 0.225887527

PAN146-DH14-Us PAB236 0.225629912

PAN155A PAN133 0.225384895

PAN144-DH12-Us PAB218 0.225379894

PAN139 PAN133 0.225325965

PAN144-DH12-Us PAB209-DH6-Us 0.225140586

PAB235 PAB223 0.224664329

PAN136 PAB226 0.224570885

PAN146-DH14-Us PAB209-DH6-Us 0.22454497

PAN136 PAB209-DH6-Us 0.224410437

PAN146 PAN133 0.224160695

PAN142-DH10-Us PAB223 0.224068594

PAN141-DH9-Us PAN133 0.224054637

PAN141-DH9-Us PAB218 0.223831936

PAN146-DH14-Us PAB246-DH48-Us 0.223433571

PAN142-DH10-Us PAB209-DH6-Us 0.22330766

PAN136 PAB223 0.22326106

PAN139 PAB226 0.223217786

PAN142-DH10-Us PAN133 0.22282455

PAN142-DH10-Us PAB226 0.222712755

PAN136 PAB236 0.22243001

PAB235 PAB226 0.22188718

PAN155A PAB223 0.221133293

PAN155A PAB209-DH6-Us 0.220838527

PAN144-DH12-Us PAN139 0.220513821

PAN146 PAB209-DH6-Us 0.220513272

PAB235 PAB209-DH6-Us 0.220450725

PAB236 PAB235 0.220430951

PAN155A PAB236 0.220330113

PAN146 PAB236 0.220058263

76

PAB246-DH48-Us PAB218 0.220010714

Cuadro 12. Total de predicciones para cruzas simples de maíz blanco.


PBN33-DH32-Us PBB187 0.239634755

PBN54-DH54-Us PBB178 0.230502973

PBN33-DH32-Us PBB183 0.230361306

PBN33-DH32-Us PBB183-DH6-Us 0.229570423

PBN54-DH54-Us PBB178-DH1-Us 0.229154928

PBN32-DH32-Us PBB187 0.22912937

PBN62-DH62-Us PBB183 0.229097422

PBN54-DH54-Us PBB187 0.228372132

PBN54-DH54-Us PBB198 0.228094774

PBN54-DH54-Us PBB183 0.22787383

PBN58-DH58-Us PBB187 0.227850441

PBN22-DH22-Us PBB187 0.227814089

PBN62-DH62-Us PBB178 0.227786527

PBN33-DH32-Us PBN13-DH13-Us 0.227748579

PBN62-DH62-Us PBB187 0.227508602

PBN62-DH62-Us PBB183-DH6-Us 0.227459558

PBN47-DH47-Us PBB187 0.227438174

PBN54-DH54-Us PBB180 0.227222565

PBN62-DH62-Us PBB198 0.227157294

PBN85-DH85-Us PBB187 0.227053931

PBN70-DH70-Us PBN54-DH54-Us 0.226920838

PBN62-DH62-Us PBB180 0.226840662

PBN54-DH54-Us PBB183-DH6-Us 0.226745102

PBN62-DH62-Us PBB178-DH1-Us 0.226424821

PBB187 PBB183 0.226266604

PBN22-DH22-Us PBB180 0.226264125

PBN22-DH22-Us PBB178 0.226167449

PBN58-DH58-Us PBN54-DH54-Us 0.226097643

PBN32-DH32-Us PBB180 0.225841831

PBB198 PBB187 0.225690409

PBB187 PBB183-DH6-Us 0.225626403

PBN41-DH41-Us PBB187 0.225620353

PBN90-DH90-Us PBB187 0.225404956

PBN70-DH70-Us PBB187 0.225228416

PBN22-DH22-Us PBB178-DH1-Us 0.225179876

PBN22-DH22-Us PBB198 0.225039221

PBN33-DH32-Us PBB178 0.22502961

PBN119-DH132-Us PBB187 0.224978376

PBN58-DH58-Us PBB180 0.224939202

PBB187 PBB178-DH1-Us 0.224934062

PBN33-DH32-Us PBB178-DH1-Us 0.224636127

77

PBN8-DH8Us PBB183 0.224621964

PBN22-DH22-Us PBB183 0.224325578

PBN26-DH26-Us PBB187 0.224249338

PBN56-DH56-Us PBB198 0.224177475

PBB187 PBB178 0.224167392

PBN64-DH64-Us PBB198 0.223906209

PBN22-DH22-Us PBB183-DH6-Us 0.223885658

PBN84-DH84-Us PBB187 0.223829888

PBN8-DH8Us PBB183-DH6-Us 0.223771209

PBN70-DH70-Us PBB198 0.223719003

PBN8-DH8Us PBB187 0.223709165

PBN32-DH32-Us PBB178 0.223618892

PBN72-DH72-Us PBB187 0.223589359

PBN54-DH54-Us PBN41-DH41-Us 0.223575459

PBN32-DH32-Us PBB183 0.223530596

PBN70-DH70-Us PBB178 0.223394917

PBN8-DH8Us PBB178 0.223391331

PBN64-DH64-Us PBB183 0.22336324

PBN41-DH41-Us PBB180 0.223312767

PBN47-DH47-Us PBB198 0.223263606

PBN58-DH58-Us PBB178 0.223180165

PBB187 PBB180 0.22305499

PBN9 PBB183 0.223041711

PBN58-DH58-Us PBN33-DH32-Us 0.223027683

PBN127-DH145-Us PBB198 0.22300735

PBN8-DH8Us PBB178-DH1-Us 0.222876043

PBN64-DH64-Us PBB187 0.222806754

PBN32-DH32-Us PBB198 0.222636678

PBN70-DH70-Us PBB178-DH1-Us 0.222617926

PBN90-DH90-Us PBB178 0.222493099

PBN8-DH8Us PBB198 0.22249278

PBN72-DH72-Us PBB198 0.222450791

PBN64-DH64-Us PBB183-DH6-Us 0.222298922

PBN33-DH32-Us PBB198 0.222207959

PBN58-DH58-Us PBB178-DH1-Us 0.222199938

PBN33-DH32-Us PBB180 0.222172253

PBN32-DH32-Us PBB183-DH6-Us 0.22217176

PBN72-DH72-Us PBB180 0.222116939

PBN32-DH32-Us PBB178-DH1-Us 0.222047616

PBN90-DH90-Us PBB198 0.221994451

PBN9-DH9-Us PBB183 0.221989139

PBN41-DH41-Us PBN33-DH32-Us 0.221930205

PBN82-DH83-Us PBB187 0.221915869

PBN47-DH47-Us PBB183 0.221759918

78

PBN90-DH90-Us PBB178-DH1-Us 0.221649034

PBN41-DH41-Us PBB178 0.221577626

PBN24-DH24-Us PBB183 0.221459486

PBN62-DH62-Us PBN33-DH32-Us 0.221452637

PBN81-DH81-Us PBB187 0.221451156

PBN127-DH145-Us PBB187 0.221434166

PBN58-DH58-Us PBB183 0.221415024

PBN127-DH145-Us PBB183 0.221407909

PBN119-DH132-Us PBB183 0.221391074

PBN70-DH70-Us PBB183 0.221358518

PBN82-DH82-Us PBB187 0.221356704

PBN13-DH13-Us PBB187 0.221328315

PBN31-DH31-Us PBB183 0.221327014

PBN64-DH64-Us PBB180 0.221241156

PBN70-DH70-Us PBB183-DH6-Us 0.221228013

PBN9 PBB183-DH6-Us 0.221209168

PBN47-DH47-Us PBB178 0.221162094

PBN9 PBB178 0.221143892

PBN58-DH58-Us PBB183-DH6-Us 0.221134188

PBN64-DH64-Us PBB178 0.221076016

PBN23-DH23-Us PBB183 0.221054426

PBN8-DH8Us PBB180 0.2210456

PBN19-DH19-Us PBB187 0.220969495

PBN13-DH13-Us PBB180 0.22095577

PBN29-DH29-Us PBB178 0.220932811

PBN47-DH47-Us PBB183-DH6-Us 0.220663509

PBN54-DH54-Us PBN19-DH19-Us 0.220606318

PBN90-DH90-Us PBB183 0.220597928

PBN56-DH56-Us PBB183-DH6-Us 0.22059574

PBN41-DH41-Us PBB178-DH1-Us 0.220572496

PBN27-DH27-Us PBB187 0.220567612

PBN27-DH27-Us PBB180 0.220526454

PBN56-DH56-Us PBB183 0.220520744

PBN56-DH56-Us PBB187 0.22050394

PBN82-DH83-Us PBB183 0.220487075

PBN56-DH56-Us PBB178 0.220427349

PBN64-DH64-Us PBB178-DH1-Us 0.220421701

PBN31-DH31-Us PBB183-DH6-Us 0.22039201

PBN9 PBB178-DH1-Us 0.220386231

PBN9 PBB198 0.220317863

PBN9-DH9-Us PBB178 0.220281456

PBN41-DH41-Us PBB183 0.220132055

PBN24-DH24-Us PBB183-DH6-Us 0.220102594

PBN127-DH145-Us PBB183-DH6-Us 0.220069464

PBN9-DH9-Us PBB183-DH6-Us 0.220035709

Caracterización genética de líneas dobles haploides de ...

Documents

Transcript of Caracterización genética de líneas dobles haploides de ...