Caracterización genética de líneas dobles haploides de ...
Transcript of Caracterización genética de líneas dobles haploides de ...
INSTITUTO POLITÉCNICO NACIONAL
CENTRO INTERDISCIPLINARIO DE INVESTIGACIÓN PARA EL DESARROLLO INTEGRAL REGIONAL
UNIDAD SINALOA
Caracterización genética de líneas dobles haploides de maíz para el desarrollo de híbridos
con potencial agronómico en Sinaloa
TESIS
QUE PARA OBTENER EL GRADO DE MAESTRÍA EN RECURSOS NATURALES Y MEDIO AMBIENTE
PRESENTA:
CARLOS ALBERTO RÍOS SANDOVAL
GUASAVE, SINALOA; MÉXICO DICIEMBRE 2017
I
II
III
IV
Agradecimiento a proyectos El trabajo de tesis se desarrolló en el Departamento de Biotecnología Agrícola del
Centro Interdisciplinario de Investigación para el Desarrollo Integral Regional
(CIIDIR) Unidad Sinaloa del Instituto Politécnico Nacional (IPN). El presente
trabajo fue apoyado económicamente a través de los proyectos Sustentabilidad
del maíz: Búsqueda de bacterias solubilizadoras de fosfato en maíz, análisis de la
diversidad genética de maíces criollos y diversidad de hongos micorrízicos
arbusculares asociados al cultivo de maíz (Con número de registro 20161778),
Propagación de aguacate no comercial y obtención de extractos crudos con
potencial actividad biológica (Con número de registro 20170317),
Microorganismos asociados a maíz, tomate y otros cultivos de importancia
económica para el desarrollo agrícola sustentable en Sinaloa (Con número de
registro 20170939) y Selección asistida por genotipificación por secuenciación de
líneas dobles haploide duplicados de maíz blanco y amarillo con alto contenido de
aceite para el subtrópico Mexicano perteneciente al proyecto de investigación de
recursos fiscales 2015 de INIFAP. El alumno Carlos Alberto Ríos Sandoval fue
apoyado con una beca CONACYT con clave: 425092.
V
Dedicatoria y Agradecimientos Este trabajo va dedicado a todas las personas que han sido parte de mi
formación, pero especialmente a mi familia, principalmente a mis padres quienes
siempre me han guiado por un camino donde siempre busqué superarme, a mi
hija por ser mi mayor inspiración, mi motivo, mi motor de mejorar cada día, a mis
directores de tesis, y a mis amigos del laboratorio de Genómica Funcional. ¡Con
su ayuda este logro fue posible!
Agradezco al Centro Interdisciplinario de Investigación para el Desarrollo Integral
Regional (CIIDIR) Unidad Sinaloa, por abrirme sus puertas y proveerme la
oportunidad de realizar una maestría. A mis directores de tesis el Dr. Eduardo
Sandoval Castro y el Dr. Ignacio Eduardo Maldonado Mendoza, por todo su
tiempo, paciencia y conocimientos compartidos durante mi estancia en este centro
de investigación, quedando completamente agradecido por que hayan sido parte
de mi crecimiento profesional. A mi comité tutorial Dr. Carlos Ligne Calderón
Vázquez, Dra. Ana Laura Domínguez Orozco, M.C. Luis Alberto Peinado Fuentes
por sus consejos, siempre buscando enriquecer este proyecto. Al Dr. Abraham
Cruz Mendivil por su apoyo, ayuda y asesoramiento en el aprendizaje de
principios básicos de bioinformática. Al M.C Eric Gerardo González Segovia por la
capacitación en análisis bioinformáticos para la identificación de SNPs en datos
crudos de secuenciación masiva. A mis compañeros de laboratorio: Carolina
Valdez, Nadia Douriet, Priscila Gaytan, Mireya Higuera, Juan Pablo Valenzuela,
María Fernanda Dávila, María Fernanda Medina, y a los demás compañeros de
prácticas profesionales por su apoyo, amistad incondicional y por hacerme sentir
parte del laboratorio de Genómica Funcional.
Un agradecimiento más al Departamento de Servicio de Análisis Genético para la
Agricultura (SAGA) perteneciente al Centro Internacional de Mejoramiento de
Maíz y Trigo por el servicio de secuenciación y genotipado de las líneas de maíz
utilizadas en este trabajo por medio de la tecnología DArT-GBS por parte del
programa MasAgro Biodiversidad.
VI
ÍNDICE
GLOSARIO ............................................................................................................. IX
ÍNDICE DE FIGURAS .......................................................................................... XIII
ÍNDICE DE CUADROS ........................................................................................ XV
RESUMEN .......................................................................................................... XVI
ABSTRACT ....................................................................................................... XVIII
1. INTRODUCCIÓN .............................................................................................. 1
2. ANTECEDENTES ............................................................................................. 3
2.1 Maíz ........................................................................................................... 3
2.1.1 Descripción botánica. ................................................................................. 3
2.1.2 Tipos de maíz. ............................................................................................ 4
2.1.3 Importancia nutrimental. ............................................................................. 5
2.1.4 Importancia económica. ............................................................................. 7
2.1.5 Principales usos del maíz. .......................................................................... 8
2.2 Diversidad genética del maíz. .................................................................... 9
2.2.1 Marcadores moleculares para el estudio de la diversidad genética. ........ 11
2.3 Genética de poblaciones .......................................................................... 13
2.4 Nuevas tecnologías de secuenciación masiva. ........................................ 14
2.4.1 Plataformas de secuenciación. ................................................................ 14
2.4.1.1 Illumina HiSeq. ......................................................................................... 16
2.5 Genotipado por Secuenciación. ............................................................... 18
2.6 DArTSeq. ................................................................................................. 21
2.7 Genes candidatos para la biosíntesis de lípidos. ..................................... 21
2.8 Uso de líneas Dobles Haploides como estrategia para el fitomejoramiento.22
2.9 Programa de fitomejoramiento de maíz de INIFAP. ................................ 24
3. JUSTIFICACIÓN ............................................................................................. 26
VII
4. HIPÓTESIS ..................................................................................................... 27
5. OBJETIVOS .................................................................................................... 28
5.1 Objetivo General. ..................................................................................... 28
5.2 Objetivos específicos. .............................................................................. 28
6 MATERIAL Y MÉTODOS ............................................................................... 29
6.1 Genotipado y determinación de los índices de diversidad genética para
las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío. ...................... 29
6.1.1 Material genético a utilizar. ....................................................................... 29
6.1.2 Composición genética de líneas DH de maíz blanco y amarillo. .............. 29
6.1.3 Extracción de ADN genómico. ................................................................. 30
6.1.4 Preparación de bibliotecas por el método de DArTSeq............................ 30
6.1.5 Secuenciación por síntesis. ...................................................................... 31
6.1.6 Búsqueda de SNPs. ................................................................................. 31
6.1.7 Índices de diversidad genética. ................................................................ 32
6.1.8 Número de SNPs. .................................................................................... 32
6.1.9 Determinación del porcentaje de datos perdidos. .................................... 33
6.1.10 Heterocigosidad observada y esperada. .................................................. 33
6.1.11 Índice de contenido polimórfico (PIC). ...................................................... 33
6.2 Estructura poblacional de maíces del Bajío y Noroeste de México. ......... 34
6.2.1 Distancia genética. ................................................................................... 34
6.2.2 Análisis de estructura. .............................................................................. 35
6.2.3 Construcción de dendograma. ................................................................. 36
6.2.4 Análisis de escalamiento multidimensional. ............................................. 36
7 RESULTADOS ............................................................................................... 37
7.1 Caracterización genética. ......................................................................... 37
7.2 Análisis de estructura poblacional. ........................................................... 39
VIII
7.2.1 Agrupamiento mediante MDS. ................................................................. 44
7.2.2 Agrupamiento de las 120 líneas de maíz. ................................................ 47
8 DISCUSIÓN .................................................................................................... 50
8.1 Objetivo 1. Determinar índices de diversidad genética para las
poblaciones y los individuos de maíz blanco y amarillo del Noroeste y el Bajío. .. 50
8.2 Objetivo 2. Obtener la estructura genética de las poblaciones de maíz
blanco y amarillo del Noroeste y Bajío de México. ................................................ 57
9 CONCLUSIONES ........................................................................................... 63
10 BIBLIOGRAFÍA ............................................................................................... 64
ANEXOS ............................................................................................................... 75
IX
GLOSARIO
Ácidos grasos: Biomolécula de naturaleza lipídica formada por una larga cadena
hidrocarbonada lineal de longitud variable, la cual contiene en uno de sus
extremos un grupo carboxílico (-COOH). Son ácidos orgánicos de más de seis
átomos de carbono. Pueden ser saturados, mono-insaturados, di-insaturados y
poli-insaturados. Son los principales componentes de las grasas y aceites.
Aceite de maíz: Líquido graso de color ambarino obtenido por extrusión,
extracción física o ambos proveniente del germen de la semilla de maíz
(embriones de Zea mays L.).
Aceite vegetal: Compuesto orgánico líquido obtenido a partir de semillas u otras
partes de las plantas. Este se acumula en los tejidos de las plantas como fuente
de energía. Tienen diversos usos, principalmente para consumo humano y
también para la producción de biocombustibles.
Alelo homocigoto mayor: Alelo que se presentó un mayor número de veces en
un determinado locus dentro del genoma.
Alelo homocigoto menor: Alelo que se presentó un menor número de veces en
un locus en particular dentro del genoma. Se encuentra en menor proporción que
el alelo homocigoto mayor.
Diploide: Genotipo formado por dos series de cromosomas, es decir, pares de
cromosomas homólogos y se representa como 2n.
Dístico: Se aplica a cualquier órgano dispuesto en dos filas, como las hojas de
las gramíneas.
Diversidad genética: Variaciones heredables que ocurren en cada organismo,
entre los individuos de una población y entre las poblaciones dentro de una
especie. Es el resultado de las diferencias que existen entre las distintas
versiones (alelos) de las unidades de herencia (genes) de los individuos de una
especie.
Doble haploide: Genotipo que se forma a partir de células haploides (n) que
experimentan una duplicación cromosómica (2n), debido a un proceso
espontáneo o inducido artificialmente.
X
Escutelo: Cotiledón transformado en órgano absorbente, adosado al
endospermo.
Fitomejoramiento: Conjunto de actividades destinadas a mejorar las cualidades
genéticas de un cultivo, como mayor rendimiento, mejor calidad de grano,
resistencia a plagas o enfermedades, tolerancia a factores ambientales adversos
(sequía, inundación, salinidad), entre otros.
Frecuencia del alelo menos común: Filtrado en que se determina la frecuencia
a la que ocurre el alelo menos común en un locus determinado de una población
dada, eliminando aquellos loci que se encuentren pocamente representativos.
Gen: Unidad de material genético que, junto con otras, está dispuesta en un
orden fijo a lo largo de un cromosoma, y determina la aparición de los caracteres
hereditarios en los seres vivos.
Gen candidato: Gen al que se hace responsable de un rasgo de importancia,
tanto por la posición que ocupa en el mapa genómico (candidato posicional) como
por las propiedades de la proteína que codifica (candidato funcional).
Genoma: Totalidad del material genético que posee un organismo en particular.
Genotipado: Proceso de determinación del genotipo o contenido genómico, en
forma de ADN, específico de un organismo biológico, mediante un procedimiento
de laboratorio.
Grupo heterótico: Agrupamiento de la diversidad genética, caracterizándose por
la distancia genética y el diferente origen geográfico de los materiales.
Haploide: Genotipo formado sólo por una serie de cromosomas y se representa
con la letra n.
Heterocigosidad observada: Medida de la variación genética de una población
respecto a un locus particular. Se define como la frecuencia de heterocigotos para
ese locus.
Heterocigosidad esperada: Fracción estimada de todos los individuos
que podrían ser heterocigóticos para cualquier locus tomado al azar.
Heterocigosis: Condición en la que los cromosomas homólogos presentan dos
alelos diferentes.
XI
Heterosis: Fenómeno que ocurre cuando se cruzan dos líneas totalmente
homocigotas y el producto o híbrido resultante, presenta un valor agronómico
mayor que el promedio. También es llamado vigor híbrido.
Híbrido: Descendencia individual de cualquier cruzamiento entre parentales de
distinto genotipo.
Homocigosis: Condición en la que los cromosomas homólogos presentan alelos
idénticos.
Indel: Es una contracción de "inserción o deleción", en referencia a los dos tipos
de mutaciones genéticas que se consideran a menudo juntas a causa de su
efecto similar y la incapacidad de distinguir entre ellas en una comparación de dos
secuencias.
Índice de contenido polimórfico: Medida de la informatividad de un marcador
genético, que depende del número de alelos para ese locus y de sus frecuencias
relativas.
Marcador molecular: Segmento de ADN con una ubicación física identificable
(locus) en un cromosoma y cuya herencia genética se puede rastrear.
Un marcador puede ser un gen, o puede ser alguna sección del ADN sin función
conocida.
Mestizo: Es la cruza de un organismo con un genotipo dominante desconocido
con organismos que son homocigóticos recesivos para ese rasgo.
Nucleótido: Compuesto químico orgánico fundamental de los ácidos nucleicos,
constituido por una base nitrogenada, un azúcar y una molécula de ácido
fosfórico.
Parental: Progenitor o progenitores de una progenie, esto es, el individuo o los
individuos cuya reproducción, ya sea sexual o asexual, provoca la transmisión de
una herencia genética.
Población: Grupo de individuos que se aparean entre sí para dar lugar a la
siguiente generación.
Polimorfismo: Variación en la secuencia de un lugar determinado del ADN entre
los individuos de una población.
XII
Polimorfismo de nucleótido simple (SNP). Variación natural en un único par de
nucleótidos en una situación determinada del genoma de dos o más individuos.
Polística: Dícese de lo que está dispuesto en varias filas.
Secuenciación de ADN: Conjunto de métodos y técnicas bioquímicas cuya
finalidad es la determinación del orden de los nucleótidos (A, C, G y T) en
un oligonucleótido de ADN.
Transposón: Secuencias de ADN con capacidad de mudarse de un sitio a otro
de los genomas de los organismos eucariontes y procariontes.
UPGMA (Unweighted Pair Group Method with Arithmetic Mean): Es un
método de agrupamiento jerárquico aglomerativo simple (de abajo hacia arriba),
utilizado para agrupar a aquellos individuos que tengan mayor similitud entre si.
XIII
ÍNDICE DE FIGURAS
Figura 1 Principales estructuras que conforman a la semilla de
maíz.
4
Figura 2 Producción nacional de grano de maíz en México. 8
Figura 3 Representación esquemática de la secuenciación por
Illumina HiSeq 2500.
18
Figura 4 Preparación de bibliotecas mediante la metodología de
Genotipado por Secuenciación para diferentes individuos
y descubrimiento de SNPs.
20
Figura 5 Diagrama de flujo de los análisis bioinformáticos
realizados a partir de los 35,770 SNPs.
32
Figura 6 Gráfico de barra representativo del número de SNPs
identificados en las cuatro poblaciones de maíz.
37
Figura 7 Gráfico de barra representativo del número de SNPs
identificados según el tipo de línea de maíz.
38
Figura 8 Estructura poblacional de 120 líneas de maíz estimada
con 35,770 SNPs. Valores de Ln (P) para un rango de K
de 1 a 5.
42
Figura 9 Estructura poblacional de 120 líneas de maíz estimada
con 35770 SNPs. Valores de ΔK para un rango de K de 2
a 4.
42
Figura 10 Estructura poblacional de 120 líneas de maíz cuando K =
2
43
Figura 11 Gráfico de Escalamiento Multidimensional (MDS) de las
líneas parentales de maíz blanco y amarillo del Bajío y
Noroeste de México.
44
Figura 12 Gráfico de Escalamiento Multidimensional (MDS) de los
61 parentales y las 40 cruzas simples.
45
Figura 13 Gráfico de Escalamiento Multidimensional (MDS) del
panel completo de individuos.
46
Figura 14 Dendograma construido por el método UPGMA de 120
líneas de maíz blanco y amarillo del Noroeste y Bajío de
48
XIV
México.
Figura 15 Dendograma construido por el método UPGMA de las 61
líneas parentales de maíz blanco y amarillo del Noroeste
y Bajío de México.
49
XV
ÍNDICE DE CUADROS
Cuadro 1 Clasificación de los tipos de maíz 5
Cuadro 2 Peso y composición de las distintas partes del grano de
maíz.
6
Cuadro 3 Composición nutricional de los granos de maíz.
7
Cuadro 4 Comparación de genomas de maíz reportados.
11
Cuadro 5 Comparación de plataformas de secuenciación masiva y
capilar.
16
Cuadro 6 Clasificación de 120 líneas de maíz por tipo de línea,
color de grano y región de origen.
29
Cuadro 7 Índices de diversidad genética para las 120 líneas de
maíz.
38
Cuadro 8 Índices de diversidad genética de las 61 líneas
parentales.
39
Cuadro 9 Predicción de cruzas simples de maíz amarillo. 40
Cuadro 10
Cuadro 11
Cuadro 12
Predicción de cruzas simples de maíz blanco.
Total de predicciones para cruzas simples de maíz amarillo.
Total de predicciones para cruzas simples de maíz blanco.
41
74
75
XVI
RESUMEN
El cultivo de maíz representa una de las actividades de mayor importancia
económica en la región noroeste de México, y su rentabilidad se basa en el uso
de variedades hibridas para alcanzar altos rendimientos. La tecnología doble
haploide (DH) es usada en los programas modernos de fitomejoramiento para el
desarrollo rápido de líneas homocigotas, y en combinación con tecnologías de
genotipificación, permiten la identificación de patrones heteróticos de una manera
más eficiente. Recientemente, el INIFAP ha generado líneas DH a partir de cuatro
poblaciones de maíz subtropical con alto contenido de aceite, pero estas aún no
han sido genotipificadas. En la presente investigación analizó la diversidad y
estructura genética poblacional de dichas líneas DH con alto contenido de aceite
mediante la tecnología de Genotipificación por Secuenciación (GBS) para
identificar líneas parentales potencialmente viables para la producción de híbridos
con alto contenido de aceite. Se analizaron 120 materiales pertenecientes a las
regiones del Bajío y el Noroeste de México. En total se identificaron 35,770 SNPs,
posteriormente a un filtrado del alelo menos frecuente (MAF) al 0.05 restaron solo
26,596 SNPs. A partir de estos SNPs se determinaron los índices de diversidad
genética (PIC, Ho y He) y la distancia genética entre los 120 genotipos. El número
de SNPs por cada línea varió de 25,238 a 34,829. El PIC para las cuatro
poblaciones estuvo entre 0.487 y 0.489, sugiriendo que los marcadores presentes
son moderadamente informativos, la Ho varió de 0.10 y 0.15 y la He fue de 0.43,
indicando una deficiencia de heterocigosidad debido a la presencia de líneas DH
en el análisis. La estructura poblacional se analizó a partir de tres diferentes
aproximaciones, el Análisis de Escalamiento Multidimensional (MDS), la
construcción de un dendrograma por el método UPGMA y el análisis de
agrupamiento bayesiano implementado en STRUCTURE. Los resultados
muestran tres agrupaciones para MDS y el dendrograma con UPGMA, que
separa a la población blanca del Noroeste, la población blanca del Bajío y a las
dos poblaciones amarillas. Mientras que el análisis de STRUCTURE muestra dos
grupos, uno conformado por parentales, y el otro por cruzas y mestizos. Los
XVII
resultados generados permiten analizar y proponer un sistema de cruzas a partir
de los parentales genéticamente más contrastantes para asegurar un mayor vigor
híbrido en rendimiento y contenido de aceite el cuál es el principal objetivo del
programa de mejoramiento establecido por el INIFAP.
XVIII
ABSTRACT
Maize cultivation is considered one of the activities with major economic
importance at northwestern Mexico.The profitability is mostly due to the use of
comercial hybrid varieties, achieving high yields. Double haploid (DH) technology
have been used in most of the modern plant breeding programs. This tecnology
ease the rapid development of homozygous lines, and in combination with
genotyping technologies, allow the identification of heterotic patterns efficiently.
Recently, INIFAP has generated DH lines arising out of four populations of
subtropical maize lines with high oil content, however these have not yet been
genotyped. In the present research the diversity and population genetic structure
from those DH lines with high oil content was analyzed with Genotyping by
Sequencing (GBS) technology. These results could be used to identify viable
parental lines with advantageous traits for the production of hybrids with high oil
content. A total of 120 materials from the Bajio and Northwest regions of Mexico
were analyzed. In total, 35,770 SNPs were identified, after minor allele frequency
(MAF) correction at 0.05 only 26,596 SNPs were obtained. Genetic diversity
indexes (PIC, Ho and He) and the genetic distance among the 120 genotypes
were estimated. The number of SNPs per line varied from 25,238 to 34,829. The
PIC varied from 0.487 to 0.489 in the four populations, suggesting that the SNPs
identified are reasonably informative. The Ho varied from 0.10 to 0.15 and the He
was 0.43, indicating a deficiency of heterozygosity due to the presence of DH lines
in the analysis. The population structure was analyzed using three different
approaches, the Multidimensional Scaling (MDS) analysis, the construction of a
dendrogram by the UPGMA method and the bayesian cluster analysis
implemented in STRUCTURE. The results showed three groups for MDS and
dendrogram with UPGMA, which clustered the white population from the
Northwest, the white population of the Bajio and the two yellow populations. While
the analysis of STRUCTURE showed only two groups, one clusterig to parental
lines, and the other to crosses and mestizos lines. These results allow to analyze
and propose a system of crosses from genetically more contrasting parents to
ensure a greater hybrid vigor in terms of yield and oil content for the breeding
program established by INIFAP.
1
1. INTRODUCCIÓN
El cultivo de maíz representa una de las actividades de mayor importancia
económica en la región noroeste de México. El estado de Sinaloa cuenta con
grandes extensiones dedicadas para este cultivo. La rentabilidad de esta actividad
se basa en su amplia extensión y en el alto rendimiento de producción de grano
por hectárea (Fundación Produce Sinaloa, 2008). Esto último se ha logrado
gracias a la producción de nuevas variedades híbridas mejoradas que año con
año son liberadas por empresas semilleras trasnacionales (Palacios et al., 2008;
Ortega et al., 2012). Mientras que en Estados Unidos, las dos principales
trasnacionales liberan entre 30 y 40 nuevos híbridos cada año a costos tan
elevados que amenazan la rentabilidad de la actividad, en México sólo se liberan
entre 2-3 nuevos híbridos por año (Dudley, 2007; González-Estrada et al., 2007;
FIRA, 2011).
Una de las alternativas que recientemente se han aplicado en el
fitomejoramiento para obtener híbridos de una forma más rápida, es la inducción
de líneas doble haploide (DH), una técnica que permite obtener líneas
endogámicas ~ 100% homocigotas en un corto plazo, las cuales se utilizan como
parentales para la producción de híbridos con características de interés
agronómico o nutrimental. Por lo anterior mencionado, estas estrategias están
siendo utilizadas para la producción de nuevas variedades híbridas nacionales.
Hasta ahora, la producción de nuevos híbridos se ha basado fundamentalmente
en actividades encaminadas a la selección de características de alta y de baja
heredabilidad, medidas a través del fenotipo (Guillen et al., 2009).
El uso de la tecnología DH enfocada al mejoramiento del maíz, está basada en la
inducción de la haploidía in vivo y la duplicación cromosómica obteneniendo loci
duplicados completamente iguales, debido a la inhibición mitótica. Esta tecnología
es reconocida ampliamente por su eficiencia en disminuir los ciclos de
mejoramiento al obtener líneas endogámicas en un menor tiempo (Prasana et al.,
2013).
En el Noroeste y Bajío de México, el Instituto Nacional de Investigaciones
Forestales y Pecuarias (INIFAP) ha realizado un esquema de mejoramiento de
maíz buscando producir maíces hibridos con ACA. Actualmente, el INIFAP cuenta
2
con poblaciones de maíz blanco y amarillo con ACA pertenecientes a ambas
regiones, que han sido caracterizadas y mejoradas a partir del año 2002 hasta la
actualidad. Dicho germoplasma es la base utilizada para generar líneas doble
haploide de maíz con potencial para producir híbridos con ACA (Preciado-Ortiz et
al., 2013; Ortega-Corona et al., 2015).
En este sentido, el INIFAP está llevando a cabo un importante esfuerzo
para la producción de nuevas líneas dobles haploides de maíz blanco y amarillo
con alto contenido de aceite y rendimiento de grano para la generación de nuevos
híbridos que pudieran competir con aquellos ya colocados en el mercado
nacional. Sin embargo, para lograrlo se requiere de un gran esfuerzo
interdisciplinario y del empleo de estas nuevas tecnologías que permitan hacer
más eficiente el proceso. Por tal motivo, la presente investigación tuvo por
objetivo llevar a cabo la caracterización genética de poblaciones de maíz blanco y
amarillo producidas por el INIFAP en las regiones del Noroeste y el Bajío a través
de nuevas tecnologías de secuenciación para identificar las variantes
estructurales de cada genotipo y generar información de utilidad para las
personas encargadas de realizar mejoramiento genético de maíz en Sinaloa. La
información sobre la caracterización molecular de la diversidad genética y su
estructura poblacional es de suma importancia para el desarrollo de nuevos
híbridos mejorados que puedan competir en el mercado nacional (Wu et al.,
2016).
3
2. ANTECEDENTES
2.1 Maíz.
El maíz (Zea mays L.) es el cereal más cultivado y con mayor producción
en el mundo, seguido por el arroz y el trigo (FAOSTAT, 2017). El maíz es el cereal
que logra el mayor rendimiento de grano por hectárea, es una planta de tipo C4
con una alta tasa fotosintética otorgándole un gran potencial de producción de
carbohidratos por unidad de superficie (Paliwal et al., 2001). La palabra maíz es
de origen prehispánico la cual significa “lo que sustenta la vida”. Este cereal
pertenece a la familia de las Poáceas o gramíneas, tribu Maydeas, género Zea y
especie mays. Esta especie es considerada de gran importancia económica entre
las Poáceas de la tribu de las Maydeas (Sánchez-Ortega, 2014). Existen otras
especies pertenecientes al género Zea, de las cuales destacan el teosinte y las
del género Tripsicum, siendo formas silvestres cercanas de Zea mays (Acosta,
2009; OECD, 2003).
2.1.1 Descripción botánica.
El maíz es una planta monocotiledónea, cuenta con un sistema radical
fibroso, conformado por raíces primarias fibrosas las cuales presentan raíces
adventicias, que nacen en los primeros nudos por encima de la superficie dando
anclaje a la planta en el suelo, tiene un solo tallo erecto de altura variable (1 - 6
m), y hasta 30 hojas de gran tamaño, alternadas y paralelinervias, estas se
encuentran abrazadas al tallo y en el haz presentan vellosidades. Es una planta
monoica, lo que significa que la misma planta presenta inflorescencias masculinas
y femeninas bien diferenciadas. Esta característica facilita las labores de
polinización y producción de nuevas cruzas. Es capaz de desarrollar una o dos
yemas laterales en la axila de las hojas, esto en la mitad superior de la planta, las
cuales terminan en una inflorescencia femenina que pasa a ser una mazorca
cubierta en hojas, teniendo la capacidad de almacenar reservas en los granos. En
la mazorca se pueden formar alrededor de 400 a 1,000 granos acomodados de 8
a 24 hileras aproximadamente. Los estilos largos que salen de la punta del olote,
son conocidos comúnmente como pelos de elote, y cada uno de ellos puede ser
equivalente a un grano en caso de ser polinizados. La inflorescencia masculina o
panoja se ubica en la parte superior de la planta, es una espiga central con
4
ramificaciones laterales que producen el polen. Estas ramificaciones también
llamadas espiguillas se distribuyen a lo largo del eje central o raquis de forma
polística y en las ramas con arreglo dístico. Las espiguillas están protegidas por
dos glumas, estas contienen tres estambres los cuales producen los granos de
polen. La coloración de la panoja puede ser de distintos colores ya sea verde,
morada, rojiza o amarilla dependiendo de las glumas y anteras. (Paliwal et al.,
2001; Kato et al., 2009).
La mazorca siendo indehiscente mantiene en ella cada uno de sus granos
cubiertos por varias hojas, cada grano o semilla denominado cariópside está
formado principalmente por tres estructuras diferentes: el pericarpio, el
endospermo y el germen (Fig. 1), los cuales pueden variar de proporción según
rasgos genéticos y ambientales. El fruto maduro consta del pericarpio, el germen
el cual es diploide y el endospermo que es triploide. Los granos se desarrollan a
partir de la acumulación de productos que obtiene la planta durante la fotosíntesis,
la absorción de nutrientes a través de las raíces y del metabolismo de la planta
(Paliwal, 2001; Sánchez-Ortega, 2014).
Figura 1. Principales estructuras que conforman a la semilla de maíz (Figura tomada del URL:
http://www.dacsa.com).
2.1.2 Tipos de maíz.
El maíz al tener una gran variabilidad en cuanto a color, textura,
composición y apariencia en sus granos, puede ser clasificado en distintos tipos
5
según: a) la constitución del endospermo y del grano; b) el color del grano; c) el
ambiente en que es cultivado; d) la madurez, y e) su uso (Cuadro 1).
Cuadro 1. Clasificación de los tipos de maíz (Paliwal et al., 2001).
Clasificación Tipo
Constitución del endospermo
y del grano
Duro, dentado, reventón, dulce, harinoso, ceroso y
tunicado dentro de los más importantes.
Color del grano Amarillo, anaranjado, blanco, verde, púrpura, rojo,
azul y negro.
Ambiente en que es cultivado Tropical, subtropical y templado.
Madurez
Extra temprana (80-90 días a la madurez), temprana
(90-100 días a la madurez), intermedia (100-110
días a la madurez), tardía (100-130 días a la
madurez).
Uso
Consumo humano, alimento forrajero, con proteína
de calidad, con alto contenido de aceite, para
producción de harinas y nixtamalización.
En cuanto a su uso se pueden clasificar como maíces de especialidad,
los cuales han sido mejorados para proporcionar una característica en especial,
como los maíces con proteína de alta calidad, con alto contenido de aceite,
cerosos con alta amilosa, dulces, reventones entre otros. Por otra parte están los
maíces comunes los cuales no han sido mejorados para dar alguna característica
en específico a los granos (Paliwal et al., 2001).
2.1.3 Importancia nutrimental.
El maíz es uno de los cultivos con mayor importancia en el mundo por su
aporte calórico a la dieta humana, aportando al menos un 30% de las calorías que
consumen millones de personas en países en desarrollo. La importancia de la
producción del grano va más allá del consumo humano y también es utilizado
como alimento para el ganado y para la obtención de aceites, de igual forma, los
subproductos de este cultivo sirven como materia prima para muchos otros
productos industriales (Semagn et al., 2012).
El maíz amarillo presenta un importante valor nutrimental por ello es
cultivado alrededor del mundo. Algunos reportes indican que el maíz amarillo
6
destinado para alimentar animales al menos triplica al maíz blanco usado para la
alimentación humana. Aunque en algunas regiones del mundo la demanda de
maíz forrajero aumenta con rapidez, el maíz sigue siendo una fuente importante
de alimento para el hombre. A pesar de que los maíces amarillos presentan un
mayor aporte nutrimental, normalmente para consumo humano, el cultivo de maíz
blanco es preferido sobre las variedades amarillas (FAO y CIMMYT, 1997).
El grano de maíz a partir de sus tres diferentes estructuras proporciona
distintos tipos de nutrimentos. En los tipos de maíces comunes, el endospermo
constituye cerca del 84% del peso seco total del grano, el embrión abarca el 10%,
y el pericarpio y el escutelo comprenden el 6% restante. El pericarpio se
caracteriza por tener alto contenido de fibra cruda, el endospermo está compuesto
por un alto contenido de almidón y un menor porcentaje de proteína, por último el
embrión o germen posee un alto contenido de lípidos y en menor proporción
proteínas y minerales. El maíz es considerado nutricionalmente superior a
muchos otros cereales excepto en su contenido de proteínas. El cuadro 2 muestra
los distintos componentes del grano de acuerdo a su análisis proximal y en el
cuadro 3 la composición nutricional del grano en 100 g de harina de maíz.
Cuadro 2. Peso y composición de las distintas partes del grano de maíz (Paliwal et al., 2001).
Composición (%) Endospermo Embrión Pericarpio Escutelo
Almidón 87.6 8.3 7.3 5.3
Grasas 0.8 33.2 1.0 3.8
Proteínas 8.0 18.4 3.7 9.1
Cenizas 0.3 10.5 0.8 1.6
Azúcares 0.6 10.8 0.3 1.6
Resto 2.7 18.8 86.9 78.6
Materia seca 83.0 11.0 5.2 0.8
7
Cuadro 3. Composición nutricional de los granos de maíz (Miracle, 1966).
Contenido 100 g de harina de maíz
Agua (%) 12
Calorías 362
Proteínas (g) 9.0
Grasas (g) 3.4
Carbohidratos (g) 74.5
Fibra (g) 1
Cenizas (g) 1.10
Calcio (mg) 6
Hierro (mg) 1.8
Fósforo (mg) 178
Tiamina (mg) 0.3
Riboflavina (mg) 0.08
Niacina (mg) 1.9
2.1.4 Importancia económica.
El maíz es el cereal más importante en producción a nivel mundial, seguido
por el arroz y el trigo. En el año 2014 su producción fue de 1,038,281,036 ton,
siendo los principales países productores: Estados Unidos (361,091,140 ton),
China (215,646,300 ton) y Brasil (79,877,714 ton), los cuales contribuyen con el
63% de la producción mundial de maíz. En el caso de México se encuentra en el
séptimo lugar en producción de maíz a nivel mundial, contribuyendo con el 2.2%
de la producción mundial, equivalente a 23,273,257 ton (FAOSTAT, 2017).
En México, el cultivo de maíz representó el 17% del valor de producción del
sector agrícola en el año 2014 con una producción que representó un ingreso de
72,000 millones de pesos (mdp), en el año 2015 representó el 19% del valor del
sector agrícola con un valor de 84,500 mdp, y en el año 2016 presentó un valor de
producción de 85,000 mdp (SIAP, 2016). El estado de Sinaloa se encuentra entre
los siete principales productores de maíz. Su producción representa el 29% de la
8
producción nacional (Fig. 2), siendo el principal productor con una derrama
económica de al menos 24,000 mdp según registros recientes del Servicio de
Información Agroalimentaria y Pesquera de México (SIAP, 2016) indican que la
superficie de cultivo cosechada en Sinaloa es de 541,654 ha con una producción
de 5, 380,042 toneladas equivalente a un rendimiento de 9.95 ton/ha de maíz.
Figura 2. Producción nacional de grano de maíz en México (SIAP, 2016).
Debido a su importancia económica, en Sinaloa la producción de maíz
como monocultivo se ha convertido en una práctica común. Esto ha provocado la
modificación gradual de las condiciones ambientales; haciendo dependiente al
sistema de la continua intervención humana para su funcionamiento, con una gran
dependencia a los agroinsumos. Estas modificaciones han desencadenado una
serie de problemas fitosanitarios que deben ser tratados con agentes químicos o
biológicos, incrementando con ello los costos de producción y comprometiendo la
rentabilidad de esta actividad (Fundación Produce Sinaloa, 2008).
2.1.5 Principales usos del maíz.
El maíz al ser de gran importancia económica y nutrimental en nuestro país
presenta una gran variedad de usos, de los cuales no solo destaca el uso para
alimentación humana. Una de las bondades de utilizar el maíz como alimento, es
que puede ser utilizado tanto fresco como procesado, como fuente de materia
prima para la industria ya sea de forma directa o a partir de subproductos de este
mismo. En el ámbito agropecuario, el maíz se utiliza para la alimentación de aves
9
y ganado lo que proporciona mayor valor nutricional a sus carnes y derivados
(Espinoza et al., 2004; Domínguez-Mercado, 2012).
Generalmente el uso que se hace del maíz está en función del tipo de
grano, ya que maíces duros y dentados son utilizados principalmente para la
alimentación humana, e incluso hay algunos tipos de maíces que han sido
obtenidos con propósitos específicos como los maíces harineros que se producen
para la producción de alimentos, maíces reventones que se consumen
principalmente como palomitas. La planta de maíz es un magnífico alimento
forrajero para el ganado, en especial para las vacas lecheras. Es utilizada como
forraje en varias etapas del crecimiento de la planta, en especial al momento de la
emisión de la panoja o posterior. Cerca del 40% del maíz producido en los países
tropicales es usado para la alimentación animal; el maíz proporciona la más alta
tasa de conversión a carne, leche y huevo comparado con otros granos que se
usan con el mismo propósito. Su alto contenido de almidón y bajo contenido de
fibra hace que sea una alta fuente de concentración de energía para la producción
de ganado (López-Pereira, 1992).
Existe una gran cantidad de productos alimenticios a base de maíz que
pasan por procesos industriales y que son manufacturados y comercializados a
gran escala. Estos productos incluyen tortillas, harinas de maíz, masa, variedad
de bocadillos, cereales para el desayuno, espesantes, pastas, jarabes,
endulzantes, aceite de maíz, bebidas sin alcohol, cerveza y whiskey, alimentos
varios para consumo humano o para los animales domésticos y productos
industriales. El almidón de maíz es el producto más importante del procesamiento
húmedo y es usado en numerosas aplicaciones alimenticias e industriales
(Watson, 1988). La extracción de almidón y aceite comprenden cerca del 70% de
los productos; el 30% restante está principalmente en la forma de fibras sobre
todo celulosa y hemicelulosa las cuales son en su mayoría convertidas en
alimento para animales o para la producción de biocombustibles como el
bioetanol (Paliwal et al., 2001; Zamora-Hernández et al., 2014).
2.2 Diversidad genética del maíz.
La diversidad genética se define como el conjunto de variaciones
heredables que ocurren en cada organismo, entre los individuos de una población
10
y entre las poblaciones de una especie, en un sentido amplio es el componente
más básico de la biodiversidad (Piñero et al., 2008). Teóricamente, las especies
que contienen una alta diversidad genética tendrán una alta capacidad de
adaptación a diferentes condiciones ambientales y de resistencia a enfermedades
y patógenos (Paliwal et al., 2001).
El maíz es originario de América, particularmente de la región sur de
México. Su domesticación inició hace alrededor de 8,000 años a partir del teosinte
(Zea mays sp. mexicana), el cual es su progenitor silvestre, e incluso se ha
reportado que aún son compatibles reproductivamente (Karn et al., 2017). Desde
su domesticación, el maíz ha sido cultivado en una gran variedad de condiciones
geográficas y ambientales. Esta amplia diversidad ecológica ha conducido a la
acumulación de una alta diversidad genética en su genoma (Rocandio-Rodríguez
et al., 2014).
Esta alta diversidad genética ha dado origen a una gran variedad de razas.
Tan sólo en México se han encontrado 59 razas, 6 centros de diversidad y 11
regiones biogeográficas del maíz, de los cuales 6 están vinculados con los
centros de diversidad entre los que se encuentran las regiones del Noroeste y el
Bajío. En la región del Bajío se encuentran las razas: Ancho, Bofo, Complejo
Serrano de Jalisco, Conejo, Elotero de Sinaloa, Mushito, Pepitilla, Vandeño y
Zamorano Amarillo. En la región del Noroeste se encuentran las razas: Chapalote,
Dulcillo del Noroeste, Elotero de Sinaloa, Jala, Maíz Blando de Sonora, Onaveño,
Reventador, Tablilla de Ocho, Tabloncillo y Tabloncillo Perla. Siendo estos los
más característicos de cada región (Perales y Golicher, 2014).
El genoma del maíz es muy complejo y presenta una amplia diversidad en
relación al de otras especies cultivables. Actualmente están reportados los
genomas de la variedad B73, PH207 y del maíz palomero toluqueño (Schnable et
al., 2009; Vielle-Calzada et al., 2009, Hirsch et al., 2016). En el cuadro 4 se
muestra una comparación entre los genomas reportados de maíz. Se ha
reportado que el maíz contiene casi un 60% de transposones en su genoma
(Schnable et al., 2009) lo cual hace difícil su análisis debido a la alta repetibilidad
de secuencias que presentan estos elementos genéticos transponibles.
11
Cuadro 4. Comparación de genomas de maíz reportados.
Variedad Longitud (pares de
bases)
Número de genes Autor
B73 2,300,000,000 32,000 Schnable et al.,
2009
Palomero
de Toluca
2,900,000,000 44,000 Vielle-Calzada et
al., 2009
PH207 2,450,000,000 39,300 Hirsch et al., 2016
2.2.1 Marcadores moleculares para el estudio de la diversidad genética.
Un marcador genético o marcador molecular es un segmento del ADN que
tiene una ubicación física identificable (locus) en un cromosoma, y que además se
puede rastrear su herencia genética a través de distintas técnicas de genotipado
en su progenie. Los marcadores idóneos son los de ADN, siendo válido cualquier
fragmento que se encuentre muy cerca del gen o de la secuencia de interés y que
lógicamente afecte al carácter en estudio. Los marcadores de ADN se basan
fundamentalmente en el análisis de las diferencias en pequeñas secuencias del
ADN entre individuos. Las técnicas empleadas para ello son muy diversas y dan
el nombre a los distintos tipos de marcadores, los cuales pueden ser de carácter
dominante o codominante (Azofeifa-Delgado, 2006).
Para la caracterización molecular pueden ser utilizados diversos tipos de
marcadores genéticos, incluyendo polimorfismos de longitud de fragmentos de
restricción (RFLPs), polimorfismos en la longitud de fragmentos amplificados
(AFLP), repeticiones de secuencia simple o microsatélites (SSR) o polimorfismos
de nucleótido simple (SNPs) (Dillman et al., 1997; Warburton et al., 2002; Reif et
al., 2003; Xia et al., 2004, 2005).
Recientemente, los SNPs se han convertido en los marcadores
moleculares más utilizados en análisis de caracterización genética debido a que
se encuentran abundantemente en el genoma de la planta, proporcionan grandes
12
cantidades de información, además de ser flexibles ya que a la misma información
obtenida se le pueden realizar diversos análisis con aplicaciones diferentes,
teniendo una buena relación en cuanto a costo y eficiencia.
Los SNPs son un tipo de polimorfismo simple, el cual se basa en el cambio
de un nucleótido por otro. Básicamente, este tipo de polimorfismo es generado
por errores en la incorporación de nucleótidos durante la replicación, o por
mutagénesis causada por la modificación química de las bases o por daños
producidos por radiación ionizante o ultravioleta. Muchos de los SNPs se
encuentran en regiones intergénicas, pero miles de estos se han localizado dentro
de los genes. Aunque algunos de estos SNPs no realizan un daño aparente o no
cambian alguna característica del individuo, otros pueden tener diferentes
implicaciones funcionales dependiendo de la región en la que sean localizados
dentro de un gen (Oliva y Vidal, 2006).
Los marcadores moleculares han mostrado un alto potencial en el
desarrollo de programas de mejoramiento genético. Uno de los principales
objetivos del uso de marcadores moleculares en los programas de mejoramiento
genético es seleccionar rasgos de importancia agronómica a partir de datos
genotípicos que se encuentran a lo largo de todo el genoma que permitan
predecir con una precisión suficiente la selección de un rasgo agronómico definido
(Lorenz et al., 2011).
Los análisis con marcadores moleculares proporcionan un enfoque
alternativo importante para caracterizar la diversidad genética, la estructura de la
población y las relaciones genéticas entre poblaciones o materiales de
mejoramiento de líneas élite dentro de una colección de germoplasma de maíz
determinado. La implementación de programas de mejoramiento asistido por
marcadores moleculares ha sido de gran utilidad para hacer más eficiente al
programa mismo, ya que permite seleccionar apropiadamente las líneas
parentales para la producción de cruzas, asignar grupos heteróticos y a la
conformación de un conjunto básico de germoplasma (Wu et al., 2016). La
diversidad genética que puede ser obtenida a través de marcadores moleculares
es cuantificada a través de índices de diversidad, siendo los más utilizados el
número de alelos, polimorfismos y la heterocigosidad. Debido a que la diversidad
genética de una especie está determinada por componentes tanto intra- como
13
inter-poblacionales, es necesario analizar cómo se distribuye entre y dentro de las
poblaciones (Sosa et al., 2010).
2.3 Genética de poblaciones
La genética ha tenido varias aplicaciones que han ayudado a solucionar
problemas en la historia de la humanidad, entre ellas la domesticación de
animales y plantas de cultivo. Esta actividad ayudó al desarrollo de varias
civilizaciones tanto en el viejo como en el nuevo mundo, quienes domesticaron
diversos cultivos para su alimentación básica como el maíz hace
aproximadamente 10 mil años. El cambio genético bajo la domesticación se fue
acelerando a través de los miles de años de selección en los cultivos para obtener
mayor producción o para destinarlos a usos particulares que entonces eran una
necesidad (Allendorf y Luikart, 2009).
La estructura genética de una población, está definida como una
comunidad de individuos que comparten un grupo genético común y que difiere
de otros grupos. El conocer esta información puede ayudar a determinar su
capacidad para ser mejorada o modificada por selección. La comprensión de este
proceso es de gran importancia para decidir el rumbo de la selección de las
plantas y las estrategias de selección que pueden ser implementadas (Hayward y
Breese, 1993).
En especies que exhiben heterosis, como el maíz, la información de la
estructura poblacional de los individuos pertenecientes a ciertas poblaciones es
de gran importancia para determinar la capacidad de combinación de líneas que
son utilizadas como probadores genéticamente divergentes, siendo útil para
clasificar a los individuos en grupos heteróticos. La clasificación de los grupos
heteróticos se basa en la asociación positiva entre el rendimiento de grano y la
divergencia genética que existe entre las líneas parentales utilizadas en la cruza
estando dentro de cierto rango de diversidad (Olmos et al., 2014).
Las tecnologías modernas de mejoramiento genético prometen promover el
uso de la diversidad genética existente en las poblaciones, siendo inherente en
cualquier programa de mejoramiento el conocimiento básico de la diversidad
genética y la estructura de la población del material de mejoramiento. Lo anterior
14
permite predecir el grado de herencia, la variación genética y los niveles de
heterosis (Romay et al., 2013).
2.4 Nuevas tecnologías de secuenciación masiva.
El desarrollo de las nuevas tecnologías de secuenciación, NGS (Next
Generation Sequencing) han tenido éxito debido a sus sistemas de detección tan
sensibles y la mejora a la par de la bioinformática para el análisis de una gran
cantidad de datos que son producidos por medio de estas técnicas, permitiendo la
secuenciación y re-secuenciación del genoma de varios individuos dentro de una
población, además han tenido un papel de gran importancia en la comprensión de
la biología de plantas y en el desarrollo de estrategias que le permite a las plantas
responder a diversos estreses abióticos y bióticos (Elshire et al., 2011; Yadav et
al., 2016).
Con el rápido desarrollo de las tecnologías de secuenciación y de la
bioinformática, han surgido herramientas muy poderosas que permiten detectar
variaciones naturales que se encuentran en rasgos complejos en los cultivos a
través de tecnologías de alta resolución, tal es el caso del Análisis de Asociación
Genómica (GWAS, por sus siglas en ingles Genome-wide association study)
(Huang y Han, 2014). El objetivo principal del GWAS es encontrar variaciones o
SNPs que se encuentren significativamente asociadas a algún rasgo fenotípico de
importancia agronómica. En maíz el GWAS ha permitido la detección de SNPs
asociados con rasgos fenotípicos como la altura de la planta, contenido de aceite
y almidón en la semilla, e incluso la presencia de resistencia a algunas
enfermedades como el carbón de la espiga provocada por Sporisorium reilianum
(Weng et al., 2011; Wang et al., 2012; Li et al., 2013; Liu et al., 2016)
2.4.1 Plataformas de secuenciación.
Actualmente, el método de secuenciación tipo Sanger está siendo
reemplazado parcialmente por diferentes tecnologías o plataformas NGS. La
tecnología de secuenciación Sanger permite obtener secuencias de entre 400 y
900 pares de bases (pb) en un tiempo aproximado de dos horas teniendo bajos
rendimientos, en cambio las tecnologías NGS permiten la producción de millones
de secuencias con una buena relación costo-productividad en un tiempo corto
15
(Chiu y Miller, 2016). Existe una variedad de plataformas que generan un gran
número de secuencias cortas también llamadas lecturas (comúnmente llamadas
reads, por su traducción del ingles), que pueden ser ensambladas de novo en
secuencias contiguas o ser alineadas a un genoma de referencia en la búsqueda
de variaciones. Estas lecturas son producidas a partir de fragmentos de
bibliotecas sin que sea necesario realizar clonaciones in vivo de vectores para
realizar la secuenciación, aunque presentan la desventaja de producir lecturas de
menor longitud en comparación del método Sanger (Zhang et al., 2011). Sin
embargo, el alto número de lecturas y la posibilidad de alinearlas con un genoma
de referencia hacen de NGS una tecnología bastante informativa y confiable.
En el Cuadro 5 se muestra una comparación de cinco de las principales
plataformas de secuenciación masiva (Roche 454, SOLiD, Illumina, PacBio,
Oxford Nanopore), y el sistema de secuenciación capilar (Sanger). Algunos de
estos sistemas de secuenciación masiva se encuentran en desarrollo o incluso
emergiendo al mercado, como Pacific Biosciences (PacBio) secuenciación en
tiempo real de molécula única (SMRT), Illumina Tru-seq con la tecnología de
lecturas sintéticas largas y la plataforma de secuenciación Oxford Nanopore (Lee
et al., 2016).
En la actualidad, la tecnología de Illumina es la plataforma NGS mas
utilizada, aunque las nuevas plataformas de "tercera generación", como las
basadas en la secuenciación nanopore, están ganando confiabilidad y cada vez
son más utilizadas (Chiu y Miller, 2016).
Las tecnologías NGS emplean la amplificación clonal de moléculas
sencillas, separadas espacialmente y pudiendo utilizar fragmentos sintéticos de
ADN llamados adaptadores, los cuales son ligados a los fragmentos de ADN de
cada muestra, y la secuenciación se lleva a cabo mediante PCR en emulsión
(pirosecuenciación Roche 454, ABI SOLiD) o amplificación en puente (Illumina
HiSeq), según cada plataforma (Morozova y Marra, 2008; Mardis, 2008).
16
Cuadro 5. Comparación de plataformas de secuenciación masiva y capilar.
Plataforma Roche 454 Illumina AB SOLiD Sanger
Equipo GS FLX+ HiSeq 2500 5500 SOLiD 3730xl
Método de
secuenciación
Piro-
secuenciación
Secuenciación
por síntesis
Secuenciación
por ligación
Terminación
de cadena
Longitud típica
de la lectura 700 pb 50-300 pb 35-50 pb 400-900 pb
Precisión 99.9% 98% 99.9% 99.9%
Rendimiento
(lecturas por
corrida)
> de 1 millón 600-4000
millones
1000 - 1500
millones N/A
Tiempo de
corrida 20 h 6 h-11 díasa 1-2 semanas 2 h
Costo del
equipo ++ ++++ ++++ ++
Costo de la
secuenciación +++ + + ++++
Ventajas clave
Lecturas largas,
tiempos de
ejecución
rápidos
Altos
rendimientos,
bajo costo por
base
Bajo costo por
base
Lecturas
largas,
tiempos de
ejecución
rápidos
Desventajas
clave
Bajo
rendimiento
Instrumentación
costosa
Muchas lecturas
cortas
Rendimientos
bajos
aDepende del modo de corrida, modo rápido o modo estándar (Chiu y Miller, 2016).
2.4.1.1 Illumina HiSeq.
En el año 2006, la compañía Solexa lanza al mercado el sistema GA
(Genome Analyzer), para el año 2007 la compañía es comprada por Illumina
adoptando esta tecnología. Inicialmente el sistema GA lograba un rendimiento de
1 Gb por corrida, el cual se incrementó gradualmente hasta 85 Gb en la serie
GAIIx a finales del 2009. En el año 2010 Illumina lanza el sistema Hiseq 2000, el
cual adopta la misma tecnología de secuenciación por síntesis, pero optimizada
para obtener hasta 600 Gb por corrida en 8 días (Liu et al., 2012). El secuenciador
utiliza fragmentos de ADN con adaptadores previamente ligados, que
desnaturalizados a hebras sencillas, e insertados en la celda de flujo, seguido de
17
una amplificación en puente para crear grupos (clusters), que contienen
fragmentos de ADN clonal. La amplificación de puente mediante PCR se realiza
en la superficie de la celda de flujo desnaturalizando el extremo 3' del fragmento
de ADN y replicando la hebra complementaria. Las sucesivas rondas de
replicación y desnaturalización mediante amplificación por PCR resultan en la
generación de miles de copias de fragmentos clonalmente amplificados en un
grupo estrechamente circunscrito. Los reactivos de secuenciación, incluyendo la
ADN polimerasa y un oligonucleótido para secuenciación, se pasan entonces a
través de la celda de flujo. Para cada ciclo, un único nucleótido marcado
fluorescentemente que contiene un terminador reversible se añade a la cadena
complementaria dentro de cada grupo individual en un enfoque de secuenciación
por síntesis. Después de la obtención de imágenes del dispositivo de carga
acoplada, la división del marcador fluorescente permite añadir el siguiente
nucleótido. El número de ciclos que producen la longitud de lectura final se
especifica de antemano, y la secuenciación también se puede hacer desde ambos
extremos (secuenciación pareada) usando un segundo cebador a la hebra de
ADN recién sintetizada (Chiu y Miller, 2016). En comparación con las plataformas
454 y SOLID, HiSeq 2000 es el más barato en secuenciación con un costo de $
0,02 dólares por un millón de bases (en el Instituto de Genómica de Beijing, en
China). Con la multiplexación incorporada con los adaptadores código de barra,
podría manejar miles de muestras simultáneamente. HiSeq 2000 necesita el
Software Controlador HiSeq (HCS) para el control de programa, el cual es un
Software Analizador en Tiempo Real (RTA) útil para realizar el llamado de base
en el equipo (Es decir identificar los nucleótidos correspondientes en cada
fragmento secuenciado). Con un disco duro de 3 TB en HiSeq 2000 y con la
ayuda de los reactivos Truseq v3 y los softwares asociados, HiSeq 2000 ha
elevado sustancialmente el rendimiento de la secuenciación (Liu et al., 2012). En
la figura 3 se muestra una descripción gráfica de cómo se lleva a cabo la
preparación de la biblioteca y la secuenciación por síntesis.
18
Figura 3. Representación esquemática de la secuenciación por Illumina HiSeq 2500. A: La librería
para la NGS es preparada mediante la fragmentación de ADN genómico y ligando adaptadores
específicos en los extremos de los fragmentos. B: La librería es cargada en la celda de flujo y los
fragmentos se unen a la superficie de la misma, cada fragmento unido es amplificado en
agrupamientos clonales mediante amplificación de puente. C: Se añaden reactivos de
secuenciación, incluyendo nucleótidos marcados fluorescentemente, y se incorpora la primera
base. Se visualiza la celda de flujo y se registra la emisión de cada grupo. La longitud de onda de
la emisión y su intensidad se utilizan para identificar los nucleótidos. Este ciclo se repite n veces
para crear una lectura con una longitud de “n” bases (normalmente 100 bases, figura tomada de
Illumina Inc., 2016).
2.5 Genotipado por Secuenciación.
Existen nuevas tecnologías de secuenciación masiva que han desarrollado
nuevos enfoques para el genotipado (Batley, 2015). Uno de ellos es el
Genotipado por Secuenciación (GBS, genotyping-by-sequencing), basado en la
reducción de la complejidad del genoma por medio de enzimas de restricción, y
en la utilización de adaptadores tipo código de barras que permiten el genotipado
de múltiples muestras en paralelo obteniendo marcadores moleculares de alta
19
densidad (Fig. 4). Hasta un millón de SNPs en cada muestra de ADN pueden ser
generados usando GBS, lo que hace posible reducir el sesgo de evaluación y
mejorar la resolución de la caracterización molecular en una colección de
muestras (Elshire et al., 2011; Poland et al., 2012; Poland y Rife, 2012).
En la actualidad la aplicación de NGS ha dado lugar a notables avances en
la secuenciación de genomas completos. El GBS ha surgido como una poderosa
herramienta que puede ser utilizada para diferentes aplicaciones genéticas, tales
como el análisis de la diversidad genética y la selección genómica (Poland y Rife,
2012; Crossa et al., 2013; Zhang et al., 2015).
La tecnología del GBS ha tenido aplicaciones importantes en la
caracterización genética y en el mejoramiento de cultivos de maíz, soya, arroz,
sorgo y algodón, indicando que el GBS es una herramienta metodológica factible
para el mejoramiento en este tipo de cultivos, teniendo una mayor resolución y
con una disminución del trabajo intensivo en el laboratorio en comparación con
otras tecnologías de genotipado (Semagn et al., 2012; Jarquín et al., 2014; Zhang
et al., 2015).
Previo a GBS, se han utilizado plataformas para la identificación de SNPs
en Maíz basadas en chips de Illumina (GoldenGate que contiene 1,536 SNPs,
MaizeSNP50 BeadChip, que contiene 56,110 SNPs y MaizeSNP3072 que
contiene 3072 SNPs) y en secuenciación masiva para su caracterización
molecular (Lu et al., 2009; Semagn et al., 2012; Li et al., 2013; Tian et al., 2015
Wu et al., 2016). Pero estos chips contienen un número finito de SNPs y esta
limitado a los SNPS presentes en la variedad B73, lo que puede producir una baja
resolución en los análisis de caracterización molecular, sobre todo en aquellos en
los que se analizan líneas de origen trópical. Además de que estos chips no
permiten la detección de nuevos SNPs que se encuentren en las líneas que no
han sido previamente caracterizadas. Por tales motivos existe una tendencia de
reemplazo de los chips de genotipado por el uso de secuenciación masiva y
nuevas tecnologías de genotipificación.
20
Figura 4. Preparación de bibliotecas mediante la metodología de Genotipado por Secuenciación
para diferentes individuos y descubrimiento de SNPs. Los círculos de colores rojo, naranja amarillo
y azul representan los diferentes adaptadores código de barras utilizados, el círculo de color verde
representa el adaptador común para todos los individuos. Una combinación de dos enzimas de
restricción puede ser utilizada para la digestión del ADN genómico (Figura tomada de Singh y
Singh, 2015).
Actualmente existen estudios donde se ha utilizado infinidad de veces el
GBS como método de genotipado, pero además existen otras tecnologías como
RNA-seq que pueden ser utilizadas para realizar el genotipado de accesiones. El
uso de RNA-seq permite buscar marcadores tipo SNP exclusivamente en
regiones codificantes, al realizar la comparación de la secuencia de los genes
21
mensajeros con regiones que contienen marcadores ya reportados, e incluso con
genomas de referencia para la búsqueda de nuevos marcadores.
2.6 DArTSeq.
La empresa Tecnología de Arreglos para la Diversidad (DArT) de
Camberra, Australia, ha desarrollado una plataforma de genotipado basada en
GBS llamada DArTSeq, la cual proporciona la oportunidad de seleccionar
fracciones del genoma que corresponden predominantemente a regiones
codificantes. Las enzimas de restricción utilizadas en este método separan las
secuencias con bajo número de copias de las fracciones repetitivas del genoma,
siendo las secuencias con bajo número de copias más informativas para el
descubrimiento de marcadores, especialmente para el mejoramiento genético.
Estos fragmentos representativos son secuenciados a partir de las nuevas
tecnologías de secuenciación, específicamente con la plataforma HiSeq de
Illumina (Kilian et al., 2012; Li et al., 2015; Pailles et al., 2017).
A diferencia del enfoque de GBS en maíz que genera una gran densidad de
marcadores pero con un alto contenido de datos perdidos (hasta un 50%),
haciendo necesaria la imputación precisa de datos para la detección de
heterocigotos, en el enfoque de DArTSeq se generan una menor cantidad de
marcadores (50,000 a 350,000 SNPs), pero tiene una cobertura mucho mayor y
presenta una menor cantidad de datos perdidos (20% o menor) en comparación
con el GBS (Chen et al., 2016; Wu et al., 2016). Además, al utilizar una
combinación de enzimas de restricción, DArTSeq ofrece un perfil genómico
asequible a través de la generación de SNPs de alta densidad, y permite la
identificación de variaciones de presencia y ausencia (PAV), pudiéndose obtener
de 40,000 a 200,000 marcadores de este tipo (Sansaloni et al., 2011; Chen et al.,
2016).
2.7 Genes candidatos para la biosíntesis de lípidos.
La realización de estudios de caracterización genética ha permitido a los
investigadores encontrar genes que regulan características con importancia
económica entre los cultivos que se producen en la actualidad. Estas
características incluyen en plantas la resistencia o tolerancia a enfermedades,
mayor productividad, tiempo de floración, estructura de las raíces, producción de
22
algún metabolito como en la biosíntesis de lípidos y otros aspectos favorables que
se muestran en la naturaleza. En maíz, se han identificado genes que están
relacionados con la biosíntesis de lípidos, específicamente los genes: FAD2 y
WRI1a que están asociados con la producción de insaturaciones en los ácidos
grasos. Por otro lado ACP, LACS y COPII que están asociados con la cantidad de
aceite (Li et al., 2013). Es por ello que ahora con las NGS es posible identificar el
locus marcador que está estrechamente asociado a los principales genes
involucrados en la biosíntesis de lípidos y estos pueden ser utilizados para una
posterior selección en los programas de mejoramiento de líneas de maíz en las
que el aceite sea la característica fenotípica que se desea mejorar (Kozik et al.,
2013).
2.8 Uso de líneas Dobles Haploides como estrategia para el
fitomejoramiento.
El mejoramiento genético de plantas puede describirse como un conjunto
de actividades destinadas a mejorar las cualidades genéticas de un cultivo. Es por
ello que los mejoradores desarrollan nuevas variedades con objetivos específicos:
mayor rendimiento, mejor calidad de grano, resistencia a plagas o a
enfermedades, tolerancia a factores ambientales adversos (sequía, inundación,
salinidad), entre otros. El desarrollo de nuevos hibridos que cumplan con las
necesidades de los agricultores, normalmente es un proceso largo en el cual es
necesario obtener primeramente líneas que sean endogámicas, y presenten poca
variación genética, es decir que sean casi 100% homocigotas. Estas líneas
endogámicas seleccionadas con ciertas características definidas se utilizan para
realizar cruzas biparentales, buscando que la progenie tenga las características
mejoradas de ambos padres. Sin embargo la producción de líneas parentales
endogámicas es un poceso demasiado tardío, siendo hasta 7 u 8 ciclos de
autofecundaciones al menos en el caso del maíz. Para desarrollar nuevas
variedades en un menor tiempo es posible utilizar la tecnología de Dobles
Haploides (DH), la cual se basa en la duplicación cromosómica de genotipos
haploides disminuyendo su variabilidad genética, esto permite acortar
considerablemente la producción de híbridos mejorados debido a que hace
posible un desarrollo más rápido de líneas totalmente homocigotas en
23
aproximadamente 2 ó 3 generaciones. Esto en comparación con el proceso
tradicional de mejoramiento genético, donde el desarrollo de líneas endogámicas
requiere de 6 a 8 generaciones. (Forster y Thomas, 2005; Geiger y Gordillo, 2009;
Chang y Coe, 2009; Prasanna et al., 2013).
La tecnología DH consiste en tres fases: 1) inducción de haploidía in vivo o
in vitro a partir de una línea inductora, 2) duplicación cromosómica con colchicina,
y 3) autofecundación para tener más semilla. En cualquiera de los dos métodos,
dobles haploides o mejoramiento tradicional, la fuente de germoplasma
heterocigoto son plantas provenientes de cruzas entre dos o múltiples parentales
mejorados presentes en grupos heteróticos, constituyendo la base para la
creación de nuevas líneas DH. La haploidía es inducida por la polinización de las
inflorescencias femeninas del germoplasma fuente con el polen de un genotipo
que tiene la capacidad de inducir haploides. Las mazorcas del germoplasma
fuente son cosechadas y se realiza una selección de los granos que presentan
embriones haploides. La línea inductora tiene el gen R1-nj el cual produce una
coloración purpura en el endospermo del grano por producción de antocianinas,
utilizándola como marcador de haploidía. Las semillas haploides son tratadas con
un inhibidor de la mitosis para duplicar artificialmente sus cromosomas
produciendo plantas dobles haploides (Prigge y Melchinger, 2012; Prasanna et al.
2013).
La caracterización genética de líneas DH puede proporcionar información
de utilidad que puede ayudar a los mejoradores de maíz. Por un lado, dando la
ventaja de poder realizar estudios de asociación genética entre el genotipo y las
características de interés agronómico (Forster y Thomas, 2005) y por otro lado, a
través de un modelo matemático es posible predecir la eficiencia de los nuevos
híbridos sin tener que esperar hasta su cosecha (He et al., 2014; Jarquín et al.,
2014; Sonah et al., 2015; Zhang et al., 2015). Esta asociación de caracteres
agronómicos con los marcadores moleculares ha mostrado que es posible realizar
predicciones para diferentes rasgos agronómicos, como los tiempos de floración,
contenido de almidón, la altura de la planta, entre otros. En consecuencia, han
surgido avances considerables en los sistemas de selección para la producción
de híbridos que han ido remplazando a los sistemas tradicionales, basados en la
24
producción de cruzas en base a la observación del fenotipo o al comportamiento
de un solo gen (Xu y Crouch, 2008).
Debido a que el maíz es uno de los cereales de mayor demanda y
representa uno de los principales cultivos con mayor derrama económica en
México. En los últimos años se han venido liberando híbridos mejorados de maíz
a partir de sistemas de selección tradicionales y se empiezan a incorporar estas
nuevas tecnologías de fitomejoramiento como las líneas DH y marcadores
moleculares. Sin embargo, la liberación de híbridos mejorados por empresas o
instituciones mexicanas no compite con los híbridos liberados por las empresas
transnacionales debido a la gran capacidad de estas compañías para liberar
nuevas variedades en un periodo corto de tiempo y con rendimientos superiores a
los que se observan en líneas mejoradas producidas por empresas nacionales
(FIRA, 2011).
2.9 Programa de fitomejoramiento de maíz de INIFAP.
Las dos zonas productoras de maíz más importantes que se encuentran en
México se localizan en las regiones Noroeste y Bajío del país. Por tal motivo, es
necesario diseñar una estrategia para la producción eficiente de semilla nacional
para obtener híbridos con potencial agronómico que sean capaces de
establecerse en dichas regiones y de obtener rendimientos y valor agregado altos
tal como un elevado contenido de aceite que permita competir con las empresas
transnacionales.
Poblaciones de maíz blanco y amarillo tanto del Noroeste como del Bajío
de México se han venido mejorando a partir de un esquema de selección
recurrente de medios hermanos, utilizando como unidad de selección al promedio
fenotípico de las familias de medios hermanos que han sido evaluadas en
ensayos repetidos y como unidad de recombinación a la semilla remanente de las
semillas que tengan mejor comportamiento, al polinizar una familia a un solo
individuo, se puede decir que se realiza selección en uno solo de los sexos, ya
que al germoplasma fuente se le retira la espiga para evitar la producción de
polen. En este esquema se ha buscado el aumento del contenido de aceite y el
rendimiento de grano. Este programa iniciado en el año 2004 por parte del INIFAP
hoy en día cuenta con líneas de maíz blanco y amarillo con mayor contenido de
25
aceite (6%-8%) y un rendimiento de grano comparable al de híbridos comerciales
(oscilando entre 8 y 11 toneladas por hectárea). A partir de estas líneas en el año
2013 se obtuvieron líneas DH que servirán en este trabajo como material fuente
para la selección de parentales que serán utilizados para realizar las cruzas y
obtener híbridos mejorados.
Estas poblaciones de maíz blanco y amarillo, anteriormente han sido objeto
de estudio. Preciado-Ortiz et al. (2013), analizaron la respuesta de la selección
recurrente sobre el desarrollo agronómico, contenido de aceite, perfil de ácidos
grasos y capacidad antioxidante lipofílica de las cuatro poblaciones, encontrando
que no ocurrió una descompensación del rendimiento de grano al aumentar el
contenido de aceite en grano. Además se presentaron un aumento del ácido
oleico y linolénico, y una disminución del ácido linoleico conforme aumentaban los
ciclos de mejoramiento. Los rendimientos alcanzados por las poblaciones
oscilaron entre 8 y 11 ton/ha en el último ciclo en que fueron evaluadas.
Por otro lado, Ortega-Corona et al. (2015) analizaron la respuesta del
proceso de selección recurrente, el rendimiento de grano y características de
interés agronómico en las cuatro poblaciones (PBN, PBB, PAN y PAB) cultivadas
en la región del Bajío de México. Ellos observaron una respuesta de selección
positiva con un incremento gradual de aceite por ciclo de 0.31, 0.40, 0.27 y 0.30%
para PAB, PAN, PBB y PBN respectivamente, sin afectar el rendimiento del grano
o las características agronómicas de la planta. Esto fue debido a que la selección
del germoplasma que se usó para el siguiente ciclo de mejoramiento, fue
seleccionado primordialmente a partir del rendimiento de grano y en segunda
instancia, por el contenido de aceite en el grano; de esta manera fue posible
lograr un incremento en el porcentaje de aceite del grano de maíz sin afectar el
rendimiento.
Vázquez-Carrillo et al. (2015) evaluaron el uso de estos maíces con alto
contenido de aceite, en relación a la calidad y textura (propiedades físicas,
térmicas y reológicas) del grano, masa y tortillas, observando que los maíces con
alto contenido de aceite produjeron tortillas más suaves. El alto contenido de
aceite en las tortillas redujo su absorción de agua y la capacidad de hinchamiento
del almidón, pero inhibió la retrogradación del almidón, por lo que se mantuvo
más blanda durante el almacenamiento.
26
El esquema de mejoramiento de maíces con ACA y alto rendimiento se desarrolla
actualmente en INIFAP del Valle del Fuerte, realizando selección a partir de líneas
parentales DH acoplado con el uso de marcadores moleculares, tecnologías de
secuenciación masiva y bioinformatica. El esquema va enfocado a encontrar
variaciones genéticas que puedan estar asociados a rasgos que son de
importancia para el INIFAP como el ACA, el rendimiento de grano, el contenido de
proteína.
3. JUSTIFICACIÓN
La producción de maíz en México, es de gran importancia para la
agricultura y la economía nacional. Su importancia radica en el rendimiento a
partir de semillas provenientes de híbridos mejorados. Sin embargo, la liberación
de híbridos mejorados pertenecientes a empresas o instituciones mexicanas no
compite con los híbridos comerciales producidos por empresas transnacionales
presentes en el mercado nacional. Las líneas producidas por INIFAP no cuentan
con la información de su composición genética, por ello, resulta indispensable
obtener su perfil genético y evaluar la diversidad de las poblaciones de maíz
blanco y amarillo del Bajío y el Noroeste, la cual será de utilidad para los
mejoradores genéticos de maíz, facilitando la utilización de las líneas producidas
por INIFAP, y promoviendo la generación de nuevos híbridos mejorados con
potencial agronómico para cada región. La obtención de los perfiles genéticos
mediante GBS de las líneas DH disminuirá los tiempos de los esquemas de
mejoramiento genético, permitiendo conocer la diversidad genética y la estructura
poblacional existente en las poblaciones de maíz del Bajío y el Noroeste pudiendo
separar grupos heteróticos existentes en las líneas DH y proponer cuales líneas
de maíz blanco y amarillo del Bajío y el Noroeste pueden generar mejores cruzas.
27
4. HIPÓTESIS
El análisis de diversidad genética y de estructura poblacional de líneas
dobles haploides de maíz mediante genotipado por secuenciación, permitirá
proponer cuales líneas de maíz blanco y amarillo del Bajío y el Noroeste pueden
generar mejores cruzas.
28
5. OBJETIVOS
5.1 Objetivo General.
Determinar la composición genética de las poblaciones de maíz blanco y amarillo
del Noroeste y el Bajío de México mediante la tecnología de genotipado por
secuenciación.
5.2 Objetivos específicos.
Determinar índices de diversidad genética para las poblaciones y los
individuos de maíz blanco y amarillo del Noroeste y el Bajío.
Obtener la estructura genética de las poblaciones de maíz blanco y
amarillo del Noroeste y Bajío de México.
29
6 MATERIAL Y MÉTODOS
6.1 Genotipado y determinación de los índices de diversidad genética
para las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío.
6.1.1 Material genético a utilizar.
El material genético se proporcionó por el INIFAP y consistió en un panel
de 120 muestras obtenidas de las poblaciones Amarilla del Bajío (PAB) y del
Noroeste (PAN), Blanca del Bajío (PBB) y del Noroeste (PBN). Se realizó una
clasificación de las líneas en cuanto a su origen geográfico, el tipo de línea
(parental, cruza y mestizo) y por el color del grano (Cuadro 6). El análisis se
realizó en una muestra de siete parentales PAB, nueve parentales PAN, siete
parentales PBB, 38 PBN, 20 cruzas simples de PAB con PAN, 20 cruzas simples
de PBB con PBN, nueve mestizos blancos y 10 mestizos amarillos, siendo las 120
líneas de maíz evaluadas en total.
Cuadro 6. Clasificación de 120 líneas de maíz por tipo de línea, color de grano y región de origen.
Genotipos No. de líneas Color del grano Región de origena
Blanco Amarillo B N B x N N x B
Parental 61 45 16 14 47
Cruza 40 20 20 15 25
Mestizo 19 9 10 9 10
aRegión de origen: B= Genotipo perteneciente al Bajío, N= Genotipo perteneciente al Noroeste, B
x N= Genotipo creado a partir de una hembra del Bajío y un polinizador del Noroeste y N x B=
Genotipo creado a partir de una hembra del Noroeste y un polinizador del Bajío.
6.1.2 Composición genética de líneas DH de maíz blanco y amarillo.
Las semillas se germinaron para obtener tejido foliar del cual se hizo la
extracción de ADN. La germinación de las semillas se llevó a cabo por medio de
la técnica de papel secante enrollado (Warham, 1998). Brevemente, se utilizó una
toalla de papel secante realizando un doblez en la parte inferior de 5 cm para
crear un receptáculo para la semilla, se colocaron 3 semillas de cada genotipo, se
humedeció el papel secante con agua destilada y se enrolló, posteriormente se
pasaron los rollos de dos en dos a bolsas de plástico, y se colocaron en
condiciones de oscuridad y a temperatura ambiente durante 72 horas.
30
Posteriormente, se sacaron a la luz una vez que el coleóptilo emergió y se
realizaron riegos mínimos sólo para mantener la humedad en el papel secante.
Las plántulas se mantuvieron por diez días para realizar la colección de
aproximadamente 4 cm de tejido foliar para cada extracción de ADN.
6.1.3 Extracción de ADN genómico.
Se realizó la extracción de ADN genómico a partir de tejido foliar de maíz
mediante el protocolo estándar de CTAB (bromuro de hexa-decil-tri-metil-amonio)
al 2% (Stewart y Via, 1993) con algunas modificaciones. Para monitorear la
integridad del ADN, se llevó a cabo una electroforesis en gel de agarosa al 1%
durante 1 hora, con una carga eléctrica de 90 v y 30 mAmps. Por
espectrofotometría se determinó la concentración y calidad del ADN en el rango
de absorbancia de 260/280 empleando un equipo NanoDrop 2000c a partir de 1
µL de la muestra. El ADN se aceptó como “puro” cuando las muestras tuvieron
una razón 260/280 > 1.8, si la razón es apreciablemente baja se repitió la
extracción, debido a que, valores < 1.8 indican contaminación de muestra por
proteínas, fenol u otro contaminante que pueda absorber fuertemente a 280 nm.
6.1.4 Preparación de bibliotecas por el método de DArTSeq.
Después de la verificación de la calidad e integridad del ADN se realizó una
dilución a 60 ng/µL, y se envió una alícuota de 30 µL en placas de 96 pozos para
la preparación de las bibliotecas de DArTSeq-GBS. La preparación de las
bibliotecas se llevó a cabo en el Servicio de Análisis Genéticos para la Agricultura
(SAGA) del Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT),
Texcoco, México, según la metodología reportada por Sansaloni et al. (2011). Se
utilizó un par de enzimas de restricción sensibles a la metilación para reducir la
complejidad del genoma (PstI y HpaII). Se ligaron adaptadores tipo código de
barras (uno diferente para cada individuo) y adaptadores comunes para todos los
individuos, se hizo una combinación de los individuos en un tubo y se realizó una
amplificación para enriquecer los fragmentos que posteriormente fueron
secuenciados.
31
6.1.5 Secuenciación por síntesis.
Posterior a la preparación de las bibliotecas se llevó a cabo la
secuenciación tipo “Single end” en los canales de las celdas de flujo de un
secuenciador Illumina HiSeq 2500 en SAGA-CIMMYT. Primero los adaptadores
de los fragmentos se unieron por complementariedad a los oligonucletidos
presentes en la celda de flujo de Illumina. Cada fragmento se amplificó en clones,
creando agrupaciones a través de la amplificación por puente. Cuando los
agrupamientos estuvieron completos, los templados fueron secuenciados por el
extremo en que se encuentra el adaptador código de barras, el cual permite
identificar posteriormente por medios bioinformáticos a que individuo pertenecen
cada una de las lecturas producidas por el secuenciador.
6.1.6 Búsqueda de SNPs.
Previo a la búsqueda de los SNPs se analizó la calidad de las lecturas
mediante el software FastQC. Este paso es muy importante ya que permite
verificar que las secuencias crudas que se utilizarán para el llamado de SNPs
cuenten con suficiente calidad (valores > 30 en la escala de Phred aseguran una
exactitud de la secuenciación de 99.9 %).
Una vez determinada la calidad de las secuencias se realizó la
identificación de SNPs presentes en las líneas evaluadas a través del software
propiedad de la compañía DArT. Este proceso fue realizado en el CIMMYT,
proporcionando como resultado una matriz de presencia/ausencia de marcadores
tipo SNP. El proceso consiste en lo siguiente: las lecturas son filtradas a partir de
los sitios de corte de las enzimas PstI (CTGCAG) y HpaII (CCGG) y del código de
barras de cada línea. Se tomaron sólo las lecturas que tengan estas
características y se seleccionaron las primeras 68-69 pb de las lecturas, ya
seleccionadas éstas se unieron creando un solo archivo con todas las lecturas
separadas por códigos de barras, este archivo se alineó con un conjunto de datos
de genotipado de maíces tropicales y subtropicales, disponibles en una base de
datos perteneciente al CIMMYT. Para conocer cuales secuencias pertenecen a
cada individuo para poder realizar el llamado de SNPs, el software genera una
matriz donde las secuencias se organizan de acuerdo a su código de barras y que
32
corresponde a cada una de las líneas de maíz. Finalmente, ya que se conoce a
que individuo pertenece cada lectura, se llevó a cabo la búsqueda de las variantes
tomando como un SNP el cambio de un nucleótido comparando cada línea con el
conjunto de marcadores identificados en maíz por el CIMMYT como referencia
(Chen et al., 2016).
6.1.7 Índices de diversidad genética.
En la figura 5 se muestra el procedimiento realizado para la determinación
de los índices de diversidad genética de las cuatro poblaciones de maíz.
Figura 5. Diagrama de flujo de los análisis bioinformáticos realizados a partir de los 35,770 SNPs.
6.1.8 Número de SNPs.
A partir del archivo de presencia/ausencia generado por SAGA-CIMMYT
sin filtrar por MAF a 0.05, el cual contiene todos los genotipos evaluados y los
marcadores presentes en cada uno de ellos se realizó un conteo del número total
de SNPs identificados en las cuatro poblaciones de maíz. Con el macro de
Microsoft Excel “FiRe v2.2” se determinó cuales marcadores pertenecen a cada
33
uno de los 120 genotipos (Garcion y Metraux, 2006). Con Microsoft Excel se
obtuvo un promedio del número de marcadores identificados por población (PBB,
PBN, PAB y PAN) y por el tipo de línea (parental, cruza, mestizo).
6.1.9 Determinación del porcentaje de datos perdidos.
Además del archivo de presencia/ausencia, SAGA-CIMMYT proporcionó un
archivo hapmap que contiene los SNPs presentes en los 120 individuos. A partir
de este archivo se creó un archivo de entrada con la terminal Bash de Linux,
utilizando el comando “sed”, reemplazando los valores presentes en el hapmap
por datos bi-alélicos. Posteriormente con la librería adegenet en R se determinó el
porcentaje de datos perdidos presente en los SNPs identificados.
6.1.10 Heterocigosidad observada y esperada.
Para determinar el porcentaje de heterocigosidad de los SNPs obtenidos
de cada línea se utilizó el software Bio-R (Pacheco et al., 2016) para cuantificar la
variación genética que existe entre las 120 líneas, y entre las 61 líneas parentales
presentes en las cuatro poblaciones. El valor de heterocigosidad observada
describe la proporción de loci heterocigotos detectados en cada línea, y el valor
de heterocigosidad esperada se refiere a la fracción estimada de todos los
individuos que podrían ser heterocigóticos para cualquier locus tomado al azar.
Los valores de heterocigosidad van de 0 a 1, siendo 0 totalmente homocigoto y 1
totalmente heterocigoto. El archivo de entrada para este software consiste en una
matriz que representa el tipo de alelo presente en cada línea, indicados con
valores del 1 al 3; siendo homocigoto mayor con valor de 1, homocigoto menor
con valor de 2 y heterocigoto con valor de 3. Los marcadores utilizados fueron
filtrados por el software a partir de la frecuencia del alelo menos comun con un
valor menor del 5% (MAF = 0.05) y 0% de datos perdidos.
6.1.11 Índice de contenido polimórfico (PIC).
Se calculó el PIC para el total de las 120 líneas de maíz, además por
separado para las 61 líneas parentales. Este se calculó a partir de los SNPs
identificados en cada línea en el software PowerMarker v3.25 empleando la
siguiente fórmula (Liu, 2002):
34
𝑃𝐼𝐶𝐼 = 1 − ∑ 𝑃𝑖𝑗2
𝑛−1
𝑗=1
− ∑ ∑ 2𝑃𝑖𝑗2 𝑃𝑖𝑘
2
𝑛
𝑘=𝑗+1
𝑛−1
𝑗=1
Donde Pij y Pik son las frecuencias alélicas del j-esimo y el k-esimo alelo del
marcador i, respectivamente, y la sumatoria se extiende sobre todos los alelos.
Esto se hace para referir al valor de cada marcador respecto con la
cantidad de polimorfismos mostrados. Los valores de PIC, también proporcionan
una estimación de la probabilidad de encontrar un polimorfismo entre dos
muestras aleatorias del germoplasma.
Los valores de PIC se representaron para las cuatro poblaciones de maíz y
para las líneas parentales, a partir de los valores de PIC de los marcadores
presentes en cada individuo.
6.2 Estructura poblacional de maíces del Bajío y Noroeste de México.
6.2.1 Distancia genética.
La matriz de distancia genética de Rogers (Rogers, 1972) se determinó
para los 120 individuos y para 61 los parentales a partir de los SNPs presentes en
cada una de las líneas de maíz, mediante la siguiente formula en R:
𝑀𝑅𝑥𝑦 = √∑ ∑ (𝑃𝑙𝑎𝑥 − 𝑃𝑙𝑎𝑦)2𝑛𝑙
𝑎=1𝐿𝑙=1
2𝐿
Dónde: Plax es la frecuencia estimada del alelo a, dentro del locus l, en el
genotipo x; L el número de loci, y nl el número de alelos dentro del locus, Play es
la frecuencia estimada del alelo a, dentro del locus l, en el genotipo y (Pacheco et
al., 2016). Los valores de distancia genética van de 0 a 1, valores cercanos a 0
indican que los individuos son muy parecidos y los valores cercanos a 1 indican
que los individuos son muy diferentes.
A partir de este valor se realizó una predicción de posibles cruzas simples
que se pueden realizar a partir de las líneas parentales que presentan mayor
distancia genética entre sí (Pavlov et al., 2016).
35
6.2.2 Análisis de estructura.
Pritchard et al. (2000) describe un método de agrupamiento basado en modelos
para el uso de datos de genotipos multi locus para inferir la estructura poblacional
y asignar cada uno de los individuos a las diferentes poblaciones posibles a
inferir. Ellos asumen un modelo en el que hay un cierto número de poblaciones K
(donde K puede ser desconocido), cada una de las cuales se caracteriza por un
conjunto de frecuencias de alelos en cada locus. Los individuos de la muestra son
asignados (probabilísticamente) a las poblaciones, o conjuntamente a dos o más
poblaciones si sus genotipos indican que se mezclan. Este modelo no asume un
proceso de mutación en particular, y puede aplicarse a la mayoría de los
marcadores genéticos comúnmente utilizados como en nuestro caso los SNPs,
siempre y cuando no estén estrechamente vinculados. Esto no es posible verificar
debido a que nuestros marcadores no se encuentran ubicados con referencia al
genoma de B73, por lo que no se pueden seleccionar SNPs distribuidos a lo largo
del genoma para realizar el análisis de estructura poblacional.
Se realizó un análisis de agrupamiento para conocer la estructura
poblacional de las 120 líneas de maíz mediante el software STRUCTURE 2.3.4 a
partir del número de SNPs proporcionados por el CIMMYT para un valor de K de
1 a 5 esperando encontrar al menos 4 agrupaciones. Para cada K se corrieron 10
replicas con un periodo de calentamiento previo de 10,000 iteraciones con 10,000
repeticiones (Pritchard et al., 2000; Falush et al., 2003; Hubisz et al., 2009). El
número de posibles grupos fue determinado de acuerdo a los resultados del
STRUCTURE y a la corrección ΔK sugerida por Evanno et al. (2005). En cuanto
al número más probable de Evanno se seleccionó el número de poblaciones
representado en el gráfico como el punto con un mayor ΔK, en cuanto al gráfico
de Ln(P) se tomó como número de poblaciones a partir del punto en que el gráfico
alzanzó un estado de “plateau” donde se presentan valores menores de
desviación estándar. La estructura poblacional resultante se ilustró con el software
CLUMPP (Earl y vonHoldt, 2012). Este análisis nos permitió condensar la
información genética de cada una de las líneas. Se realizó una comparación entre
las poblaciones de maíz blanco y amarillo del Bajío y el Noroeste, además se
realizó una comparación entre cada uno de los individuos en base a esta
información permitiéndonos observar los resultados de una forma gráfica. El
36
análisis mostró un conjunto de colores que representan a los “clusters” o
agrupamientos de las líneas con información genética más parecida.
6.2.3 Construcción de dendograma.
A partir de la matriz de distancia genética de Rogers se tomó la matriz
inferior y se crearon dos archivos de texto, uno para las 120 líneas de maíz y otro
para los 61 parentales. Estos archivos fueron utilizados para alimentar el software
MEGA 7.0 con el que se construyeron los dendrogramas. En MEGA se construyó
un dendograma por el método del grupo de pares sin ponderar con media
aritmética (UPGMA de las siglas en inglés Unweighted Pair Group Method using
Arithmetic averages). Se marcó cada subgrupo que pueda existir entre las líneas
de maíz, buscando la separación por color de grano: blanco y amarillo, región a la
que pertenecen: Bajío y Noroeste, y al tipo de genotipo al que pertenecen:
parentales, cruzas o mestizos (Kumar et al., 1994).
6.2.4 Análisis de escalamiento multidimensional.
Se realizó un Análisis de Escalamiento Multidimensional (MDS) a partir de
los 35,770 SNPs, con el software Bio-R (Pacheco et al., 2016) creando tres
archivos de salida que contienen las coordenadas de cada individuo un gráfico
3D, creado a partir de las similitudes que existen entre los genotipos. Los tres
archivos de salida pertenecen a a) las líneas parentales, b) las líneas parentales y
las cruzas, y c) al conjunto en total de las líneas de maíz. Estos tres archivos de
salida se utilizaron como archivo de entrada para el software Curly Whirly donde
se visualizaron los gráficos de MDS clasificando a las líneas parentales por
población, y a los demás genotipos por cruzas simples y mestizos (Milne, 2014).
37
7 RESULTADOS
7.1 Caracterización genética.
Se genotiparon 120 líneas de maíz blanco y amarillo pertenecientes a las
regiones del Bajío y el Noroeste de México. El genotipado mediante la tecnología
DArTSeq-GBS permitió identificar un total de 35,770 marcadores tipo SNP. A
partir del total de SNPs se identificaron diferente número de marcadores por
individuo que oscilan entre 25,238 SNPs y 34,829 SNPs, teniendo un promedio de
29,126 SNPs en el panel completo. Una vez identificados los SNPs que
pertenecen a cada línea fue posible determinar el promedio de SNPs que fueron
identificados para cada población (PBB: 28,993 SNPs; PBN: 29,885 SNPs; PAB:
27,991 SNPs; PAN: 28,386 SNPs), además se determinó también según el tipo
de línea (Cruzas Amarillas 25,796 SNPs; Cruzas Blancas: 26,482 SNPs; Mestizos
Amarillos: 29,294 SNPs; Mestizos Blancos: 31,216 SNPs; Parentales Amarillos:
31,216 SNPs; Parentales Blancos: 31,443 SNPs). En las figuras 6 y 7 se muestra
el número de SNPs identificados por población y tipo de línea. Después del
filtrado con MAF < 0.05 se obtuvieron 26,596 SNPs los cuales fueron utilizados
para realizar la determinación de los índices de diversidad genética restantes
(PIC, Ho y He), mientras que la estructura genética poblacional de los 120
individuos se obtuvo con el total de SNPs.
Figura 6. Gráfico de barra representativo del número de SNPs identificados en las cuatro
poblaciones de maíz. PBB: Población blanca del Bajío; PBN: Población blanca del Noroeste; PAB:
Población amarilla del Bajío; PAN: Población amarilla del Noroeste.
0
5000
10000
15000
20000
25000
30000
35000
Nú
mer
o d
e SN
Ps
Poblaciones de maíz
Promedio del contenido de SNPs por población de maíz
PBB PBN PAB PAN
38
Figura 7. Gráfico de barra representativo del número de SNPs identificados según el tipo de línea
de maíz. CA: cruza amarilla; CB: cruza blanca; MA: mestizo amarillo; MB: mestizo blanco; PA:
parental amarillo; PB: parental blanco.
El porcentaje de datos perdidos calculado para el set de los 35,770 SNPs
fue del 18.57% respectivamente. En cuanto a los índices de diversidad genética,
la información detallada de las cuatro poblaciones y el panel completo se
encuentra en el cuadro 7. El valor de PIC para los 120 individuos fue de 0.488
indicando que los marcadores presentes en las líneas son muy polimórficos, y que
son confiables y representativos de la información proporcionada de los índices
de diversidad genética.
Cuadro 7. Índices de diversidad genética para las 120 líneas de maíz.
Grupo N° de líneas PIC Ho He
Población amarilla
del Bajío 22 0.489 ± 0.086 0.157 ± 0.094 0.436 ± 0.006
Población amarilla
del Noroeste 24 0.488 ± 0.086 0.143 ± 0.077 0.435 ± 0.005
Población blanca
del Bajío 19 0.489 ± 0.086 0.134 ± 0.088 0.433 ± 0.005
Población blanca
del Noroeste 55 0.487 ± 0.086 0.101 ± 0.095 0.430 ± 0.005
Panel completo 120 0.488 ± 0.086 0.125 ± 0.092 0.433 ± 0.006
0
5000
10000
15000
20000
25000
30000
35000
Promedio de SNPs identificados por tipo de línea de maíz
CA CB MA MB PA PB
Núm
ero
de
SN
Ps
Tipo de línea de maíz
39
La tasa de heterocigosidad observada de las 120 líneas fue relativamente
baja teniendo un valor de 0.125. Al excluir a las cruzas y los mestizos del análisis
disminuyen los valores de heterocigosidad para los maíces parentales de las
cuatro poblaciones. Por lo que fue necesario determinar los índices de diversidad
genética para las 61 líneas parentales que representan a las cuatro poblaciones.
La información respectiva de los índices de diversidad genética de las 61 líneas
parentales se encuentra en el cuadro 8.
Cuadro 8. Índices de diversidad genética de las 61 líneas parentales.
Grupo N° de líneas PIC Ho He
Población Amarilla
del Bajío 7 0.480 ± 0.087 0.036 ± 0.024 0.435 ± 0.002
Población Amarilla
del Noroeste 9 0.482 ± 0.087 0.062 ± 0.071 0.438 ± 0.003
Población Blanca del
Bajío 7 0.481 ± 0.087 0.022 ± 0.003 0.438 ± 0.005
Población Blanca del
Noroeste 38 0.484 ± 0.087 0.057 ± 0.072 0.438 ± 0.004
Panel completo 61 0.483 ± 0.087 0.051 ± 0.064 0.438 ± 0.004
Los valores para el PIC de los 61 individuos sugieren que los marcadores
presentes en estas líneas son muy polimórficos. En cuanto a la heterocigosidad
observada los valores bajos obtenidos para las 61 líneas parentales de las 4
poblaciones son normales para líneas que son endogámicas, estas tuvieron
valores por encima del 94% de homocigosis.
7.2 Análisis de estructura poblacional.
Los valores de distancia genética de Rogers presentes en las 120 líneas
oscilaron entre 0.014 (parental PBN24-DH24-Us / parental PBN23-DH23-Us) y
0.254 (parental PBB178 / mestizo PABXPAN155A), teniendo individuos que son
más contrastantes genéticamente unos de otros. La matriz de distancia genética
del panel completo de los 120 individuos se encuentra vinculada en la siguiente
liga electrónica:
https://www.dropbox.com/s/0o5p9pvu2gz433u/DistGenRogersCIMMYT_R.c
sv?dl=0.
40
A partir de la matriz de distancia genética se realizaron predicciones de
posibles cruzas simples de maíz con las líneas parentales que presentaron mayor
distancia genética entre sí (> 0.22), considerando que sean maíces con el mismo
color de grano. Las predicciones se muestran en los cuadros 9 y 10, siendo 20
cruzas de maíz amarillo y 20 cruzas de maíz blanco respectivamente. El resto de
las predicciones de las líneas parentales se encuentran en los cuadros 11 y 12 del
anexo A.
Cuadro 9. Predicción de cruzas simples de maíz amarillo
Parental A Parental B Distancia Genética
PAN146-DH14-Us PAB226 0.230667552
PAN144-DH12-Us PAN133 0.230262825
PAN146-DH14-Us PAB223 0.229438296
PAN146-DH14-Us PAB218 0.228721721
PAN146-DH14-Us PAN133 0.227943555
PAN144-DH12-Us PAB236 0.227652527
PAN144-DH12-Us PAB226 0.225996763
PAN144-DH12-Us PAB223 0.225975751
PAN141-DH9-Us PAB226 0.225943622
PAN136 PAN133 0.225887527
PAN146-DH14-Us PAB236 0.225629912
PAN155A PAN133 0.225384895
PAN144-DH12-Us PAB218 0.225379894
PAN139 PAN133 0.225325965
PAN144-DH12-Us PAB209-DH6-Us 0.225140586
PAB235 PAB223 0.224664329
PAN136 PAB226 0.224570885
PAN146-DH14-Us PAB209-DH6-Us 0.22454497
PAN136 PAB209-DH6-Us 0.224410437
PAN146 PAN133 0.224160695
41
Cuadro 10. Predicción de cruzas simples de maíz blanco
Parental A Parental B Distancia Genética
PBN33-DH32-Us PBB187 0.239634755
PBN54-DH54-Us PBB178 0.230502973
PBN33-DH32-Us PBB183 0.230361306
PBN33-DH32-Us PBB183-DH6-Us 0.229570423
PBN54-DH54-Us PBB178-DH1-Us 0.229154928
PBN32-DH32-Us PBB187 0.22912937
PBN62-DH62-Us PBB183 0.229097422
PBN54-DH54-Us PBB187 0.228372132
PBN54-DH54-Us PBB198 0.228094774
PBN54-DH54-Us PBB183 0.22787383
PBN58-DH58-Us PBB187 0.227850441
PBN22-DH22-Us PBB187 0.227814089
PBN62-DH62-Us PBB178 0.227786527
PBN33-DH32-Us PBN13-DH13-Us 0.227748579
PBN62-DH62-Us PBB187 0.227508602
PBN62-DH62-Us PBB183-DH6-Us 0.227459558
PBN47-DH47-Us PBB187 0.227438174
PBN54-DH54-Us PBB180 0.227222565
PBN62-DH62-Us PBB198 0.227157294
PBN85-DH85-Us PBB187 0.227053931
Los resultados del análisis de estructura poblacional para las 120 líneas de
maíz obtenidos con STRUCTURE para un rango de K entre 1 y 5 establecen que
los individuos se agrupan en dos poblaciones al mostrar el valor más alto de Ln
(P) cuando el número más probable de agrupaciones es dos, además el gráfico
de ΔK presenta el pico más alto en el número dos, indicando de igual forma que
existen dos poblaciones (Fig. 8 y 9). Tanto los resultados del STRUCTURE como
la corrección de Evanno sugiere que las líneas analizadas están organizadas en
dos poblaciones (K = 2), un grupo conformado por líneas parentales y el otro
grupo conformado por cruzas y mestizos, separando las líneas más homocigotas
de las más heterocigotas (Fig. 10).
42
Figura 8. Estructura poblacional de 120 líneas de maíz estimada con 35,770 SNPs. Valores de Ln
(P) para un rango de K de 1 a 5.
Figura 9. Estructura poblacional de 120 líneas de maíz estimada con 35770 SNPs. Valores de ΔK
para un rango de K de 2 a 4.
43
Gru
po
1 (
cru
za
s y
me
stizo
s)
Gru
po
2 (
pa
ren
tale
s)
Fig
ura
10.
Estr
uctu
ra p
ob
lacio
na
l de 1
20 lín
eas d
e m
aíz
cuan
do K
= 2
. C
ada u
na
de las 1
20 lín
eas e
s r
epre
senta
da p
or
un
a b
arr
a
vert
ica
l, q
ue e
sta
part
icio
nada e
n 2
se
gm
ento
s c
olo
reados,
los n
om
bre
s d
e c
ad
a lín
ea
se e
ncuen
tran
en
el eje
X,
mie
ntr
as q
ue e
l
va
lor
de
asig
nació
n p
ara
ca
da g
rupo s
e e
ncue
ntr
a e
n e
l eje
Y.
44
7.2.1 Agrupamiento mediante MDS.
A partir de los tres archivos de entrada que se obtuvieron para el software
CurlyWhirly se muestran tres gráficos distintos, uno para las 61 líneas parentales,
otro de los 61 parentales con 40 cruzas simples, y el último con las 120 líneas.
Los resultados del análisis de escalamiento multidimensional para las líneas
parentales representadas en la figura 11 nos muestran que primeramente estas
se encuentran separadas según el color de la semilla, además se observa otro
tipo de agrupación, estando agrupadas en 3 grupos según la posición que estos
ocupan en el espacio 3D.
Figura 11. Gráfico de Escalamiento Multidimensional (MDS) de las líneas parentales de maíz
blanco y amarillo del Bajío y Noroeste de México. Los individuos pertenecientes a cada población
están ilustrados por puntos de color rojo, azul, verde y rosa representando a la Población blanca
del Noroeste (PBN), la Población Blanca del Bajío (PBB), la Población Amarilla del Noroeste
(PAN) y la Población Amarilla del Bajío (PAB) respectivamente.
45
Los individuos pertenecientes al primero de estos tres grupos se
encuentran en la Población Blanca del Noroeste, el segundo grupo corresponde a
la Población Blanca del Bajío y el tercer grupo a las Poblaciones Amarillas del
Bajío y el Noroeste, las cuales no muestran una agrupación definida por ubicación
geográfica al mezclarse los individuos de una población con otra.
En la figura 12 se muestra un gráfico en 3D con las líneas parentales y las
40 cruzas simples, los 101 genotipos se separan por el color de grano, las líneas
parentales blancas del Bajío se separan en un grupo, las líneas parentales
blancas del Noroeste en otro grupo y las líneas parentales tanto del Bajío como
del Noroeste permanecen formando un mismo grupo, en cuanto a las cruzas de
maíces blancos se agrupan hacia cada una de las poblaciones tanto del Bajío
como del Noroeste, mientras que las cruzas de maíces amarillos se encuentran
dispersas entre ambas poblaciones.
Figura 12. Gráfico de Escalamiento Multidimensional (MDS) de los 61 parentales y las 40 cruzas
simples. Los individuos pertenecientes a cada población están ilustrados por puntos de color rojo,
azul, verde, rosa representando a la Población Blanca del Noroeste (PBN), la Población Blanca del
Bajío (PBB), la Población Amarilla del Noroeste (PAN), la Población Amarilla del Bajío (PAB), y las
cruzas simples respectivamente.
46
En la figura 13 se muestra el total de las 120 líneas conteniendo a los 61
parentales, las 40 cruzas y los 19 mestizos, clasificando por población únicamente
a las líneas parentales; las líneas mestizas se encuentran ubicadas
espacialmente entre las líneas parentales separándose por el color del grano,
estando separados los maíces amarillos de los blancos, encontrándose los
maíces amarillos dispersos y los maíces blancos más cercanos a las poblaciones
del Bajío y del Noroeste. La mayoría de las cruzas de maíz y de mestizos se
ubicaron cerca de las líneas que se utilizaron como parentales durante la cruza.
Figura 13. Gráfico de Escalamiento Multidimensional (MDS) del panel completo de individuos. Los
individuos pertenecientes a cada población están ilustrados por puntos de color rojo, azul, verde,
rosa, representando a la Población Blanca del Noroeste (PBN), la Población Blanca del Bajío
(PBB), la Población Amarilla del Noroeste (PAN), la Población Amarilla del Bajío (PAB)
respectivamente, mientras que las cruzas y los mestizos por puntos de color amarillo y morado.
En todos los gráficos los maíces blancos se encuentran en la región
positiva del eje X, mientras que los maíces amarillos se encuentran en la región
negativa de este mismo eje, además se observa que la Población Blanca del
47
Noroeste se encuentra en la región positiva del eje Y, mientras que la Población
Blanca del Bajío se encuentra en la región negativa de este mismo eje; en cuanto
a las poblaciones amarillas, éstas se encuentran dispersas a lo largo de todo el
eje Z, ubicándose en la región negativa del eje X y la región positiva del eje Y.
7.2.2 Agrupamiento de las 120 líneas de maíz.
Los resultados del análisis de agrupamiento realizado mediante la
construcción del dendograma por el método UPGMA a partir de la distancia
genética de Rogers para los 120 individuos fueron consistentes con los
observados a partir de MDS (Fig. 14). Es posible distinguir claramente dos grupos
diferentes entre las 120 líneas de maíz, un grupo está conformado por las
poblaciones amarillas del Bajío y el Noroeste, las cuales se encuentran
mezclados teniendo varias subpoblaciones; el otro grupo muestra claramente dos
subpoblaciones separadas representando a las poblaciones blancas del Bajío y
Noroeste de México. Además de lo anterior mencionado, en el dendograma se
muestran cada uno de los individuos clasificados según el color del grano y la
población de origen, teniendo como tal a las cuatro poblaciones agrupadas en tres
grupos fijos, el primero representando a las poblaciones amarillas del Bajío y el
Noroeste, el segundo a la población blanca del Bajío y el tercero a la población
blanca del Noroeste. Dentro de este mismo se observa que las líneas de maíz
que pertenecen a la población amarilla del Bajío y la población amarilla del
Noroeste están más estrechamente relacionadas, en cambio la población blanca
del Bajío y la población blanca del Noroeste presentan una mayor diferencia entre
si estableciendo los dos grupos anteriormente mencionados.
En cuanto al dendograma realizado para las 61 líneas parentales se
muestra que estas se agrupan en las cuatro principales poblaciones, lográndose
distinguir claramente cada una de ellas según el color del grano y la región a la
que pertenecen, teniendo más definido que individuos pertenecen a las
poblaciones blancas del Bajío y del Noroeste y a las poblaciones amarillas del
Bajío y del Noroeste lo cual no es tan consistente con el análisis MDS para las
líneas parentales, que aunque se encuentra la separación según el color de la
semilla, las poblaciones amarillas se encuentran mezcladas entre sí (Fig. 15).
48
Figura 14. Dendograma construido por el método UPGMA de 120 líneas de maíz blanco y amarillo
del Noroeste y Bajío de México. Los individuos pertenecientes a cada población están ilustrados
por líneas de color azul, rojo, rosa y verde representando a las Poblaciones Blancas del Bajío y
Noroeste (PBB y PBN), y a las Poblaciones Amarillas del Bajío y el Noroeste (PAB y PAN)
respectivamente.
49
Figura 15. Dendograma construido por el método UPGMA de las 61 líneas parentales de maíz
blanco y amarillo del Noroeste y Bajío de México. Los individuos pertenecientes a cada población
están ilustrados por líneas de color azul, rojo, rosa y verde representando a las Poblaciones
Blancas del Bajío y Noroeste (PBB y PBN), y a las Poblaciones Amarillas del Bajío y el Noroeste
(PAB y PAN) respectivamente.
50
8 DISCUSIÓN
8.1 Objetivo 1. Determinar índices de diversidad genética para las
poblaciones y los individuos de maíz blanco y amarillo del Noroeste y
el Bajío.
El INIFAP ha iniciado un programa de mejoramiento genético de líneas de
maíz con alto contenido de aceite. En este momento el programa ya se encuentra
en el ciclo 14 de selección recurrente y a partir de estas líneas se generaron los
materiales dobles haploides con el que se está trabajando en esta investigación.
El programa de mejoramiento genético iniciado por INIFAP está evolucionando
con nuevas tecnologías para el fitomejoramiento y pretende incursionar en el
tema de selección asistida por marcadores moleculares para su programa de
mejoramiento genético. Esta investigación representa la primera fase de
evaluación de marcadores moleculares para el programa de mejoramiento
genético del INIFAP. Generar información acerca de los perfiles genómicos de
líneas parentales que se producen en el estado de Sinaloa por parte del INIFAP
es una tarea de gran importancia para el desarrollo de nuevas variedades que
puedan resultar en la producción de nuevos híbridos nacionales que puedan
competir con los híbridos comerciales en su rendimiento en grano pero con un
mayor contenido de aceite.
Actualmente existen muchas características de interés agronómico, como
el rendimiento de grano, u otras características de especialidad como el alto
contenido de aceite o el alto contenido de proteína, entre otras. Las líneas
utilizadas en este estudio fueron seleccionadas principalmente con base a estas
características para poder producir híbridos mejorados en dichos aspectos. Estás
líneas muestran rendimientos hasta de 14 ton/ha en cruzas, un contenido de
aceite mayor al 8%, y de proteína mayor al 11% en líneas parentales,
considerándose como maíces de especialidad. Estos tiene la oportunidad de
generar nuevos nichos de mercado, obteniendo productos derivados del maíz con
mayor calidad (Preciado-Ortiz et al., 2013; Vázquez-Carrillo et al., 2014 Ortega-
Corona et al., 2015).
Para poder caracterizar genéticamente el panel completo de las 120 líneas
de maíz del INIFAP se utilizaron marcadores moleculares de tipo SNP. Estos
51
presentan ventajas respecto a otros marcadores, debido a que los SNPs además
de estar presentes en todos los organismos vivientes, éstos se encuentran
dispersos a lo largo del genoma; proporcionan una gran cantidad de información
al permitirnos identificar una mayor cantidad de loci que presentan variación; son
flexibles para realizar diferentes análisis como de diversidad genética o
introgresión de genomas; permiten inspeccionar regiones génicas e intergenicas;
son marcadores co-dominantes lo cual nos permite estimar la heterocigosidad
presente en los individuos y además tienen una buena relación costo/efectividad
(Reif et al., 2003, Yadav et al., 2016).
El DNA fue secuenciado en multiplex con la tecnología de DArTSeq-GBS
mediante el uso de adaptadores de código de barras diferente para cada una de
las líneas. El uso de esta tecnología permite identificar SNPs en diferentes
regiones del genoma del maíz, a diferencia de utilizar SNPChip de Ilumina que se
limita a identificar SNPs previamente identificados en la variedad de maíz B73.
En este trabajo se identificaron un total de 35,770 SNPs en los 120
individuos. Sin embargo, después de un filtrado para el alelo menos frecuente
MAF < 0.05 permanecieron sólo 26,596 SNPs; siendo los marcadores que se
encontraron con mayor frecuencia, eliminando todos aquellos alelos raros que se
indentifacron con una frecuencia menor al 5%. Cada individuo presentó diferente
número de marcadores variando desde 25,238 SNPs para la línea parental
amarilla PAB218 hasta 34,829 SNPs para la línea mestiza PABxPAN146. El
hecho de que el número de SNPs identificados (35,770) sea mayor a los que
presentó la línea con mayor diversidad de SNPs (34,829), es debido a que
algunos individuos presentan diferentes SNPs en comparación a esta misma, los
941 SNPs identificados adicionales están presentes en cualquiera de los otros
119 individuos.
Los SNPs están ganando importancia en los estudios de diversidad
genética, al existir cada vez mas genomas secuenciados a partir de las nuevas
tecnologías de secuenciación masiva, y el lograr producir una mayor densidad de
marcadores, detectando una gran cantidad de loci variables utilizados para
realizar este tipo estudios. Las principales ventajas de estos marcadores son que
se producen en los genomas de las plantas a una frecuencia mucho mayor que
los SSRs, teniendo una densidad de 6 a 22 SNPs por 1 kb en la secuencia, y que
52
además pueden ser genotipados en sistemas de alto rendimiento con enfoques
multiplex como el del presente estudio. Los polimorfismos de SSR y SNP se
generan a través de diferentes mecanismos (deslizamiento de replicación para
SSR vs. mutación puntual para SNPs) y los dos tipos de marcador pueden
proporcionar vistas diferentes de la estructura de una población dada (Singh et al.,
2013; Xu et al., 2017).
El analizar una mayor densidad de marcadores moleculares permite
encontrar un mayor número de sitios que presentan variaciones dentro de los
genomas de los individuos a evaluar. Cada una de estas variaciones puede ser
específica para cada individuo o estar compartida con otros, este hecho indica
que aquellos individuos que presenten la mayor coincidencia de marcadores son
agrupados en base a este aspecto, que tiene que ver con la similitud que existe
entre cada una de las líneas de maíz. En estudios de diversidad genética y de
estructura poblacional es de suma importancia contar con marcadores
moleculares que nos permitan identificar los niveles de diversidad, así como la
distancia genética entre los individuos. Lo anterior permite determinar la utilidad
de los marcadores a utilizar, la pureza genética de las líneas de maíz que se
están evaluando, y la similitud o disimilitud que existe entre cada uno de los
genotipos. Además el utilizar una mayor densidad de marcadores permite
obterner de manera más confiable y representativa la diversidad genética,
estructura poblacional, GWAS, huellas genómicas, mapeos de QTLs y selección
genómica de las poblaciones analizadas. Idealmente el secuenciar genomas
completos puede ayudar a identificar todos los SNPs presentes a lo largo del
genoma; sin embargo los altos costos son considerados como una gran barrera,
el uso de alternativas de menor costo como la utilizada en el presente estudio
permiten identificar hasta 1 millon de SNPs con imputación, siendo una elección
prometedora al proveer de una estrategia de genotipado con buena relación
costo-efectividad (Glaubitz et al., 2014; Xu et al., 2017).
En el trabajo realizado por Chen et al (2016) se analizaron 561 líneas
endogámicas de maíz del CIMMYT (CMLs, CIMMYT maize inbred lines) de
maíces tropicales de tierras altas y bajas, y subtropicales de distintas partes del
mundo, encontrando 88,600 SNPs con la tecnología de DArTSeq-GBS utilizando
una combinación de dos enzimas de restricción (PstI y HpaII); despues de un
53
filtrado MAF < 0.05, datos perdidos > 40 % y heterogeneidad > 10%, se retuvo un
subconjunto de 18,082 SNPs, los cuales se utilizaron para calcular la diversidad
genética y estructura poblacional.
Wu et al (2016) analizaron un panel de 538 CMLs que corresponden a
líneas en regiones con clima tropical y subtropical, además de 6 líneas de clima
templado tratando de determinar la diversidad genética que existe en las líneas
del CIMMYT de alrededor del mundo. Ellos reportan 955,690 SNPs crudos con la
tecnología de GBS utilizando la enzima ApeKI, pero después de un filtrado MAF <
0.05 permaneció un subconjunto de 362,008 SNPs utilizados posteriormente para
el análisis de diversidad y estructura poblacional. La disminución del número de
marcadores posteriormente al filtrado de SNPs realizado con MAF < 0.05 se debe
principalmente a la gran cantidad de datos perdidos presentes en el conjunto de
SNPs identificados en este panel, por lo que el numero de marcadores con baja
representabilidad es demasiado alto, haciendolos poco frecuentes, siendo
eliminados durante este paso del filtrado. Para los índices de diversidad
encontraron valores de Ho, He y PIC de 0.01, 0.31 y 0.25, respectivamente. Los
valores de Ho fueron menores a los encontrados en nuestro trabajo. En
concordancia con nuestro estudio se presentó un valor de Ho menor a la He.
Sugerimos que esto se debe a que las líneas del CIMMYT tienen varios ciclos de
autofecundación (> 6) lo que hace que las líneas avancen en endogamia
haciéndolas cada vez más puras. Nuestros valores de PIC fueron mayores por lo
que se deduce que los marcadores reportados en la publicación mencionada son
menos informativos que los SNPs identificados en nuestro trabajo.
Mengesha et al., (2017) analizaron 128 líneas endogámicas pertenecientes
a un esquema de mejoramiento en África para producir híbridos resistentes a
sequía y a Striga hermonthica. En total se encontraron 143,415 SNPs con la
tecnología de GBS utilizando la enzima de restricción ApeKI, realizaron un filtrado
de MAF < 0.05. Después del filtrado de todos los SNPs, solo 3297 marcadores
permanecieron y fueron usados para realizar los posteriores análisis de diversidad
genética y estructura poblacional. Durante el proceso de la preparación de las
bibliotecas pueden ocurrir errores técnicos como la baja amplificación de ciertas
regiones que provoquen una baja cobertura de los genomas durante la
secuenciación, provocando que algunas regiones no se encuentren tan
54
representativas dentro del análisis de genotipado por secuenciación, al existir esta
baja cobertura las frecuencias alélicas de cada marcador disminuyen, y al estar
menos frecuentes estos se pierden durante el filtrado de MAF < 0.05, quedando
solo los SNPs mas representativos de la diversidad presente dentro las líneas de
maíz evaluadas. Los valores para los índices de diversidad genética reportados
fueron de Ho = 0.13, He = 0.40 y PIC ≥ 0.20. Estos valores de Ho son mayores
que los reportados en nuestro trabajo. Nuestras líneas son más puras
genéticamente al presentar una menor heterocigosidad en los alelos identificados.
Los valores de He son menores que los reportados en nuestro trabajo, por lo que
se considera que las líneas pertenecientes a este panel de líneas endogámicas
de maíz tienen una menor diversidad genética que nuestro panel de estudio.
El GBS ha mostrado ser una herramienta muy poderosa en estudios de
diversidad y estructura genética poblacional. Sin embargo, tiene la desventaja de
obtener una baja cobertura de secuenciación, lo que resulta en una tasa muy alta
de datos perdidos. Recientemente han surgido modificaciones a la técnica original
de GBS para tratar de mejorar su cobertura en el genoma objetivo. DArTSeq
presenta una ventaja en dicho tema, al utilizar dos enzimas de restricción (una de
corte raro y otra de corte frecuente) esto permite tener una mejor resolución y
cobertura del genoma. En nuestro set de datos el porcentaje de datos perdidos
alcanzó el 18.57, siendo menor que lo reportado en otros trabajos como el de Wu
et al. (2016) que presentan valores de hasta el 55%, incluso después de filtrar los
marcadores con MAF < 0.05. En otros trabajos como el de Chen et al. (2016) el
porcentaje de datos perdidos se encontró cerca del 18% al igual que lo
encontrado en este trabajo. La diferencia entre ambos trabajos es que en el
trabajo realizado por Wu et al. (2016) el genotipado se realizó con GBS
convencional encontrando una gran densidad de marcadores pero con un alto
contenido de datos perdidos y en el trabajo de Chen et al. (2016) que aunque
encontraron una menor cantidad de marcadores tipo SNPs, encontraron una
menor proporción de datos perdidos al utilizar DArTSeq-GBS. Los altos niveles de
datos perdidos en una base de datos pueden convertirse en un problema con los
posteriores análisis y en la interpretación erronea de los mismos, como el realizar
análisis de asociación genómica. Para disminuir los niveles de datos perdidos es
posible realizar la imputación de datos, aunque por lo general esto no es
55
necesario para los análisis de diversidad genética. La imputación consiste en usar
información de otros genotipos para llenar los datos perdidos.
En cuanto a los índices de diversidad genética, podemos observar valores
para Ho de 0.125 ± 0.092 para el panel completo de 120 individuos. Esta alta
variación en nuestro panel de diversidad, es debida a la presencia de cruzas
simples, las cuales tienen una mayor heterocigosidad, debido al cruzamiento de
los parentales, produciendo diferentes alelos en algunos de los loci. Por tal motivo
el análisis se realizó nuevamente, solo para las líneas parentales buscando
encontrar valores más cercanos a 0. Las líneas parentales DH son consideradas
como líneas puras u homocigotas. Sin embargo en nuestro análsis, las líneas
parentales no alcanzaron el 100% de homocigosidad. Lo anterior puede ser
explicado por la naturaleza de la técnica de GBS en la que ocurren errores
durante el proceso de llamado de SNPs o en el proceso de la secuenciación de
DNA. A pesar de que para la aplicación exitosa de tecnologías de secuenciación
HiSeq, la calidad de los datos de lectura es crucial. Al comparar las tasas de error
esperadas y observadas, los puntajes de calidad asignados por el software de
identificación de base son generalmente precisos. Nuestros datos de
secuenciación fueron filtrados mediante un estricto control de calidad con base en
los valores de calidad de Phred eliminando las partes de los fragmentos que
tuvieran baja calidad, no se observó una tasa de error significativamente mayor al
final de las lecturas después del filtrado de calidad, la cual es una regíon que
normalmente presenta valores bajos de calidad, traduciéndose como errores en la
determinación de las bases. Al comparar con secuencias de genomas de
referencia, en especial con el genoma de la variedad de maíz B73 que es una
línea templada con nuestras líneas que son tropicales, se puede encontrar una
acumulación regional de bases de baja calidad y posiciones únicas con tasas de
error notablemente elevadas debido a la diferenciación genética que existe entre
líneas templadas y líneas tropicales, los cuales son aspectos importantes a
considerar al analizar las variaciones de nucleótidos presentes en cada individuo
(Minoche et al., 2011).
La Heterocigosidad esperada (He) es un índice de diversidad genética y se
refiere al número de genotipos heterocigotos que debería haber en una población
si esta se encontrara en equilibrio. El término esperado se refiere a que en la
56
población debería haber ciertas proporciones de genotipos homocigotos
dominantes, homocigotos recesivos y heterocigotos de acuerdo a las
proporciones establecidas en las leyes de Mendel y el número de alelos
detectado. Estas proporciones se cumplen solamente en las poblaciones
naturales en las que existe entre otras cosas, reproducción aleatoria. Este
supuesto no se cumple en las poblaciones sujetas a mejoramiento genético donde
la reproducción es dirigida hacia la selección de ciertos caracteres de interés. En
nuestra población de estudio, las líneas parentales presentaron una Ho muy
cercana a cero lo cual es carácterístico de líneas endogámicas en las que se
llevan a cabo autofecundaciones y/o duplicación cromosómica durante el proceso
de obtención de líneas DH como es el caso del presente estudio. Las líneas
parentales de maíz aquí analizadas pertenecen a un esquema de selección para
mejoramiento genético, los cruzamientos no son realizados al azar, sino dirigidos
con propósitos específicos para el mejoramiento genético. Por ejemplo se busca
cruzar las líneas que muestren los mejores rasgos agronómicos para su selección
como el alto contenido de aceite o el alto rendimiento en grano.
El valor del PIC nos indica que tan informativo puede ser un marcador, la
informatividad para un marcador genético se define como la probabilidad de que
un descendiente de una pareja sea informativo, es decir, que se pueda deducir el
origen parental de cada uno de los alelos de ese locus. En este trabajo el valor de
PIC se mantuvo por encima de 0.483. Botstein et al. (1980) estableció rangos
para los valores de PIC con base en las frecuencias alélicas que se presentan en
cada locus como altamente informativos (PIC > 0.5), razonablemente informativos
(PIC < 0.5 pero > 0.25) y ligeramente informativos (PIC < 0.25). En base a esta
publicación, los marcadores estudiados en este trabajo son considerados como
razonablemente informativos.
La caracterización genética de las líneas de maíz contribuye
significativamente al desarrollo positivo del programa de mejoramiento ya que
permite seleccionar las líneas parentales que serán utilizadas por el INIFAP para
realizar la selección de genotipos para el mejoramiento genético, y generar cruzas
simples que puedan establecerse en la región Noroeste de México,
particularmente en Sinaloa. El uso de marcadores moleculares como una
estrategia de apoyo para desarrollar nuevas variedades de híbridos nacionales
57
proporciona una gran cantidad de información para los mejoradores. Cuando
éstos son razonablemente informativos pueden ayudar a seleccionar genotipos
con rasgos de importancia agronómica. Adicionalmente, permite utilizar otras
técnicas de mejoramiento como la Selección Asistida por Marcadores (MAS por
sus siglas en inglés) o Análisis de Asociación Genómica, para determinar que
marcadores están asociados significativamente con rasgos de importancia
económica, tales como alto rendimiento, elevado contenido de aceite y de
proteína en grano. Esta información es muy util para el mejorador, quien puede
utilizarla para seleccionar los genotipos que tengan los rasgos deseados para la
producción de cruzas por un menor costo y en un menor tiempo en comparación
con esquemas de mejoramiento convencional. Además le permite realizar
predicciones de las cruzas a realizar entre los genotipos más contrastantes
genéticamente, buscando producir semilla en un menor tiempo, a menor precio y
con mayor valor nutricional.
8.2 Objetivo 2. Obtener la estructura genética de las poblaciones de maíz
blanco y amarillo del Noroeste y Bajío de México.
Los resultados de STRUCTURE permitieron separar a las líneas por su
grado de heterocigosidad, separando a las líneas parentales de las cruzas y
mestizos. Aunque estas líneas parentales pertenecen a dos regiones de
adaptación ambiental contrastantes (el Bajío y el Noroeste de México), y con color
del grano distinto (blanco y amarillo), los resultados del Structure no mostraron
ninguna subagrupación ni por el ambiente de adaptación ni por su color de grano.
En el análisis de estructura poblacional de Wu et al. (2016) se definen
claramente tres poblaciones, separando a las 538 CMLs según su zona de
adaptación, teniendo como tal CMLs tropicales de tierras bajas, subtropicales de
tierras medias, y tropicales de tierras altas, con un valor de poblaciones más
probables igual a 3 (K = 3). A diferencia de este trabajo, no tenemos esa
separación de los individuos por su región de origen, posiblemente se deba a los
tipos de líneas analizados, en el trabajo anterior se utilizaron solamente líneas
endogámicas que son utilizadas como parentales, teniendo muy baja variabilidad
genetcia, en cambio en el panel de INIFAP las líneas utilizados son líneas
endogámicas utilizadas como parentales y además cruzas simples que surgen del
58
cruzamiento de estas líneas parentales de forma inter e intra poblacional, por lo
que el definir la pertenencia de los 120 individuos tiene una mayor dificultad, el
software STRUCTURE agrupa a los individuos que presenten las frecuencias
alélicas mas parecidas, por lo que la variabilidad genética existente en las cruzas
simples y mestizos propicia una diferenciación en estas frecuencias en contra de
las líneas parentales, mostrando estos dos principales grupos.
Mengesha et al. (2017) muestran en sus resultados del análisis de
Structure que las 128 líneas endogámicas del esquema de mejoramiento del
Instituto de Agricultura Tropical de África tienen un número más probable de
agrupaciones igual a 4 (K = 4). Los resultados del análisis de estructura de la
población en este estudio claramente separaron las líneas endogámicas en cuatro
grupos de acuerdo con sus antecedentes genéticos, estableciendo poblaciones
biparentales resistentes a S. hermonthica y tolerantes a la sequía.
El análisis de estructura poblacional al ser utilizado con líneas
endogámicas, puede ser utilizado para determinar la procedencia de cada línea,
ya sea por el lugar de adaptación geográfica en que se cultiva, o por el pedigrí
que cada una de las líneas presenta, o incluso si un individuo pertenece a una
mezcla de ambas poblaciones. La principal desventaja del STRUCTURE es su
tiempo de ejecución, llegando a durar hasta un mes utilizando el número de
repeticiones recomendado por el autor.
Se construyó un dendograma a partir de la matriz de distancia genética de
Rogers calculada para el total de 120 líneas de maíz y los 61 parentales. Este
dendograma separó a los 120 individuos en tres principales poblaciones, la
Población Blanca del Noroeste, la Población Blanca del Bajío, y en un mismo
grupo a las Poblaciones Amarillas del Bajío y del Noroeste. Esto se debe a que
existen individuos que son progenie de las líneas parentales, e incluso son cruzas
interpoblacionales (cruzas de individuos del Noroeste con el Bajío) lo cual dificulta
la asignación a alguna población. Cuando se analizó un dendograma creado a
partir de las 61 líneas parentales, excluyendo cruzas y mestizos, se marca una
clara diferenciación entre los individuos que pertenecen a cada una de las cuatro
poblaciones base. La presencia de diferente número de marcadores e incluso
marcadores específicos en cada individuo permite su separación en los diferentes
grupos, agrupando aquellos que comparten más marcadores entre sí.
59
En el trabajo de Wu et al. (2016) se calculó de igual forma una matriz de
distancia genética a partir de los 362,008 SNPs para las 538 CMLs y las 6 líneas
templadas como grupo externo. A partir de esta matriz de distancia genética se
construyó un dendograma, mostrando una separación de las CMLs por la zona de
adaptación geográfica de cada uno de los genotipos, se encontraron tres grupos
principales, maíces tropicales de tierras bajas, maíces subtropicales de tierras
medias, y los maíces tropicales de tierras altas. El grupo externo correspondiente
a los maíces de tierras templadas, se basó principlamente en líneas endogámicas
comerciales de Estados Unidos (B37, B73, B84, Mo17, C103, Oh43). Estas se
situaron cerca de las líneas tropicales de tierras altas, posiblemente al ser mayor
la altura sobre el nivel del mar, las temperaturas en esas localizaciones es baja al
igual que en las zonas templadas.
Mengesha et al. (2017) calcularon una matriz de distancia genética de 128
líneas endogámicas a partir de 3,297 SNPs. Sus resultados mostraron en el
análisis de Structure cuatro grupos principales. La separación de las líneas de
acuerdo a la distancia genética entre ellas, permitió definir cuatro grupos
heteróticos de líneas endogámicas biparentales resistentes a S. hermonthica y
tolerantes a sequía.
Chen et al. (2016) realizaron un análisis de MDS para 561 CMLs a partir de
18,082 SNPs identificados para este panel. El análisis permitió definir tres
principales agrupaciones según el ambiente de adaptación, logrando definir que
líneas pertenecen a maíces de clima tropical adaptadas a tierras bajas, maíces de
clima subtropical adaptadas a tierras medias, y maíces de clima tropical
adaptadas a tierras altas.
En el presente estudio, se realizó un análisis MDS a partir de los 35,770
SNPs identificados en los 120 individuos para poder visualizarlos en un plano de
3D para definir los grupos heteróticos presentes. El análisis de escalamiento
multidimensional o MDS se basa en las similitudes que tienen los objetos que se
están evaluando para establecer un sistema de coordenadas en 3D, posicionando
más cerca a aquellos individuos que presentaron un mayor número de
marcadores similares entre sí. Los resultados muestran que al analizar sólo a las
líneas parentales, estas se agruparon en tres poblaciones, la primera integrada
por maíces blancos del Bajio, la segunda por maíces blancos del noroeste y la
60
tercera agrupando a los maíces amarillos del Bajío y del Noroeste. Al analizar las
61 líneas parentales junto con las 40 cruzas progenie de estos mismos
parentales, las líneas parentales se agruparon de forma similar, mientras que las
cruzas se posicionaron cerca de las líneas parentales que las conforman. Al
analizar el panel completo de 120 individuos conteniendo líneas parentales,
cruzas y mestizos; las líneas parentales se agruparon de forma similar a los otros
dos análisis, mientras que los mestizos al igual que las cruzas se posicionaron
cerca de al menos uno de los parentales que conforman la cruza.
El uso de marcadores moleculares de tipo SNP permite definir grupos
heteróticos entre las líneas caracterizadas genéticamente. El establecer estos
grupos heteróticos ayuda a seleccionar a los individuos que presentan
características diferentes entre cada grupo y poder realizar cruzas biparentales
esperando características deseables de cada parental en el híbrido. Además de
los análisis de estructura, el uso de la matriz de distancia genética permite
seleccionar a aquellos genotipos más contrastantes de acuerdo a su composición
genética. Por tal motivo se seleccionaron aquellos genotipos que presentaron la
mayor distancia genética entre sí, para la realización de las predicciones de
cruzas simples, buscando que la cruza de estos genotipos produzca un valor
mayor de la heterosis en rendimiento de grano. En el trabajo realizado por Pavlov
et al. (2016) reportan que existe una correlación positiva (r = 0.57) entre la
distancia genética y la heterosis con respecto de los parentales para el
rendimiento de grano. Aunque la correlación no es muy alta, la tendencia indica
que a mayor distancia genética, la heterosis tiende a incrementar. Además de la
distancia genética existente entre los genotipos se buscó que estos pertenecieran
a grupos heteróticos distintos, realizando la predicción para cruzas simples
interpoblacionales, es decir cruzar maíces del Bajío con maíces del Noroeste de
México.
Tanto en el dendograma como en el grafico 3D se muestran claramente 3
principales agrupamientos, la población blanca del Noroeste, la población blanca
del Bajío, y las poblaciones amarillas del Noroeste y el Bajío. Tanto la población
blanca del Noroeste como la del Bajío presentaron un mayor número de
marcadores en comparación con las poblaciones amarillas del Noroeste y Bajío
de México, lo que indica que existe una diferencia de marcadores que puede
61
ayudar a diferenciar mejor dichas poblaciones. Si tomamos en cuenta el número
de marcadores que pertenecen a cada individuo dentro de las predicciones de
cruzas, tenemos que la posible cruza simple de maíz amarillo entre los individuos
PAN146-DH14-Us y PAB226 comparten el 68.1 % de los marcadores mientras
que cada uno de ellos presentan el 20.2 % y el 11.7% de marcadores únicos para
cada línea respectivamente. Estas diferencias en la presencia de marcadores en
cada línea hace que la asignación según los loci que presenten cada uno de ellos
los haga más similares o más contrastantes genéticamente, lo cual permite
separarlos en los diferentes grupos.
El uso de marcadores moleculares para la caracterización genética de
líneas de maíz pertenecientes al INIFAP ha permitido determinar la pureza
genética de cada una de las líneas, así como la diversidad genética que existe
entre ellas y el nivel de informatividad que existe en estos mismos. Estos
marcadores fueron de utilidad para determinar la estructura poblacional presente
en este estudio, determinando grupos heteróticos para las poblaciones de maíces
blancos y amarillos del Noroeste y Bajío de México, permitiendo además
establecer un sistema de predicción de cruzas en base a la distancia genética que
existe entre cada genotipo y la pertenencia a alguna de las poblaciones,
buscando la cruza entre los genotipos más contrastantes genéticamente,
esperando que la heterosis para el rendimiento en grano aumente. La
identificación de estos marcadores moleculares más la medición de valores
fenotípicos de importancia agronómica, serán de utilidad para realizar
posteriores análisis de asociación genómica entre el genotipo y los rasgos
deseables para estas líneas de selección como el alto contenido de aceite, mayor
contenido de proteína y mayores rendimientos en producción de grano. Identificar
marcadores que están significativamente asociados a alguna de estas
características es de suma importancia ya que permitirá aprovechar la tecnología
de mejoramiento conocida como selección asistida por marcadores, la cual
permite seleccionar rasgos de interés agronómico que estén asociados a estas
variaciones puntuales dentro del genoma.
En este caso los marcadores moleculares identificados por el CIMMYT por
medio de la tecnología de genotipado por DArTSeq-GBS, permitieron solamente
determinar la diversidad genética y la estructura poblacional de los individuos
62
pertenecientes a cada población, debido a que en la identificación de SNPs no se
proporciona la posición física de cada marcador al compararlo con un genoma de
referencia, durante este trabajo se realizo una identificación de SNPs para su
posterior imputación (rellenado de datos faltantes) y análisis de asociación
genómica en trabajos futuros.
63
9 CONCLUSIONES
Se identificaron 35,770 SNPs en los 120 individuos, que fueron utilizados para
la determinación de los índices de diversidad genética existentes en las cuatro
poblaciones de maíz.
Las cuatro poblaciones analizadas presentaron altos índices de diversidad
genética.
La distancia genética entre los individuos permitió seleccionar genotipos
contrastantes para la predicción de cruzas con mayor potencial de rendimiento
en grano.
El análisis de estructura poblacional permitió identificar a las líneas
primeramente por el color de grano y después por su origen, teniendo dos
poblaciones de maíces blancos y una población mezclada de maíces amarillos
de ambas regiones.
El análisis de agrupamiento sólo separó a las líneas parentales de cruzas y
mestizos.
El uso de marcadores moleculares para la caracterización genética de las
líneas parentales del INIFAP permite establecer diferentes grupos heteróticos
definidos por la región de origen y el color de la semilla.
Estos resultados permitirán a los mejoradores del INIFAP establecer un
esquema de mejoramiento asistido por marcadores moleculares eficiente para
la producción de hibridos mejorados para el estado de Sinaloa.
64
10 BIBLIOGRAFÍA
Acosta, R. 2009. El cultivo del maíz, su origen y clasificación. El maíz en
Cuba. Cultivos tropicales, vol. 30, no. 2, p. 113-120.
Allendorf, F. W., & Luikart, G. 2009. Conservation and the genetics of
populations. John Wiley & Sons.
Azofeifa-Delgado, Á. 2006. Uso de marcadores moleculares en plantas;
aplicaciones en frutales del trópico. Agronomía mesoamericana, 172:221-
242.
Batley, J. 2015. Plant genotyping: Methods and protocols. 2015th Ed.. New
York, NY: Springer New York.
Botstein, D., White, R. L., Skolnick, M., & Davis, R. W. 1980. Construction
of a genetic linkage map in man using restriction fragment length
polymorphisms. American Journal of Human Genetics, 323:314–331.
Chang, M. T., & Coe Jr, E. H. 2009. Double haploids. In Molecular Genetic
Approaches to Maize Improvement pp. 127-142. Springer Berlin
Heidelberg.
Chen, J., Zavala, C., Ortega, N., Petroli, C., Franco, J., Burgueño, J., &
Hearne, S. J. 2016. The Development of Quality Control Genotyping
Approaches: A Case Study Using Elite Maize Lines. PloS one, 116,
e0157236.
Chiu, C., & Miller, S. 2016. Next-generation sequencing. Molecular
microbiology: diagnostic principles and practice, 3rd ed. ASM Press,
Washington, DC.
Crossa, J., Beyene, Y., Kassa, S., Perez, P., Hickey, J. M., Chen, C., de
Los Campos, G., Burgueño, J., Windhausen, V. S., Buckler, E. S., Jannink,
J., Lopez-Cruz, M. A. & Babu, R. 2013. Genomic prediction in maize
breeding populations with genotyping-by-sequencing. G3 3:1903–1926
65
Dillman, C., Bar-Hen, A., Guerin, D., Charcosset, A. & Murigneux, A. 1997.
Comparison of RFLP and morphological distances between maize Zea
mays L. inbred lines. Consequences for germplasm protection purposes.
Theoretical and Applied Genetics. 95:92–102.
Domínguez-Mercado, C.A. 2012. Red de valor para maíz con alta calidad
de proteína. Institución de enseñanza e investigación en ciencias Agrícolas.
Tesis de Maestría en Ciencias.
Dudley, J. W. 2007. From means to QTL: The Illinois long-term selection
experiment as a case study in quantitative genetics. Crop Science 47:522-
531.
Earl, D. A., & VonHoldt, B. M. 2012. STRUCTURE HARVESTER: a website
and program for visualizing STRUCTURE output and implementing the
Evanno method. Conservation genetics resources, 42:359-361.
Espinoza, F., Argenti, P., Urdaneta, G., Araque, C., Fuentes, A., Palma, J.,
& Bello, C. 2004. Uso del forraje de maíz Zea mays hidropónico en la
alimentación de toretes mestizos. Zootecnia Trop, 224:303-315. Elshire, R. J., Glaubitz, J. C., Sun, Q., Poland, J. A., Kawamoto, K.,
Buckler, E. S., & Mitchell, S. E. 2011. A robust, simple genotyping-by-
sequencing GBS approach for high diversity species. PloS one, 65,
e19379.
Evanno, G., Regnaut, S., & Goudet, J. 2005. Detecting the number of
clusters of individuals using the software STRUCTURE: a simulation
study. Molecular ecology, 14(8):2611-2620.
Falush, D., Stephens, M., & Pritchard, J. K. 2003. Inference of population
structure using multilocus genotype data: linked loci and correlated allele
frequencies. Genetics, 1644:1567-1587.
FAOSTAT. 2017. Base de datos estadísticos de la FAO. Disponible en:
http://faostat.fao.org/ consultado en abril de 2017.
FIRA. 2011. Resumen de costos para producir maíz de riego en el ciclo OI
2011-12, en el municipio de Guasave Sinaloa. Disponible en:
http://www.fira.gob.mx/Nd/SINALOA_MAIZ_PV_2012_P.pdf/ consultado en
enero de 2016.
66
Food and Agriculture Organization of the United Nations, FAO. &
International Maize and Wheat Improvement Center, CIMMYT. 1997. El
maíz blanco: un grano alimentario tradicional en los países en desarrollo.
Digitizer.Fao.
Forster, B. P., & Thomas, W. T. 2005. Double haploids in genetics and
plant breeding. Plant Breeding Rev, 25:57-88.
Fundación Produce Sinaloa 2008. Memoria II Jornada de transferencia de
tecnología de cultivo de maíz. Fundación Produce Sinaloa.
Garcion, C., & Métraux, J. P. 2006. FiRe and microarrays: a fast answer to
burning questions. Trends in plant science, 117, 320-322.
Geiger, H. H. & Gordillo, G. A. 2009. Double haploids in hybrid maize
breeding. Maydica 54:485-499.
Glaubitz, J. C., Casstevens, T. M., Lu, F., Harriman, J., Elshire, R. J., Sun,
Q., Buckler, E. S. 2014. TASSEL-GBS: a high capacity genotyping by
sequencing analysis pipeline. PLoS One 9:e90346
González-Estrada, A.; Gutiérrez, I., J; Espinoza, C., A.; Vázquez, C., A.; &
Wood, S.. 2007. Impacto económico del maíz en México: Híbrido H-50.
INIFAP-SAGARPA. Publicación técnica No. 24. 83 p. México, D.F.
Guillen, C. P., De la Cruz, L. E., Castañón, N. G., Osorio, O. R., Brito, M. N.
P., Lozano, R. A., & López, N. U. 2009. Aptitud combinatoria general y
específica de germoplasma tropical de maíz. Tropical and Subtropical
Agroecosystems, 101:101-107.
Hayward, M. D., & Breese, E. L. 1993. Population structure and variability.
In Plant Breeding pp. 16-29. Springer Netherlands.
He, J., Zhao, X., Laroche, A., Lu, Z. X., Liu, H., & Li, Z. 2014. Genotyping-
by-sequencing GBS, an ultimate marker-assisted selection MAS tool to
accelerate plant breeding. Frontiers in plant science, 5.
Huang, X., & Han, B. 2014. Natural variations and genome-wide
association studies in crop plants. Annual review of plant biology, 65:531-
551.
Hirsch, C., Hirsch, C. D., Brohammer, A. B., Bowman, M. J., Soifer, I.,
Barad, O., & Fields, C. J. 2016. Draft Assembly of Elite Inbred Line PH207
67
Provides Insights into Genomic and Transcriptome Diversity in Maize. The
Plant Cell, tpc-00353. Hubisz, M. J., Falush, D., Stephens, M. & Pritchard, J. K. 2009. Inferring
weak population structure with the assistance of sample group information.
Molecular Ecology Resourses 9:1322–1332.
Illumina Inc. 2016. An introduction to Next-Generation Sequencing
technology. Disponible en: http://www.illumina.com/content/dam/illumina-
marketing/documents/products/illumina_sequencing_introduction.pdf
consultado en octubre de 2016.
Jarquín, D., Kocak, K., Posadas, L., Hyma, K., Jedlicka, J., Graef, G., &
Lorenz, A. 2014. Genotyping by sequencing for genomic prediction in a
soybean breeding population. BMC genomics, 151:740.
Karn, A., Gillman, J. D., & Flint-Garcia, S. A. 2017. Genetic analysis of
teosinte alleles for kernel composition traits in maize. G3: Genes,
Genomes, Genetics, 74:1157-1164.
Kato, T. A., Mapes, C., Mera, L. M., Serratos, J. A., & Bye, R. A. 2009.
Origen y diversificación del maíz: una revisión analítica. Universidad
Nacional Autónoma de México, Comisión Nacional para el Conocimiento y
Uso de la Biodiversidad. México, DF, 116.
Kilian, A., Wenzl, P., Huttner, E., Carling, J., Xia, L., Blois, H., ... &
Aschenbrenner-Kilian, M. 2012. Diversity arrays technology: a generic
genome profiling technology on open platforms. Data Production and
Analysis in Population Genomics: Methods and Protocols, 888:67-89.
Kozik, E. U., Nowakowska, M., Staniaszek, M., Dyki, B., Stepowska, A., &
Nowicki, M. 2013. More than meets the eye: A multi-year expressivity
analyses of tomato sterility in ps and ps-2 lines. Australian Journal of Crop
Science, 713:2154.
Kumar, S., Tamura, K., & Nei, M. 1994. Mega. Bioinformatics, 102:189-191. Lee, H., Gurtowski, J., Yoo, S., Nattestad, M., Marcus, S., Goodwin, S. &
Schatz, M. 2016. Third-generation sequencing and the future of
genomics. bioRxiv, 048603.
68
Li, H., Peng, Z., Yang, X., Wang, W., Fu, J., Wang, J. & Liu, J. 2013.
Genome-wide association study dissects the genetic architecture of oil
biosynthesis in maize kernels. Nature Genetics, 451:43-50.
Li, H., Vikram, P., Singh, R. P., Kilian, A., Carling, J., Song, J. & Sehgal, D.
2015. A high density GBS map of bread wheat and its application for
dissecting complex disease resistance traits. BMC genomics, 161:216.
Liu, J. 2002. POWERMARKER–A powerful software for marker data
analysis. Raleigh, NC: North Carolina State University, Bioinformatics
Research Center http://www. powermarker.net.
Liu, L., Li, Y., Li, S., Hu, N., He, Y., Pong, R. & Law, M. 2012. Comparison
of next-generation sequencing systems. BioMed Research
International, Vol 2012:1-11. Liu, N., Xue, Y., Guo, Z., Li, W., & Tang, J. 2016. Genome-Wide
Association Study Identifies Candidate Genes for Starch Content
Regulation in Maize Kernels. Frontiers in Plant Science, 7.
López-Pereira, M. A. 1992. The economics of quality protein maize as an
animal feed. Case studies of Brazil and El Salvador. CIMMYT Economics
Working Paper 92-06. Mexico, DF.
Lorenz, A. J., Chao, S., Asoro, F. G., Heffner, E. L., Hayashi, T., Iwata, H. &
Jannink, J. L. 2011. 2 Genomic Selection in Plant Breeding: Knowledge and
Prospects. Advances in agronomy, 110:77.
Lu Y., Yan J., Guimaraes C. T., Taba S., Hao Z., Gao S., Chen S., Li J.,
Zhang S., Vivek B. S., Magorokosho C., Mugo S., Makumbi D., Parentoni
S. N., Shah T., Rong T., Crouch J. H. & Xu Y. 2009. Molecular
characterization of global maize breeding germplasm based on genome-
wide single nucleotide polymorphisms. Theor Appl Genet 120:93–115.
Mardis, E. R. 2008. Next-generation sequencing platforms. Annual review
of analytical chemistry, 6:287-303.
Mengesha, W. A., Menkir, A., Unakchukwu, N., Meseka, S., Farinola, A.,
Girma, G., & Gedil, M. 2017. Genetic diversity of tropical maize inbred lines
combining resistance to Striga hermonthica with drought tolerance using
SNP markers. Plant Breeding, 1363:338-343.
69
Milne, I. 2014. Graphical applications for visualization and analysis of
genotype data sets. In Plant and Animal Genome XXII Conference. Plant
and Animal Genome. Minoche, A., Dohm, J., Himmelbauer H. 2011. Evaluation of genomic
highthroughput sequencing data generated on Illumina HiSeq and Genome
Analyzer systems. Genome Biology 12:R112. Miracle, M. P. 1966. Maize in tropical Africa. Madison, WI, USA, The
University of Wisconsin Press.
Morozova, O., & Marra, M. A. 2008. Applications of next-generation
sequencing technologies in functional genomics. Genomics, 925:255-264.
Oliva, R., & Vidal, J. 2006. Genoma Humano Nuevos avances en
investigación, diagnóstico y tratamiento. Volumen, 2:215.
Olmos, S. E., Delucchi, C., Ravera, M., Negri, M. E., Mandolino, C., &
Eyhérabide, G. H. 2014. Genetic relatedness and population structure
within the public argentinean collection of maize inbred
lines. Maydica, 591:16-31.
Organisation for Economic Cooperation and Development. 2003.
Consensus Document on the Biology of Zea mays subsp. mays Maize.
OECD Environment, Health and Safety, Publications Series on
Harmonisation of Regulatory Oversight in Biotechnology, 27:11-27. Paris,
Francia.
Ortega-Corona, A., R. E. Preciado, O., A. D. Terrón, I., A. S. Cruz, M., H.
Vallejo, D., S. García, L., O. Cota, A., M. J. Guerrero, H. y S. O. Serma, Z.
2012. Selección recurrente para incrementar el contenido de aceite en
cuatro poblaciones de maíz. Memoria de Resúmenes del XXIV Congreso
Nacional y IV Internacional de Fitogenética. Sociedad Mexicana de
Fitogenética, A. C. y Universidad Autónoma de Nuevo León. Monterrey,
Nuevo León, México. 24 a 28 de septiembre de 2012. p. 66.
Ortega-Corona, A. 2015. Selection response for oil content and agronomic
performance in four subtropical maize populations. Maydica, 603, 1-8.
Pacheco, A., Alvarado, G., Rodríguez, F., Crossa, J. & Burgueño, J. 2016.
BIO-R Biodiversity Analysis whith R for Windows. Version 1.0, International
Maize and Wheat Improvement Center.
70
Pailles, Y., Ho, S., Pires, I. S., Tester, M., Negrão, S. & Schmöckel, S. M.
2017. Genetic Diversity and Population Structure of Two Tomato Species
from the Galapagos Islands. Frontiers in Plant Science. 2017;8:138.
doi:10.3389/fpls.2017.00138.
Palacios, V. O., Ortega-Corona, A., Guerrero, H., M.J. & Hernández, C.,
J.M. 2008. Proyecto FZ002. Conocimiento de la diversidad y distribución
actual del maíz nativo y sus parientes silvestres en México. Componente 1.
Maíces nativos de los estados del norte de México. Informe final de
actividades 2007-2008 en el estado de Sinaloa. CONABIO. INIFAP.
Documento sin publicar. Culiacán, Sinaloa, México. 81 p.
Paliwal, R. L., Granados, G., Lafitte, H. R., Violic, A. D., & Marathée, J. P.
2001. El maíz en los trópicos: Mejoramiento y producción No. 28. Food &
Agriculture Org.
Pavlov, J., Delić, N., Živanović, T., Ristić, D., Čamdžija, Z., Stevanović, M.,
& Tolimir, M. 2016. Relationship between genetic distance, specific
combining abilities and heterosis in maize Zea mays L.. Genetika, 481: 165-
172.
Perales, H., & Golicher, D. 2014. Mapping the Diversity of Maize Races in
Mexico. PloS one, 912:114
Piñero, D., Caballero-Mellado, J., & Cabrera-Toledo, D. 2008. La diversidad
genética como instrumento para la conservación y el aprovechamiento de
la biodiversidad: estudios en especies mexicanas. Capital natural de
México, 1:437-494.
Poland, J. A., & Rife, T. W. 2012. Genotyping-by-sequencing for plant
breeding and genetics. The Plant Genome, 53:92-102.
Poland, J., Endelman, J., Dawson, J., Rutkoski, J., Wu, S., Manes, Y., &
Jannink, J. L. 2012. Genomic selection in wheat breeding using genotyping-
by-sequencing. The Plant Genome, 53:103-113. .
Prasanna, B. M., Chaikam, V., & Mahuku, G. 2013. Tecnología de dobles
haploides en el mejoramiento de maíz: teoría y práctica. CIMMYT.
Preciado-Ortiz, R. E., García-Lara, S., Ortiz-Islas, S., Ortega-Corona, A., &
Serna-Saldivar, S. O. 2013. Response of recurrent selection on yield,
71
kernel oil content and fatty acid composition of subtropical maize
populations. Field Crops Research, 142:27–35.
Prigge, V., & Melchinger, A. E. 2012. Production of haploids and doubled
haploids in maize. In Plant cell culture protocols pp. 161-172. Humana
Press.
Pritchard, J. K., Stephens, M., & Donnelly, P. 2000. Inference of population
structure using multilocus genotype data. Genetics, 1552:945-959.
Reif, J. C., Melchinger, A. E., Xia, X. C., Warburton, M. L., Hoisington, D.
A., Vasal, S. K., Beck, D., Bohn, M. & Frisch, M. 2003. Use of SSRs for
establishing heterotic groups in subtropical maize. Theoretical and Applied
Genetics 107:947–957
Rocandio-Rodríguez, M., Santacruz-Varela, A., Córdova-Téllez, L., Lopez-
Sanchez, H., Castillo-González, F., Lobato-Ortiz, R., & García-Zavala, J. J.
2014. Detection of genetic diversity of seven maize races from the high
central valleys of Mexico using microsatellites. Maydica, 592014:144-151.
Rogers, J. S. 1972. Measures of genetic similarity and genetic distance. In:
Studies genetics VII, no. 7213. University of Texas Publication, Austin. Romay, M. C., Millard, M. J., Glaubitz, J. C., Peiffer, J. A., Swarts, K. L.,
Casstevens, T. M. & McMullen, M. D. 2013. Comprehensive genotyping of
the USA national maize inbred seed bank. Genome biology, 146, R55. Sánchez-Ortega, I. 2014. Maíz I Zea mays. Departamento Biología Vegetal
I Fisiología Vegetal. Facultad de Biología, Universidad Complutense.
Madrid. Reduca Biología. Serie Botánica. 7 2: 151-171.
Sansaloni, C., Petroli, C., Jaccoud, D., Carling, J., Detering, F.,
Grattapaglia, D., & Kilian, A. 2011. Diversity Arrays Technology DArT and
next-generation sequencing combined: genome-wide, high throughput,
highly informative genotyping for molecular breeding of Eucalyptus. In BMC
Proceedings Vol. 5, No. 7, p. P54. BioMed Central.
Schnable, P. S., Ware, D., Fulton, R. S., Stein, J. C., Wei, F., Pasternak,
S.... & Minx, P. 2009. The B73 maize genome: complexity, diversity, and
dynamics. Science, 3265956:1112-1115.
Semagn, K., Magorokosho, C., Vivek, B. S., Makumbi, D., Beyene, Y.,
Mugo, S., & Warburton, M. L. 2012. Molecular characterization of diverse
72
CIMMYT maize inbred lines from eastern and southern Africa using single
nucleotide polymorphic markers. BMC genomics, 131:113.
SIAP. 2016. Producción Agropecuaria. Servicio de Información
Agroalimentaria y Pesquera, México.
Singh, N., Choudhury, D. R., Singh, A. K., Kumar, S., Srinivasan, K., Tyagi,
R. K., ... & Singh, R. 2013. Comparison of SSR and SNP markers in
estimation of genetic diversity and population structure of Indian rice
varieties. PLoS One, 8(12), e84136. Singh, B. D., y Singh, A. K. 2015. High-Throughput SNP Genotyping.
In Marker-Assisted Plant Breeding: Principles and Practices pp. 367-400.
Springer India.
Sonah, H., O'Donoughue, L., Cober, E., Rajcan, I., & Belzile, F. 2015.
Identification of loci governing eight agronomic traits using a GBS‐GWAS
approach and validation by QTL mapping in soya bean. Plant biotechnology
journal, 132:211-221.
Sosa, P. A., González-Pérez, M. A., Moreno, C., & Clarke, J. B. 2010.
Conservation genetics of the endangered endemic Sambucus palmensis
Link Sambucaceae from the Canary Islands. Conservation
Genetics, 116:2357-2368.
Stewart Jr, C. N., y Via, L. E. 1993. A rapid CTAB DNA isolation technique
useful for RAPD fingerprinting and other PCR applications. Biotechniques,
145:748-750.
Tian, H. L., Wang, F. G., Zhao, J. R., Yi, H. M., Wang, L., Wang, R., ... &
Song, W. 2015. Development of maizeSNP3072, a high-throughput
compatible SNP array, for DNA fingerprinting identification of Chinese
maize varieties. Molecular Breeding, 356:136.
Vázquez-Carrillo, M. G., Santiago-Ramos, D., Gaytán-Martínez, M.,
Morales-Sánchez, E., & de Jesús Guerrero-Herrera, M. 2015. High oil
content maize: Physical, thermal and rheological properties of grain, masa,
and tortillas. LWT-Food Science and Technology, 601:156-161.
Vielle-Calzada, J. P., de la Vega, O. M., Hernández-Guzmán, G., Ibarra-
Laclette, E., Alvarez-Mejía, C., Vega-Arreguín, J. C., ... & Herrera-Estrella,
73
A. 2009. The Palomero genome suggests metal effects on domestication.
Science, 3265956:1078-1078.
Wang, M., Yan, J., Zhao, J., Song, W., Zhang, X., Xiao, Y., & Zheng, Y.
2012. Genome-wide association study GWAS of resistance to head smut in
maize. Plant science, 196:125-131.
Warburton, M. L., Xia X. C., Crossa, J., Franco J., Melchinger, A. E., Frisch,
M., Bohn, M., Hoisington, D. A. 2002. Genetic characterization of CIMMYT
maize inbred lines and open pollinated populations using large scale
fingerprinting methods. Crop Science 42:1832–1840.
Warham, E. J. 1998. Ensayos para la semilla de maíz y de trigo: Manual de
laboratorio. Cimmyt.
Watson, S.A. 1988. Corn marketing, processing, and utilization. In G.F.
Sprague & J.W. Dudley, eds. Corn and corn improvement, p. 882-940.
Madison, WI, USA, American Society of Agronomy.
Weng, J., Xie, C., Hao, Z., Wang, J. & Liu, C. 2011. Genome-Wide
Association Study Identifies Candidate Genes That Affect Plant Height in
Chinese Elite Maize Zea mays L. Inbred Lines. PLoS ONE 612: e29229.
Wu, Y., San Vicente, F., Huang, K., Dhliwayo, T., Costich, D. E., Semagn,
K., ... & Babu, R. 2016. Molecular characterization of CIMMYT maize inbred
lines with genotyping-by-sequencing SNPs. Theoretical and Applied
Genetics, 1-13.
Xia, X. C., Reif, J. C., Hoisington, D. A., Melchinger, A. E., Frisch, M. &
Warburton, M. L. 2004. Genetic diversity among CIMMYT maize inbred
lines investigated with SSR markers: I. Lowland tropical maize. Crop
Science 44:2230–2237
Xia, X. C., Reif, J. C., Melchinger, A. E., Frisch, M., Hoisington, D. A., Beck,
D., Pixley, K, Warburton, M. L. 2005. Genetic diversity among CIMMYT
maize inbred lines investigated with SSR markers: II. Subtropical, tropical
midaltitude, and highland maize inbred lines and their relationships with
elite US and European maize. Crop Science 45:2573–2582
Xu, Y., & Crouch, J. H. 2008. Marker-assisted selection in plant breeding:
from publications to practice. Crop Science, 482:391-407.
74
Xu, C., Ren, Y., Jian, Y., Guo, Z., Zhang, Y., Xie, C., Fu, J., Wang, H.,
Wang, G. & Xu, Y., l. 2017. Development of a maize 55 K SNP array with
improved genome coverage for molecular breeding. Molecular Breeding.
37:20.
Yadav, P., Vaidya, E., Rani, R., Yadav, N. K., Singh, B. K., Rai, P. K., &
Singh, D. 2016. Recent Perspective of Next Generation Sequencing:
Applications in Molecular Plant Biology and Crop
Improvement. Proceedings of the National Academy of Sciences, India
Section B: Biological Sciences, 1-15.
Zamora-Hernández, T., Prado-Fuentes, A., Capataz-Tafur, J., Barrera-
Figueroa, B. E., & Peña-Castro, J. M. 2014. Demostraciones prácticas de
los retos y oportunidades de la producción de bioetanol de primera y
segunda generación a partir de cultivos tropicales. Educación
química, 252:122-127.
Zhang, J., Chiodini, R., Badr, A., & Zhang, G. 2011. The impact of next-
generation sequencing on genomics. Journal of genetics and
genomics, 383:95-109.
Zhang, X., Pérez-Rodríguez, P., Semagn, K., Beyene, Y., Babu, R., López-
Cruz, M. A., San Vicente, F., Olsen, M., Buckler, E., Jannink, J. L.,
Prasanna, B. M. & Crossa J. 2015. Genomic prediction in biparental tropical
maize populations in water-stressed and well-watered environments using
low-density and GBS SNPs. Heredity 114:291–299.
75
ANEXOS
ANEXO A. Predicción de cruzas simples de maíz blanco y amarillo.
Cuadro 11. Total de predicciones para cruzas simples de maíz amarillo.
Parental A Parental B Distancia Genética
PAN146-DH14-Us PAB226 0.230667552
PAN144-DH12-Us PAN133 0.230262825
PAN146-DH14-Us PAB223 0.229438296
PAN146-DH14-Us PAB218 0.228721721
PAN146-DH14-Us PAN133 0.227943555
PAN144-DH12-Us PAB236 0.227652527
PAN144-DH12-Us PAB226 0.225996763
PAN144-DH12-Us PAB223 0.225975751
PAN141-DH9-Us PAB226 0.225943622
PAN136 PAN133 0.225887527
PAN146-DH14-Us PAB236 0.225629912
PAN155A PAN133 0.225384895
PAN144-DH12-Us PAB218 0.225379894
PAN139 PAN133 0.225325965
PAN144-DH12-Us PAB209-DH6-Us 0.225140586
PAB235 PAB223 0.224664329
PAN136 PAB226 0.224570885
PAN146-DH14-Us PAB209-DH6-Us 0.22454497
PAN136 PAB209-DH6-Us 0.224410437
PAN146 PAN133 0.224160695
PAN142-DH10-Us PAB223 0.224068594
PAN141-DH9-Us PAN133 0.224054637
PAN141-DH9-Us PAB218 0.223831936
PAN146-DH14-Us PAB246-DH48-Us 0.223433571
PAN142-DH10-Us PAB209-DH6-Us 0.22330766
PAN136 PAB223 0.22326106
PAN139 PAB226 0.223217786
PAN142-DH10-Us PAN133 0.22282455
PAN142-DH10-Us PAB226 0.222712755
PAN136 PAB236 0.22243001
PAB235 PAB226 0.22188718
PAN155A PAB223 0.221133293
PAN155A PAB209-DH6-Us 0.220838527
PAN144-DH12-Us PAN139 0.220513821
PAN146 PAB209-DH6-Us 0.220513272
PAB235 PAB209-DH6-Us 0.220450725
PAB236 PAB235 0.220430951
PAN155A PAB236 0.220330113
PAN146 PAB236 0.220058263
76
PAB246-DH48-Us PAB218 0.220010714
Cuadro 12. Total de predicciones para cruzas simples de maíz blanco.
Parental A Parental B Distancia Genética
PBN33-DH32-Us PBB187 0.239634755
PBN54-DH54-Us PBB178 0.230502973
PBN33-DH32-Us PBB183 0.230361306
PBN33-DH32-Us PBB183-DH6-Us 0.229570423
PBN54-DH54-Us PBB178-DH1-Us 0.229154928
PBN32-DH32-Us PBB187 0.22912937
PBN62-DH62-Us PBB183 0.229097422
PBN54-DH54-Us PBB187 0.228372132
PBN54-DH54-Us PBB198 0.228094774
PBN54-DH54-Us PBB183 0.22787383
PBN58-DH58-Us PBB187 0.227850441
PBN22-DH22-Us PBB187 0.227814089
PBN62-DH62-Us PBB178 0.227786527
PBN33-DH32-Us PBN13-DH13-Us 0.227748579
PBN62-DH62-Us PBB187 0.227508602
PBN62-DH62-Us PBB183-DH6-Us 0.227459558
PBN47-DH47-Us PBB187 0.227438174
PBN54-DH54-Us PBB180 0.227222565
PBN62-DH62-Us PBB198 0.227157294
PBN85-DH85-Us PBB187 0.227053931
PBN70-DH70-Us PBN54-DH54-Us 0.226920838
PBN62-DH62-Us PBB180 0.226840662
PBN54-DH54-Us PBB183-DH6-Us 0.226745102
PBN62-DH62-Us PBB178-DH1-Us 0.226424821
PBB187 PBB183 0.226266604
PBN22-DH22-Us PBB180 0.226264125
PBN22-DH22-Us PBB178 0.226167449
PBN58-DH58-Us PBN54-DH54-Us 0.226097643
PBN32-DH32-Us PBB180 0.225841831
PBB198 PBB187 0.225690409
PBB187 PBB183-DH6-Us 0.225626403
PBN41-DH41-Us PBB187 0.225620353
PBN90-DH90-Us PBB187 0.225404956
PBN70-DH70-Us PBB187 0.225228416
PBN22-DH22-Us PBB178-DH1-Us 0.225179876
PBN22-DH22-Us PBB198 0.225039221
PBN33-DH32-Us PBB178 0.22502961
PBN119-DH132-Us PBB187 0.224978376
PBN58-DH58-Us PBB180 0.224939202
PBB187 PBB178-DH1-Us 0.224934062
PBN33-DH32-Us PBB178-DH1-Us 0.224636127
77
PBN8-DH8Us PBB183 0.224621964
PBN22-DH22-Us PBB183 0.224325578
PBN26-DH26-Us PBB187 0.224249338
PBN56-DH56-Us PBB198 0.224177475
PBB187 PBB178 0.224167392
PBN64-DH64-Us PBB198 0.223906209
PBN22-DH22-Us PBB183-DH6-Us 0.223885658
PBN84-DH84-Us PBB187 0.223829888
PBN8-DH8Us PBB183-DH6-Us 0.223771209
PBN70-DH70-Us PBB198 0.223719003
PBN8-DH8Us PBB187 0.223709165
PBN32-DH32-Us PBB178 0.223618892
PBN72-DH72-Us PBB187 0.223589359
PBN54-DH54-Us PBN41-DH41-Us 0.223575459
PBN32-DH32-Us PBB183 0.223530596
PBN70-DH70-Us PBB178 0.223394917
PBN8-DH8Us PBB178 0.223391331
PBN64-DH64-Us PBB183 0.22336324
PBN41-DH41-Us PBB180 0.223312767
PBN47-DH47-Us PBB198 0.223263606
PBN58-DH58-Us PBB178 0.223180165
PBB187 PBB180 0.22305499
PBN9 PBB183 0.223041711
PBN58-DH58-Us PBN33-DH32-Us 0.223027683
PBN127-DH145-Us PBB198 0.22300735
PBN8-DH8Us PBB178-DH1-Us 0.222876043
PBN64-DH64-Us PBB187 0.222806754
PBN32-DH32-Us PBB198 0.222636678
PBN70-DH70-Us PBB178-DH1-Us 0.222617926
PBN90-DH90-Us PBB178 0.222493099
PBN8-DH8Us PBB198 0.22249278
PBN72-DH72-Us PBB198 0.222450791
PBN64-DH64-Us PBB183-DH6-Us 0.222298922
PBN33-DH32-Us PBB198 0.222207959
PBN58-DH58-Us PBB178-DH1-Us 0.222199938
PBN33-DH32-Us PBB180 0.222172253
PBN32-DH32-Us PBB183-DH6-Us 0.22217176
PBN72-DH72-Us PBB180 0.222116939
PBN32-DH32-Us PBB178-DH1-Us 0.222047616
PBN90-DH90-Us PBB198 0.221994451
PBN9-DH9-Us PBB183 0.221989139
PBN41-DH41-Us PBN33-DH32-Us 0.221930205
PBN82-DH83-Us PBB187 0.221915869
PBN47-DH47-Us PBB183 0.221759918
78
PBN90-DH90-Us PBB178-DH1-Us 0.221649034
PBN41-DH41-Us PBB178 0.221577626
PBN24-DH24-Us PBB183 0.221459486
PBN62-DH62-Us PBN33-DH32-Us 0.221452637
PBN81-DH81-Us PBB187 0.221451156
PBN127-DH145-Us PBB187 0.221434166
PBN58-DH58-Us PBB183 0.221415024
PBN127-DH145-Us PBB183 0.221407909
PBN119-DH132-Us PBB183 0.221391074
PBN70-DH70-Us PBB183 0.221358518
PBN82-DH82-Us PBB187 0.221356704
PBN13-DH13-Us PBB187 0.221328315
PBN31-DH31-Us PBB183 0.221327014
PBN64-DH64-Us PBB180 0.221241156
PBN70-DH70-Us PBB183-DH6-Us 0.221228013
PBN9 PBB183-DH6-Us 0.221209168
PBN47-DH47-Us PBB178 0.221162094
PBN9 PBB178 0.221143892
PBN58-DH58-Us PBB183-DH6-Us 0.221134188
PBN64-DH64-Us PBB178 0.221076016
PBN23-DH23-Us PBB183 0.221054426
PBN8-DH8Us PBB180 0.2210456
PBN19-DH19-Us PBB187 0.220969495
PBN13-DH13-Us PBB180 0.22095577
PBN29-DH29-Us PBB178 0.220932811
PBN47-DH47-Us PBB183-DH6-Us 0.220663509
PBN54-DH54-Us PBN19-DH19-Us 0.220606318
PBN90-DH90-Us PBB183 0.220597928
PBN56-DH56-Us PBB183-DH6-Us 0.22059574
PBN41-DH41-Us PBB178-DH1-Us 0.220572496
PBN27-DH27-Us PBB187 0.220567612
PBN27-DH27-Us PBB180 0.220526454
PBN56-DH56-Us PBB183 0.220520744
PBN56-DH56-Us PBB187 0.22050394
PBN82-DH83-Us PBB183 0.220487075
PBN56-DH56-Us PBB178 0.220427349
PBN64-DH64-Us PBB178-DH1-Us 0.220421701
PBN31-DH31-Us PBB183-DH6-Us 0.22039201
PBN9 PBB178-DH1-Us 0.220386231
PBN9 PBB198 0.220317863
PBN9-DH9-Us PBB178 0.220281456
PBN41-DH41-Us PBB183 0.220132055
PBN24-DH24-Us PBB183-DH6-Us 0.220102594
PBN127-DH145-Us PBB183-DH6-Us 0.220069464
PBN9-DH9-Us PBB183-DH6-Us 0.220035709
79