Ensamblaje y anotación de C. kanehirae
SCT es diploide (2n = 24; Fig. Suplementaria 1a) con un tamaño estimado del genoma de 823,7 ± 58,2 Mb/1 C (Figs. Suplementaria 1b y 2). Produjimos un ensamblaje derivado únicamente de 85× lecturas largas de PacBio (lectura N50 = 11,1 kb; contig N50 = 0,9 Mb) que abarca 728,3 Mb. Las secuencias de consenso del ensamblaje se corrigieron con 141× lecturas de Illumina y se reagruparon con 207× cromatina reconstituida «Chicago» y 204× lecturas Hi-C paired-end utilizando el pipeline HiRise (Supplementary Fig. 3). Se produjo un ensamblaje final e integrado de 730,7 Mb en 2.153 andamios, lo que supone el 91,3% de la estimación del tamaño del genoma por citometría de flujo. El andamio final N50 fue de 50,4 Mb con más del 90% en 12 pseudomoléculas (Tabla Suplementaria 1), presumiblemente correspondientes a los 12 cromosomas SCT.
Usando una combinación de soporte de homología de proteínas vegetales de referencia y secuenciación del transcriptoma derivado de varios tejidos (Fig. Suplementaria 1c y Tabla 2) y predicción de genes ab initio, se anotaron 27.899 modelos de genes codificadores de proteínas usando el pipeline MAKER218 (Tabla Suplementaria 1). De estos, el 93,7% resultaron ser homólogos a las proteínas de la base de datos TrEMBL y al 50% se le pudieron asignar términos de la Ontología Genética utilizando eggNOG-mapper19. Se estimó que el proteoma estaba completo en al menos un 89% según la evaluación BUSCO20 (benchmarking universal single-copy orthologs), lo que es comparable a otras especies vegetales secuenciadas (Tabla Suplementaria 1). La agrupación Orthofinder21 de los modelos de genes SCT con los de 12 genomas de plantas de semilla diversos produjo 20.658 grupos ortólogos (Tabla Suplementaria 3). 24.148 genes SCT (86,56%) formaban parte de grupos ortólogos con ortólogos de al menos otra especie vegetal. 3.744 modelos de genes no eran ortólogos de otros, y sólo 210 genes formaban parte de los 48 grupos ortólogos específicos de SCT. En conjunto, sugieren que la diversificación fenotípica en los magnolídeos puede ser alimentada por el nacimiento de novo de genes específicos de la especie y la expansión de las familias de genes existentes.
Caracterización del genoma
Identificamos 3.950.027 sitios heterocigotos bialélicos en el genoma de la SCT, lo que corresponde a una heterocigosidad media del 0,54% (un polimorfismo de un solo nucleótido (SNP) heterocigoto por 185 pb). Las frecuencias de alelos alternativos (no de referencia) en estos sitios tuvieron un pico importante alrededor del 50%, consistente con el hecho de que SCT es diploide sin evidencia de aneuploidía reciente (Fig. Suplementaria 4). La distribución espacial de los sitios heterocigotos fue muy variable, ya que el 23,9% del genoma presentaba menos de 1 locus SNP por kb en comparación con el 10% del genoma con al menos 12,6 loci SNP por kb. Los tramos de regiones de homocigosidad parecían estar distribuidos aleatoriamente en los cromosomas SCT, alcanzando un máximo de 20,2 Mb en el andamio 11 (Fig. 1a). Estos largos tramos de regiones de homocigosidad tienen una cobertura de secuencia igual a la del resto del genoma (Fig. 5 suplementaria) y pueden estar asociados a barridos selectivos, endogamia o cuellos de botella poblacionales recientes. Los genes localizados en estas regiones de homocigosidad resultaron estar enriquecidos en el proceso biosintético de la lignina y en el metabolismo de la galactosa (Tabla Suplementaria 4), lo que sugiere algunas funciones potenciales en la formación de complejos lignina-carbohidrato22. El análisis de coalescencia secuencial markoviana por pares23 (PSMC) basado en las densidades de SNP heterocigotos implicó una reducción continua del tamaño efectivo de la población durante los últimos 9 millones de años (Fig. 1b), con un posible cuello de botella coincidente con el cambio climático de mediados del Pleistoceno hace 0,9 millones de años (Ma). Estos patrones pueden reflejar una compleja historia poblacional de SCT asociada a la historia geológica de Taiwán, incluyendo el levantamiento y la formación de la isla en el Mioceno tardío (9 Ma) seguido de la construcción de montañas hace 5-6 Ma, respectivamente24.
Los elementos transponibles y las repeticiones intercaladas constituyeron el 48% del ensamblaje del genoma (Tabla Suplementaria 5). La mayoría de los elementos transponibles pertenecían a retrotransposones de repetición terminal larga (LTR) (25,53%), seguidos de elementos transponibles de ADN (12,67%). Entre los LTR, el 40,75% y el 23,88% de los retrotransposones pertenecían a Ty3/Gypsy y Ty1/Copia, respectivamente (Tabla suplementaria 5). La filogenia del dominio de la transcriptasa inversa mostró que la mayoría de las copias de Ty3/Gypsy formaban un clado distinto (20.092 copias), presumiblemente como resultado de una reciente expansión y proliferación, mientras que los elementos de Ty1/Copia se agrupaban en dos clados hermanos (7.229 y 2.950 copias) (Supplementary Fig. 6). Con la excepción de dos andamios, tanto los elementos transponibles LTR de Ty3/Gypsy como los de Ty1/Copia se agruparon dentro de los centros pericentroméricos de los 12 andamios más grandes (Fig. 1c y Fig. Suplementaria 7). Además, las regiones enriquecidas con LTR (definidas por 100 kb con un exceso del 50% de elementos transponibles de clase LTR) tenían una cobertura media un 35% mayor que el resto del genoma (Fig. 1c y Fig. Suplementaria 8), lo que sugiere que estas repeticiones fueron colapsadas en el ensamblaje y pueden haber contribuido a las diferencias en las estimaciones del tamaño del genoma por citometría de flujo y k-mer. El contenido de la secuencia codificante de SCT es similar a los otros genomas de angiospermas incluidos en nuestros análisis (Tabla Suplementaria 1), mientras que los intrones son ligeramente más largos en SCT debido a una mayor densidad de elementos transponibles (P < 0,001, prueba de suma de rangos de Wilcoxon; Fig. Suplementaria 9). 9).
Como se ha descrito para otros genomas de plantas25, los andamios a nivel de cromosoma de SCT muestran una baja densidad de genes codificadores de proteínas y una alta densidad de elementos transponibles en los centros de los cromosomas, y una mayor densidad de genes hacia los extremos del cromosoma (Fig. 1c). Identificamos grupos de un heptámero putativo de subtelómero, TTTAGGG, que se extiende hasta 2.547 copias, lo que implica repeticiones teloméricas en plantas26 (Tabla Suplementaria 6). Además, se descubrieron 687 kb de secuencias similares al ADN plastidial nuclear (NUPTs), con una media de 202,8 pb (Tabla Suplementaria 7). Las NUPTs de SCT estaban dominadas por fragmentos cortos, con el 96% de las NUPTs identificadas de menos de 500 bp (Tabla Suplementaria 8). El NUPT más largo tiene una longitud de ~20 kb y es sintético con un 99,7% de identidad con una porción del plastoma de SCT que contiene siete genes que codifican proteínas y cinco genes de ARNt (Fig. 10 suplementaria).
La ubicación filogenómica de C. kanehirae hermana de las eudicotas
Para resolver el antiguo debate sobre la colocación filogenética de los magnolíidos en relación con otros linajes principales de plantas con flores, construimos un árbol filogenético basado en 211 conjuntos de ortólogos estrictamente de una sola copia (es decir, uno y sólo un homólogo en todas las especies) identificados a través de la circunscripción de la familia de genes OrthoFinder21 de todos los modelos de genes de la SCT y otros 12 genomas de plantas con semillas (ver Métodos). Se recuperó un árbol de una sola especie mediante un análisis de máxima verosimilitud27 de una supermatriz concatenada de los alineamientos de genes de una sola copia y un análisis basado en la coalescencia utilizando los 211 árboles de genes28 (Fig. 2 y Fig. 11 suplementaria). SCT, que representa el linaje de los magnolíidos, se situó como hermana del clado de las eudicotas (Fig. 2). Esta topología se mantuvo robusta cuando incluimos un conjunto de datos del transcriptoma de 22 especies adicionales del orden de los magnolíidos de la iniciativa de las 1.000 plantas29 (1KP), aunque se obtuvo un soporte bootstrap más bajo (Fig. Suplementaria 12). Utilizando MCMCtree30 con calibraciones de fósiles, calculamos un intervalo de confianza del 95% para el tiempo de divergencia entre magnolíidos y eudicotas que es de 136,0-209,4 Ma (Fig. 2), que se solapa con otras dos estimaciones recientes (114,8-164,1 Ma31 y 118,9-149,9 Ma32).
Análisis de sintenia/duplicación de todo el genoma
Investigaciones anteriores de los datos de las etiquetas de secuencias expresadas infirieron una duplicación de todo el genoma dentro de los magnolios antes de la divergencia de los Magnoliales y los Laurales10, pero la prueba basada en la sintenia de esta hipótesis no ha sido posible sin un genoma magnolio ensamblado. Se identificaron un total de 16.498 pares de genes en 992 bloques sintéticos que comprenden el 72,7% del ensamblaje del genoma de SCT. De estos bloques sintéticos intragenómicos, el 72,3% resultó ser sintético en más de un lugar del genoma, lo que sugiere que se produjo más de una duplicación del genoma completo (WGD) en la ascendencia de SCT (Fig. 3a). Dos rondas de WGD antiguas fueron implicadas por la extensa sintenia entre pares de regiones cromosómicas y el emparejamiento significativo pero menos sintético de cada región con dos segmentos genómicos adicionales (Fig. 13 suplementaria). Los bloques de sintenia de los 12 andamios más grandes de SCT se asignaron a cinco grupos que pueden corresponder a cromosomas ancestrales anteriores a la DGM (Fig. 3a, Fig. Suplementaria 13 y Nota Suplementaria).
Amborella trichopoda es la única especie que representa el linaje hermano de todas las demás angiospermas existentes y no tiene evidencia de WGD desde la divergencia del último ancestro común de los linajes de plantas con flores existentes33. Para confirmar que se produjeron dos rondas de WGD en la ascendencia de SCT después de la divergencia de los linajes que conducen a SCT y A. trichopoda, evaluamos la sintenia entre los dos genomas. De acuerdo con nuestra hipótesis, de uno a cuatro segmentos del genoma de SCT se alinearon con una sola región en el genoma de A. trichopoda (Fig. 3b y Fig. Suplementaria 14).
Para inferir con mayor precisión el momento de las dos rondas de WGD evidentes en el genoma de SCT, se estimaron las distribuciones de Ks homólogas intragenómicas e interespecíficas (sustituciones sinónimas por sitio sinónimo). Los duplicados intragenómicos de SCT mostraron dos picos alrededor de 0,46 y 0,76 (Fig. 4a), congruentes con los dos eventos WGD. Basándonos en estos dos picos, pudimos inferir la evolución del cariotipo organizando los bloques de sintenia agrupados en cuatro grupos que presumiblemente se originaron en uno de los cinco cromosomas anteriores a la WGD (Supplementary Fig. 15). La comparación entre Aquilegia coerulea (Ranunculales, un linaje hermano de todas las demás eudicotas existentes33) y los ortólogos de SCT reveló un pico prominente alrededor de Ks = 1,41 (Fig. 4a), mientras que el duplicado intragenómico de Aquilegia estaba alrededor de Ks = 1, lo que implica WGDs independientes tras la divergencia de los linajes que conducen a SCT y Aquilegia. La disponibilidad del transcriptoma de 17 Laurales + Magnoliales del 1KP29 nos permitió probar el momento hipotético de los WGDs evidentes en el genoma de SCT8. La distribución de Ks de cinco de las seis especies disponibles de Lauraceae reveló dos picos (Fig. 4b y Fig. 16 suplementaria), como se vio en la distribución de Ks de SCT (Fig. 4a) y correspondiente a dos inferencias basadas en la sintenia de WGDs en la ascendencia de SCT (Fig. 3 y Fig. 15 suplementaria). Sólo se observó un pico de Ks en las especies restantes de Laurales y Magnoliales, lo que sugiere que sólo se produjo un evento WGD en la ascendencia de estas especies (Figs. 17 y 18). El pico de Ks observado en los datos de Aquilegia es probablemente atribuible a WGD dentro de las Ranunculales mucho después de la divergencia de las eudicotas y los magnolios (Fig. 4a).
Especialización del proteoma de los magnolíticos
Intentamos identificar genes y dominios proteicos específicos de SCT anotando los dominios de la familia de proteínas (Pfam) y evaluando su distribución en los 13 genomas de plantas de semilla incluidos en nuestros análisis filogenómicos. En consonancia con la observación de que había muy pocos grupos ortólogos específicos de SCT, el análisis de componentes principales del contenido de dominios Pfam agrupó a SCT con las monocotiledóneas y las eudicotiledóneas, y los dos primeros componentes principales separaron a las gimnospermas y a A. trichopoda de este grupo (Fig. 19a). Hubo considerables solapamientos entre las especies de SCT, eudicotas y monocotiledóneas, lo que sugiere una importante diversificación funcional desde que estos tres linajes se dividieron. La SCT también mostró un enriquecimiento y una reducción significativos de 111 y 34 dominios proteicos en comparación con otras especies de plantas, respectivamente (Fig. 19b suplementaria y Tabla 9 suplementaria). La ganancia de dominios proteicos incluyó el dominio carboxi-terminal de la terpeno sintasa (TPS) implicado en las respuestas de defensa y las repeticiones ricas en leucina (628 frente a 334,4) en la eficiencia de la transpiración de la planta34. Curiosamente, descubrimos que el SCT posee 21 copias del factor de transcripción EIN3/EIN3-like (EIL), más que el máximo de 17 copias previamente reportado en el genoma del plátano (Musa acuminata)35. Los EILs inician una respuesta de señalización de etileno mediante la activación del factor de respuesta al etileno (ERF), que también encontramos altamente expandido en SCT (150 copias frente a una media de 68,3 copias de nueve especies reportadas en la ref. 35; Fig. 20 suplementaria). ERF responde y modula positivamente la biosíntesis de señales fitohormonales, incluyendo el etileno36. La expresión de ERF ha sido implicada en la modulación positiva del desarrollo de la planta desde la maduración del fruto35 hasta el crecimiento secundario en la formación de la madera37, así como en el aumento de la resistencia a factores abióticos38 o bióticos39. Por lo tanto, la expansión de EILs en SCT puede estimular ERF, lo que lleva a la regulación de varios efectores aguas abajo que resultan en rasgos específicos de SCT.
A continuación, evaluamos las expansiones y contracciones de grupos ortólogos a través de la filogenia de la planta de semillas (Fig. 2). La evolución del tamaño de las familias de genes fue dinámica a lo largo de la filogenia, y la rama que conduce a SCT no mostró un número significativamente diferente de expansiones y contracciones. El enriquecimiento de los términos de la Ontología Genética reveló diferentes familias de genes que comparten funciones comunes o familias de un solo gen que experimentaron grandes expansiones (Tablas Suplementarias 10 y 11). Por ejemplo, los miembros expandidos de los genes de resistencia vegetal (R) se suman a la «respuesta hipersensible de tipo vegetal» (Tabla Suplementaria 10). Por el contrario, los términos enriquecidos de Gene Ontology de las familias de genes contraídos de la rama SCT (Tabla Suplementaria 11) contienen miembros de transportadores ABC, ácido indol-3-acético-amido sintetasa, xiloglucano endotransglucosilasa/hidrolasa y proteína que responde a la auxina, todos los cuales forman parte de la ‘respuesta a la auxina’.
Genes R
La anotación del genoma de SCT incluyó 387 modelos de genes R, el 82% de los cuales pertenecen a los tipos de repetición rica en leucina de sitios de unión a nucleótidos (NBS-LRR) o NBS-LRR de espiral. Este resultado es coherente con un informe anterior según el cual LRR es uno de los dominios proteicos más abundantes en las plantas y es muy probable que SCT sea capaz de reconocer y combatir los productos patógenos de los genes de avirulencia (Avr)40. Entre los 13 genomas muestreados, SCT alberga el mayor número de genes R entre las plantas no cultivadas (Fig. 21 suplementaria). El árbol filogenético construido a partir de 2.465 dominios NBS también sugiere que los clados dentro de la familia de genes se han diversificado de forma independiente dentro de las eudicotas, las monocotiledóneas y las magnolíticas. Curiosamente, los clados de genes NBS de SCT más diversos eran hermanos de clados de genes NBS de eudicotas depauperados (Fig. 22 suplementaria).
Familia de genes TPS
Una de las características más llamativas del genoma de SCT es el gran número de genes TPS (CkTPS). Se predijo y anotó un total de 101 genes CkTPS, el mayor número para cualquier otro genoma hasta la fecha. Al incluir un conjunto de datos del transcriptoma de otras dos especies de magnolíidos (P. americana y Saruma henryi), los análisis filogenéticos de los TPS de 15 especies situaron los genes CkTPS entre seis de las siete subfamilias de genes TPS que se han descrito para las plantas de semilla41 (Fig. 5, Tabla 1 y Figs. suplementarias 23-28). Los genes CkTPS situados en las subfamilias TPS-c (2) y TPS-e (5) probablemente codifican diterpenos sintasas, como la copalil difosfato sintasa y la ent-kaureno sintasa42. Se trata de enzimas clave que catalizan la formación de los isoprenoides de 20 carbonos (denominados colectivamente diterpenoides; C20s), que se pensaba que eran específicos de las eudicotas41 y cumplen funciones primarias como la regulación del metabolismo primario de las plantas. Los 94 genes CkTPS restantes probablemente codifican las sintasas de monoterpenos de 10 carbonos (C10), sintasas de sesquiterpenos de 15 carbonos (C15) y sintasas adicionales de diterpenos de 20 carbonos (C20) (Tabla 1). Con 25 y 58 homólogos, respectivamente, las subfamilias TPS-a y TPS-b son las más diversas en SCT, presumiblemente contribuyendo a la producción masiva y mixta de C15s y C10s volátiles43.
Es de destacar que el árbol de genes TPS resolvió clados de genes TPS específicos de Lauraceae dentro de las subfamilias de genes TPS-a, TPS-b, TPS-f y TPS-g (Figs. suplementarias 23, 24, 27 y 28). Este patrón de duplicación de genes TPS en un ancestro común de Persea y Cinnamomum y su posterior retención puede indicar la subfuncionalización o neofuncionalización de los genes TPS duplicados dentro de las Lauraceae. También se identificó en los análisis un subclado específico de magnolíidos en la subfamilia TPS-a, que incluye más genes TPS de magnolíidos con funciones caracterizadas (Fig. 23 suplementaria). De hecho, detectamos una selección positiva en los subclados TPS-f -I y -II específicos de Lauraceae, lo que implica una divergencia funcional (Tabla Suplementaria 13). En conjunto, estos datos indican una creciente diversificación de los genes TPS de los magnolíticos tanto antes como después del origen de las Lauraceae.
CkLos genes TPS no están distribuidos uniformemente a lo largo de los cromosomas (Tabla Suplementaria 12) y se observó la agrupación de miembros de subfamilias individuales como duplicados en tándem (Fig. Suplementaria 29). Se observaron 76 genes TPS en los 12 andamios más grandes de SCT. De ellos, el 60,5% (46 copias) pertenecientes a diferentes subfamilias se encontraron en la región de 0,5-15 Mb y 22,0-24,5 Mb de los andamios 7 y 10, respectivamente (Fig. 29 suplementaria). El andamio 7 contiene 29 genes CkTPS pertenecientes a varias subfamilias, incluyendo los ocho CkTPS-a, 12 CkTPS-b, cinco CkTPS-e y tres CkTPS-f (Fig. 29 suplementaria). Por el contrario, sólo dos miembros de CkTPS-c residen en el andamio 1. Veinticuatro genes CkTPS se localizan en otros andamios más pequeños, 22 de los cuales codifican la subfamilia TPS-b (Supplementary Fig. 24). Algunas de estas subfamilias situadas en los andamios 7 y 10 están físicamente próximas entre sí (Fig. 29 suplementaria). Por ejemplo, 3 de los 11 miembros de la subfamilia TPS-b-Lau III se encontraban adyacentes a 4 de los 11 miembros de la subfamilia TPS-b-Lau V (Fig. 29 suplementaria), mientras que otros miembros de la subfamilia no se encontraban en las correspondientes regiones sintéticas sino en otras partes del genoma (Fig. 30 suplementaria). Los genes pertenecientes a este clúster no estaban agrupados en su correspondiente filogenia de subfamilia (Fig. 30 suplementaria), lo que sugiere que su disposición podría haber ocurrido más recientemente que el último evento WGD.