Assemblaggio e annotazione di C. kanehirae
SCT è diploide (2n = 24; Supplementary Fig. 1a) con una dimensione del genoma stimato di 823.7 ± 58.2 Mb/1 C (Supplementary Figs. 1b e 2). Abbiamo prodotto un assemblaggio derivato esclusivamente da 85 × PacBio lunghe letture (leggere N50 = 11,1 kb; contig N50 = 0,9 Mb) che si estende 728,3 Mb. Le sequenze di consenso del gruppo sono state corrette utilizzando 141× Illumina legge e ulteriormente impalcata con 207× ‘Chicago’ cromatina ricostituita e 204× Hi-C paired-end legge utilizzando la pipeline HiRise (Fig. 3 supplementare). Un assemblaggio finale, integrato di 730,7 Mb è stato prodotto in 2.153 scaffold, che comprende il 91,3% della stima della dimensione del genoma citometria di flusso. Il N50 scaffold finale era 50.4 Mb con più del 90% in 12 pseudomolecole (Tabella 1 supplementare), presumibilmente corrispondente ai 12 cromosomi SCT.
Utilizzando una combinazione di supporto omologia proteina vegetale di riferimento e sequenziamento trascrittoma derivato da vari tessuti (Fig. 1c supplementare e Tabella 2) e predizione gene ab initio, 27.899 modelli di gene codificante proteine sono stati annotati utilizzando la pipeline MAKER218 (Tabella 1 supplementare). Di questi, 93.7% sono stati trovati per essere omologhi alle proteine nel database TrEMBL e 50% potrebbe essere assegnato termini Gene Ontology utilizzando eggNOG-mapper19. Il proteoma è stato stimato per essere almeno 89% completo basato sulla valutazione BUSCO20 (benchmarking universale singola copia ortologhi), che è paragonabile ad altre specie di piante sequenziate (Tabella 1 supplementare). Il clustering di Orthofinder21 dei modelli di geni SCT con quelli di 12 diversi genomi di piante da seme ha prodotto 20.658 gruppi omologhi (Tabella 3 supplementare). 24.148 geni SCT (86,56%) facevano parte di gruppi ortologhi con ortologhi di almeno un’altra specie di pianta. 3.744 modelli di geni non erano ortologhi con altri, e solo 210 geni facevano parte dei 48 gruppi ortologhi specifici di SCT. Complessivamente, suggeriscono che la diversificazione fenotipica nei magnoliidi può essere alimentata dalla nascita de novo di geni specie-specifici e dall’espansione delle famiglie di geni esistenti.
Caratterizzazione del genoma
Abbiamo identificato 3.950.027 siti eterozigoti biallelici nel genoma SCT, corrispondenti ad una eterozigosi media dello 0,54% (un polimorfismo eterozigote a singolo nucleotide (SNP) per 185 bp). Le frequenze alleliche alternative (non di riferimento) in questi siti hanno avuto un picco importante intorno al 50%, coerente con il fatto che SCT è diploide senza evidenza di aneuploidia recente (Fig. 4 supplementare). La distribuzione spaziale dei siti eterozigoti era molto variabile, con il 23,9% del genoma che presentava meno di 1 locus SNP per kb rispetto al 10% del genoma con almeno 12,6 loci SNP per kb. Le corse delle regioni di omozigosi sembrano essere distribuite in modo casuale attraverso i cromosomi SCT, raggiungendo un massimo di 20,2 Mb nello scaffold 11 (Fig. 1a). Tali lunghe corse di regioni di omozigosi hanno una copertura di sequenza uguale al resto del genoma (Fig. 5 supplementare) e può essere associato con spazzate selettive, inbreeding o recenti colli di bottiglia della popolazione. I geni che si trovano in queste regioni di omozigosi sono stati trovati per essere arricchiti nel processo biosintetico della lignina e il metabolismo del galattosio (Tabella supplementare 4), che suggeriscono alcuni ruoli potenziali nella formazione di complessi lignina-carboidrati22. Pairwise sequenziale Markovian coalescent23 (PSMC) analisi basata su densità SNP eterozigote implicato una continua riduzione della dimensione effettiva della popolazione negli ultimi 9 milioni di anni (Fig. 1b), con un possibile collo di bottiglia coincidente con la metà del Pleistocene cambiamento climatico 0,9 milioni di anni fa (Ma). Tali modelli possono riflettere una storia complessa popolazione di SCT associato con la storia geologica di Taiwan, tra cui sollevamento e la formazione dell’isola nel tardo Miocene (9 Ma) seguita da montagna costruzione 5-6 Ma, rispettivamente24.
Gli elementi trasponibili e le ripetizioni intersperse costituivano il 48% dell’assemblaggio del genoma (Tabella supplementare 5). La maggior parte degli elementi trasponibili apparteneva ai retrotrasposoni a ripetizione terminale lunga (LTR) (25,53%), seguiti dagli elementi trasponibili del DNA (12,67%). Tra gli LTR, il 40,75% e il 23,88% dei retrotrasposoni apparteneva a Ty3/Gypsy e Ty1/Copia, rispettivamente (Tabella supplementare 5). La filogenesi del dominio della trascrittasi inversa ha mostrato che la maggior parte delle copie di Ty3/Gypsy formava un clade distinto (20.092 copie), presumibilmente come risultato di una recente espansione e proliferazione, mentre gli elementi Ty1/Copia erano raggruppati in due cladi sorelle (7.229 e 2.950 copie) (Fig. 6 supplementare). Con l’eccezione di due impalcature, entrambi gli elementi trasponibili LTR Ty3/Gypsy e Ty1/Copia erano raggruppati nei centri pericentromerici delle 12 impalcature più grandi (Fig. 1c e Fig. supplementare 7). Inoltre, le regioni arricchite di LTR (definite da 100 kb con un eccesso del 50% comprendente elementi trasponibili di classe LTR) avevano in media il 35% di copertura in più rispetto al resto del genoma (Fig. 1c e Fig. 8 supplementare), suggerendo che queste ripetizioni sono state collassate nell’assemblaggio e possono aver contribuito alle differenze nelle stime della citometria a flusso e del genoma k-mer. Il contenuto di sequenza codificante di SCT è simile agli altri genomi di angiosperme inclusi nelle nostre analisi (Tabella supplementare 1), mentre gli introni sono leggermente più lunghi in SCT a causa di una maggiore densità di elementi trasponibili (P < 0,001, Wilcoxon rank-sum test; Fig. 9).
Come è stato descritto per altri genomi vegetali25, le impalcature a livello cromosomico di SCT mostrano bassa densità di geni codificanti proteine e alta densità di elementi trasponibili nei centri dei cromosomi, e una maggiore densità di geni verso le estremità del cromosoma (Fig. 1c). Abbiamo identificato cluster di un putativo subtelomero heptamer, TTTAGGG, che si estende fino a 2.547 copie, che implicano ripetizioni telomeriche nelle piante26 (Tabella supplementare 6). Inoltre, 687 kb di sequenze simili al DNA plastidico nucleare (NUPTs), in media circa 202.8 bp, sono stati scoperti (Tabella supplementare 7). SCT NUPTs sono stati dominati in modo schiacciante da frammenti brevi, con il 96% dei NUPTs identificati meno di 500 bp (Tabella supplementare 8). Il più lungo NUPT è ~ 20 kb di lunghezza e syntenic con 99.7% identità a una porzione del plastoma SCT che contiene sette proteine codificanti e cinque geni tRNA (Supplementary Fig. 10).
Posizionamento filogenomico di C. kanehirae sorella di eudicots
Per risolvere l’annoso dibattito sulla collocazione filogenetica dei magnoliidi rispetto ad altri importanti lignaggi di piante da fiore, abbiamo costruito un albero filogenetico basato su 211 set di ortogoni strettamente mono-copia (cioè, uno e un solo omologo in tutte le specie) identificati attraverso OrthoFinder21 famiglia circoscrizione gene di tutti i modelli di gene dal SCT e 12 altri genomi di piante da seme (vedi metodi). Un singolo albero di specie è stato recuperato attraverso l’analisi di massima verosimiglianza27 di una supermatrice concatenata degli allineamenti genici a copia singola e l’analisi basata sulla coalescenza utilizzando i 211 alberi genici28 (Fig. 2 e Fig. 11 supplementare). SCT, che rappresenta la stirpe dei magnoliidi, è stata posta come sorella del clade degli eudicot (Fig. 2). Questa topologia è rimasto robusto quando abbiamo incluso un set di dati trascrittoma di un ulteriore 22 specie di ordine magnoliidi dall’iniziativa 1.000 piante29 (1KP), anche se più basso supporto bootstrap è stato ottenuto (Fig. supplementare 12). Utilizzando MCMCtree30 con calibrazioni fossili, abbiamo calcolato un intervallo di confidenza del 95% per il tempo di divergenza tra magnoliidi ed eudicots per essere 136.0-209.4 Ma (Fig. 2), che si sovrappone con altre due stime recenti (114.8-164.1 Ma31 e 118.9-149.9 Ma32).
Analisi della sintenia/duplicazione dell’intero genoma
Indagini precedenti dei dati delle etichette di sequenza espresse hanno dedotto una duplicazione genomica all’interno dei magnoliidi prima della divergenza delle Magnoliales e Laurales10, ma la prova basata sulla sintenia di questa ipotesi non è stata possibile senza un genoma magnoliide montato. Un totale di 16.498 coppie di geni sono stati identificati in 992 blocchi sintenici che comprendono il 72,7% dell’assemblaggio del genoma SCT. Di questi blocchi intragenomici sintenici, il 72,3% è risultato essere sintenico a più di una posizione sul genoma, suggerendo che più di una duplicazione dell’intero genoma (WGD) si è verificata nell’origine di SCT (Fig. 3a). Due cicli di antica WGD sono stati implicati da un’estesa sintenia tra coppie di regioni cromosomiche e da un significativo ma meno sintetico accoppiamento di ogni regione con due ulteriori segmenti genomici (Fig. 13 supplementare). I blocchi di sintenia dei 12 più grandi scaffold di SCT sono stati assegnati a cinque cluster che possono corrispondere a cromosomi ancestrali pre-WGD (Fig. 3a, Fig. 13 supplementare e Nota supplementare).
Amborella trichopoda è l’unica specie che rappresenta la stirpe sorella di tutte le altre angiosperme esistenti e non ha alcuna prova di WGD dalla divergenza dall’ultimo antenato comune stirpe di piante da fiore esistenti33. Per confermare che due cicli di WGD hanno avuto luogo nell’antenato di SCT dopo la divergenza dei lignaggi che portano a SCT e A. trichopoda, abbiamo valutato la sintonia tra i due genomi. Coerentemente con la nostra ipotesi, da uno a quattro segmenti del genoma SCT sono stati allineati ad una singola regione nel genoma A. trichopoda (Fig. 3b e Fig. supplementare 14).
Per dedurre più precisamente i tempi dei due cicli di WGD evidente nel genoma SCT, intragenomico e interspecie omologo Ks (sostituzioni sinonime per sito sinonimo) distribuzioni sono state stimate. I duplicati intragenomici SCT hanno mostrato due picchi intorno a 0.46 e 0.76 (Fig. 4a), congruenti con i due eventi WGD. Sulla base di questi due picchi, siamo stati in grado di dedurre l’evoluzione del cariotipo organizzando i blocchi di sintenia raggruppati ulteriormente in quattro gruppi presumibilmente provenienti da uno dei cinque cromosomi pre-WGD (Fig. 15 supplementare). Confronto tra Aquilegia coerulea (Ranunculales, un lignaggio sorella di tutti gli altri eudicots33 estanti) e SCT ortologhi rivelato un picco importante intorno Ks = 1.41 (Fig. 4a), mentre il duplicato intragenomico Aquilegia era intorno Ks = 1, implicando WGDs indipendente dopo la divergenza dei lignaggi che portano a SCT e Aquilegia. La disponibilità del trascrittoma di 17 Laurales + Magnoliales dal 1KP29 ci ha permesso di testare la tempistica ipotizzata delle WGDs evidente nel genoma SCT8. La distribuzione Ks di cinque delle sei specie disponibili di Lauraceae ha rivelato due picchi (Fig. 4b e Fig. supplementare 16), come è stato visto nella distribuzione Ks SCT (Fig. 4a) e corrispondente a due inferenze basate sulla sintenia di WGDs nell’antenato di SCT (Fig. 3 e Fig. supplementare 15). Solo un picco Ks è stato osservato nelle restanti specie Laurales e Magnoliales, suggerendo un solo evento WGD si è verificato nell’antenato di queste specie (Figg. supplementari 17 e 18). Il picco Ks visto nei dati di Aquilegia è probabilmente attribuibile a WGD all’interno delle Ranunculales ben dopo la divergenza delle eudicot e delle magnoliidi (Fig. 4a).
Specializzazione del proteoma dei magnoliidi
Abbiamo cercato di identificare i geni e i domini proteici specifici di SCT annotando i domini delle famiglie proteiche (Pfam) e valutando la loro distribuzione attraverso i 13 genomi di piante da seme inclusi nelle nostre analisi filogenomiche. Coerentemente con l’osservazione che c’erano pochi gruppi ortologhi specifici SCT, l’analisi delle componenti principali del contenuto del dominio Pfam ha raggruppato SCT con le monocotiledoni e le eudicotiledoni, con le prime due componenti principali che separano le gimnosperme e A. trichopoda da questo gruppo (Fig. 19a supplementare). Ci sono state notevoli sovrapposizioni tra le specie SCT, eudicot e monocot, suggerendo una significativa diversificazione funzionale da quando questi tre lignaggi si sono divisi. SCT ha anche mostrato un significativo arricchimento e riduzione di 111 e 34 domini proteici rispetto ad altre specie di piante, rispettivamente (Fig. 19b supplementare e Tabella 9 supplementare). Guadagno di domini proteici incluso il dominio carbossi-terminale della terpene sintasi (TPS) coinvolto nelle risposte di difesa e le ripetizioni ricche di leucina (628 contro 334,4) nell’efficienza della traspirazione delle piante34. È interessante notare che SCT possiede 21 copie del fattore di trascrizione EIN3/EIN3-like (EIL), più del massimo precedentemente riportato di 17 copie nel genoma della banana (Musa acuminata)35. Gli EIL avviano una risposta di segnalazione dell’etilene attivando il fattore di risposta dell’etilene (ERF), che abbiamo anche trovato essere altamente espanso in SCT (150 copie contro una media di 68,3 copie da nove specie riportate in rif. 35; Fig. 20 supplementare). ERF risponde e modula positivamente la biosintesi dei segnali fito-ormonali, tra cui etilene36. L’espressione di ERF è stata implicata nella modulazione positiva dello sviluppo della pianta dalla maturazione della frutta35 alla crescita secondaria nella formazione del legno37, così come nell’aumento della resistenza ai fattori abiotici38 o biotici39. Così, l’espansione di EILs in SCT può stimolare ERF, portando a varie regolazioni di effettori a valle che si traducono in tratti specifici per SCT.
Abbiamo poi valutato le espansioni e le contrazioni dei gruppi omologhi attraverso la filogenesi delle piante da seme (Fig. 2). L’evoluzione delle dimensioni delle famiglie di geni è stata dinamica attraverso la filogenesi, e il ramo che porta alla SCT non ha mostrato un numero significativamente diverso di espansioni e contrazioni. L’arricchimento dei termini di Gene Ontology ha rivelato diverse famiglie di geni che condividono funzioni comuni o famiglie di geni singoli che hanno subito grandi espansioni (Tabelle supplementari 10 e 11). Per esempio, i membri espansi dei geni della resistenza delle piante (R) si sommano a “risposta ipersensibile di tipo vegetale” (Tabella supplementare 10). Al contrario, i termini di Gene Ontology arricchiti dalle famiglie di geni contratti del ramo SCT (Tabella supplementare 11) contengono membri di trasportatori ABC, indolo-3-acetico acido-amido sintetasi, xiloglucano endotransglucosilasi/idrolasi e proteina reattiva all’auxina, che fanno tutti parte della ‘risposta all’auxina’.
geni R
L’annotazione del genoma SCT ha incluso 387 modelli di geni R, l’82% dei quali appartengono ai tipi NBS-LRR (nucleotide-binding site leucine-rich repeat) o NBS-LRR coiled-coil. Questo risultato è coerente con un rapporto precedente che LRR è uno dei domini proteici più abbondanti nelle piante ed è altamente probabile che SCT sia in grado di riconoscere e combattere i prodotti patogeni dei geni di avirulenza (Avr)40. Tra i 13 genomi campionati, SCT ospita il maggior numero di geni R tra le piante non coltivate (Fig. 21 supplementare). L’albero filogenetico costruito da 2.465 domini NBS suggerisce anche che i cladi all’interno della famiglia di geni si sono diversificati indipendentemente all’interno delle eudicotteri, monocotteri e magnoliidi. È interessante notare che i cladi di geni NBS SCT più diversificati sono stati fratelli di cladi di geni NBS eudicot depauperati (Fig. 22 supplementare).
Famiglia di geni TPS
Una delle caratteristiche più sorprendenti del genoma SCT è il gran numero di geni TPS (CkTPS). Un totale di 101 geni CkTPS sono stati predetti e annotati, il maggior numero per qualsiasi altro genoma fino ad oggi. Includendo un set di dati trascrittomici di altre due specie di magnoliidi (P. americana e Saruma henryi), le analisi filogenetiche dei TPS di 15 specie hanno collocato i geni CkTPS tra sei delle sette sottofamiglie di geni TPS che sono state descritte per le piante da seme41 (Fig. 5, Tabella 1 e Figure supplementari 23-28). I geni CkTPS collocati nelle sottofamiglie TPS-c (2) e TPS-e (5) probabilmente codificano diterpeni sintasi, come la copalil difosfato sintasi e l’ent-kaurene sintasi42. Questi sono enzimi chiave che catalizzano la formazione degli isoprenoidi a 20 carboni (chiamati collettivamente diterpenoidi; C20s), che si pensava fossero specifici dell’eudicot41 e servono funzioni primarie come la regolazione del metabolismo primario delle piante. I restanti 94 geni CkTPS previsti probabilmente codificano le monoterpeni a 10 carboni (C10) sintasi, i sesquiterpeni a 15 carboni (C15) sintasi e ulteriori diterpeni a 20 carboni (C20) sintasi (Tabella 1). Con 25 e 58 omologhi, rispettivamente, le sottofamiglie TPS-a e TPS-b sono le più diverse in SCT, presumibilmente contribuendo alla produzione di massa e mista di C15 e C10 volatili43.
E’ degno di nota che l’albero dei geni TPS ha risolto cladi di geni TPS specifici delle Lauraceae all’interno delle sottofamiglie di geni TPS-a, TPS-b, TPS-f e TPS-g (Figure supplementari 23, 24, 27 e 28). Questo modello di duplicazione del gene TPS in un antenato comune di Persea e Cinnamomum e la successiva ritenzione può indicare la subfunzionalizzazione o la neofunzionalizzazione dei geni TPS duplicati all’interno delle Lauraceae. Un sottoclade specifico per i magnoliidi nella sottofamiglia TPS-a è stato anche identificato nelle analisi, includendo più geni TPS magnoliidi con funzioni caratterizzate (Fig. 23 supplementare). In effetti, abbiamo rilevato una selezione positiva nelle sottocladi TPS-f -I e -II specifiche delle Lauraceae, il che implica una divergenza funzionale (Tabella supplementare 13). Insieme, questi dati indicano una crescente diversificazione dei geni TPS delle magnolie sia prima che dopo l’origine delle Lauraceae.
CkI geni TPS non sono uniformemente distribuiti nei cromosomi (Tabella 12 supplementare) e il raggruppamento dei membri delle singole sottofamiglie è stato osservato come duplicati in tandem (Fig. 29 supplementare). Settantasei geni TPS sono stati osservati nei più grandi 12 scaffold di SCT. Di questi, il 60,5% (46 copie) appartenenti a diverse sottofamiglie sono stati trovati nella regione 0,5-15 Mb e 22,0-24,5 Mb di scaffold 7 e 10, rispettivamente (Fig. 29 supplementare). Scaffold 7 contiene 29 geni CkTPS appartenenti a diverse sottofamiglie, compresi tutti gli otto CkTPS-a, 12 CkTPS-b, cinque CkTPS-e e tre CkTPS-f (Fig. 29 supplementare). Al contrario, solo due membri di CkTPS-c risiedono nello scaffold 1. Ventiquattro geni CkTPS si trovano in altri scaffold più piccoli, 22 dei quali codificano la sottofamiglia TPS-b (Fig. 24 supplementare). Alcune di queste sottofamiglie situate sugli scaffold 7 e 10 sono fisicamente in prossimità l’una dell’altra (Fig. 29 supplementare). Per esempio, 3 degli 11 membri della sottofamiglia TPS-b-Lau III si trovavano adiacenti a 4 degli 11 membri della sottofamiglia TPS-b-Lau V (Fig. 29 supplementare), mentre altri membri della sottofamiglia sono stati trovati non nelle regioni sinteniche corrispondenti ma altrove nel genoma (Fig. 30 supplementare). I geni appartenenti a questo cluster non erano raggruppati insieme nella loro corrispondente filogenesi della sottofamiglia (Fig. 30 supplementare), suggerendo che la loro disposizione potrebbe essere avvenuta più recentemente dell’ultimo evento WGD.