Asamblarea și adnotarea C. kanehirae
SCT este diploid (2n = 24; Fig. Suplimentară 1a) cu o dimensiune estimată a genomului de 823,7 ± 58,2 Mb/1 C (Fig. Suplimentară 1b și 2). Am produs un ansamblu derivat exclusiv din 85× PacBio long reads (read N50 = 11,1 kb; contig N50 = 0,9 Mb) care se întinde pe 728,3 Mb. Secvențele consensuale ale ansamblului au fost corectate cu ajutorul a 141× lecturi Illumina și au fost în continuare structurate cu 207× cromatină reconstituită „Chicago” și 204× lecturi de tip Hi-C cu perechi de citiri utilizând conducta HiRise (figura suplimentară 3). Un ansamblu final integrat de 730,7 Mb a fost produs în 2 153 de schele, cuprinzând 91,3 % din dimensiunea estimată a genomului prin citometrie de flux. N50 final al schelei finale a fost de 50,4 Mb, cu mai mult de 90% în 12 pseudomolecule (tabelul suplimentar 1), care se presupune că corespund celor 12 cromozomi SCT.
Utilizând o combinație de suport pentru homologia proteinelor vegetale de referință și secvențierea transcriptomului derivat din diferite țesuturi (figura suplimentară 1c și tabelul 2) și predicția ab initio a genelor, au fost adnotate 27.899 de modele de gene codificatoare de proteine cu ajutorul pipeline-ului MAKER218 (tabelul suplimentar 1). Dintre acestea, s-a constatat că 93,7 % au fost omoloage cu proteine din baza de date TrEMBL, iar 50 % au putut fi atribuiți termeni din Gene Ontology utilizând eggNOG-mapper19. Proteomul a fost estimat ca fiind complet în proporție de cel puțin 89% pe baza evaluării BUSCO20 (benchmarking universal single-copy orthologs), ceea ce este comparabil cu alte specii de plante secvențiate (tabelul suplimentar 1). Gruparea Orthofinder21 a modelelor de gene SCT cu cele din 12 genomuri diverse de plante de sămânță a produs 20 658 de grupuri ortologe (tabelul suplimentar 3). 24 148 de gene SCT (86,56%) au făcut parte din grupuri ortologe cu ortologi din cel puțin o altă specie de plante. 3.744 de modele de gene nu erau ortologe cu altele și doar 210 gene făceau parte din cele 48 de grupuri ortologe specifice SCT. În ansamblu, ei sugerează că diversificarea fenotipică la magnoliide poate fi alimentată de nașterea de novo a genelor specifice speciilor și de extinderea familiilor de gene existente.
Caracterizarea genomului
Am identificat 3.950.027 de situri heterozigote bialegale în genomul SCT, corespunzând unei heterozigozități medii de 0,54% (un polimorfism heterozigot (SNP) de un singur nucleotid heterozigot (SNP) la 185 bp). Frecvențele alelelor alternative (non-referință) la aceste situri au avut un vârf major în jurul valorii de 50 %, în concordanță cu faptul că SCT este diploid, fără dovezi de aneuploidie recentă (Fig. suplimentară 4). Distribuția spațială a siturilor heterozigote a fost foarte variabilă, 23,9 % din genom prezentând mai puțin de 1 locus SNP pe kb, comparativ cu 10 % din genom cu cel puțin 12,6 loci SNP pe kb. Rutele de regiuni de homozigozitate au părut a fi distribuite aleatoriu pe cromozomii SCT, atingând un maxim de 20,2 Mb în schela 11 (Fig. 1a). Astfel de serii lungi de regiuni de homozigozitate au o acoperire de secvență egală cu cea a restului genomului (Fig. Suplimentară 5) și ar putea fi asociate cu măturile selective, înrudirea sau blocaje recente ale populației. S-a constatat că genele localizate în aceste regiuni de homozigozitate au fost îmbogățite în procesul de biosinteză a ligninei și în metabolismul galactozei (tabelul suplimentar 4), ceea ce sugerează anumite roluri potențiale în formarea complexelor lignină-carbohidrați22. Analiza coalescentă secvențială secvențială markoviană în perechi23 (PSMC) bazată pe densitățile SNP heterozigote a implicat o reducere continuă a dimensiunii efective a populației în ultimii 9 milioane de ani (Fig. 1b), cu o posibilă gâtuire care coincide cu schimbarea climatică de la mijlocul Pleistocenului de acum 0,9 milioane de ani (Ma). Astfel de modele pot reflecta o istorie complexă a populației de SCT asociată cu istoria geologică a Taiwanului, inclusiv ridicarea și formarea insulei în Miocenul târziu (9 Ma), urmată de formarea munților de 5-6 Ma, respectiv24.
Elementele transpozabile și repetițiile interspersate au reprezentat 48% din ansamblul genomului (tabelul suplimentar 5). Majoritatea elementelor transpozabile au aparținut retrotranspozonilor cu repetiție terminală lungă (LTR) (25,53%), urmați de elementele transpozabile ADN (12,67%). Dintre LTR-uri, 40,75% și 23,88% retrotranspozoni au aparținut Ty3/Gypsy și, respectiv, Ty1/Copia (tabelul suplimentar 5). Filogenia domeniului transcriptazei inverse a arătat că majoritatea exemplarelor Ty3/Gypsy au format o cladă distinctă (20 092 de exemplare), probabil ca urmare a expansiunii și proliferării recente, în timp ce elementele Ty1/Copia au fost grupate în două clade surori (7 229 și 2 950 de exemplare) (Fig. Suplimentară 6). Cu excepția a două eșafodaje, atât elementele transpozabile Ty3/Gypsy, cât și Ty1/Copia LTR au fost grupate în centrele pericentromerice ale celor mai mari 12 eșafodaje (Fig. 1c și Fig. Suplimentară 7). În plus, regiunile îmbogățite cu LTR (definite de 100 kb cu un exces de 50% de elemente transpozabile din clasa LTR) au avut în medie o acoperire cu 35% mai mare decât restul genomului (Fig. 1c și Fig. 8 suplimentară), ceea ce sugerează că aceste repetări au fost colapsate în asamblare și este posibil să fi contribuit la diferențele în ceea ce privește estimările privind dimensiunea genomului prin citometrie de flux și k-mer. Conținutul de secvențe codificatoare al SCT este similar cu cel al altor genomuri de angiosperme incluse în analizele noastre (tabelul suplimentar 1), în timp ce intronii sunt ușor mai lungi în SCT datorită unei densități mai mari de elemente transpozabile (P < 0,001, testul Wilcoxon rank-sum; Fig. suplimentară 1). 9).
Așa cum a fost descris în cazul altor genomuri de plante25, schelele la nivel de cromozom ale SCT prezintă o densitate scăzută de gene codificatoare de proteine și o densitate ridicată de elemente transpozabile în centrul cromozomilor și o densitate crescută de gene spre capetele cromozomilor (Fig. 1c). Am identificat clustere ale unui heptamer de subtelomeri putativ, TTTAGGGG, care se extinde până la 2 547 de copii, care implică repetări telomerice la plante26 (tabelul suplimentar 6). În plus, au fost descoperite 687 kb de secvențe asemănătoare ADN-ului plastidic nuclear (NUPTs), cu o medie de aproximativ 202,8 pb (Tabelul suplimentar 7). NUPT-urile SCT au fost dominate în mod covârșitor de fragmente scurte, 96% dintre NUPT-urile identificate fiind mai mici de 500 bp (tabelul suplimentar 8). Cel mai lung NUPT are o lungime de ~20 kb și este sintenic cu o identitate de 99,7% cu o porțiune din plastomul SCT care conține șapte gene codificatoare de proteine și cinci gene de ARNt (Fig. Suplimentară 10).
Plasarea filogenomică a C. kanehirae soră cu eudățioasele
Pentru a rezolva dezbaterea de lungă durată cu privire la plasarea filogenetică a magnoliidelor în raport cu alte neamuri majore de plante cu flori, am construit un arbore filogenetic bazat pe 211 seturi de orthologi cu un singur exemplar strict (adică unul și numai un singur omolog în toate speciile) identificate prin circumscrierea familiei de gene OrthoFinder21 a tuturor modelelor de gene din genomul SCT și din alte 12 genomuri de plante cu semințe (a se vedea Metode). A fost recuperat un singur arbore al speciilor prin analiza de maximă verosimilitate27 a unei supramatrice concatenate a alinierilor de gene cu o singură copie și prin analiza bazată pe coalescență folosind cei 211 arbori de gene28 (Fig. 2 și Fig. suplimentară 11). SCT, care reprezintă neamul magnoliidelor, a fost plasat ca soră cu clada eudicotului (Fig. 2). Această topologie a rămas robustă atunci când am inclus un set de date transcriptomice ale unui număr suplimentar de 22 de specii de ordinul magnoliidelor din inițiativa 1 000 de plante29 (1KP), deși s-a obținut un sprijin bootstrap mai scăzut (Fig. suplimentară 12). Utilizând MCMCtree30 cu calibrări fosile, am calculat un interval de încredere de 95 % pentru timpul de divergență dintre magnoliide și eudicotă ca fiind de 136,0-209,4 Ma (Fig. 2), care se suprapune cu alte două estimări recente (114,8-164,1 Ma31 și 118,9-149,9 Ma32).
Analiză de sintenie/duplicare a întregului genom
Investigații anterioare ale datelor privind etichetele de secvență exprimată au dedus o duplicare la nivelul întregului genom în cadrul magnoliidelor înainte de divergența dintre Magnoliales și Laurales10, dar testarea pe bază de sintenie a acestei ipoteze nu a fost posibilă fără un genom de magnoliide asamblat. În total, au fost identificate 16 498 de perechi de gene în 992 de blocuri sintenice care cuprind 72,7% din ansamblul genomului SCT. Dintre aceste blocuri sintenice intragenomice, 72,3% s-au dovedit a fi sintenice în mai multe locații de pe genom, sugerând că în strămoșii SCT au avut loc mai mult de o duplicare a întregului genom (WGD) (Fig. 3a). Două runde de WGD străvechi au fost implicate de sintenia extinsă între perechile de regiuni cromozomiale și de împerecherea semnificativă, dar mai puțin sintenică, a fiecărei regiuni cu două segmente genomice suplimentare (Fig. suplimentară 13). Blocurile de sintenie ale celor mai mari 12 schele de SCT au fost atribuite la cinci clustere care pot corespunde cromozomilor ancestrali pre-WGD (Fig. 3a, Fig. suplimentară 13 și Notă suplimentară).
Amborella trichopoda este singura specie care reprezintă descendența soră cu toate celelalte angiosperme existente și nu are nicio dovadă de WGD de la divergența de la ultimul strămoș comun al liniilor de plante cu flori existente33. Pentru a confirma faptul că au avut loc două runde de WGD în strămoșii SCT după divergența liniilor care au condus la SCT și A. trichopoda, am evaluat sintenia dintre cele două genomuri. În concordanță cu ipoteza noastră, unul până la patru segmente din genomul SCT au fost aliniate la o singură regiune din genomul A. trichopoda (Fig. 3b și Fig. suplimentară 14).
Pentru a deduce cu mai multă precizie calendarul celor două runde de WGD evidente în genomul SCT, au fost estimate distribuțiile intragenomice și interspecifice ale omologilor Ks (substituții sinonime pe site sinonim). Dublurile intragenomice SCT au prezentat două vârfuri în jurul valorii de 0,46 și 0,76 (Fig. 4a), în concordanță cu cele două evenimente WGD. Pe baza acestor două vârfuri, am putut deduce evoluția cariotipului prin organizarea blocurilor de sintenie grupate mai departe în patru grupuri care se presupune că provin de la unul dintre cei cinci cromozomi pre-WGD (Fig. Suplimentară 15). Comparația dintre Aquilegia coerulea (Ranunculales, un neam înfrățit cu toate celelalte eudățioase existente33) și orthologii SCT a evidențiat un vârf proeminent în jurul valorii de Ks = 1,41 (Fig. 4a), în timp ce dublul intragenomic Aquilegia a fost în jurul valorii de Ks = 1, implicând WGD-uri independente în urma divergenței neamurilor care au condus la SCT și Aquilegia. Disponibilitatea transcriptomului a 17 Laurales + Magnoliales din 1KP29 ne-a permis să testăm momentul presupus al WGD-urilor evidente în genomul SCT8. Distribuția Ks a cinci din cele șase specii disponibile din Lauraceae a evidențiat două vârfuri (Fig. 4b și Fig. Suplimentară 16), așa cum s-a observat în distribuția Ks a SCT (Fig. 4a) și care corespunde la două inferențe bazate pe sintenie ale WGD-urilor în strămoșii SCT (Fig. 3 și Fig. Suplimentară 15). Un singur vârf Ks a fost observat în restul speciilor Laurales și Magnoliales, ceea ce sugerează că în strămoșii acestor specii a avut loc un singur eveniment WGD (figurile suplimentare 17 și 18). Vârful Ks observat în datele Aquilegia este probabil atribuibil WGD în cadrul Ranunculales mult după divergența dintre eudicote și magnoliide (Fig. 4a).
Este demn de remarcat faptul că arborele genelor TPS a rezolvat cladele de gene TPS specifice Lauraceelor în cadrul subfamiliilor de gene TPS-a, TPS-b, TPS-f și TPS-g (Figurile suplimentare 23, 24, 27 și 28). Acest model de duplicare a genelor TPS într-un strămoș comun al Persea și Cinnamomum și de păstrare ulterioară poate indica o subfuncționalizare sau nefuncționalizare a genelor TPS duplicate în cadrul Lauraceae. În cadrul analizelor a fost identificată, de asemenea, o subcladă specifică magnoliidelor în subfamilia TPS-a, care include mai multe gene TPS de magnoliide cu funcții caracterizate (Fig. suplimentară 23). Într-adevăr, am detectat o selecție pozitivă în subclasele TPS-f -I și -II specifice Lauraceelor, ceea ce implică o divergență funcțională (tabelul suplimentar 13). Împreună, aceste date indică o diversificare din ce în ce mai mare a genelor TPS ale magnoliidelor, atât înainte, cât și după originea Lauraceae.
CkGenele TPS nu sunt distribuite uniform pe cromozomi (tabelul suplimentar 12), iar gruparea membrilor din subfamiliile individuale a fost observată ca duplicate în tandem (figura suplimentară 29). Șaptezeci și șase de gene TPS au fost observate în cele mai mari 12 schele de SCT. Dintre acestea, 60,5 % (46 de copii) aparținând unor subfamilii diferite au fost găsite în regiunea de 0,5-15 Mb și 22,0-24,5 Mb din schelele 7 și, respectiv, 10 (Fig. suplimentară 29). Eșafodajul 7 conține 29 de gene CkTPS aparținând mai multor subfamilii, inclusiv toate cele opt CkTPS-a, 12 CkTPS-b, cinci CkTPS-e și trei CkTPS-f (Fig. Suplimentară 29). În schimb, doar doi membri ai CkTPS-c rezidă în schela 1. Douăzeci și patru de gene CkTPS sunt localizate în alte schele mai mici, dintre care 22 codifică subfamilia TPS-b (figura suplimentară 24). Unele dintre aceste subfamilii localizate pe schelele 7 și 10 se află în apropierea fizică una de cealaltă (figura suplimentară 29). De exemplu, 3 din 11 membri ai subfamiliei TPS-b-Lau III au fost localizați adiacent la 4 din 11 membri ai subfamiliei TPS-b-Lau V (Fig. Suplimentară 29), în timp ce alți membri ai subfamiliei nu au fost găsiți în regiuni sintenice corespunzătoare, ci în altă parte în genom (Fig. Suplimentară 30). Genele care aparțin acestui grup nu au fost grupate împreună în filogenia subfamiliei lor corespunzătoare (Fig. suplimentară 30), sugerând că aranjamentul lor ar fi putut apărea mai recent decât ultimul eveniment WGD.
.