Genomul puternic al arborelui de camfor umple lacunele în înțelegerea evoluției genomului plantelor cu flori

Asamblarea și adnotarea C. kanehirae

SCT este diploid (2n = 24; Fig. Suplimentară 1a) cu o dimensiune estimată a genomului de 823,7 ± 58,2 Mb/1 C (Fig. Suplimentară 1b și 2). Am produs un ansamblu derivat exclusiv din 85× PacBio long reads (read N50 = 11,1 kb; contig N50 = 0,9 Mb) care se întinde pe 728,3 Mb. Secvențele consensuale ale ansamblului au fost corectate cu ajutorul a 141× lecturi Illumina și au fost în continuare structurate cu 207× cromatină reconstituită „Chicago” și 204× lecturi de tip Hi-C cu perechi de citiri utilizând conducta HiRise (figura suplimentară 3). Un ansamblu final integrat de 730,7 Mb a fost produs în 2 153 de schele, cuprinzând 91,3 % din dimensiunea estimată a genomului prin citometrie de flux. N50 final al schelei finale a fost de 50,4 Mb, cu mai mult de 90% în 12 pseudomolecule (tabelul suplimentar 1), care se presupune că corespund celor 12 cromozomi SCT.

Utilizând o combinație de suport pentru homologia proteinelor vegetale de referință și secvențierea transcriptomului derivat din diferite țesuturi (figura suplimentară 1c și tabelul 2) și predicția ab initio a genelor, au fost adnotate 27.899 de modele de gene codificatoare de proteine cu ajutorul pipeline-ului MAKER218 (tabelul suplimentar 1). Dintre acestea, s-a constatat că 93,7 % au fost omoloage cu proteine din baza de date TrEMBL, iar 50 % au putut fi atribuiți termeni din Gene Ontology utilizând eggNOG-mapper19. Proteomul a fost estimat ca fiind complet în proporție de cel puțin 89% pe baza evaluării BUSCO20 (benchmarking universal single-copy orthologs), ceea ce este comparabil cu alte specii de plante secvențiate (tabelul suplimentar 1). Gruparea Orthofinder21 a modelelor de gene SCT cu cele din 12 genomuri diverse de plante de sămânță a produs 20 658 de grupuri ortologe (tabelul suplimentar 3). 24 148 de gene SCT (86,56%) au făcut parte din grupuri ortologe cu ortologi din cel puțin o altă specie de plante. 3.744 de modele de gene nu erau ortologe cu altele și doar 210 gene făceau parte din cele 48 de grupuri ortologe specifice SCT. În ansamblu, ei sugerează că diversificarea fenotipică la magnoliide poate fi alimentată de nașterea de novo a genelor specifice speciilor și de extinderea familiilor de gene existente.

Caracterizarea genomului

Am identificat 3.950.027 de situri heterozigote bialegale în genomul SCT, corespunzând unei heterozigozități medii de 0,54% (un polimorfism heterozigot (SNP) de un singur nucleotid heterozigot (SNP) la 185 bp). Frecvențele alelelor alternative (non-referință) la aceste situri au avut un vârf major în jurul valorii de 50 %, în concordanță cu faptul că SCT este diploid, fără dovezi de aneuploidie recentă (Fig. suplimentară 4). Distribuția spațială a siturilor heterozigote a fost foarte variabilă, 23,9 % din genom prezentând mai puțin de 1 locus SNP pe kb, comparativ cu 10 % din genom cu cel puțin 12,6 loci SNP pe kb. Rutele de regiuni de homozigozitate au părut a fi distribuite aleatoriu pe cromozomii SCT, atingând un maxim de 20,2 Mb în schela 11 (Fig. 1a). Astfel de serii lungi de regiuni de homozigozitate au o acoperire de secvență egală cu cea a restului genomului (Fig. Suplimentară 5) și ar putea fi asociate cu măturile selective, înrudirea sau blocaje recente ale populației. S-a constatat că genele localizate în aceste regiuni de homozigozitate au fost îmbogățite în procesul de biosinteză a ligninei și în metabolismul galactozei (tabelul suplimentar 4), ceea ce sugerează anumite roluri potențiale în formarea complexelor lignină-carbohidrați22. Analiza coalescentă secvențială secvențială markoviană în perechi23 (PSMC) bazată pe densitățile SNP heterozigote a implicat o reducere continuă a dimensiunii efective a populației în ultimii 9 milioane de ani (Fig. 1b), cu o posibilă gâtuire care coincide cu schimbarea climatică de la mijlocul Pleistocenului de acum 0,9 milioane de ani (Ma). Astfel de modele pot reflecta o istorie complexă a populației de SCT asociată cu istoria geologică a Taiwanului, inclusiv ridicarea și formarea insulei în Miocenul târziu (9 Ma), urmată de formarea munților de 5-6 Ma, respectiv24.

Fig. 1: Heterozigozitatea genomului SCT.

a, Numărul de SNP-uri bialelice heterozigote bialelice pe ferestre de 100-kb care nu se suprapun este trasat de-a lungul celor mai mari 12 eșantioane. Au fost excluse indelurile. b, Istoricul dimensiunii efective a populației a fost dedus cu ajutorul metodei PSMC. Au fost efectuate o sută de bootstrap-uri, iar marginile sunt reprezentate cu roșu deschis. c, Pentru fiecare fereastră de 100-kb care nu se suprapune, este prezentată distribuția de sus în jos: densitatea genelor (procentul de nucleotide cu model prezis), transcriptomul (procentul de nucleotide cu dovezi de cartografiere a transcriptomului) și trei clase diferite de secvențe repetitive (procentul de nucleotide cu adnotare a elementelor transpozabile). Litera T roșie denotă prezența unui grup de repetiții telomerice la capătul scheletului. LINE, long interspersed nuclear element.

Elementele transpozabile și repetițiile interspersate au reprezentat 48% din ansamblul genomului (tabelul suplimentar 5). Majoritatea elementelor transpozabile au aparținut retrotranspozonilor cu repetiție terminală lungă (LTR) (25,53%), urmați de elementele transpozabile ADN (12,67%). Dintre LTR-uri, 40,75% și 23,88% retrotranspozoni au aparținut Ty3/Gypsy și, respectiv, Ty1/Copia (tabelul suplimentar 5). Filogenia domeniului transcriptazei inverse a arătat că majoritatea exemplarelor Ty3/Gypsy au format o cladă distinctă (20 092 de exemplare), probabil ca urmare a expansiunii și proliferării recente, în timp ce elementele Ty1/Copia au fost grupate în două clade surori (7 229 și 2 950 de exemplare) (Fig. Suplimentară 6). Cu excepția a două eșafodaje, atât elementele transpozabile Ty3/Gypsy, cât și Ty1/Copia LTR au fost grupate în centrele pericentromerice ale celor mai mari 12 eșafodaje (Fig. 1c și Fig. Suplimentară 7). În plus, regiunile îmbogățite cu LTR (definite de 100 kb cu un exces de 50% de elemente transpozabile din clasa LTR) au avut în medie o acoperire cu 35% mai mare decât restul genomului (Fig. 1c și Fig. 8 suplimentară), ceea ce sugerează că aceste repetări au fost colapsate în asamblare și este posibil să fi contribuit la diferențele în ceea ce privește estimările privind dimensiunea genomului prin citometrie de flux și k-mer. Conținutul de secvențe codificatoare al SCT este similar cu cel al altor genomuri de angiosperme incluse în analizele noastre (tabelul suplimentar 1), în timp ce intronii sunt ușor mai lungi în SCT datorită unei densități mai mari de elemente transpozabile (P < 0,001, testul Wilcoxon rank-sum; Fig. suplimentară 1). 9).

Așa cum a fost descris în cazul altor genomuri de plante25, schelele la nivel de cromozom ale SCT prezintă o densitate scăzută de gene codificatoare de proteine și o densitate ridicată de elemente transpozabile în centrul cromozomilor și o densitate crescută de gene spre capetele cromozomilor (Fig. 1c). Am identificat clustere ale unui heptamer de subtelomeri putativ, TTTAGGGG, care se extinde până la 2 547 de copii, care implică repetări telomerice la plante26 (tabelul suplimentar 6). În plus, au fost descoperite 687 kb de secvențe asemănătoare ADN-ului plastidic nuclear (NUPTs), cu o medie de aproximativ 202,8 pb (Tabelul suplimentar 7). NUPT-urile SCT au fost dominate în mod covârșitor de fragmente scurte, 96% dintre NUPT-urile identificate fiind mai mici de 500 bp (tabelul suplimentar 8). Cel mai lung NUPT are o lungime de ~20 kb și este sintenic cu o identitate de 99,7% cu o porțiune din plastomul SCT care conține șapte gene codificatoare de proteine și cinci gene de ARNt (Fig. Suplimentară 10).

Plasarea filogenomică a C. kanehirae soră cu eudățioasele

Pentru a rezolva dezbaterea de lungă durată cu privire la plasarea filogenetică a magnoliidelor în raport cu alte neamuri majore de plante cu flori, am construit un arbore filogenetic bazat pe 211 seturi de orthologi cu un singur exemplar strict (adică unul și numai un singur omolog în toate speciile) identificate prin circumscrierea familiei de gene OrthoFinder21 a tuturor modelelor de gene din genomul SCT și din alte 12 genomuri de plante cu semințe (a se vedea Metode). A fost recuperat un singur arbore al speciilor prin analiza de maximă verosimilitate27 a unei supramatrice concatenate a alinierilor de gene cu o singură copie și prin analiza bazată pe coalescență folosind cei 211 arbori de gene28 (Fig. 2 și Fig. suplimentară 11). SCT, care reprezintă neamul magnoliidelor, a fost plasat ca soră cu clada eudicotului (Fig. 2). Această topologie a rămas robustă atunci când am inclus un set de date transcriptomice ale unui număr suplimentar de 22 de specii de ordinul magnoliidelor din inițiativa 1 000 de plante29 (1KP), deși s-a obținut un sprijin bootstrap mai scăzut (Fig. suplimentară 12). Utilizând MCMCtree30 cu calibrări fosile, am calculat un interval de încredere de 95 % pentru timpul de divergență dintre magnoliide și eudicotă ca fiind de 136,0-209,4 Ma (Fig. 2), care se suprapune cu alte două estimări recente (114,8-164,1 Ma31 și 118,9-149,9 Ma32).

Fig. 2: Un arbore al speciilor pe baza a 211 orthologi cu o singură copie de la 13 specii de plante.

Extinderea și contracția familiei de gene sunt notate în numerele de lângă semnele plus și, respectiv, minus. Numerele verzi din paranteze denotă estimări ale timpului de divergență. Suportul bootstrap al tuturor nodurilor a fost de 100, cu excepția cazului în care se specifică altfel.

Analiză de sintenie/duplicare a întregului genom

Investigații anterioare ale datelor privind etichetele de secvență exprimată au dedus o duplicare la nivelul întregului genom în cadrul magnoliidelor înainte de divergența dintre Magnoliales și Laurales10, dar testarea pe bază de sintenie a acestei ipoteze nu a fost posibilă fără un genom de magnoliide asamblat. În total, au fost identificate 16 498 de perechi de gene în 992 de blocuri sintenice care cuprind 72,7% din ansamblul genomului SCT. Dintre aceste blocuri sintenice intragenomice, 72,3% s-au dovedit a fi sintenice în mai multe locații de pe genom, sugerând că în strămoșii SCT au avut loc mai mult de o duplicare a întregului genom (WGD) (Fig. 3a). Două runde de WGD străvechi au fost implicate de sintenia extinsă între perechile de regiuni cromozomiale și de împerecherea semnificativă, dar mai puțin sintenică, a fiecărei regiuni cu două segmente genomice suplimentare (Fig. suplimentară 13). Blocurile de sintenie ale celor mai mari 12 schele de SCT au fost atribuite la cinci clustere care pot corespunde cromozomilor ancestrali pre-WGD (Fig. 3a, Fig. suplimentară 13 și Notă suplimentară).

Fig. 3: Analiza evolutivă a genomului SCT.

a, Reprezentare schematică a relației intragenomice dintre cele 637 de blocuri de sintenie din genomul SCT. Blocurile de sintenie (notate cu blocuri de piersici) au fost atribuite fără ambiguitate în cinci clustere de legătură reprezentând cariotipuri antice și sunt codificate prin culoare. Blocurile purpurii indică blocul de sintenie atribuit în primul grup de legături (a se vedea, de asemenea, Fig. 13 suplimentară). b, Reprezentare schematică a primului grup de legături din cadrul genomului SCT și a relației lor corespunzătoare în A. trichopoda.

Amborella trichopoda este singura specie care reprezintă descendența soră cu toate celelalte angiosperme existente și nu are nicio dovadă de WGD de la divergența de la ultimul strămoș comun al liniilor de plante cu flori existente33. Pentru a confirma faptul că au avut loc două runde de WGD în strămoșii SCT după divergența liniilor care au condus la SCT și A. trichopoda, am evaluat sintenia dintre cele două genomuri. În concordanță cu ipoteza noastră, unul până la patru segmente din genomul SCT au fost aliniate la o singură regiune din genomul A. trichopoda (Fig. 3b și Fig. suplimentară 14).

Pentru a deduce cu mai multă precizie calendarul celor două runde de WGD evidente în genomul SCT, au fost estimate distribuțiile intragenomice și interspecifice ale omologilor Ks (substituții sinonime pe site sinonim). Dublurile intragenomice SCT au prezentat două vârfuri în jurul valorii de 0,46 și 0,76 (Fig. 4a), în concordanță cu cele două evenimente WGD. Pe baza acestor două vârfuri, am putut deduce evoluția cariotipului prin organizarea blocurilor de sintenie grupate mai departe în patru grupuri care se presupune că provin de la unul dintre cei cinci cromozomi pre-WGD (Fig. Suplimentară 15). Comparația dintre Aquilegia coerulea (Ranunculales, un neam înfrățit cu toate celelalte eudățioase existente33) și orthologii SCT a evidențiat un vârf proeminent în jurul valorii de Ks = 1,41 (Fig. 4a), în timp ce dublul intragenomic Aquilegia a fost în jurul valorii de Ks = 1, implicând WGD-uri independente în urma divergenței neamurilor care au condus la SCT și Aquilegia. Disponibilitatea transcriptomului a 17 Laurales + Magnoliales din 1KP29 ne-a permis să testăm momentul presupus al WGD-urilor evidente în genomul SCT8. Distribuția Ks a cinci din cele șase specii disponibile din Lauraceae a evidențiat două vârfuri (Fig. 4b și Fig. Suplimentară 16), așa cum s-a observat în distribuția Ks a SCT (Fig. 4a) și care corespunde la două inferențe bazate pe sintenie ale WGD-urilor în strămoșii SCT (Fig. 3 și Fig. Suplimentară 15). Un singur vârf Ks a fost observat în restul speciilor Laurales și Magnoliales, ceea ce sugerează că în strămoșii acestor specii a avut loc un singur eveniment WGD (figurile suplimentare 17 și 18). Vârful Ks observat în datele Aquilegia este probabil atribuibil WGD în cadrul Ranunculales mult după divergența dintre eudicote și magnoliide (Fig. 4a).

Fig. 4: Diagrame de densitate a substituțiilor sinonime (Ks) din genomul SCT și alte specii de plante.

a, duplicate de orthologue pereche identificate în blocurile de sintenie în cadrul SCT, A. coerulea și între SCT și A. coerulea. b, Ks ale duplicatelor pereche intragenomice ale Lauraceae și Magnoliales din proiectul 1KP29. Liniile punctate indică cele două vârfuri Ks observate în SCT. Liniile maro și gri denotă distribuția Ks a SCT și, respectiv, a altor Lauraceae.

Specializarea proteomului magnoliidelor

Am căutat să identificăm genele și domeniile proteice specifice SCT prin adnotarea domeniilor familiei de proteine (Pfam) și evaluarea distribuției acestora în cele 13 genomuri de plante cu semințe incluse în analizele noastre filogenomice. În concordanță cu observația că au existat foarte puține grupuri ortologe specifice SCT, analiza componentelor principale a conținutului de domenii Pfam a grupat SCT cu monocotiledonate și eudicotiledonate, primele două componente principale separând gimnospermele și A. trichopoda din acest grup (Fig. suplimentară 19a). Au existat suprapuneri considerabile între SCT, speciile de eudicot și monocotiledonate, ceea ce sugerează o diversificare funcțională semnificativă de la separarea acestor trei neamuri. SCT a prezentat, de asemenea, o îmbogățire și o reducere semnificativă a 111 și, respectiv, 34 de domenii proteice în comparație cu alte specii de plante (Fig. suplimentară 19b și Tabelul suplimentar 9). Câștigarea domeniilor proteice a inclus domeniul carboxi-terminal al terpene-sintetazei (TPS) implicat în răspunsurile de apărare și repetițiile bogate în leucină (628 față de 334,4) în eficiența transpirației plantelor34. În mod interesant, am constatat că SCT posedă 21 de copii ale factorului de transcripție EIN3/EIN3-like (EIL), mai mult decât numărul maxim de 17 copii raportat anterior în genomul bananierului (Musa acuminata)35. EIL inițiază un răspuns de semnalizare a etilenei prin activarea factorului de răspuns la etilenă (ERF), despre care am constatat, de asemenea, că este foarte extins în SCT (150 de copii față de o medie de 68,3 copii de la nouă specii raportate în ref. 35; Fig. suplimentară 20). ERF răspunde și modulează pozitiv biosinteza semnalelor fitohormonale, inclusiv a etilenei36. Expresia ERF a fost implicată în modularea pozitivă a dezvoltării plantelor, de la maturarea fructelor35 până la creșterea secundară în formarea lemnului37 , precum și în creșterea rezistenței la factorii abiotici38 sau biotici39. Astfel, expansiunea EIL-urilor în SCT poate stimula ERF, conducând la diverse reglementări ale efectorilor din aval care au ca rezultat trăsături specifice SCT.

Am evaluat în continuare expansiunile și contracțiile grupurilor ortologice în întreaga filogenie a plantelor de semințe (Fig. 2). Evoluția dimensiunii familiei de gene a fost dinamică de-a lungul filogeniei, iar ramura care duce la SCT nu a prezentat un număr semnificativ diferit de expansiuni și contracții. Îmbogățirea termenilor din Gene Ontology a evidențiat fie diferite familii de gene care împart funcții comune, fie familii de gene unice care au suferit expansiuni mari (tabelele suplimentare 10 și 11). De exemplu, membrii extinși ai genelor de rezistență a plantelor (R) se adaugă la „răspuns hipersensibil de tip vegetal” (tabelul suplimentar 10). În schimb, termenii îmbogățiți din Gene Ontology din familiile de gene contractate din ramura SCT (tabelul suplimentar 11) conțin membri ai transportatorilor ABC, ai acidului indol-3-acetic-amido-sintetazei, ai endotransglucozilazei/hidrolazei xiloglucanului și ai proteinei sensibile la auxină, toate acestea făcând parte din „răspunsul la auxină”.

Gene R

Anotarea genomului SCT a inclus 387 de modele de gene R, dintre care 82% aparțin tipurilor NBS-LRR (nucleotide-binding site leucine-rich repeat) sau NBS-LRR de tip coiled-coil. Acest rezultat este în concordanță cu un raport anterior conform căruia LRR este unul dintre cele mai abundente domenii proteice din plante și este foarte probabil ca SCT să fie capabil să recunoască și să lupte împotriva produselor patogene ale genelor de avirulență (Avr)40. Dintre cele 13 genomuri eșantionate, SCT adăpostește cel mai mare număr de gene R dintre plantele necultivate (Fig. suplimentară 21). Arborele filogenetic construit din 2 465 de domenii NBS sugerează, de asemenea, că cladele din cadrul familiei de gene s-au diversificat independent în cadrul eudicoturilor, monocoturilor și magnoliidelor. Este interesant faptul că cele mai diverse clade de gene NBS ale SCT au fost surori cu clade de gene NBS depauperate ale eudicotului (Fig. suplimentară 22).

Familia de gene TPS

Una dintre cele mai izbitoare caracteristici ale genomului SCT este numărul mare de gene TPS (CkTPS). Un total de 101 gene CkTPS au fost prezise și adnotate, cel mai mare număr pentru orice alt genom până în prezent. Prin includerea unui set de date transcriptomice de la alte două specii de magnolide (P. americana și Saruma henryi), analizele filogenetice ale TPS de la 15 specii au plasat genele CkTPS în șase din cele șapte subfamilii de gene TPS care au fost descrise pentru plantele cu semințe41 (Fig. 5, tabelul 1 și figurile suplimentare 23-28). Genele CkTPS plasate în subfamiliile TPS-c (2) și TPS-e (5) codifică probabil sinteze diterpenice, cum ar fi copalil difosfat sintetaza și ent-kaurene sintetaza42. Acestea sunt enzime-cheie care catalizează formarea izoprenoizilor cu 20 de atomi de carbon (denumiți în mod colectiv diterpenoizi; C20s), despre care se credea că sunt specifici pentru eudicot41 și care îndeplinesc funcții primare, cum ar fi reglarea metabolismului primar al plantelor. Restul de 94 de gene CkTPS preconizate codifică probabil monoterpenele cu 10 atomi de carbon (C10), sesquiterpenele cu 15 atomi de carbon (C15) și alte diterpene sintetaze cu 20 de atomi de carbon (C20) (tabelul 1). Cu 25 și, respectiv, 58 de omologi, subfamiliile TPS-a și TPS-b sunt cele mai diverse în SCT, contribuind probabil la producția masivă și mixtă de C15s și C10s volatile43.

Fig. 5: Plasarea filogenetică a celor 101 gene CkTPS.

Arborele filogenetic a fost construit folosind gene TPS putative sau caracterizate din 13 genomuri de plante terestre secvențiate și două magnolide cu date transcriptomice disponibile.

Tabelul 1 Numerele subfamiliilor TPS în cele 13 genomuri și trei transcriptome ale principalelor neamuri de plante cu semințe

Este demn de remarcat faptul că arborele genelor TPS a rezolvat cladele de gene TPS specifice Lauraceelor în cadrul subfamiliilor de gene TPS-a, TPS-b, TPS-f și TPS-g (Figurile suplimentare 23, 24, 27 și 28). Acest model de duplicare a genelor TPS într-un strămoș comun al Persea și Cinnamomum și de păstrare ulterioară poate indica o subfuncționalizare sau nefuncționalizare a genelor TPS duplicate în cadrul Lauraceae. În cadrul analizelor a fost identificată, de asemenea, o subcladă specifică magnoliidelor în subfamilia TPS-a, care include mai multe gene TPS de magnoliide cu funcții caracterizate (Fig. suplimentară 23). Într-adevăr, am detectat o selecție pozitivă în subclasele TPS-f -I și -II specifice Lauraceelor, ceea ce implică o divergență funcțională (tabelul suplimentar 13). Împreună, aceste date indică o diversificare din ce în ce mai mare a genelor TPS ale magnoliidelor, atât înainte, cât și după originea Lauraceae.

CkGenele TPS nu sunt distribuite uniform pe cromozomi (tabelul suplimentar 12), iar gruparea membrilor din subfamiliile individuale a fost observată ca duplicate în tandem (figura suplimentară 29). Șaptezeci și șase de gene TPS au fost observate în cele mai mari 12 schele de SCT. Dintre acestea, 60,5 % (46 de copii) aparținând unor subfamilii diferite au fost găsite în regiunea de 0,5-15 Mb și 22,0-24,5 Mb din schelele 7 și, respectiv, 10 (Fig. suplimentară 29). Eșafodajul 7 conține 29 de gene CkTPS aparținând mai multor subfamilii, inclusiv toate cele opt CkTPS-a, 12 CkTPS-b, cinci CkTPS-e și trei CkTPS-f (Fig. Suplimentară 29). În schimb, doar doi membri ai CkTPS-c rezidă în schela 1. Douăzeci și patru de gene CkTPS sunt localizate în alte schele mai mici, dintre care 22 codifică subfamilia TPS-b (figura suplimentară 24). Unele dintre aceste subfamilii localizate pe schelele 7 și 10 se află în apropierea fizică una de cealaltă (figura suplimentară 29). De exemplu, 3 din 11 membri ai subfamiliei TPS-b-Lau III au fost localizați adiacent la 4 din 11 membri ai subfamiliei TPS-b-Lau V (Fig. Suplimentară 29), în timp ce alți membri ai subfamiliei nu au fost găsiți în regiuni sintenice corespunzătoare, ci în altă parte în genom (Fig. Suplimentară 30). Genele care aparțin acestui grup nu au fost grupate împreună în filogenia subfamiliei lor corespunzătoare (Fig. suplimentară 30), sugerând că aranjamentul lor ar fi putut apărea mai recent decât ultimul eveniment WGD.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.