Assembly and annotation of C. kanehirae
SCT is diploid (2n = 24; Supplementary Fig. 1a) with an estimated genome size of 823.7 ± 58.2 Mb/1 C (Supplementary Figs. 1b and 2). Kizárólag 85× PacBio hosszú leolvasásokból (olvasás N50 = 11,1 kb; kontig N50 = 0,9 Mb) származó, 728,3 Mb kiterjedésű összesítést készítettünk. Az assembly konszenzus szekvenciáit 141× Illumina leolvasással korrigáltuk, majd a HiRise pipeline segítségével 207× “Chicago” rekonstruált kromatinnal és 204× Hi-C párosított végű leolvasással tovább szerkesztettük (3. kiegészítő ábra). A végleges, 730,7 Mb-os integrált összeállítás 2153 scaffoldban készült, amely az áramlási citometriás genom méretbecslés 91,3%-át teszi ki. A végső állványzat N50 értéke 50,4 Mb volt, több mint 90%-ban 12 pszeudomolekulában (1. kiegészítő táblázat), amelyek feltehetően a 12 SCT-kromoszómának felelnek meg.
A különböző szövetekből származó referencia növényi fehérje-homológiatámogatás és transzkriptom-szekvenálás (1c. kiegészítő ábra és 2. táblázat), valamint ab initio génelőrejelzés kombinációjának felhasználásával 27 899 fehérjekódoló génmodell került annotálásra a MAKER2 pipeline18 segítségével (1. kiegészítő táblázat). Ezek 93,7%-a homológnak bizonyult a TrEMBL adatbázisban található fehérjékkel, 50%-ukhoz pedig az eggNOG-mapper19 segítségével Gene Ontology kifejezéseket lehetett rendelni. A proteom a BUSCO20 (benchmarking universal single-copy orthologs) értékelése alapján legalább 89%-ban teljesnek becsültük, ami összehasonlítható más szekvenált növényfajokkal (1. kiegészítő táblázat). Az SCT génmodellek Orthofinder21 klaszterezése 12 különböző vetőnövénygenomból származó modellekkel 20 658 ortológ csoportot eredményezett (3. kiegészítő táblázat). 24 148 SCT gén (86,56%) volt része ortológ csoportoknak legalább egy másik növényfaj ortológjaival. 3744 génmodell nem volt ortológ más fajokkal, és csak 210 gén volt része a 48 SCT-specifikus ortológ csoportnak. Összességében arra utalnak, hogy a magnóliafélék fenotípusos diverzifikációját fajspecifikus gének de novo születése és a meglévő géncsaládok bővülése táplálhatja.
Genomkarakterizáció
Az SCT genomban 3 950 027 biallelikus heterozigóta helyet azonosítottunk, ami 0,54%-os átlagos heterozigozitásnak felel meg (185 bp-onként egy heterozigóta egynukleotid-polimorfizmus (SNP)). Az alternatív (nem referencia) allélfrekvenciák ezeken a helyeken 50% körüli csúcsot mutattak, ami összhangban van azzal a ténnyel, hogy az SCT diploid, és nincs bizonyíték friss aneuploidiára (4. kiegészítő ábra). A heterozigóta helyek térbeli eloszlása igen változatos volt: a genom 23,9%-a mutatott kevesebb mint 1 SNP-lokuszt kb-nként, míg a genom 10%-a legalább 12,6 SNP-lokuszt kb-nként. Úgy tűnt, hogy a homozigóta régiók véletlenszerűen oszlanak el az SCT kromoszómákon, és a 11. szkafoldban érték el a 20,2 Mb-os maximumot (1a. ábra). Az ilyen hosszú homozigozitási régiók azonos szekvencia-lefedettséggel rendelkeznek, mint a genom többi része (5. kiegészítő ábra), és összefüggésbe hozhatók szelektív söpréssel, beltenyésztéssel vagy a közelmúltban bekövetkezett populációs szűkületekkel. Az ilyen homozigóta régiókban található gének a lignin bioszintetikus folyamatában és a galaktóz anyagcserében gazdagodtak (4. kiegészítő táblázat), ami a lignin-szénhidrát komplexek kialakításában betöltött lehetséges szerepre utal22. A heterozigóta SNP-sűrűségeken alapuló páronkénti szekvenciális Markov-koaleszcencia23 (PSMC) elemzés a tényleges populációméret folyamatos csökkenését jelezte az elmúlt 9 millió év során (1b. ábra), egy lehetséges szűk keresztmetszettel, amely egybeesett a 0,9 millió évvel ezelőtti (Ma) pleisztocén közepi klímaváltozással. Ezek a minták az SCT összetett populációtörténetét tükrözhetik, amely Tajvan geológiai történetéhez kapcsolódik, beleértve a sziget felemelkedését és kialakulását a késő miocénben (9 Ma), majd a hegységépítést 5-6 Ma-ban24.
A transzponálható elemek és az interspirált ismétlődések a genom-összeállítás 48%-át tették ki (5. kiegészítő táblázat). A transzponálható elemek többsége a hosszú terminális ismétlődésű (LTR) retrotranszpozonokhoz tartozott (25,53%), ezt követték a DNS-transzponálható elemek (12,67%). Az LTR-ek közül a retrotranszpozonok 40,75%-a a Ty3/Gypsy és 23,88%-a a Ty1/Copia retrotranszpozonokhoz tartozott (5. kiegészítő táblázat). A reverz transzkriptáz domén filogeniája azt mutatta, hogy a Ty3/Gypsy kópiák többsége egy különálló kládot alkotott (20 092 kópia), feltehetően a közelmúltbeli terjeszkedés és szaporodás eredményeként, míg a Ty1/Copia elemek két testvérkládba csoportosultak (7 229 és 2 950 kópia) (6. kiegészítő ábra). Két scaffold kivételével mind a Ty3/Gypsy, mind a Ty1/Copia LTR transzponálható elemek a 12 legnagyobb scaffold pericentromerikus centrumában csoportosultak (1c. ábra és 7. kiegészítő ábra). Ezenkívül az LTR-ekkel gazdagított régiók (amelyeket olyan 100 kb-ok határoztak meg, amelyek több mint 50%-ban tartalmaznak LTR osztályú transzponálható elemeket) átlagosan 35%-kal nagyobb lefedettséggel rendelkeztek, mint a genom többi része (1c. ábra és 8. kiegészítő ábra), ami arra utal, hogy ezek az ismétlődések összeomlottak az összeállítás során, és hozzájárulhattak az áramlási citometriás és k-mer genom méretbecslések közötti különbségekhez. Az SCT kódoló szekvencia-tartalma hasonló az elemzéseinkben szereplő többi angiosperm genomhoz (1. kiegészítő táblázat), míg az intronok a transzponálható elemek nagyobb sűrűsége miatt kissé hosszabbak az SCT-ben (P < 0,001, Wilcoxon rank-sum teszt; kiegészítő ábra.
Amint azt más növényi genomok esetében is leírták25 , az SCT kromoszómaszintű vázai alacsony fehérjekódoló génsűrűséget és magas transzponálható elemsűrűséget mutatnak a kromoszómák közepén, és megnövekedett génsűrűséget a kromoszóma vége felé (1c. ábra). Egy feltételezett szubtelomer heptamer, TTTAGGG klasztereket azonosítottunk, amelyek akár 2547 kópiáig is elnyúlnak, és amelyek telomerikus ismétlődésekre utalnak a növényekben26 (6. kiegészítő táblázat). Ezenkívül 687 kb nukleáris plasztid DNS-szerű szekvenciát (NUPT) fedeztünk fel, átlagosan 202,8 bp körüli értékkel (7. kiegészítő táblázat). Az SCT NUPT-ket túlnyomórészt rövid fragmentumok uralták, az azonosított NUPT-k 96%-a 500 bp-nál kisebb volt (8. kiegészítő táblázat). A leghosszabb NUPT ~20 kb hosszú, és 99,7%-os azonossággal szintenikus az SCT-plasztom egy olyan részével, amely hét fehérjekódoló és öt tRNS-gént tartalmaz (10. kiegészítő ábra).
Phylogenomic placement of C. kanehirae testvére az eudicotáknak
A magnoliidáknak a többi fő virágosnövény-vonalhoz viszonyított filogenetikai elhelyezése körüli régóta tartó vita feloldása érdekében 211 szigorúan egy példányos ortológ készlet (azaz minden fajban egy és csak egy homológ) alapján készítettünk filogenetikai fát, amelyet az SCT és 12 másik magoncnövény genomjából származó összes génmodell OrthoFinder21 géncsalád körbeírásával azonosítottunk (lásd Módszerek). Egyetlen fajfát állítottunk helyre az egypéldányos génillesztések konkatenált szupermátrixának maximális valószínűségű elemzésével27 és a 211 génfát28 felhasználó koaleszcencia-alapú elemzéssel (2. ábra és 11. kiegészítő ábra). A magnóliafélék vonalát képviselő SCT-t az eudicot klád testvéreként helyezték el (2. ábra). Ez a topológia robusztus maradt, amikor bevontuk az 1000 növény kezdeményezésből29 (1KP) származó további 22 magnoliida rendi faj transzkriptom-adatsorát, bár alacsonyabb bootstrap-támogatást kaptunk (12. kiegészítő ábra). A fosszilis kalibrációkat tartalmazó MCMCtree30 segítségével 95%-os konfidenciaintervallumot számítottunk a magnoliidák és az eudicoták közötti divergencia idejére: 136,0-209,4 Ma (2. ábra), amely átfedésben van két másik közelmúltbeli becsléssel (114,8-164,1 Ma31 és 118,9-149,9 Ma32).
Szinténiaelemzés/az egész genom duplikációja
A kifejezett szekvenciacímkék adatainak korábbi vizsgálatai a magnoliidákon belül a Magnoliales és a Laurales10 divergenciája előtt genomszintű duplikációra következtettek, de e hipotézis szinténiaalapú tesztelése nem volt lehetséges egy összeállított magnoliida genom nélkül. Összesen 16 498 génpárt azonosítottak 992 szüntenikus blokkban, amelyek az SCT genom összeállításának 72,7%-át teszik ki. Ezen intragenomiális szintetikus blokkok 72,3%-a több helyen is szintetikusnak bizonyult a genomban, ami arra utal, hogy egynél több teljes genom-duplikáció (WGD) történt az SCT őseiben (3a. ábra). Az ősi WGD két fordulójára utalt a kromoszómarégió-párok közötti kiterjedt szüntenia és az egyes régiók jelentős, de kevésbé szüntenikus párosítása két további genomszegmenssel (13. kiegészítő ábra). Az SCT 12 legnagyobb scaffoldjának szünteniablokkjait öt klaszterhez rendeltük, amelyek a WGD előtti őskromoszómáknak felelhetnek meg (3a. ábra, 13. kiegészítő ábra és kiegészítő jegyzet).
Amborella trichopoda az egyetlen faj, amely az összes többi ma élő ángospermium testvérvonalát képviseli, és nincs bizonyíték a WGD-re az utolsó közös őstől való eltérés óta a ma élő virágos növények vonalától33. Annak megerősítése érdekében, hogy az SCT és az A. trichopoda kialakulásához vezető törzsek divergenciája után két WGD forduló zajlott le az SCT ősében, megvizsgáltuk a két genom közötti szinteniát. Hipotézisünkkel összhangban az SCT genom egy-négy szegmensét az A. trichopoda genom egyetlen régiójához igazítottuk (3b. ábra és 14. kiegészítő ábra).
Az SCT genomban nyilvánvaló két WGD forduló időzítésének pontosabb megállapítása érdekében megbecsültük az intragenomikus és a fajok közötti homológ Ks (szinonim helyenkénti szinonim helyettesítések) eloszlásokat. Az SCT intragenomikus duplikátumai két csúcsot mutattak 0,46 és 0,76 körül (4a. ábra), ami egybeesik a két WGD-eseménnyel. E két csúcs alapján a kariotípus evolúciójára úgy tudtunk következtetni, hogy a klaszterezett szinteniablokkokat tovább szerveztük négy csoportba, amelyek feltehetően a WGD előtti öt kromoszóma egyikéből származnak (15. kiegészítő ábra). Az Aquilegia coerulea (Ranunculales, az összes többi ma élő eudicotával33 testvérvonal) és az SCT ortológjai közötti összehasonlítás egy kiemelkedő csúcsot mutatott Ks = 1,41 körül (4a. ábra), míg az Aquilegia intragenomikus duplikátuma Ks = 1 körül volt, ami független WGD-ket feltételez az SCT-hez és az Aquilegia-hoz vezető vonal divergenciáját követően. Az 1KP29 17 Laurales + Magnoliales transzkriptomjának rendelkezésre állása lehetővé tette számunkra, hogy teszteljük az SCT genomban nyilvánvaló WGD-k feltételezett időzítését8. A rendelkezésre álló hat Lauraceae fajból öt Ks-eloszlása két csúcsot mutatott (4b. ábra és 16. kiegészítő ábra), ahogyan az SCT Ks-eloszlásában is látható volt (4a. ábra), és ami megfelel az SCT ősi WGD-k két szintenia-alapú következtetésének (3. ábra és 15. kiegészítő ábra). A többi Laurales és Magnoliales fajban csak egy Ks-csúcs volt megfigyelhető, ami arra utal, hogy csak egy WGD-esemény történt e fajok ősiségében (17. és 18. kiegészítő ábra). Az Aquilegia adataiban látható Ks-csúcs valószínűleg a Ranunculales fajokon belüli WGD-nek tulajdonítható, jóval az eudicoták és a magnoliidák divergenciája után (4a. ábra).
A magnoliideák proteomjának specializációja
A fehérjecsalád (Pfam) domének annotálásával és a filogenomikai elemzéseinkben szereplő 13 magnövény genomban való eloszlásuk felmérésével igyekeztünk azonosítani az SCT-re jellemző géneket és fehérjetartományokat. Összhangban azzal a megfigyeléssel, hogy nagyon kevés SCT-specifikus ortológ csoport volt, a Pfam-domén tartalom főkomponens-elemzése az SCT-t a monokoták és az eudikoták közé csoportosította, az első két főkomponens pedig a gymnospermákat és az A. trichopodát választotta el ettől a csoporttól (19a. kiegészítő ábra). Jelentős átfedések voltak az SCT, az eudicot és az egyszikű fajok között, ami jelentős funkcionális diverzifikációra utal e három vonal szétválása óta. Az SCT 111, illetve 34 fehérjedomén jelentős gazdagodását és csökkenését mutatta a többi növényfajhoz képest (19b. kiegészítő ábra és 9. kiegészítő táblázat). A fehérjetartományok gyarapodása magában foglalta a védekezési válaszokban részt vevő terpénszintáz (TPS) karboxi-terminális doménjét és a növényi transzspirációs hatékonyságban szerepet játszó leucinban gazdag ismétlődéseket (628 versus 334,4)34. Érdekes módon azt találtuk, hogy az SCT 21 példányban rendelkezik az EIN3/EIN3-szerű (EIL) transzkripciós faktorral, ami több, mint a banán genomjában (Musa acuminata) korábban jelentett maximális 17 példány35. Az EIL-ek etilén-szignálválaszt indítanak el az etilénválasz faktor (ERF) aktiválásával, amelyről szintén megállapítottuk, hogy az SCT-ben nagymértékben kiterjedt (150 kópia, szemben a hivatkozásban közölt kilenc faj átlagos 68,3 kópiájával). 35; 20. kiegészítő ábra). Az ERF reagál és pozitívan modulálja a fitohormonális jelek, köztük az etilén bioszintézisét36. Az ERF expressziója szerepet játszik a növényi fejlődés pozitív modulációjában a gyümölcséréstől35 a másodlagos növekedésig a faképződésben37 , valamint az abiotikus38 vagy biotikus39 tényezőkkel szembeni fokozott ellenálló képességben. Így az EIL-ek bővülése az SCT-ben stimulálhatja az ERF-et, ami a downstream effektorok különböző szabályozásához vezet, ami az SCT-re jellemző tulajdonságokat eredményez.
A következőkben az ortológ csoportok bővülését és összehúzódását vizsgáltuk a vetőnövények filogeniájában (2. ábra). A géncsaládok méretének evolúciója dinamikus volt az egész filogeniában, és az SCT-hez vezető ág nem mutatott szignifikánsan eltérő számú bővülést és összehúzódást. A Gene Ontology kifejezésekkel való gazdagodás vagy különböző géncsaládokat mutatott ki, amelyek közös funkciókat osztottak meg, vagy egyetlen géncsaládot, amely nagy kiterjedésen ment keresztül (10. és 11. kiegészítő táblázat). Például a növényi rezisztencia (R) gének kibővített tagjai összeadódtak a “növényi típusú hiperszenzitív válasz” kifejezéssel (10. kiegészítő táblázat). Ezzel szemben az SCT-ág összehúzódó géncsaládjainak (11. kiegészítő táblázat) feldúsult Gene Ontology-terminusai az ABC-transzporterek, az indol-3-ecetsav-amido-szintetáz, a xiloglükán-endotranszglükoziláz/hidroláz és az auxinra reagáló fehérje tagjait tartalmazzák, amelyek mind az “auxinra adott válasz” részét képezik.
R gének
Az SCT genom annotációja 387 R génmodellt tartalmazott, amelyek 82%-a nukleotid-kötőhelyes leucinban gazdag ismétlődő (NBS-LRR) vagy tekercselt tekercsű NBS-LRR típusokhoz tartozik. Ez az eredmény összhangban van egy korábbi jelentéssel, amely szerint az LRR az egyik leggyakoribb fehérjedomén a növényekben, és nagyon valószínű, hogy az SCT képes felismerni és leküzdeni a patogének avirulencia (Avr) génjeinek termékeit40. A mintavételezett 13 genom közül az SCT-ben található a legtöbb R gén a nem termesztett növények közül (21. kiegészítő ábra). A 2465 NBS-doménből konstruált filogenetikai fa azt is jelzi, hogy a géncsaládon belüli kládok egymástól függetlenül diverzifikálódtak az eudicotákon, monocotákon és magnóliaféléken belül. Érdekes módon a legdiverzebb SCT NBS-génkládok testvérek voltak a depauperált eudicot NBS-génkládokkal (22. kiegészítő ábra).
TPS géncsalád
Az SCT genom egyik legszembetűnőbb jellemzője a TPS-gének (CkTPS) nagy száma. Összesen 101 CkTPS gént jósoltak és annotáltak, ami az eddigi legnagyobb szám bármely más genom esetében. Két további magnóliafaj (P. americana és Saruma henryi) transzkriptom-adatsorának bevonásával a 15 fajból származó TPS-ek filogenetikai elemzései a CkTPS-géneket a magról kelő növényekre eddig leírt hét TPS-gén alcsaládból hatba sorolták41 (5. ábra, 1. táblázat és 23-28. kiegészítő ábra). A TPS-c (2) és TPS-e (5) alcsaládba sorolt CkTPS gének valószínűleg olyan diterpén-szintázokat kódolnak, mint a kopalil-difoszfát-szintáz és az ent-kaurén-szintáz42. Ezek kulcsfontosságú enzimek, amelyek katalizálják a 20 szénatomos izoprenoidok (együttesen diterpenoidoknak nevezik őket; C20-ak) képződését, amelyekről azt gondolták, hogy eudicot-specifikusak41 , és olyan elsődleges funkciókat látnak el, mint a növényi primer metabolizmus szabályozása. A fennmaradó 94 feltételezett CkTPS gén valószínűleg a 10 szénatomos monoterpén (C10) szintázokat, a 15 szénatomos szeszkviterpén (C15) szintázokat és további 20 szénatomos diterpén (C20) szintázokat kódolja (1. táblázat). A TPS-a és TPS-b alcsaládok 25, illetve 58 homológjukkal a legváltozatosabbak az SCT-ben, feltehetően hozzájárulva az illékony C15-ek és C10-ek tömeges és vegyes termeléséhez43.
Megjegyzendő, hogy a TPS génfa a TPS-a, TPS-b, TPS-f és TPS-g génalcsaládokon belül Lauraceae-specifikus TPS génkládokat oldott fel (Kiegészítő ábrák 23, 24, 27 és 28). A Persea és a Cinnamomum közös ősében a TPS-gének duplikációjának és későbbi megtartásának ez a mintázata a duplikált TPS-gének Lauraceae-n belüli szubfunkcionalizációjára vagy neofunkcionalizációjára utalhat. Az elemzések során a TPS-a alcsaládban egy magnoliidákra jellemző szubkládot is azonosítottak, amely több, jellemzett funkciójú magnoliid TPS-gént tartalmaz (23. kiegészítő ábra). A Lauraceae-specifikus TPS-f -I és -II alkládokban valóban pozitív szelekciót észleltünk, ami funkcionális divergenciára utal (13. kiegészítő táblázat). Ezek az adatok együttesen a magnóliafélék TPS génjeinek növekvő diverzifikációjára utalnak mind a Lauraceae eredetét megelőzően, mind azt követően.
CkTPS gének nem egyenletesen oszlanak el a kromoszómákon (Kiegészítő 12. táblázat), és az egyes alcsaládok tagjainak klaszteresedését tandemduplikátumokként figyeltük meg (Kiegészítő 29. ábra). Hetvenhat TPS-gént figyeltünk meg az SCT legnagyobb 12 scaffoldjában. Ezek 60,5%-a (46 másolat) különböző alcsaládokhoz tartozó géneket találtunk a 7. és 10. állványzat 0,5-15 Mb-os, illetve 22,0-24,5 Mb-os régiójában (29. kiegészítő ábra). A 7-es állványzat 29, több alcsaládba tartozó CkTPS-gént tartalmaz, köztük a nyolc CkTPS-a, 12 CkTPS-b, öt CkTPS-e és három CkTPS-f gén mindegyikét (29. kiegészítő ábra). Ezzel szemben a CkTPS-c-nek csak két tagja található az 1-es állványzatban. Huszonnégy CkTPS gén található más kisebb állványzatban, amelyek közül 22 a TPS-b alcsaládot kódolja (24. kiegészítő ábra). A 7-es és 10-es állványzaton elhelyezkedő alcsaládok közül néhány fizikailag közel van egymáshoz (29. kiegészítő ábra). Például a 11 TPS-b-Lau III alcsaládból 3 a 11 TPS-b-Lau V alcsaládból 4-nek a szomszédságában helyezkedett el (29. kiegészítő ábra), míg más alcsaládok tagjai nem a megfelelő szintetikus régiókban, hanem a genomban máshol voltak megtalálhatók (30. kiegészítő ábra). Az ebbe a klaszterbe tartozó gének nem csoportosultak a megfelelő alcsaládok filogeniájában (30. kiegészítő ábra), ami arra utal, hogy elrendeződésük a legutóbbi WGD eseménynél nemrég történhetett.