Složení a anotace C. kanehirae
SCT je diploidní (2n = 24; doplňkový obr. 1a) s odhadovanou velikostí genomu 823,7 ± 58,2 Mb/1 C (doplňkové obr. 1b a 2). Vytvořili jsme sestavu odvozenou výhradně z 85× dlouhých čtení PacBio (čtení N50 = 11,1 kb; kontig N50 = 0,9 Mb) pokrývající 728,3 Mb. Konsenzuální sekvence sestavy byly opraveny pomocí 141× čtení Illumina a dále skládány pomocí 207× rekonstituovaného chromatinu „Chicago“ a 204× Hi-C čtení s párovým koncem pomocí pipeline HiRise (doplňkový obr. 3). Konečná integrovaná sestava o velikosti 730,7 Mb byla vytvořena v 2 153 scaffoldech, což představuje 91,3 % odhadu velikosti genomu z průtokové cytometrie. Konečný scaffold N50 byl 50,4 Mb s více než 90 % ve 12 pseudomolekulách (Doplňková tabulka 1), které pravděpodobně odpovídají 12 chromozomům SCT.
S využitím kombinace referenční podpory homologie rostlinných proteinů a sekvenování transkriptomu získaného z různých tkání (Doplňkový obr. 1c a tabulka 2) a ab initio predikce genů bylo pomocí pipeline MAKER218 anotováno 27 899 modelů genů kódujících proteiny (Doplňková tabulka 1). Z nich 93,7 % bylo shledáno homologními s proteiny v databázi TrEMBL a 50 % bylo možné přiřadit termíny genové ontologie pomocí eggNOG-mapper19. Na základě hodnocení BUSCO20 (benchmarking universal single-copy orthologs) byl proteom odhadnut na nejméně 89 % kompletní, což je srovnatelné s jinými sekvenovanými rostlinnými druhy (doplňková tabulka 1). Shlukování genových modelů SCT pomocí nástroje Orthofinder21 s modely z 12 různých genomů semenných rostlin poskytlo 20 658 ortologických skupin (doplňková tabulka 3). Součástí ortologických skupin s ortology z alespoň jednoho jiného rostlinného druhu bylo 24 148 genů SCT (86,56 %). 3 744 genových modelů nebylo ortologických s jinými a pouze 210 genů bylo součástí 48 ortologických skupin specifických pro SCT. Celkově naznačují, že fenotypová diverzifikace u magnolií může být poháněna de novo vznikem druhově specifických genů a rozšířením stávajících genových rodin.
Harakterizace genomu
V genomu SCT jsme identifikovali 3 950 027 bialelických heterozygotních míst, což odpovídá průměrné heterozygotnosti 0,54 % (jeden heterozygotní jednonukleotidový polymorfismus (SNP) na 185 bp). Frekvence alternativních (nereferenčních) alel na těchto místech měly hlavní vrchol kolem 50 %, což odpovídá skutečnosti, že SCT je diploidní bez důkazů o nedávné aneuploidii (doplňkový obr. 4). Prostorové rozložení heterozygotních míst bylo velmi variabilní, přičemž 23,9 % genomu vykazovalo méně než 1 lokus SNP na kb ve srovnání s 10 % genomu s nejméně 12,6 lokusy SNP na kb. Běhy homozygotních oblastí se zdály být náhodně rozmístěny napříč chromozomy SCT a dosahovaly maxima 20,2 Mb ve skeletu 11 (obr. 1a). Takto dlouhé běhy oblastí homozygotnosti mají stejné sekvenční pokrytí jako zbytek genomu (doplňkový obr. 5) a mohou souviset se selekčními zásahy, inbreedingem nebo nedávnými populačními úzkými hrdly. Bylo zjištěno, že geny nacházející se v těchto bězích oblastí homozygotnosti jsou obohaceny o biosyntetický proces ligninu a metabolismus galaktózy (doplňková tabulka 4), což naznačuje některé potenciální role při tvorbě lignin-sacharidových komplexů22. Párová sekvenčně markovská koalescenční analýza23 (PSMC) založená na hustotách heterozygotních SNP naznačila kontinuální snižování efektivní velikosti populace v průběhu posledních 9 milionů let (obr. 1b) s možným úzkým hrdlem, které se shoduje s klimatickou změnou v polovině pleistocénu před 0,9 milionu let (Ma). Takové vzorce mohou odrážet složitou populační historii SCT spojenou s geologickou historií Tchaj-wanu, včetně vyzdvižení a vzniku ostrova v pozdním miocénu (9 mil. let), po němž následovalo budování pohoří v období 5-6 mil. let24.
Transponovatelné elementy a intersperované repetice tvořily 48 % sestavy genomu (doplňková tabulka 5). Většina transponovatelných elementů patřila mezi retrotranspozony s dlouhými terminálními repeticemi (LTR) (25,53 %), následované DNA transponovatelnými elementy (12,67 %). Mezi LTR patřilo 40,75 % retrotranspozonů Ty3/Gypsy a 23,88 % Ty1/Copia (doplňková tabulka 5). Fylogeneze domény reverzní transkriptázy ukázala, že většina kopií Ty3/Gypsy tvoří samostatný klad (20 092 kopií), pravděpodobně v důsledku nedávného rozšíření a proliferace, zatímco elementy Ty1/Copia byly seskupeny do dvou sesterských kladů (7 229 a 2 950 kopií) (doplňkový obr. 6). S výjimkou dvou lešení byly jak Ty3/Gypsy, tak Ty1/Copia LTR transpoziční elementy seskupeny v pericentromerických centrech 12 největších lešení (obr. 1c a doplňkový obr. 7). Kromě toho měly oblasti obohacené o LTR (definované 100 kb s nadpolovičním podílem transpozičních elementů třídy LTR) v průměru o 35 % větší pokrytí než zbytek genomu (obr. 1c a doplňkový obr. 8), což naznačuje, že tyto repetice byly při sestavování sbaleny a mohly přispět k rozdílům v odhadech velikosti genomu podle průtokové cytometrie a k-mer. Obsah kódujících sekvencí SCT je podobný ostatním genomům nahosemenných rostlin zahrnutých do našich analýz (Doplňková tabulka 1), zatímco introny jsou v SCT o něco delší díky vyšší hustotě transponovatelných elementů (P < 0,001, Wilcoxonův rank-sum test; Doplňkový obr. 1). 9).
Jak bylo popsáno u jiných rostlinných genomů25 , chromozomové skelety SCT vykazují nízkou hustotu protein kódujících genů a vysokou hustotu transpozibilních elementů ve středech chromozomů a zvýšenou hustotu genů směrem ke koncům chromozomů (obr. 1c). Identifikovali jsme shluky domnělého subtelomerního heptameru TTTAGGG, který se táhne v délce až 2 547 kopií, což implikuje telomerní repetice u rostlin26 (doplňková tabulka 6). Kromě toho bylo odhaleno 687 kb sekvencí podobných jaderné plastidové DNA (NUPT) o průměrné délce přibližně 202,8 bp (doplňková tabulka 7). V SCT NUPT převažovaly krátké fragmenty, přičemž 96 % identifikovaných NUPT bylo kratších než 500 bp (doplňková tabulka 8). Nejdelší NUPT má délku ~20 kb a je syntenický s 99,7% identitou s částí plastomu SCT, která obsahuje sedm protein kódujících a pět tRNA genů (Doplňkový obr. 10).
Fylogenomické umístění C. kanehirae sesterské k eudikotům
Pro vyřešení dlouhotrvající debaty o fylogenetickém umístění magnolií vzhledem k ostatním hlavním liniím kvetoucích rostlin jsme sestavili fylogenetický strom založený na 211 striktně jednokopírovacích sadách ortologů (tj. jeden a pouze jeden homolog u všech druhů) identifikovaných pomocí OrthoFinder21 gene family circumscription všech genových modelů z SCT a 12 dalších genomů semenných rostlin (viz Metody). Strom jednoho druhu byl obnoven pomocí analýzy maximální věrohodnosti27 konkatenované supermatice zarovnání genů s jednou kopií a analýzy založené na koalescenci s použitím stromů 211 genů28 (obr. 2 a doplňkový obr. 11). SCT, reprezentující magnoliovou linii, byl umístěn jako sesterský ke kladům eudicot (obr. 2). Tato topologie zůstala robustní, když jsme zahrnuli soubor transkriptomových dat dalších 22 druhů magnolií řádu z iniciativy 1000 rostlin29 (1KP), i když byla získána nižší bootstrapová podpora (doplňkový obr. 12). Pomocí MCMCtree30 s fosilními kalibracemi jsme vypočítali 95% interval spolehlivosti pro dobu divergence mezi magnolidy a eudikoty na 136,0-209,4 mil. let (obr. 2), který se překrývá s dalšími dvěma nedávnými odhady (114,8-164,1 mil. let31 a 118,9-149,9 mil. let32).
Syntézní analýza/celogenomová duplikace
Předchozí výzkumy údajů o značkách exprimovaných sekvencí odvodily duplikaci celého genomu v rámci magnolií před divergencí Magnoliales a Laurales10 , ale testování této hypotézy na základě syntézy nebylo možné bez sestaveného magnoliového genomu. Celkem bylo identifikováno 16 498 genových párů v 992 syntenických blocích tvořících 72,7 % sestavy genomu SCT. Z těchto intragenomových syntenických bloků bylo 72,3 % syntenických na více než jednom místě genomu, což naznačuje, že v předcích SCT došlo k více než jedné celogenomové duplikaci (WGD) (obr. 3a). Dvě kola dávné WGD byla implikována rozsáhlou syntézou mezi dvojicemi chromozomálních oblastí a významným, ale méně syntenickým párováním každé oblasti se dvěma dalšími genomovými segmenty (doplňkový obr. 13). Syntenické bloky 12 největších lešení SCT byly přiřazeny k pěti shlukům, které mohou odpovídat chromozomům před WGD (obr. 3a, doplňkový obr. 13 a doplňková poznámka).
Amborella trichopoda je jediným druhem, který představuje sesterskou linii ke všem ostatním žijícím nahosemenným rostlinám a od divergence od posledního společného předka žijících linií kvetoucích rostlin nemá žádné známky WGD33. Abychom potvrdili, že po divergenci linií vedoucích k SCT a A. trichopoda proběhla v předcích SCT dvě kola WGD, posoudili jsme syntézu mezi oběma genomy. V souladu s naší hypotézou byly jeden až čtyři segmenty genomu SCT zarovnány s jedinou oblastí v genomu A. trichopoda (obr. 3b a doplňkový obr. 14).
Pro přesnější odvození načasování dvou kol WGD patrných v genomu SCT bylo odhadnuto vnitrodruhové a mezidruhové rozložení homologů Ks (synonymních substitucí na synonymní místo). Intragenomové duplikáty SCT vykazovaly dva vrcholy kolem 0,46 a 0,76 (obr. 4a), které odpovídají dvěma událostem WGD. Na základě těchto dvou vrcholů jsme byli schopni odvodit vývoj karyotypu dalším uspořádáním shlukovaných syntézních bloků do čtyř skupin, které pravděpodobně pocházejí z jednoho z pěti chromozomů před WGD (doplňkový obr. 15). Srovnání mezi Aquilegia coerulea (Ranunculales, sesterská linie ke všem ostatním existujícím eudicotům33) a ortologií SCT odhalilo výrazný vrchol kolem Ks = 1,41 (obr. 4a), zatímco vnitrogenomový duplikát Aquilegie se pohyboval kolem Ks = 1, což implikuje nezávislé WGD po divergenci linií vedoucích k SCT a Aquilegii. Dostupnost transkriptomu 17 Laurales + Magnoliales z 1KP29 nám umožnila otestovat předpokládané načasování WGDs patrných v genomu SCT8. Rozložení Ks pěti ze šesti dostupných druhů z čeledi Lauraceae odhalilo dva vrcholy (obr. 4b a doplňkový obr. 16), které byly pozorovány v rozložení Ks SCT (obr. 4a) a které odpovídají dvěma na syntéze založeným závěrům o WGDs v předcích SCT (obr. 3 a doplňkový obr. 15). U zbývajících druhů Laurales a Magnoliales byl pozorován pouze jeden vrchol Ks, což naznačuje, že v předcích těchto druhů došlo pouze k jedné události WGD (Doplňkové obr. 17 a 18). Vrchol Ks pozorovaný v datech Aquilegia lze pravděpodobně připsat WGD v rámci Ranunculales dlouho po divergenci eudicotů a magnolií (obr. 4a).
Specializace proteomu magnolií
Snažili jsme se identifikovat geny a proteinové domény specifické pro SCT anotováním domén proteinových rodin (Pfam) a hodnocením jejich rozložení ve 13 genomech semenných rostlin zahrnutých do našich fylogenomických analýz. V souladu s pozorováním, že existuje jen velmi málo ortologických skupin specifických pro SCT, shlukovala analýza hlavních komponent obsahu domén Pfam SCT s jednoděložnými a nahosemennými rostlinami, přičemž první dvě hlavní komponenty oddělovaly od této skupiny gymnospermy a A. trichopoda (doplňkový obr. 19a). Mezi SCT, eudikoty a monokoty byly značné překryvy, což naznačuje značnou funkční diverzifikaci od rozdělení těchto tří linií. U SCT bylo také zjištěno výrazné obohacení o 111 a snížení o 34 proteinových domén ve srovnání s ostatními rostlinnými druhy (doplňkový obr. 19b a doplňková tab. 9). Zisk proteinových domén zahrnoval karboxyterminální doménu terpenové syntázy (TPS) zapojenou do obranných reakcí a opakování bohaté na leucin (628 oproti 334,4) v účinnosti transpirace rostlin34. Zajímavé je, že jsme zjistili, že SCT má 21 kopií transkripčního faktoru EIN3/EIN3-like (EIL), což je více než dříve uváděné maximum 17 kopií v genomu banánu (Musa acuminata)35. EIL iniciují ethylenovou signalizační odpověď aktivací faktoru ethylenové odpovědi (ERF), který je podle našeho zjištění u SCT rovněž vysoce rozšířen (150 kopií oproti průměrným 68,3 kopiím z devíti druhů uvedených v cit. 35; doplňkový obr. 20). ERF reaguje a pozitivně moduluje biosyntézu fytohormonálních signálů, včetně ethylenu36. Exprese ERF se podílí na pozitivní modulaci vývoje rostlin od dozrávání plodů35 až po sekundární růst při tvorbě dřeva37 a také na zvýšené odolnosti vůči abiotickým38 nebo biotickým39 faktorům. Expanze EIL v SCT tedy může stimulovat ERF, což vede k různé regulaci následných efektorů, jejichž výsledkem jsou znaky specifické pro SCT.
Dále jsme hodnotili expanze a kontrakce ortologických skupin napříč fylogenezí semenných rostlin (obr. 2). Vývoj velikosti genových rodin byl napříč fylogenezí dynamický a větev vedoucí k SCT nevykazovala výrazně odlišný počet expanzí a kontrakcí. Obohacení termínů genové ontologie odhalilo buď různé genové rodiny sdílející společné funkce, nebo rodiny s jedním genem, které procházely velkými expanzemi (doplňkové tabulky 10 a 11). Například rozšířené členy genů rostlinné rezistence (R) se sčítají do „hypersenzitivní reakce rostlinného typu“ (Doplňková tabulka 10). Naopak obohacené termíny genové ontologie z kontrahovaných genových rodin větve SCT (Doplňková tabulka 11) obsahují členy ABC transportérů, indol-3-octové kyseliny-amido syntetázy, xyloglukan endotransglukosylázy/hydrolázy a auxin-responzivního proteinu, které jsou součástí „odpovědi na auxin“.
R geny
Anotace genomu SCT zahrnovala 387 modelů R genů, z nichž 82 % patří k typům NBS-LRR (nucleotide-binding site leucine-rich repeat) nebo NBS-LRR typu coiled-coil. Tento výsledek je v souladu s předchozí zprávou, že LRR je jednou z nejhojnějších proteinových domén v rostlinách, a je velmi pravděpodobné, že SCT je schopen rozpoznávat produkty genů avirulence (Avr) patogenů a bojovat proti nim40. Mezi 13 vybranými genomy SCT ukrývá nejvyšší počet genů R mezi nekultivovanými rostlinami (doplňkový obr. 21). Fylogenetický strom sestavený z 2 465 domén NBS také naznačuje, že se kladiny v rámci této genové rodiny diverzifikovaly nezávisle v rámci eudikotů, monokotů a magnolií. Zajímavé je, že nejrozmanitější genové klady NBS SCT byly sesterské k depauperovaným genovým kladům NBS eudicot (doplňkový obr. 22).
Rodina genů TPS
Jedním z nejvýraznějších rysů genomu SCT je velký počet genů TPS (CkTPS). Celkem bylo předpovězeno a anotováno 101 genů CkTPS, což je dosud největší počet u jakéhokoli jiného genomu. Zařazením souboru transkriptomových dat dalších dvou druhů magnolií (P. americana a Saruma henryi) zařadily fylogenetické analýzy TPS z 15 druhů geny CkTPS mezi šest ze sedmi podčeledí genů TPS, které byly popsány u semenných rostlin41 (obr. 5, tab. 1 a doplňkové obr. 23-28). Geny CkTPS zařazené do podrodin TPS-c (2) a TPS-e (5) pravděpodobně kódují diterpenové syntázy, jako je kopalyl difosfát syntáza a ent-kauren syntáza42. Jedná se o klíčové enzymy katalyzující tvorbu 20uhlíkatých isoprenoidů (souhrnně označovaných jako diterpenoidy; C20), o nichž se předpokládalo, že jsou specifické pro eudicot41 a plní primární funkce, jako je regulace primárního metabolismu rostlin. Zbývajících 94 předpokládaných genů CkTPS pravděpodobně kóduje 10uhlíkaté monoterpenové (C10) syntázy, 15uhlíkaté seskviterpenové (C15) syntázy a další 20uhlíkaté diterpenové (C20) syntázy (tab. 1). S 25, resp. 58 homology jsou podrodiny TPS-a a TPS-b nejrozmanitější v SCT, pravděpodobně přispívají k masové a smíšené produkci těkavých C15 a C10s43.
Je pozoruhodné, že strom genů TPS vyřešil klany genů TPS specifické pro Lauraceae v rámci podčeledí genů TPS-a, TPS-b, TPS-f a TPS-g (doplňkové obr. 23, 24, 27 a 28). Tento vzorec duplikace genů TPS u společného předka Persea a Cinnamomum a následné zachování může naznačovat subfunkcionalizaci nebo neofunkcionalizaci duplikovaných genů TPS v rámci Lauraceae. Při analýzách byla také identifikována subkláda specifická pro magnolidy v podčeledi TPS-a, která zahrnuje více magnoliových genů TPS s charakterizovanými funkcemi (doplňkový obr. 23). Ve skutečnosti jsme zjistili pozitivní selekci v podskupinách TPS-f -I a -II specifických pro Lauraceae, což naznačuje funkční divergenci (Doplňková tabulka 13). Dohromady tato data naznačují rostoucí diverzifikaci magnoliových TPS genů jak před vznikem Lauraceae, tak po něm.
CkTPS geny nejsou rovnoměrně rozmístěny po chromozomech (Doplňková tab. 12) a shlukování členů z jednotlivých podčeledí bylo pozorováno jako tandemové duplikáty (Doplňkový obr. 29). Sedmdesát šest genů TPS bylo pozorováno v největších 12 scaffoldech SCT. Z nich 60,5 % (46 kopií) patřících do různých podrodin bylo nalezeno v oblasti 0,5-15 Mb a 22,0-24,5 Mb scaffoldů 7 a 10 (doplňkový obr. 29). Scaffold 7 obsahuje 29 genů CkTPS patřících do několika podrodin, včetně všech osmi CkTPS-a, 12 CkTPS-b, pěti CkTPS-e a tří CkTPS-f (doplňkový obr. 29). Naproti tomu pouze dva členové CkTPS-c se nacházejí ve scaffoldu 1. Dvacet čtyři genů CkTPS se nachází v dalších menších scaffoldech, z nichž 22 kóduje podrodinu TPS-b (doplňkový obr. 24). Některé z těchto podrodin umístěných na scaffoldech 7 a 10 se nacházejí fyzicky blízko sebe (doplňkový obr. 29). Například 3 z 11 členů podrodiny TPS-b-Lau III se nacházejí v sousedství 4 z 11 členů podrodiny TPS-b-Lau V (Doplňkový obr. 29), zatímco jiní členové podrodiny se nenacházejí v odpovídajících syntenických oblastech, ale jinde v genomu (Doplňkový obr. 30). Geny patřící do tohoto shluku nebyly v odpovídající fylogenezi podrodiny seskupeny dohromady (Doplňkový obr. 30), což naznačuje, že k jejich uspořádání mohlo dojít později než při poslední události WGD
.