Assembly and annotation of C. kanehirae
SCT is diploid (2n = 24; Supplementary Fig. 1a) with an estimated genome size of 823.7 ± 58.2 Mb/1 C (Supplementary Figs. 1b and 2). Vi producerede en samling udelukkende afledt af 85× PacBio lange læsninger (read N50 = 11,1 kb; contig N50 = 0,9 Mb), der dækker 728,3 Mb. Samlingens konsensussekvenser blev korrigeret ved hjælp af 141 × Illumina-læsninger og yderligere stilladseret med 207 × “Chicago” rekonstitueret kromatin og 204 × Hi-C parrede-end-læsninger ved hjælp af HiRise-pipeline (Supplerende fig. 3). En endelig, integreret samling på 730,7 Mb blev fremstillet i 2.153 stilladser, der omfatter 91,3 % af flowcytometri-genomstørrelsesestimatet. Det endelige stillads N50 var 50,4 Mb med mere end 90 % i 12 pseudomolekyler (Supplerende tabel 1), der formodentlig svarer til de 12 SCT-kromosomer.
Med en kombination af referenceplanteproteinhomologiunderstøttelse og transkriptomsekventering afledt af forskellige væv (Supplerende fig. 1c og tabel 2) og ab initio-genprædiktion blev 27.899 proteinkodningsgenmodeller annoteret ved hjælp af MAKER2-pipeline18 (Supplerende tabel 1). Af disse blev 93,7 % fundet at være homologe med proteiner i TrEMBL-databasen, og 50 % kunne tildeles Gene Ontology-termer ved hjælp af eggNOG-mapper19. Proteomet blev anslået til at være mindst 89 % komplet baseret på BUSCO20 (benchmarking universal single-copy orthologs) vurdering, hvilket er sammenligneligt med andre sekventerede plantearter (Supplerende tabel 1). Orthofinder21-gruppering af SCT-genmodellerne med modellerne fra 12 forskellige frøplantegenomer gav 20 658 ortologgrupper (Supplerende tabel 3). 24 148 SCT-gener (86,56 %) var en del af ortologgrupper med ortologer fra mindst én anden planteart. 3.744 genmodeller var ikke ortologer til andre, og kun 210 gener var en del af de 48 SCT-specifikke ortologgrupper. Samlet set tyder de på, at den fænotypiske diversificering i magnoliider kan være drevet af de novo fødsel af artsspecifikke gener og udvidelse af eksisterende genfamilier.
Genomkarakterisering
Vi identificerede 3.950.027 bialleliske heterozygote steder i SCT-genomet, svarende til en gennemsnitlig heterozygotivitet på 0,54% (en heterozygot enkeltnukleotidpolymorfi (SNP) pr. 185 bp). De alternative (ikke-reference) allelfrekvenser på disse steder havde et stort højdepunkt omkring 50 %, hvilket er i overensstemmelse med, at SCT er diploid uden tegn på nyere aneuploidi (supplerende figur 4). Den rumlige fordeling af heterozygote steder var meget variabel, idet 23,9 % af genomet udviste mindre end 1 SNP-lokus pr. kb sammenlignet med 10 % af genomet med mindst 12,6 SNP-lokus pr. kb. Homozygositetsregioner syntes at være tilfældigt fordelt på tværs af SCT-kromosomer og nåede et maksimum på 20,2 Mb i scaffold 11 (Fig. 1a). Sådanne lange løb af homozygositetsregioner har samme sekvensdækning som resten af genomet (Supplerende fig. 5) og kan være forbundet med selektive fejninger, indavl eller nylige flaskehalse i populationen. Gener placeret i disse homozygositetsregioner viste sig at være beriget i ligninbiosyntetiske processer og galaktosemetabolisme (Supplerende tabel 4), hvilket tyder på nogle potentielle roller i dannelsen af lignin-kulhydratkomplekser22. Parvis sekventielt Markovian coalescent23 (PSMC) analyse baseret på heterozygote SNP-tætheder implicerede en kontinuerlig reduktion af den effektive populationsstørrelse i løbet af de sidste 9 millioner år (Fig. 1b), med en mulig flaskehals, der faldt sammen med det klimatiske skift i midten af Pleistocæn for 0,9 millioner år siden (Ma). Sådanne mønstre kan afspejle en kompleks populationshistorie for SCT, der er forbundet med Taiwans geologiske historie, herunder opstigning og dannelse af øen i slutningen af Miocæn (9 Ma) efterfulgt af bjergdannelse i 5-6 Ma24.
Transposable elementer og interspredte gentagelser udgjorde 48 % af genomsamlingen (Supplerende tabel 5). Størstedelen af de transposable elementer tilhørte retrotransposoner med lange terminale gentagelser (LTR) (25,53 %), efterfulgt af DNA-transposable elementer (12,67 %). Blandt LTR’erne tilhørte 40,75 % og 23,88 % retrotransposoner henholdsvis Ty3/Gypsy og Ty1/Copia (Supplerende tabel 5). Phylogeni af det omvendte transkriptase-domæne viste, at størstedelen af Ty3/Gypsy-kopierne dannede en særskilt klade (20.092 kopier), formentlig som følge af nylig ekspansion og proliferation, mens Ty1/Copia-elementer blev grupperet i to søsterklader (7.229 og 2.950 kopier) (Supplerende fig. 6). Med undtagelse af to stilladser var både Ty3/Gypsy- og Ty1/Copia LTR-transposable elementer grupperet inden for de pericentromeriske centre af de 12 største stilladser (Fig. 1c og Supplerende Fig. 7). Desuden havde de LTR-berigede regioner (defineret ved 100 kb med et overskud på 50 % bestående af transposable elementer i LTR-klassen) i gennemsnit 35 % større dækning end resten af genomet (Fig. 1c og Supplerende Fig. 8), hvilket tyder på, at disse gentagelser blev kollapseret i samlingen og kan have bidraget til forskellene i flowcytometri- og k-mer-genomstørrelsesestimaterne. Indholdet af kodningssekvenser i SCT svarer til de andre angiosperm-genomer, der indgår i vores analyser (Supplerende tabel 1), mens introner er lidt længere i SCT på grund af en højere tæthed af transposable elementer (P < 0,001, Wilcoxon rank-sum-test; Supplerende fig. 9).
Som det er blevet beskrevet for andre plantegenomer25, udviser SCT’s stilladser på kromosomniveau lav proteinkodningsgen-tæthed og høj transposabel element-tæthed i midten af kromosomerne og øget gen-tæthed mod kromosomenes ender (Fig. 1c). Vi identificerede klynger af en formodet subtelomerheptamer, TTTAGGG, der strækker sig så langt som til 2 547 kopier, hvilket indebærer telomeriske gentagelser i planter26 (Supplerende tabel 6). Desuden blev der afdækket 687 kb af nukleare plastid-DNA-lignende sekvenser (NUPT’er) med et gennemsnit på omkring 202,8 bp (Supplerende tabel 7). SCT NUPT’er var overvejende domineret af korte fragmenter, idet 96 % af de identificerede NUPT’er var mindre end 500 bp (Supplerende tabel 8). Den længste NUPT er ~20 kb lang og syntenisk med 99,7% identitet til en del af SCT-plastomet, der indeholder syv proteinkodende og fem tRNA-gener (Supplerende fig. 10).
Phylogenomisk placering af C. kanehirae søster til eudicots
For at løse den langvarige debat om den fylogenetiske placering af magnoliiderne i forhold til andre større blomstrende planteafstamninger konstruerede vi et fylogenetisk træ baseret på 211 strengt enkeltkopierede ortologsæt (dvs. én og kun én homolog i alle arter) identificeret gennem OrthoFinder21 genfamiliecirkumskription af alle genmodeller fra SCT og 12 andre frøplantegenomer (se Metoder). Et enkelt artstræ blev genfundet gennem maximum likelihood-analyse27 af en sammenkædet supermatrix af de enkeltkopierede genudligninger og en koalescensbaseret analyse ved hjælp af de 211 gentræer28 (Fig. 2 og Supplerende Fig. 11). SCT, der repræsenterer magnoliid-linjen, blev placeret som søster til eudicot-kladen (fig. 2). Denne topologi forblev robust, da vi inkluderede et transkriptomdatasæt af yderligere 22 arter af magnoliidordenen fra 1.000 planteinitiativet29 (1KP), selv om der blev opnået lavere bootstrap-støtte (Supplerende fig. 12). Ved hjælp af MCMCtree30 med fossile kalibreringer beregnede vi et 95% konfidensinterval for divergenstidspunktet mellem magnoliider og eudicoter til at være 136,0-209,4 Ma (Fig. 2), hvilket overlapper med to andre nyere estimater (114,8-164,1 Ma31 og 118,9-149,9 Ma32).
Synteny-analyse/hele-genom-duplikation
Tidligere undersøgelser af data om udtrykte sekvensmærker udledte en genom-dækkende duplikation inden for magnoliiderne før divergensen mellem Magnoliales og Laurales10, men synteny-baseret testning af denne hypotese har ikke været mulig uden et samlet magnoliid-genom. Der blev identificeret i alt 16 498 genpar i 992 synteniske blokke, der omfatter 72,7 % af SCT-genomsamlingen. Af disse intragenomiske synteniske blokke viste 72,3 % sig at være synteniske til mere end ét sted på genomet, hvilket tyder på, at der er sket mere end én helgenomduplikation (WGD) i SCT’s forfædre (Fig. 3a). To runder af gammel WGD blev impliceret af omfattende synteny mellem par af kromosomale regioner og betydelig, men mindre syntenisk parring af hver region med to yderligere genomiske segmenter (Supplerende fig. 13). Syntenyblokke af SCT’s 12 største stilladser blev tildelt fem klynger, der kan svare til forfaderkromosomer fra før WGD (Fig. 3a, Supplerende Fig. 13 og Supplerende note).
Amborella trichopoda er den eneste art, der repræsenterer søsterlinjen til alle andre eksisterende angiospermer, og den har ingen tegn på WGD siden divergens fra den sidste fælles forfader, der er uddøde blomstrende plantelinjer33. For at bekræfte, at der fandt to runder af WGD sted i SCT’s forfædre efter divergens mellem de slægtslinjer, der fører til SCT og A. trichopoda, vurderede vi syntese mellem de to genomer. I overensstemmelse med vores hypotese blev et til fire segmenter af SCT-genomet tilpasset til en enkelt region i A. trichopoda-genomet (Fig. 3b og Supplerende Fig. 14).
For mere præcist at udlede timingen af de to runder af WGD, der er tydelige i SCT-genomet, blev intragenomiske og interspecies homolog Ks (synonyme substitutioner pr. synonymt sted) fordelinger estimeret. SCT intragenomiske duplikater viste to to toppe omkring 0,46 og 0,76 (Fig. 4a), hvilket stemmer overens med de to WGD-hændelser. På grundlag af disse to to toppe kunne vi udlede karyotypeevolutionen ved at organisere de grupperede syntenyblokke yderligere i fire grupper, der formodentlig stammer fra et af de fem præ-WGD-kromosomer (Supplerende fig. 15). Sammenligning mellem Aquilegia coerulea (Ranunculales, en søsterlinje til alle andre eksisterende eudicots33) og SCT-ortologer afslørede en fremtrædende top omkring Ks = 1,41 (Fig. 4a), mens Aquilegia intragenomisk duplikat var omkring Ks = 1, hvilket implicerer uafhængige WGD’er efter divergensen af linjerne, der fører til SCT og Aquilegia. Tilgængeligheden af transkriptomet af 17 Laurales + Magnoliales fra 1KP29 gjorde det muligt for os at teste den formodede timing af de WGD’er, der er tydelige i SCT-genomet8. Ks-fordelingen af fem ud af seks tilgængelige arter fra Lauraceae afslørede to to toppe (Fig. 4b og Supplerende Fig. 16), som det blev set i SCT’s Ks-fordeling (Fig. 4a) og svarende til to synteny-baserede slutninger af WGD’er i SCT’s forfædre (Fig. 3 og Supplerende Fig. 15). Der blev kun observeret ét Ks-top i de resterende Laurales- og Magnoliales-arter, hvilket tyder på, at der kun skete én WGD-begivenhed i disse arters forfædre (Supplerende figur 17 og 18). Ks-toppen, der ses i Aquilegia-data, kan sandsynligvis tilskrives WGD inden for Ranunculales længe efter divergensen af eudicoter og magnoliider (Fig. 4a).
Specialisering af magnoliidernes proteom
Vi søgte at identificere gener og proteindomæner specifikke for SCT ved at annotere proteinfamiliedomæner (Pfam) og vurdere deres fordeling på tværs af de 13 frøplantegenomer, der er inkluderet i vores fylogenomiske analyser. I overensstemmelse med observationen af, at der var meget få SCT-specifikke ortologgrupper, clusterede hovedkomponentanalyse af Pfam-domæneindholdet SCT med monocots og eudicots, med de første to hovedkomponenter, der adskilte gymnospermer og A. trichopoda fra denne gruppe (Supplerende fig. 19a). Der var betydelige overlapninger mellem SCT, eudicot- og monokot-arter, hvilket tyder på en betydelig funktionel diversificering, siden disse tre slægter delte sig. SCT viste også en betydelig berigelse og reduktion af henholdsvis 111 og 34 proteindomæner sammenlignet med andre plantearter (Supplerende fig. 19b og Supplerende tabel 9). Gevinsten af proteindomæner omfattede terpen-syntase (TPS) carboxy-terminale domæne involveret i forsvarsreaktioner og leucin-rige gentagelser (628 versus 334,4) i plante transpirationseffektivitet34. Interessant nok fandt vi, at SCT besidder 21 kopier af EIN3/EIN3-lignende (EIL) transkriptionsfaktor, hvilket er mere end det tidligere rapporterede maksimum på 17 kopier i bananens genom (Musa acuminata)35. EIL’er initierer et ethylensignalrespons ved at aktivere ethylenresponsfaktoren (ERF), som vi også fandt, at den var stærkt udvidet i SCT (150 kopier mod et gennemsnit på 68,3 kopier fra ni arter rapporteret i ref. 35; Supplerende fig. 20). ERF reagerer på og modulerer positivt biosyntesen af phytohormonsignaler, herunder ethylen36. Ekspression af ERF er blevet impliceret i positiv modulering af planteudvikling fra frugtmodning35 til sekundær vækst i trædannelse37 samt i øget modstandsdygtighed over for abiotiske38 eller biotiske39 faktorer. Således kan ekspansion af EIL’er i SCT stimulere ERF, hvilket fører til forskellige reguleringer af nedstrøms effektorer, der resulterer i egenskaber, der er specifikke for SCT.
Vi vurderede derefter ortologgruppeekspansioner og -kontraktioner på tværs af frøplantefylogenien (Fig. 2). Genfamiliestørrelsesudviklingen var dynamisk på tværs af fylogenien, og den gren, der fører til SCT, udviste ikke signifikant forskellige antal ekspansioner og sammentrækninger. En berigelse af Gene Ontology-termer afslørede enten forskellige genfamilier med fælles funktioner eller enkeltgenfamilier, der gennemgik store udvidelser (Supplerende tabeller 10 og 11). F.eks. er de udvidede medlemmer af planteresistensgener (R-gener) tilsammen “plant-type hypersensitive respons” (Supplerende tabel 10). Derimod indeholder de berigede Gene Ontology-termer fra de kontraherede genfamilier i SCT-grenen (supplerende tabel 11) medlemmer af ABC-transportører, indol-3-eddikesyre-amidosyntase, xyloglucan endotransglucosylase/hydrolase og auxin-responsivt protein, som alle er en del af “respons på auxin”.
R-gener
SCT-genomannotationen omfattede 387 R-genmodeller, hvoraf 82 % tilhører nucleotide-binding site leucine-rich repeat (NBS-LRR) eller coiled-coil NBS-LRR-typer. Dette resultat er i overensstemmelse med en tidligere rapport om, at LRR er et af de mest hyppige proteindomæner i planter, og det er meget sandsynligt, at SCT er i stand til at genkende og bekæmpe patogenprodukter fra avirulensgener (Avr)40. Blandt de 13 genomer, der blev undersøgt, har SCT det højeste antal R-gener blandt ikke-kultiverede planter (Supplerende figur 21). Det fylogenetiske træ, der er konstrueret ud fra 2 465 NBS-domæner, tyder også på, at klader inden for genfamilien har diversificeret sig uafhængigt af hinanden inden for eudicoter, monocoter og magnoliider. Interessant nok var de mest forskelligartede SCT NBS-genklader søster til depaupererede eudicot NBS-genklader (Supplerende fig. 22).
TPS-genfamilie
Et af de mest slående træk ved SCT-genomet er det store antal TPS-gener (CkTPS). I alt 101 CkTPS-gener blev forudsagt og annoteret, hvilket er det største antal for noget andet genom til dato. Ved at inkludere et transkriptomdatasæt af yderligere to arter fra magnoliider (P. americana og Saruma henryi) placerede fylogenetiske analyser af TPS fra 15 arter CkTPS-generne blandt seks af syv TPS-genunderfamilier, der er blevet beskrevet for frøplanter41 (Fig. 5, Tabel 1 og Supplerende figurer 23-28). CkTPS-gener, der er placeret i TPS-c (2) og TPS-e (5) underfamilierne, koder sandsynligvis for diterpen-syntaser, såsom copalyldiphosphat-syntase og ent-kaurensyntase42. Disse er centrale enzymer, der katalyserer dannelsen af de 20-carbon isoprenoider (samlet benævnt diterpenoider; C20’er), som man mente var eudicot-specifikke41 og tjener primære funktioner som f.eks. regulering af planternes primære metabolisme. De resterende 94 forudsagte CkTPS-gener koder sandsynligvis for 10-carbon monoterpen- (C10) synthaser, 15-carbon sesquiterpen- (C15) synthaser og yderligere 20-carbon diterpen- (C20) synthaser (tabel 1). Med henholdsvis 25 og 58 homologer er TPS-a- og TPS-b-underfamilierne mest forskelligartede i SCT, hvilket formodentlig bidrager til masse- og blandet produktion af flygtige C15- og C10s43.
Det er bemærkelsesværdigt, at TPS-gentræet opløste Lauraceae-specifikke TPS-genklasser inden for TPS-a-, TPS-b-, TPS-f- og TPS-g-genunderfamilierne (Supplerende figurer 23, 24, 27 og 28). Dette mønster af TPS-gen-duplikering i en fælles forfader til Persea og Cinnamomum og efterfølgende bevarelse kan indikere subfunktionalisering eller neofunktionalisering af duplikerede TPS-gener inden for Lauraceae. En magnoliid-specifik subklade i TPS-a-underfamilien blev også identificeret i analyser, herunder flere magnoliid TPS-gener med karakteriserede funktioner (Supplerende fig. 23). Vi påviste faktisk positiv selektion i de Lauraceae-specifikke TPS-f -I- og -II-subklader, hvilket antyder funktionel divergens (Supplerende tabel 13). Tilsammen tyder disse data på en stigende diversificering af magnoliid TPS-gener både før og efter Lauraceae’s oprindelse.
CkTPS-gener er ikke ensartet fordelt over hele kromosomerne (Supplerende tabel 12), og der blev observeret en klynge af medlemmer fra individuelle underfamilier som tandemduplikater (Supplerende fig. 29). Der blev observeret 76 TPS-gener i de største 12 scaffolds af SCT. Heraf blev 60,5 % (46 kopier), der tilhører forskellige underfamilier, fundet i 0,5-15 Mb- og 22,0-24,5 Mb-regionen i henholdsvis scaffold 7 og 10 (Supplerende figur 29). Scaffold 7 indeholder 29 CkTPS-gener, der tilhører flere underfamilier, herunder alle otte CkTPS-a, 12 CkTPS-b, fem CkTPS-e og tre CkTPS-f (Supplerende fig. 29). Derimod findes kun to medlemmer af CkTPS-c i scaffold 1. Fireogtyve CkTPS-gener er placeret i andre mindre stilladser, hvoraf 22 koder for underfamilien TPS-b (supplerende figur 24). Nogle af disse underfamilier, der er placeret på stilladserne 7 og 10, ligger fysisk i nærheden af hinanden (supplerende figur 29). F.eks. var 3 ud af 11 medlemmer af TPS-b-Lau III-underfamilien placeret ved siden af 4 ud af 11 medlemmer af TPS-b-Lau V-underfamilien (supplerende fig. 29), mens andre medlemmer af underfamilien ikke blev fundet i tilsvarende synteniske regioner, men andre steder i genomet (supplerende fig. 30). Gener, der tilhører denne klynge, blev ikke grupperet sammen i deres tilsvarende underfamilie-fylogeni (Supplerende fig. 30), hvilket tyder på, at deres arrangement kan være sket for nyere tid end den sidste WGD-begivenhed.