Assembly and annotation of C. kanehirae
SCT is diploid (2n = 24; Supplementary Fig. 1a) with an estimated genome size of 823.7 ± 58.2 Mb/1 C (Supplementary Figs. 1b and 2). Vi producerade en samling som enbart härrörde från 85× PacBio long reads (read N50 = 11,1 kb; contig N50 = 0,9 Mb) som spänner över 728,3 Mb. Samlingens konsensussekvenser korrigerades med hjälp av 141 × Illumina-avläsningar och ytterligare ställningar med 207 × ”Chicago”-rekonstituerat kromatin och 204 × Hi-C-avläsningar med parvisa ändar med hjälp av HiRise-pipeline (kompletterande figur 3). En slutlig, integrerad sammansättning på 730,7 Mb producerades i 2 153 scaffolds, vilket utgör 91,3 % av den uppskattade genomstorleken enligt flödescytometrin. Den slutliga N50-ställningen var 50,4 Mb med mer än 90 % i 12 pseudomolekyler (kompletterande tabell 1), som förmodligen motsvarar de 12 SCT-kromosomerna.
Med hjälp av en kombination av stöd för referensväxtproteinhomologi och transkriptomsekvensering som härrör från olika vävnader (kompletterande figur 1c och tabell 2) och ab initio-genprediktion annoterades 27 899 proteinkodande genmodeller med hjälp av MAKER2-pipelinen18 (kompletterande tabell 1). Av dessa befanns 93,7 % vara homologa med proteiner i TrEMBL-databasen och 50 % kunde tilldelas Gene Ontology-termer med hjälp av eggNOG-mapper19. Proteomet uppskattades vara minst 89 % komplett baserat på BUSCO20 (benchmarking universal single-copy orthologs) bedömning, vilket är jämförbart med andra sekvenserade växtarter (kompletterande tabell 1). Orthofinder21-klustering av SCT-genmodeller med modeller från 12 olika fröplantsgenom gav 20 658 ortologiska grupper (kompletterande tabell 3). 24 148 SCT-gener (86,56 %) ingick i ortologgrupper med ortologer från minst en annan växtart. 3 744 genmodeller var inte ortologer till andra, och endast 210 gener ingick i de 48 SCT-specifika ortologiska grupperna. Sammantaget tyder de på att den fenotypiska diversifieringen hos magnoliider kan drivas av de novo-födelse av artspecifika gener och expansion av befintliga genfamiljer.
Genomkarakterisering
Vi identifierade 3 950 027 bialleliska heterozygota platser i SCT-genomet, vilket motsvarar en genomsnittlig heterozygotitet på 0,54 % (en heterozygot singelnukleotid-polymorfism (SNP) per 185 bp). De alternativa (icke-referens) allelfrekvenserna på dessa platser hade en stor topp runt 50 %, vilket överensstämmer med det faktum att SCT är diploid utan några tecken på nyligen inträffad aneuploidi (kompletterande fig. 4). Den rumsliga fördelningen av heterozygota platser var mycket varierande, med 23,9 % av genomet med mindre än 1 SNP-plats per kb jämfört med 10 % av genomet med minst 12,6 SNP-platser per kb. Homozygositetsområden tycktes vara slumpmässigt fördelade över SCT-kromosomerna och nådde ett maximum på 20,2 Mb i scaffold 11 (fig. 1a). Sådana långa homozygositetsregioner har samma sekvenstäckning som resten av genomet (kompletterande figur 5) och kan vara förknippade med selektiva svepningar, inavel eller nyligen inträffade flaskhalsar i populationen. Gener som ligger i dessa homozygositetsregioner visade sig vara berikade inom ligninbiosyntesen och galaktosmetabolismen (kompletterande tabell 4), vilket tyder på en potentiell roll i bildandet av lignin-kolhydratkomplex22. Parvis sekventiell Markovian coalescent23 (PSMC) analys baserad på heterozygota SNP-tätheter innebar en kontinuerlig minskning av den effektiva populationsstorleken under de senaste 9 miljoner åren (fig. 1b), med en möjlig flaskhals som sammanfaller med det pleistocena klimatskiftet i mitten av pleistocen för 0,9 miljoner år sedan (Ma). Sådana mönster kan återspegla SCT:s komplexa populationshistoria i samband med Taiwans geologiska historia, inklusive upphöjning och bildning av ön i slutet av Miocen (9 Ma) följt av bergsbildning 5-6 Ma, respektive24.
Transposerbara element och interspridda upprepningar utgjorde 48 % av genomsamlingen (kompletterande tabell 5). Majoriteten av de transposerbara elementen tillhörde retrotransposoner med långa terminala upprepningar (LTR) (25,53 %), följt av transposerbara DNA-element (12,67 %). Bland LTR:erna tillhörde 40,75 % och 23,88 % retrotransposoner Ty3/Gypsy respektive Ty1/Copia (kompletterande tabell 5). Fylogenin av den omvända transkriptasdomänen visade att majoriteten av Ty3/Gypsy-kopiorna bildade en distinkt klad (20 092 kopior), förmodligen som ett resultat av en nyligen genomförd expansion och proliferation, medan Ty1/Copia-elementen var grupperade i två systerklasser (7 229 och 2 950 kopior) (kompletterande fig. 6). Med undantag för två ställningar var både Ty3/Gypsy- och Ty1/Copia LTR-transposerbara element grupperade inom de pericentromeriska centrumen av de 12 största ställningarna (fig. 1c och kompletterande fig. 7). Dessutom hade de LTR-berikade regionerna (definierade av 100 kb med ett överskott på 50 % bestående av transposabla element av LTR-klass) i genomsnitt 35 % större täckning än resten av genomet (fig. 1c och kompletterande fig. 8), vilket tyder på att dessa upprepningar kollapsade i sammansättningen och kan ha bidragit till skillnaderna i uppskattningarna av genomstorleken med flödescytometri och k-mer. Innehållet i den kodande sekvensen i SCT liknar de andra angiospermgenom som ingår i våra analyser (kompletterande tabell 1), medan intronerna är något längre i SCT på grund av en högre täthet av transposerbara element (P < 0,001, Wilcoxon rank-summetest; kompletterande fig. 9).
Som beskrivits för andra växtgenom25 uppvisar SCT:s kromosomnivåställningar låg täthet av proteinkodande gener och hög täthet av transposerbara element i kromosomernas centrum, och ökad gentäthet mot kromosomernas ändar (fig. 1c). Vi identifierade kluster av en förmodad subtelomerheptamer, TTTAGGG, som sträcker sig så långt som till 2 547 kopior, vilket innebär telomeriska upprepningar i växter26 (kompletterande tabell 6). Dessutom upptäcktes 687 kb kärnplastid-DNA-liknande sekvenser (NUPT) med en genomsnittlig längd på cirka 202,8 bp (kompletterande tabell 7). SCT NUPTs dominerades övervägande av korta fragment, med 96 % av de identifierade NUPTs som var mindre än 500 bp (kompletterande tabell 8). Den längsta NUPT:n är ~20 kb lång och syntenisk med 99,7 % identitet till en del av SCT-plastomen som innehåller sju proteinkodande och fem tRNA-gener (kompletterande fig. 10).
Fylogenomisk placering av C. kanehirae syster till eudicoter
För att lösa den långvariga debatten om magnoliidernas fylogenetiska placering i förhållande till andra större blomväxtsläkten konstruerade vi ett fylogenetiskt träd baserat på 211 ortologuppsättningar med strikt enkelkopiering (det vill säga en och endast en homolog i alla arter) som identifierats genom OrthoFinder21 genfamiljscirkumkription av alla genmodeller från SCT- och 12 andra fröplantsgenom (se Metod). Ett träd för en enda art återfanns genom maximal sannolikhetsanalys27 av en sammanlänkad supermatris av de enkopierade genutjämningarna och koalescensbaserad analys med hjälp av de 211 genträden28 (fig. 2 och kompletterande fig. 11). SCT, som representerar magnoliidlinjen, placerades som syster till eudicotkladen (fig. 2). Denna topologi förblev robust när vi inkluderade ett transkriptomdataset av ytterligare 22 arter av magnoliider order från initiativet 1 000 plantor29 (1KP), även om lägre bootstrapstöd erhölls (kompletterande fig. 12). Med hjälp av MCMCtree30 med fossilkalibreringar beräknade vi ett 95-procentigt konfidensintervall för tiden för divergens mellan magnoliider och eudicoter till 136,0-209,4 Ma (fig. 2), vilket överlappar med två andra nyligen gjorda uppskattningar (114,8-164,1 Ma31 och 118,9-149,9 Ma32).
Syntenyanalys/helgenomduplikation
Förra undersökningar av data om uttryckta sekvenstaggar har man dragit slutsatsen att det fanns en genomomfattande duplikation inom magnoliiderna före divergensen mellan Magnoliales och Laurales10, men syntenybaserad testning av denna hypotes har inte varit möjlig utan ett sammansatt magnoliidgenom. Sammanlagt 16 498 genpar identifierades i 992 synteniska block som omfattar 72,7 % av SCT-genomblandningen. Av dessa intragenomiska synteniska block visade sig 72,3 % vara synteniska till mer än en plats på genomet, vilket tyder på att mer än en helgenomduplikation (WGD) förekom i SCT:s förfäder (fig. 3a). Två omgångar av gammal WGD var inblandade genom omfattande synteni mellan par av kromosomala regioner och betydande men mindre syntenisk parning av varje region med två ytterligare genomiska segment (kompletterande fig. 13). Syntenyblock av SCT:s 12 största scaffolds tilldelades fem kluster som kan motsvara kromosomer från tiden före WGD (fig. 3a, kompletterande fig. 13 och kompletterande anmärkning).
Amborella trichopoda är den enda art som representerar systerlinjen till alla andra existerande angiospermer och den har inga bevis för WGD sedan divergens från den sista gemensamma förfadern extanta blommande växtlinjer33. För att bekräfta att två omgångar av WGD ägde rum i SCT:s anor efter divergensen mellan de linjer som leder till SCT och A. trichopoda, bedömde vi syntesen mellan de två genomerna. I enlighet med vår hypotes var ett till fyra segment av SCT-genomet anpassat till en enda region i A. trichopodas genom (fig. 3b och kompletterande fig. 14).
För att mer exakt kunna härleda tidpunkten för de två omgångarna av WGD som är uppenbara i SCT-genomet uppskattades fördelningen av homolog Ks (synonyma substitutioner per synonyma plats) inomgenomiskt och mellan arter. SCT:s intragenomiska duplikat uppvisade två toppar runt 0,46 och 0,76 (fig. 4a), vilket stämmer överens med de två WGD-händelserna. Baserat på dessa två toppar kunde vi härleda karyotyputvecklingen genom att organisera de klustrade syntenyblocken ytterligare i fyra grupper som förmodligen härstammar från en av de fem kromosomerna före WGD (kompletterande fig. 15). En jämförelse mellan Aquilegia coerulea (Ranunculales, en systerlinje till alla andra existerande eudicots33) och SCT-ortologer avslöjade en framträdande topp runt Ks = 1,41 (Fig. 4a), medan den intragenomiska dubbletten för Aquilegia låg runt Ks = 1, vilket implicerar oberoende WGD:er som följde på divergensen av de linjer som leder till SCT och Aquilegia. Tillgången till transkriptom av 17 Laurales + Magnoliales från 1KP29 gjorde det möjligt för oss att testa den antagna tidpunkten för de WGDs som är uppenbara i SCT-genomet8. Ks-distributionen av fem av sex tillgängliga arter från Lauraceae avslöjade två toppar (fig. 4b och kompletterande fig. 16), som sågs i SCT:s Ks-distribution (fig. 4a) och som motsvarar två synteny-baserade slutsatser av WGDs i SCT:s anor (fig. 3 och kompletterande fig. 15). Endast en Ks-topp observerades i de återstående Laurales- och Magnoliales-arterna, vilket tyder på att endast en WGD-händelse inträffade i dessa arters härstamning (kompletterande figurer 17 och 18). Den Ks-topp som observerades i Aquilegia-data kan troligen tillskrivas WGD inom Ranunculales långt efter divergensen mellan eudicoter och magnoliider (Fig. 4a).
Specialisering av magnoliidernas proteom
Vi försökte identifiera gener och proteindomäner som är specifika för SCT genom att annotera proteinfamiljens (Pfam) domäner och utvärdera deras fördelning över de 13 fröplantsgenomerna som ingick i våra fylogenomiska analyser. I överensstämmelse med observationen att det fanns mycket få SCT-specifika ortologgrupper, klustrade huvudkomponentanalysen av Pfam-domäninnehållet SCT med monokottar och eudikottar, med de två första huvudkomponenterna som separerade gymnospermer och A. trichopoda från denna grupp (kompletterande fig. 19a). Det fanns betydande överlappningar mellan SCT-, eudicot- och monokottsarter, vilket tyder på en betydande funktionell diversifiering sedan dessa tre linjer splittrades. SCT uppvisade också en betydande anrikning och minskning av 111 respektive 34 proteindomäner jämfört med andra växtarter (kompletterande figur 19b och kompletterande tabell 9). Tillväxten av proteindomäner omfattade den karboxyterminala domänen för terpensyntas (TPS) som är involverad i försvarssvar och de leucinrika upprepningarna (628 jämfört med 334,4) i växternas transpirationseffektivitet34. Intressant nog fann vi att SCT har 21 kopior av EIN3/EIN3-liknande (EIL) transkriptionsfaktorn, vilket är mer än det tidigare rapporterade maximala antalet på 17 kopior i banangenomet (Musa acuminata)35. EILs initierar ett etylensignalsvar genom att aktivera etylenresponsfaktorn (ERF), som vi också fann vara starkt expanderad i SCT (150 kopior jämfört med ett genomsnitt på 68,3 kopior från nio arter som rapporterades i ref. 35; kompletterande figur 20). ERF reagerar och modulerar positivt biosyntesen av fytohormonella signaler, inklusive etylen36. Uttryck av ERF har involverats i positiv modulering av växtutvecklingen från fruktmognad35 till sekundär tillväxt vid vedbildning37 , liksom i ökad motståndskraft mot abiotiska38 eller biotiska39 faktorer. Således kan expansion av EIL i SCT stimulera ERF, vilket leder till olika regleringar av nedströms effektorer som resulterar i egenskaper som är specifika för SCT.
Nästan bedömde vi ortologgruppsexpansioner och -kontraktioner över fröväxternas fylogeni (fig. 2). Utvecklingen av genfamiljens storlek var dynamisk över fylogenin, och den gren som leder till SCT uppvisade inte signifikant olika antal expansioner och kontraktioner. Anrikning av Gene Ontology-termer avslöjade antingen olika genfamiljer med gemensamma funktioner eller enskilda genfamiljer som genomgick stora expansioner (kompletterande tabeller 10 och 11). Till exempel, expanderade medlemmar av växtresistensgener (R-gener) adderas till ”plant-type hypersensitive response” (kompletterande tabell 10). Däremot innehåller de berikade Gene Ontology-termerna från de kontrakterade genfamiljerna i SCT-grenen (kompletterande tabell 11) medlemmar av ABC-transportörer, indol-3-ättiksyra-amido-syntetas, xyloglukanendotransglukosylas/hydrolas och auxinresponsivt protein, som alla är en del av ”respons på auxin”.
R-gener
SCT-genomannotationen omfattade 387 R-genmodeller, varav 82 % hör till typerna nukleotidbindande site leucine-rich repeat (NBS-LRR) eller coiled-coil NBS-LRR. Detta resultat stämmer överens med en tidigare rapport om att LRR är en av de vanligaste proteindomänerna i växter och det är mycket troligt att SCT kan känna igen och bekämpa patogenprodukter från avirulensgener (Avr)40. Bland de 13 provtagna genomerna har SCT det högsta antalet R-gener bland icke odlade växter (kompletterande figur 21). Det fylogenetiska träd som konstruerats från 2 465 NBS-domäner tyder också på att klader inom genfamiljen har diversifierats oberoende av varandra inom eudicots, monocots och magnoliider. Intressant nog var de mest diversifierade SCT NBS-genkladerna syster till depaupererade eudicot NBS-genklader (Supplementary Fig. 22).
TPS-genfamiljen
Ett av de mest slående dragen i SCT-genomet är det stora antalet TPS-gener (CkTPS). Totalt 101 CkTPS-gener förutspåddes och annoterades, vilket är det största antalet för något annat genom hittills. Genom att inkludera en uppsättning transkriptomdata från ytterligare två arter från magnoliider (P. americana och Saruma henryi) placerade fylogenetiska analyser av TPS från 15 arter CkTPS-gener bland sex av sju TPS-genunderfamiljer som har beskrivits för fröväxter41 (fig. 5, tabell 1 och kompletterande figurer 23-28). CkTPS-gener som placeras i underfamiljerna TPS-c (2) och TPS-e (5) kodar troligen för diterpen-syntaser, t.ex. copalyldifosfat-syntas och ent-kauren-syntas42. Dessa är viktiga enzymer som katalyserar bildandet av de 20-koliga isoprenoiderna (kollektivt kallade diterpenoider; C20s), som ansågs vara specifika för eudicot41 och har primära funktioner, t.ex. reglering av växternas primära ämnesomsättning. De återstående 94 förutspådda CkTPS-generna kodar troligen för 10-koliga monoterpen-syntaser (C10), 15-koliga sesquiterpen-syntaser (C15) och ytterligare 20-koliga diterpen-syntaser (C20) (tabell 1). Med 25 respektive 58 homologer är TPS-a- och TPS-b-underfamiljerna mest diversifierade i SCT, vilket förmodligen bidrar till mass- och blandproduktion av flyktiga C15- och C10-sener43.
Det är värt att notera att TPS-genträdet löste upp Lauraceae-specifika TPS-genklasser inom TPS-a-, TPS-b-, TPS-f- och TPS-g-genernas underfamiljer (kompletterande figurer 23, 24, 27 och 28). Detta mönster av duplicering av TPS-gener i en gemensam förfader till Persea och Cinnamomum och efterföljande bibehållande kan tyda på subfunktionalisering eller neofunktionalisering av duplicerade TPS-gener inom Lauraceae. En magnoliidspecifik subklad i TPS-a-subfamiljen identifierades också i analyserna, inklusive fler magnoliid TPS-gener med karakteriserade funktioner (kompletterande fig. 23). Vi upptäckte faktiskt positivt urval i de Lauraceae-specifika TPS-f -I och -II-subkladerna, vilket tyder på funktionell divergens (kompletterande tabell 13). Tillsammans tyder dessa data på en ökande diversifiering av magnoliidernas TPS-gener både före och efter Lauraceae:s ursprung.
CkTPS-gener är inte jämnt fördelade över kromosomerna (kompletterande tabell 12) och kluster av medlemmar från enskilda underfamiljer observerades som tandemdubbletter (kompletterande fig. 29). Sjuttiosex TPS-gener observerades i de 12 största scaffolds av SCT. Av dessa hittades 60,5 % (46 kopior) som tillhörde olika underfamiljer i 0,5-15 Mb och 22,0-24,5 Mb-regionen i scaffolds 7 respektive 10 (kompletterande figur 29). Scaffold 7 innehåller 29 CkTPS-gener som tillhör flera underfamiljer, inklusive alla åtta CkTPS-a, 12 CkTPS-b, fem CkTPS-e och tre CkTPS-f (kompletterande figur 29). Däremot finns endast två medlemmar av CkTPS-c i scaffold 1. Tjugofyra CkTPS-gener finns i andra mindre ställningar, varav 22 kodar för underfamiljen TPS-b (kompletterande figur 24). Några av dessa underfamiljer som är belägna på ställningarna 7 och 10 ligger fysiskt i närheten av varandra (kompletterande figur 29). Till exempel var 3 av 11 medlemmar av TPS-b-Lau III-underfamiljen belägna intill 4 av 11 medlemmar av TPS-b-Lau V-underfamiljen (kompletterande figur 29), medan andra medlemmar av underfamiljen inte hittades i motsvarande synteniska regioner utan på andra ställen i genomet (kompletterande figur 30). Gener som tillhör detta kluster var inte grupperade tillsammans i deras motsvarande fylogeni för underfamiljen (kompletterande figur 30), vilket tyder på att deras arrangemang kan ha inträffat mer nyligen än den senaste WGD-händelsen.