Assembly and annotation of C. kanehirae
SCT is diploid (2n = 24; Supplementary Fig. 1a) with an estimated genome size of 823.7 ± 58.2 Mb/1 C (Supplementary Figs. 1b and 2). Wir erstellten eine Assemblierung, die ausschließlich aus 85× PacBio long reads (read N50 = 11,1 kb; contig N50 = 0,9 Mb) mit einer Größe von 728,3 Mb bestand. Die Konsensus-Sequenzen des Assemblers wurden mit 141× Illumina-Reads korrigiert und mit 207× „Chicago“-rekonstituiertem Chromatin und 204× Hi-C Paired-End-Reads unter Verwendung der HiRise-Pipeline weiter aufgerüstet (s. Abb. 3). Es wurde ein endgültiger integrierter Aufbau von 730,7 Mb in 2.153 Gerüsten erstellt, der 91,3 % der durchflusszytometrischen Genomgrößenschätzung umfasst. Das endgültige Gerüst N50 betrug 50,4 Mb mit mehr als 90 % in 12 Pseudomolekülen (ergänzende Tabelle 1), die vermutlich den 12 SCT-Chromosomen entsprechen.
Unter Verwendung einer Kombination aus Referenz-Pflanzenproteinhomologie-Unterstützung und Transkriptom-Sequenzierung aus verschiedenen Geweben (ergänzende Abb. 1c und Tabelle 2) und Ab-Initio-Genvorhersage wurden 27.899 proteinkodierende Genmodelle mit Hilfe der MAKER2-Pipeline18 annotiert (ergänzende Tabelle 1). Davon erwiesen sich 93,7 % als homolog zu Proteinen in der TrEMBL-Datenbank, und 50 % konnten mit Hilfe des eggNOG-Mappers19 Gene-Ontology-Begriffen zugeordnet werden. Das Proteom wurde auf der Grundlage der BUSCO20-Bewertung (Benchmarking Universal Single-Copy Orthologs) als zu mindestens 89 % vollständig eingeschätzt, was mit anderen sequenzierten Pflanzenarten vergleichbar ist (ergänzende Tabelle 1). Das Orthofinder21-Clustering der SCT-Genmodelle mit denen aus 12 verschiedenen Samenpflanzengenomen ergab 20.658 orthologe Gruppen (ergänzende Tabelle 3). 24.148 SCT-Gene (86,56 %) waren Teil orthologer Gruppen mit Orthologen aus mindestens einer anderen Pflanzenart. 3.744 Genmodelle waren nicht ortholog zu anderen, und nur 210 Gene waren Teil der 48 SGT-spezifischen orthologen Gruppen. Insgesamt deuten die Ergebnisse darauf hin, dass die phänotypische Diversifizierung bei Magnolien durch die Neuentstehung artspezifischer Gene und die Erweiterung bestehender Genfamilien vorangetrieben wird.
Genom-Charakterisierung
Wir identifizierten 3.950.027 biallelische heterozygote Stellen im SCT-Genom, was einer durchschnittlichen Heterozygotie von 0,54 % entspricht (ein heterozygoter Einzelnukleotid-Polymorphismus (SNP) pro 185 bp). Die Häufigkeit der alternativen (Nicht-Referenz-)Allele an diesen Stellen wies einen Spitzenwert von etwa 50 % auf, was mit der Tatsache übereinstimmt, dass der SCT diploid ist und es keine Hinweise auf eine rezente Aneuploidie gibt (ergänzende Abb. 4). Die räumliche Verteilung der heterozygoten Stellen war sehr variabel: 23,9 % des Genoms wiesen weniger als einen SNP-Locus pro kb auf, während 10 % des Genoms mindestens 12,6 SNP-Loci pro kb enthielten. Die homozygoten Regionen schienen zufällig über die SCT-Chromosomen verteilt zu sein und erreichten ein Maximum von 20,2 Mb in Scaffold 11 (Abb. 1a). Solche langen Läufe von Homozygotie-Regionen haben die gleiche Sequenzabdeckung wie der Rest des Genoms (ergänzende Abb. 5) und können mit selektiven Sweeps, Inzucht oder kürzlichen Populationsengpässen in Verbindung gebracht werden. Es wurde festgestellt, dass Gene, die sich in diesen Läufen von Homozygotie-Regionen befinden, im Lignin-Biosyntheseprozess und im Galaktose-Stoffwechsel angereichert sind (ergänzende Tabelle 4), was auf eine mögliche Rolle bei der Bildung von Lignin-Kohlenhydrat-Komplexen schließen lässt22. Eine paarweise sequenziell markovianische Koaleszenzanalyse23 (PSMC) auf der Grundlage der heterozygoten SNP-Dichten deutet auf eine kontinuierliche Verringerung der effektiven Populationsgröße in den letzten 9 Millionen Jahren hin (Abb. 1b), wobei ein möglicher Engpass mit der klimatischen Verschiebung im mittleren Pleistozän vor 0,9 Millionen Jahren (Ma) zusammenfällt. Solche Muster könnten eine komplexe Populationsgeschichte von SCT widerspiegeln, die mit der geologischen Geschichte Taiwans zusammenhängt, einschließlich der Hebung und Bildung der Insel im späten Miozän (9 Ma), gefolgt von der Gebirgsbildung vor 5-6 Ma24.
Transponierbare Elemente und interspersed Repeats machten 48 % des Genomaufbaus aus (ergänzende Tabelle 5). Die Mehrheit der transponierbaren Elemente gehörte zu den Long Terminal Repeat (LTR) Retrotransposons (25,53 %), gefolgt von den DNA-transponierbaren Elementen (12,67 %). Unter den LTRs gehörten 40,75 % und 23,88 % der Retrotransposons zu Ty3/Gypsy bzw. Ty1/Copia (ergänzende Tabelle 5). Die Phylogenie der Reverse-Transkriptase-Domäne zeigte, dass die meisten Ty3/Gypsy-Kopien eine eigene Klade bildeten (20.092 Kopien), vermutlich als Ergebnis der jüngsten Expansion und Proliferation, während Ty1/Copia-Elemente in zwei Schwesterkladen gruppiert waren (7.229 und 2.950 Kopien) (ergänzende Abb. 6). Mit Ausnahme von zwei Gerüsten waren sowohl Ty3/Gypsy- als auch Ty1/Copia-LTR-transponierbare Elemente innerhalb der perizentromerischen Zentren der 12 größten Gerüste geclustert (Abb. 1c und ergänzende Abb. 7). Darüber hinaus wiesen die LTR-angereicherten Regionen (definiert durch 100 kb, die zu mehr als 50 % aus transponierbaren Elementen der LTR-Klasse bestehen) eine durchschnittlich 35 % größere Abdeckung auf als der Rest des Genoms (Abb. 1c und ergänzende Abb. 8), was darauf hindeutet, dass diese Wiederholungen bei der Assemblierung kollabiert sind und möglicherweise zu den Unterschieden bei den Schätzungen der Genomgröße mittels Durchflusszytometrie und k-mer beigetragen haben. Der Inhalt der kodierenden Sequenz von SCT ist ähnlich wie bei den anderen Angiospermengenomen, die in unsere Analysen einbezogen wurden (ergänzende Tabelle 1), während Introns in SCT aufgrund einer höheren Dichte an transponierbaren Elementen etwas länger sind (P < 0,001, Wilcoxon-Rangsummentest; ergänzende Abb. 9).
Wie bei anderen Pflanzengenomen25 beschrieben, weisen die Chromosomengerüste von SCT eine geringe Dichte an proteinkodierenden Genen und eine hohe Dichte an transponierbaren Elementen in der Mitte der Chromosomen auf, während die Gendichte zu den Chromosomenenden hin zunimmt (Abb. 1c). Wir identifizierten Cluster eines mutmaßlichen Subtelomer-Heptamers, TTTAGGG, mit einer Länge von bis zu 2.547 Kopien, was auf telomere Wiederholungen in Pflanzen hinweist26 (ergänzende Tabelle 6). Darüber hinaus wurden 687 kb an kernplastiden DNA-ähnlichen Sequenzen (NUPTs) mit einer durchschnittlichen Länge von 202,8 bp aufgedeckt (ergänzende Tabelle 7). Die NUPTs des SCT wurden überwiegend von kurzen Fragmenten dominiert, wobei 96 % der identifizierten NUPTs weniger als 500 bp umfassten (ergänzende Tabelle 8). Das längste NUPT ist ~20 kb lang und syntenisch mit 99,7 % Identität zu einem Teil des SCT-Plastoms, das sieben proteinkodierende und fünf tRNA-Gene enthält (ergänzende Abb. 10).
Phylogenomische Zuordnung von C. kanehirae sister to eudicots
Um die seit langem geführte Debatte über die phylogenetische Einordnung der Magnolien im Verhältnis zu den anderen großen Blütenpflanzenstämmen zu klären, haben wir einen phylogenetischen Baum erstellt, der auf 211 Orthologensätzen mit nur einer Kopie basiert (d. h. ein und nur ein Homolog in allen Arten), die durch OrthoFinder21-Genfamilienumschreibung aller Genmodelle des SCT und 12 anderer Samenpflanzengenome identifiziert wurden (siehe Methoden). Ein einziger Speziesbaum wurde durch eine Maximum-Likelihood-Analyse27 einer verketteten Supermatrix der Single-Copy-Gen-Alignments und eine auf Koaleszenz basierende Analyse unter Verwendung der 211 Genbäume28 erstellt (Abb. 2 und ergänzende Abb. 11). Der SCT, der die Magnolienlinie repräsentiert, wurde als Schwester der Eudikotylenklade eingeordnet (Abb. 2). Diese Topologie blieb stabil, als wir einen Transkriptom-Datensatz von weiteren 22 Magnolienarten aus der 1.000-Pflanzen-Initiative29 (1KP) einschlossen, obwohl eine geringere Bootstrap-Unterstützung erzielt wurde (ergänzende Abb. 12). Unter Verwendung von MCMCtree30 mit fossilen Kalibrierungen berechneten wir ein 95 %-Konfidenzintervall für den Zeitpunkt der Divergenz zwischen Magnoliiden und Eudikotylen von 136,0-209,4 Ma (Abb. 2), das sich mit zwei anderen aktuellen Schätzungen (114,8-164,1 Ma31 und 118,9-149,9 Ma32) überschneidet.
Syntenie-Analyse/Gesamtgenom-Duplikation
Vorangegangene Untersuchungen von Expressed-Sequence-Tags-Daten ließen auf eine genomweite Duplikation innerhalb der Magnolien vor der Divergenz der Magnoliales und Laurales10 schließen, aber eine auf Syntenie basierende Prüfung dieser Hypothese war ohne ein zusammengesetztes Magnolien-Genom nicht möglich. Insgesamt wurden 16.498 Genpaare in 992 syntenischen Blöcken identifiziert, die 72,7 % des SCT-Genoms ausmachen. Von diesen intragenomischen syntenischen Blöcken waren 72,3 % an mehr als einer Stelle des Genoms syntenisch, was darauf hindeutet, dass in der Vorgeschichte von SCT mehr als eine Ganzgenomduplikation (WGD) stattgefunden hat (Abb. 3a). Zwei Runden alter WGD wurden durch umfangreiche Syntenie zwischen Paaren von Chromosomenregionen und signifikante, aber weniger syntenische Paarung jeder Region mit zwei zusätzlichen genomischen Segmenten angedeutet (ergänzende Abb. 13). Die Syntenie-Blöcke der 12 größten Gerüste des SCT wurden fünf Clustern zugeordnet, die möglicherweise den Vorläuferchromosomen der WGD entsprechen (Abb. 3a, ergänzende Abb. 13 und ergänzende Anmerkung).
Amborella trichopoda ist die einzige Art, die die Schwesterlinie zu allen anderen existierenden Angiospermen repräsentiert, und sie hat keine Anzeichen von WGD seit der Divergenz von den letzten gemeinsamen Vorfahren existierender Blütenpflanzenlinien33. Um zu bestätigen, dass nach der Divergenz der Linien, die zu SCT und A. trichopoda führten, zwei Runden von WGD in der Abstammung von SCT stattgefunden haben, haben wir die Syntenie zwischen den beiden Genomen untersucht. In Übereinstimmung mit unserer Hypothese wurden ein bis vier Segmente des SCT-Genoms an eine einzige Region im A.-trichopoda-Genom angeglichen (Abb. 3b und ergänzende Abb. 14).
Um genauere Rückschlüsse auf den Zeitpunkt der beiden WGD-Runden im SCT-Genom ziehen zu können, wurden die Verteilungen von Ks (synonyme Substitutionen pro synonymer Stelle) intragenomisch und zwischen den Arten geschätzt. Intragenomische SCT-Duplikate zeigten zwei Spitzen um 0,46 und 0,76 (Abb. 4a), die mit den beiden WGD-Ereignissen übereinstimmen. Anhand dieser beiden Peaks konnten wir die Entwicklung des Karyotyps ableiten, indem wir die geclusterten Syntenie-Blöcke weiter in vier Gruppen organisierten, die vermutlich von einem der fünf Chromosomen vor dem WGD-Ereignis stammen (ergänzende Abb. 15). Der Vergleich zwischen Aquilegia coerulea (Ranunculales, eine Schwesterlinie zu allen anderen Eudikotyledonen33) und den SCT-Orthologen ergab einen markanten Peak um Ks = 1,41 (Abb. 4a), während das intragenomische Duplikat von Aquilegia um Ks = 1 lag, was auf unabhängige WGDs nach der Divergenz der zu SCT und Aquilegia führenden Linien hindeutet. Die Verfügbarkeit des Transkriptoms von 17 Laurales + Magnoliales aus dem 1KP29 ermöglichte es uns, den vermuteten Zeitpunkt der WGDs im SCT-Genom zu testen8. Die Ks-Verteilung von fünf der sechs verfügbaren Lauraceae-Arten zeigte zwei Spitzen (Abb. 4b und ergänzende Abb. 16), wie sie auch in der Ks-Verteilung von SCT (Abb. 4a) zu sehen waren und die zwei Syntenie-basierten Rückschlüssen auf WGDs in der Abstammung von SCT entsprechen (Abb. 3 und ergänzende Abb. 15). Bei den übrigen Laurales- und Magnoliales-Arten wurde nur ein Ks-Peak beobachtet, was darauf hindeutet, dass nur ein WGD-Ereignis in der Abstammung dieser Arten auftrat (ergänzende Abb. 17 und 18). Der in den Aquilegia-Daten beobachtete Ks-Peak ist wahrscheinlich auf WGD innerhalb der Ranunculales lange nach der Divergenz von Eudikotyledonen und Magnolien zurückzuführen (Abb. 4a).
Spezialisierung des Magnolien-Proteoms
Wir haben versucht, Gene und Proteindomänen zu identifizieren, die spezifisch für SCT sind, indem wir die Domänen der Proteinfamilie (Pfam) annotiert und ihre Verteilung in den 13 Samenpflanzengenomen, die in unsere phylogenomischen Analysen einbezogen wurden, bewertet haben. Im Einklang mit der Beobachtung, dass es nur sehr wenige SCT-spezifische orthologe Gruppen gab, gruppierte die Hauptkomponentenanalyse des Pfam-Domänengehalts SCT mit den Monokotyledonen und Eudikotyledonen, wobei die ersten beiden Hauptkomponenten Gymnospermen und A. trichopoda von dieser Gruppe trennten (ergänzende Abb. 19a). Es gab beträchtliche Überschneidungen zwischen SGT, Eudikotyledonen und Monokotyledonen, was auf eine erhebliche funktionelle Diversifizierung seit der Trennung dieser drei Linien hindeutet. SCT zeigte auch eine signifikante Anreicherung und Reduzierung von 111 bzw. 34 Proteindomänen im Vergleich zu anderen Pflanzenarten (ergänzende Abb. 19b und ergänzende Tabelle 9). Zu den neu hinzugekommenen Proteindomänen gehörten die carboxyterminale Domäne der Terpensynthase (TPS), die an Abwehrreaktionen beteiligt ist, und die leucinreichen Wiederholungen (628 gegenüber 334,4) bei der Transpirationsleistung der Pflanzen34. Interessanterweise fanden wir heraus, dass SCT 21 Kopien des EIN3/EIN3-ähnlichen (EIL) Transkriptionsfaktors besitzt, mehr als das zuvor berichtete Maximum von 17 Kopien im Bananengenom (Musa acuminata)35. EILs initiieren eine Ethylen-Signalreaktion durch Aktivierung des Ethylen-Response-Faktors (ERF), der in SCT ebenfalls stark expandiert ist (150 Kopien im Vergleich zu einem Durchschnitt von 68,3 Kopien bei neun Arten, die in Ref. 35; ergänzende Abb. 20). ERF reagiert auf phytohormonelle Signale, einschließlich Ethylen, und moduliert deren Biosynthese positiv36. Die Expression von ERF wird mit einer positiven Modulation der Pflanzenentwicklung von der Fruchtreife35 bis zum sekundären Wachstum bei der Holzbildung37 sowie mit einer erhöhten Resistenz gegenüber abiotischen38 oder biotischen39 Faktoren in Verbindung gebracht. Somit könnte die Expansion der EILs in SCT die ERF stimulieren, was zu verschiedenen Regulierungen nachgeschalteter Effektoren führt, die zu SCT-spezifischen Merkmalen führen.
Als Nächstes bewerteten wir die Expansionen und Kontraktionen orthologer Gruppen in der Phylogenie der Samenpflanzen (Abb. 2). Die Entwicklung der Größe der Genfamilien war in der gesamten Phylogenie dynamisch, und der Zweig, der zu SCT führt, wies keine signifikant unterschiedliche Anzahl von Erweiterungen und Schrumpfungen auf. Die Anreicherung von Begriffen aus der Gene Ontology zeigte entweder verschiedene Genfamilien mit gemeinsamen Funktionen oder einzelne Genfamilien, die große Erweiterungen erfuhren (siehe ergänzende Tabellen 10 und 11). Zum Beispiel addieren sich die erweiterten Mitglieder der Pflanzenresistenz (R)-Gene zu „plant-type hypersensitive response“ (Supplementary Table 10). Im Gegensatz dazu enthalten die angereicherten Gene Ontology-Terme aus den kontrahierten Genfamilien des SCT-Zweigs (ergänzende Tabelle 11) Mitglieder von ABC-Transportern, Indol-3-Essigsäure-Amido-Synthetase, Xyloglucan-Endotransglucosylase/Hydrolase und Auxin-responsive Protein, die alle Teil der „Reaktion auf Auxin“ sind.
R-Gene
Die Annotation des SCT-Genoms umfasste 387 R-Genmodelle, von denen 82 % zu den Nukleotidbindungsstellen-Leucin-reichen Repeats (NBS-LRR) oder Coiled-Coil-NBS-LRR-Typen gehören. Dieses Ergebnis stimmt mit einem früheren Bericht überein, wonach LRR eine der häufigsten Proteindomänen in Pflanzen ist, und es ist sehr wahrscheinlich, dass SCT in der Lage ist, Pathogenprodukte von Avirulenzgenen (Avr) zu erkennen und abzuwehren40. Von den 13 untersuchten Genomen beherbergt SCT die höchste Anzahl von R-Genen unter den Nicht-Kulturpflanzen (ergänzende Abb. 21). Der phylogenetische Baum, der aus 2.465 NBS-Domänen erstellt wurde, deutet auch darauf hin, dass sich Kladen innerhalb der Genfamilie unabhängig voneinander innerhalb der Eudikotyledonen, Monokotyledonen und Magnolien diversifiziert haben. Interessanterweise waren die vielfältigsten NBS-Genkladen von SCT mit den depauperaten NBS-Genkladen der Eudikotyledonen verwandt (ergänzende Abb. 22).
TPS-Genfamilie
Eines der auffälligsten Merkmale des SCT-Genoms ist die große Anzahl von TPS-Genen (CkTPS). Es wurden insgesamt 101 CkTPS-Gene vorhergesagt und annotiert, die größte Anzahl für ein anderes Genom bis heute. Unter Einbeziehung eines Transkriptom-Datensatzes von zwei weiteren Magnolienarten (P. americana und Saruma henryi) konnten phylogenetische Analysen der TPS von 15 Arten die CkTPS-Gene in sechs von sieben TPS-Gen-Unterfamilien einordnen, die für Samenpflanzen beschrieben wurden41 (Abb. 5, Tabelle 1 und ergänzende Abbildungen 23-28). CkTPS-Gene, die den Unterfamilien TPS-c (2) und TPS-e (5) zugeordnet werden, kodieren wahrscheinlich Diterpen-Synthasen, wie z. B. Copalyldiphosphat-Synthase und Ent-Kauren-Synthase42. Dabei handelt es sich um Schlüsselenzyme, die die Bildung der 20-Kohlenstoff-Isoprenoide (zusammenfassend als Diterpenoide bezeichnet; C20) katalysieren, von denen man annahm, dass sie eudikottenspezifisch sind41 und primären Funktionen wie der Regulierung des pflanzlichen Primärstoffwechsels dienen. Die übrigen 94 vorausgesagten CkTPS-Gene kodieren wahrscheinlich für 10-Kohlenstoff-Monoterpen-Synthasen (C10), 15-Kohlenstoff-Sesquiterpen-Synthasen (C15) und zusätzliche 20-Kohlenstoff-Diterpen-Synthasen (C20) (Tabelle 1). Mit 25 bzw. 58 Homologen sind die TPS-a- und TPS-b-Unterfamilien in SCT am vielfältigsten und tragen vermutlich zur Massen- und Mischproduktion von flüchtigen C15- und C10-Genen bei43.
Besonders bemerkenswert ist, dass der TPS-Genbaum Lauraceae-spezifische TPS-Genkladen innerhalb der TPS-a-, TPS-b-, TPS-f- und TPS-g-Genunterfamilien auflöste (ergänzende Abb. 23, 24, 27 und 28). Dieses Muster der TPS-Genduplikation bei einem gemeinsamen Vorfahren von Persea und Cinnamomum und der anschließenden Retention könnte auf eine Subfunktionalisierung oder Neofunktionalisierung der duplizierten TPS-Gene innerhalb der Lauraceae hinweisen. Eine Magnolien-spezifische Subklade in der TPS-a-Unterfamilie wurde ebenfalls in Analysen identifiziert, die mehr magnolienartige TPS-Gene mit charakterisierten Funktionen enthält (ergänzende Abb. 23). In den Lauraceae-spezifischen TPS-f-I- und -II-Subkladen wurde tatsächlich eine positive Selektion festgestellt, was auf eine funktionelle Divergenz hindeutet (ergänzende Tabelle 13). Zusammengenommen deuten diese Daten auf eine zunehmende Diversifizierung der Magnolien-TPS-Gene sowohl vor als auch nach der Entstehung der Lauraceae hin.
CkTPS-Gene sind nicht gleichmäßig über die Chromosomen verteilt (ergänzende Tabelle 12), und eine Häufung von Mitgliedern einzelner Unterfamilien wurde als Tandemduplikate beobachtet (ergänzende Abb. 29). Sechsundsiebzig TPS-Gene wurden in den größten 12 Gerüsten von SCT beobachtet. Davon wurden 60,5 % (46 Kopien), die zu verschiedenen Unterfamilien gehören, in der 0,5-15 Mb- bzw. 22,0-24,5 Mb-Region von Gerüst 7 bzw. 10 gefunden (ergänzende Abb. 29). Gerüst 7 enthält 29 CkTPS-Gene, die zu verschiedenen Unterfamilien gehören, darunter alle acht CkTPS-a, 12 CkTPS-b, fünf CkTPS-e und drei CkTPS-f (ergänzende Abb. 29). Im Gegensatz dazu befinden sich nur zwei Mitglieder von CkTPS-c im Gerüst 1. Vierundzwanzig CkTPS-Gene befinden sich in anderen kleineren Gerüsten, von denen 22 für die Unterfamilie TPS-b kodieren (ergänzende Abb. 24). Einige dieser Unterfamilien, die sich auf den Gerüsten 7 und 10 befinden, liegen räumlich nahe beieinander (ergänzende Abb. 29). So lagen beispielsweise 3 von 11 Mitgliedern der Unterfamilie TPS-b-Lau III neben 4 von 11 Mitgliedern der Unterfamilie TPS-b-Lau V (ergänzende Abb. 29), während andere Mitglieder der Unterfamilie nicht in entsprechenden syntenischen Regionen, sondern an anderen Stellen im Genom gefunden wurden (ergänzende Abb. 30). Gene, die zu diesem Cluster gehören, waren in der Phylogenie der entsprechenden Unterfamilie nicht gruppiert (ergänzende Abb. 30), was darauf hindeutet, dass ihre Anordnung in jüngerer Zeit als das letzte WGD-Ereignis erfolgt sein könnte.