Assemblage et annotation de C. kanehirae
SCT est diploïde (2n = 24 ; figure supplémentaire 1a) avec une taille de génome estimée à 823,7 ± 58,2 Mb/1 C (figures supplémentaires 1b et 2). Nous avons produit un assemblage dérivé uniquement de 85× PacBio long reads (read N50 = 11,1 kb ; contig N50 = 0,9 Mb) couvrant 728,3 Mb. Les séquences consensuelles de l’assemblage ont été corrigées à l’aide de 141 lectures Illumina, puis échafaudées à l’aide de 207 lectures de chromatine reconstituée ‘Chicago’ et de 204 lectures Hi-C en paires à l’aide du pipeline HiRise (figure supplémentaire 3). Un assemblage final intégré de 730,7 Mb a été produit dans 2 153 échafaudages, comprenant 91,3 % de l’estimation de la taille du génome par cytométrie en flux. Le N50 final de l’échafaudage était de 50,4 Mb avec plus de 90% dans 12 pseudomolécules (tableau supplémentaire 1), correspondant vraisemblablement aux 12 chromosomes SCT.
En utilisant une combinaison de support d’homologie de protéines végétales de référence et de séquençage du transcriptome dérivé de divers tissus (figure supplémentaire 1c et tableau 2) et de prédiction de gènes ab initio, 27 899 modèles de gènes codant pour des protéines ont été annotés à l’aide du pipeline MAKER218 (tableau supplémentaire 1). Parmi ces modèles, 93,7 % étaient homologues à des protéines de la base de données TrEMBL et 50 % pouvaient se voir attribuer des termes de l’ontologie génétique à l’aide de eggNOG-mapper19. On a estimé que le protéome était complet à au moins 89 % d’après l’évaluation BUSCO20 (benchmarking universal single-copy orthologs), ce qui est comparable à d’autres espèces végétales séquencées (tableau supplémentaire 1). Le regroupement par Orthofinder21 des modèles de gènes SCT avec ceux de 12 génomes divers de plantes à graines a donné 20 658 groupes orthologues (tableau supplémentaire 3). 24 148 gènes SCT (86,56 %) faisaient partie de groupes orthologues avec des orthologues d’au moins une autre espèce végétale. 3 744 modèles de gènes n’étaient pas orthologues à d’autres, et seulement 210 gènes faisaient partie des 48 groupes orthologues spécifiques du SCT. Dans l’ensemble, ils suggèrent que la diversification phénotypique chez les magnoliides peut être alimentée par la naissance de novo de gènes spécifiques à l’espèce et l’expansion des familles de gènes existantes.
Caractérisation du génome
Nous avons identifié 3 950 027 sites hétérozygotes bialléliques dans le génome du SCT, correspondant à une hétérozygotie moyenne de 0,54% (un polymorphisme nucléotidique simple (SNP) hétérozygote par 185 pb). Les fréquences d’allèles alternatifs (non référencés) sur ces sites présentaient un pic majeur autour de 50 %, ce qui est cohérent avec le fait que le SCT est diploïde sans preuve d’aneuploïdie récente (figure supplémentaire 4). La distribution spatiale des sites hétérozygotes était très variable, 23,9 % du génome présentant moins d’un locus SNP par kb contre 10 % du génome avec au moins 12,6 loci SNP par kb. Les séries de régions d’homozygotie semblent être distribuées de manière aléatoire sur les chromosomes SCT, atteignant un maximum de 20,2 Mb dans l’échafaudage 11 (Fig. 1a). Ces longues séries de régions d’homozygotie ont une couverture de séquence égale à celle du reste du génome (figure supplémentaire 5) et peuvent être associées à des balayages sélectifs, à la consanguinité ou à des goulots d’étranglement récents de la population. Les gènes situés dans ces séries de régions d’homozygotie se sont avérés être enrichis dans le processus de biosynthèse de la lignine et le métabolisme du galactose (tableau supplémentaire 4), ce qui suggère des rôles potentiels dans la formation des complexes lignine-hydrate de carbone22. L’analyse de coalescence séquentielle markovienne par paires23 (PSMC) basée sur les densités de SNP hétérozygotes implique une réduction continue de la taille effective de la population au cours des 9 derniers millions d’années (Fig. 1b), avec un possible goulot d’étranglement coïncidant avec le changement climatique du Pléistocène moyen, il y a 0,9 million d’années (Ma). De tels schémas peuvent refléter une histoire de population complexe de SCT associée à l’histoire géologique de Taïwan, y compris le soulèvement et la formation de l’île à la fin du Miocène (9 Ma), suivis par la construction de montagnes 5-6 Ma, respectivement24.
Les éléments transposables et les répétitions interspersées représentaient 48% de l’assemblage du génome (tableau supplémentaire 5). La majorité des éléments transposables appartenaient aux rétrotransposons à longue répétition terminale (LTR) (25,53 %), suivis des éléments transposables de l’ADN (12,67 %). Parmi les LTR, 40,75 % et 23,88 % des rétrotransposons appartenaient à Ty3/Gypsy et Ty1/Copia, respectivement (tableau supplémentaire 5). La phylogénie du domaine de la transcriptase inverse a montré que la majorité des copies de Ty3/Gypsy formaient un clade distinct (20 092 copies), vraisemblablement en raison d’une expansion et d’une prolifération récentes, tandis que les éléments Ty1/Copia étaient regroupés en deux clades sœurs (7 229 et 2 950 copies) (figure supplémentaire 6). À l’exception de deux échafaudages, les éléments transposables LTR Ty3/Gypsy et Ty1/Copia étaient regroupés dans les centres péricentromériques des 12 plus grands échafaudages (Fig. 1c et Fig. 7 supplémentaire). En outre, les régions enrichies en LTR (définies par 100 kb avec un excès de 50 % d’éléments transposables de classe LTR) avaient en moyenne une couverture supérieure de 35 % à celle du reste du génome (Fig. 1c et Fig. 8 supplémentaire), ce qui suggère que ces répétitions ont été regroupées dans l’assemblage et peuvent avoir contribué aux différences dans les estimations de la taille du génome par cytométrie en flux et par k-mer. Le contenu de la séquence codante du SCT est similaire à celui des autres génomes d’angiospermes inclus dans nos analyses (tableau supplémentaire 1), alors que les introns sont légèrement plus longs dans le SCT en raison d’une densité plus élevée d’éléments transposables (P < 0,001, test de Wilcoxon rank-sum ; figure supplémentaire. 9).
Comme cela a été décrit pour d’autres génomes végétaux25, les échafaudages au niveau des chromosomes du SCT présentent une faible densité de gènes codant pour des protéines et une forte densité d’éléments transposables au centre des chromosomes, et une densité accrue de gènes vers les extrémités des chromosomes (Fig. 1c). Nous avons identifié des grappes d’un heptamère subtélomérique putatif, TTTAGGG, s’étendant jusqu’à 2 547 copies, ce qui implique des répétitions télomériques chez les plantes26 (tableau supplémentaire 6). En outre, 687 kb de séquences semblables à l’ADN du plaste nucléaire (NUPT), d’une moyenne d’environ 202,8 pb, ont été découverts (tableau supplémentaire 7). Les NUPTs du SCT étaient dominées par des fragments courts, 96% des NUPTs identifiées étant inférieures à 500 pb (tableau supplémentaire 8). Le NUPT le plus long a une longueur de ~20 kb et est syntétique avec 99,7 % d’identité à une partie du plastome SCT qui contient sept gènes codant pour des protéines et cinq gènes d’ARNt (figure supplémentaire 10).
Placement phylogénomique de C. kanehirae sœur des eudicots
Pour résoudre le débat de longue date sur le placement phylogénétique des magnoliides par rapport aux autres grandes lignées de plantes à fleurs, nous avons construit un arbre phylogénétique basé sur 211 ensembles d’orthologues strictement à copie unique (c’est-à-dire un et un seul homologue dans toutes les espèces) identifiés par la circonscription de la famille de gènes OrthoFinder21 de tous les modèles de gènes du SCT et de 12 autres génomes de plantes à graines (voir Méthodes). Un arbre d’espèce unique a été récupéré par une analyse de vraisemblance maximale27 d’une supermatrice concaténée des alignements de gènes à copie unique et une analyse basée sur la coalescence utilisant les 211 arbres de gènes28 (Fig. 2 et Fig. 11 supplémentaire). La SCT, qui représente la lignée des magnoliides, a été placée comme sœur du clade des eudicots (Fig. 2). Cette topologie est restée robuste lorsque nous avons inclus un ensemble de données transcriptomiques de 22 espèces supplémentaires de l’ordre des magnoliidés provenant de l’initiative 1 000 plantes29 (1KP), bien qu’un soutien bootstrap plus faible ait été obtenu (figure supplémentaire 12). En utilisant MCMCtree30 avec des calibrations fossiles, nous avons calculé un intervalle de confiance de 95 % pour le temps de divergence entre les magnoliidés et les eudicots à 136,0-209,4 Ma (Fig. 2), ce qui chevauche deux autres estimations récentes (114,8-164,1 Ma31 et 118,9-149,9 Ma32).
Analyse de la synténie/duplication de l’ensemble du génome
Des enquêtes antérieures sur les données de balises de séquence exprimées ont déduit une duplication de l’ensemble du génome au sein des magnoliides avant la divergence des Magnoliales et des Laurales10, mais le test de cette hypothèse basé sur la synténie n’a pas été possible sans un génome magnoliide assemblé. Un total de 16 498 paires de gènes a été identifié dans 992 blocs synténiques comprenant 72,7 % de l’assemblage du génome SCT. Parmi ces blocs synténiques intragénomiques, 72,3 % étaient synténiques à plus d’un endroit du génome, ce qui suggère que plus d’une duplication du génome entier (DGE) s’est produite dans l’ancêtre du SCT (Fig. 3a). Deux séries d’anciennes WGD ont été impliquées par une synténie étendue entre des paires de régions chromosomiques et un appariement significatif mais moins syntétique de chaque région avec deux segments génomiques supplémentaires (Fig. 13 supplémentaire). Les blocs de synténie des 12 plus grands échafaudages du SCT ont été assignés à cinq groupes qui pourraient correspondre à des chromosomes ancestraux pré-WGD (Fig. 3a, Fig. 13 supplémentaire et note supplémentaire).
Amborella trichopoda est la seule espèce représentant la lignée sœur de tous les autres angiospermes existants et elle ne présente aucune preuve de DGE depuis la divergence avec le dernier ancêtre commun des lignées de plantes à fleurs existantes33. Pour confirmer que deux séries de DGE ont eu lieu dans l’ancêtre du SCT après la divergence des lignées menant au SCT et à A. trichopoda, nous avons évalué la synténie entre les deux génomes. Conformément à notre hypothèse, un à quatre segments du génome du SCT étaient alignés sur une seule région du génome de A. trichopoda (Fig. 3b et Fig. 14 supplémentaire).
Pour déduire plus précisément la chronologie des deux cycles de WGD évidents dans le génome du SCT, les distributions Ks des homologues intra-génomiques et inter-espèces (substitutions synonymes par site synonyme) ont été estimées. Les duplicata intragénomiques du SCT ont montré deux pics autour de 0,46 et 0,76 (Fig. 4a), ce qui correspond aux deux événements de modification génétique. Sur la base de ces deux pics, nous avons pu déduire l’évolution du caryotype en organisant les blocs de synténie regroupés en quatre groupes provenant vraisemblablement de l’un des cinq chromosomes antérieurs à la JMG (figure supplémentaire 15). La comparaison entre les orthologues d’Aquilegia coerulea (Ranunculales, une lignée sœur de toutes les autres eudicotylédones existantes33) et du SCT a révélé un pic proéminent autour de Ks = 1,41 (Fig. 4a), alors que le duplicata intragénomique d’Aquilegia était autour de Ks = 1, ce qui implique des JMG indépendantes après la divergence des lignées menant au SCT et à Aquilegia. La disponibilité du transcriptome de 17 Laurales + Magnoliales provenant du 1KP29 nous a permis de tester l’hypothèse de la chronologie des DGE évidents dans le génome SCT8. La distribution des Ks de cinq des six espèces disponibles de Lauraceae a révélé deux pics (Fig. 4b et Fig. 16 supplémentaire), comme cela a été observé dans la distribution des Ks du SCT (Fig. 4a) et correspondant à deux inférences basées sur la synténie de maladies de l’arbre généalogique du SCT (Fig. 3 et Fig. 15 supplémentaire). Un seul pic Ks a été observé chez les autres espèces de Laurales et de Magnoliales, ce qui suggère qu’un seul événement de GMD s’est produit dans l’ascendance de ces espèces (Figures supplémentaires 17 et 18). Le pic de Ks observé dans les données d’Aquilegia est probablement attribuable à un WGD au sein des Ranunculales bien après la divergence des eudicots et des magnoliides (Fig. 4a).
Spécialisation du protéome des magnoliacées
Nous avons cherché à identifier les gènes et les domaines protéiques spécifiques du SCT en annotant les domaines de la famille des protéines (Pfam) et en évaluant leur distribution à travers les 13 génomes de plantes à graines inclus dans nos analyses phylogénomiques. Conformément à l’observation selon laquelle il y avait très peu de groupes orthologues spécifiques du SCT, l’analyse en composantes principales du contenu des domaines Pfam a regroupé le SCT avec les monocotylédones et les eudicotylédones, les deux premières composantes principales séparant les gymnospermes et A. trichopoda de ce groupe (Fig. 19a supplémentaire). Il y avait des chevauchements considérables entre le SCT, les eudicots et les monocots, ce qui suggère une diversification fonctionnelle importante depuis la séparation de ces trois lignées. Le SCT a également montré un enrichissement et une réduction significatifs de 111 et 34 domaines protéiques par rapport aux autres espèces végétales, respectivement (figure supplémentaire 19b et tableau supplémentaire 9). Le gain de domaines protéiques comprenait le domaine carboxy-terminal de la terpène synthase (TPS) impliqué dans les réponses de défense et les répétitions riches en leucine (628 contre 334,4) dans l’efficacité de la transpiration des plantes34. De manière intéressante, nous avons constaté que le SCT possède 21 copies du facteur de transcription EIN3/EIN3-like (EIL), soit plus que le maximum de 17 copies rapporté précédemment dans le génome du bananier (Musa acuminata)35. Les EIL initient une réponse de signalisation de l’éthylène en activant le facteur de réponse à l’éthylène (ERF), que nous avons également trouvé fortement développé dans le SCT (150 copies contre une moyenne de 68,3 copies de neuf espèces rapportées dans la réf. 35 ; figure supplémentaire 20). ERF répond et module positivement la biosynthèse des signaux phytohormonaux, y compris l’éthylène36. L’expression de ERF a été impliquée dans la modulation positive du développement des plantes, de la maturation des fruits35 à la croissance secondaire dans la formation du bois37, ainsi que dans l’augmentation de la résistance aux facteurs abiotiques38 ou biotiques39. Ainsi, l’expansion des EILs dans le SCT peut stimuler l’ERF, conduisant à diverses régulations des effecteurs en aval qui résultent en des traits spécifiques au SCT.
Nous avons ensuite évalué les expansions et les contractions des groupes orthologues à travers la phylogénie des plantes à graines (Fig. 2). L’évolution de la taille des familles de gènes a été dynamique à travers la phylogénie, et la branche menant au SCT n’a pas présenté un nombre significativement différent d’expansions et de contractions. L’enrichissement des termes de l’ontologie génétique a révélé soit des familles de gènes différentes partageant des fonctions communes, soit des familles monogéniques subissant de fortes expansions (tableaux supplémentaires 10 et 11). Par exemple, les membres élargis des gènes de résistance des plantes (R) s’ajoutent à la « réponse hypersensible de type végétal » (tableau supplémentaire 10). En revanche, les termes Gene Ontology enrichis des familles de gènes contractés de la branche SCT (tableau supplémentaire 11) contiennent des membres des transporteurs ABC, de l’acide indole-3-acétique-amido-synthétase, de la xyloglucane endotransglucosylase/hydrolase et de la protéine sensible à l’auxine, qui font tous partie de la » réponse à l’auxine « .
Gènes R
L’annotation du génome du SCT comprenait 387 modèles de gènes R, dont 82% appartiennent aux types NBS-LRR (nucleotide-binding site leucine-rich repeat) ou NBS-LRR (coiled-coil). Ce résultat est cohérent avec un rapport précédent selon lequel LRR est l’un des domaines protéiques les plus abondants chez les plantes et il est très probable que la SCT soit capable de reconnaître et de combattre les produits des gènes d’avirulence (Avr) des pathogènes40. Parmi les 13 génomes échantillonnés, le SCT abrite le plus grand nombre de gènes R parmi les plantes non cultivées (figure supplémentaire 21). L’arbre phylogénétique construit à partir de 2 465 domaines NBS suggère également que les clades de la famille de gènes se sont diversifiés indépendamment au sein des eudicots, des monocots et des magnoliides. Il est intéressant de noter que les clades de gènes NBS les plus diversifiés du SCT étaient frères des clades de gènes NBS dépaupérisés des eudicots (figure supplémentaire 22).
Famille de gènes TPS
L’une des caractéristiques les plus frappantes du génome du SCT est le grand nombre de gènes TPS (CkTPS). Un total de 101 gènes CkTPS ont été prédits et annotés, le plus grand nombre pour tout autre génome à ce jour. En incluant un ensemble de données transcriptomiques de deux autres espèces de magnoliacées (P. americana et Saruma henryi), les analyses phylogénétiques des TPS de 15 espèces ont placé les gènes CkTPS parmi six des sept sous-familles de gènes TPS qui ont été décrites pour les plantes à graines41 (figure 5, tableau 1 et figures supplémentaires 23-28). Les gènes CkTPS placés dans les sous-familles TPS-c (2) et TPS-e (5) codent probablement des diterpènes synthases, comme la copalyl diphosphate synthase et l’ent-kaurène synthase42. Il s’agit d’enzymes clés catalysant la formation des isoprénoïdes à 20 atomes de carbone (collectivement appelés diterpénoïdes ; C20s), dont on pensait qu’ils étaient spécifiques aux eudictes41 et qu’ils remplissaient des fonctions primaires telles que la régulation du métabolisme primaire des plantes. Les 94 autres gènes CkTPS prédits codent probablement les monoterpènes (C10) synthases à 10 atomes de carbone, les sesquiterpènes (C15) synthases à 15 atomes de carbone et d’autres diterpènes (C20) synthases à 20 atomes de carbone (Tableau 1). Avec 25 et 58 homologues, respectivement, les sous-familles TPS-a et TPS-b sont les plus diversifiées dans le SCT, contribuant vraisemblablement à la production massive et mixte de C15s et C10s43 volatils.
Il convient de noter que l’arbre des gènes TPS a résolu les clades de gènes TPS spécifiques aux Lauracées au sein des sous-familles de gènes TPS-a, TPS-b, TPS-f et TPS-g (figures supplémentaires 23, 24, 27 et 28). Ce schéma de duplication des gènes TPS chez un ancêtre commun à Persea et Cinnamomum et de rétention ultérieure peut indiquer une sous-fonctionnalisation ou une néofonctionnalisation des gènes TPS dupliqués au sein des Lauraceae. Une sous-clade spécifique aux magnoliidés dans la sous-famille TPS-a a également été identifiée dans les analyses, comprenant plus de gènes TPS magnoliidés avec des fonctions caractérisées (Fig. 23 supplémentaire). En effet, nous avons détecté une sélection positive dans les sous-clades TPS-f -I et -II spécifiques des Lauraceae, ce qui implique une divergence fonctionnelle (tableau supplémentaire 13). Ensemble, ces données indiquent une diversification croissante des gènes TPS des magnoliacées à la fois avant et après l’origine des Lauracées.
CkLes gènes TPS ne sont pas uniformément répartis sur les chromosomes (tableau supplémentaire 12) et le regroupement des membres des sous-familles individuelles a été observé sous forme de doublons en tandem (figure supplémentaire 29). Soixante-seize gènes TPS ont été observés dans les 12 plus grands échafaudages de SCT. Parmi ceux-ci, 60,5 % (46 copies) appartenant à différentes sous-familles ont été trouvés dans les régions de 0,5-15 Mb et de 22,0-24,5 Mb des échafaudages 7 et 10, respectivement (figure supplémentaire 29). L’échafaudage 7 contient 29 gènes CkTPS appartenant à plusieurs sous-familles, dont l’ensemble des huit CkTPS-a, 12 CkTPS-b, cinq CkTPS-e et trois CkTPS-f (figure supplémentaire 29). En revanche, seuls deux membres du CkTPS-c résident dans l’échafaudage 1. Vingt-quatre gènes CkTPS sont situés dans d’autres échafaudages plus petits, dont 22 codent pour la sous-famille TPS-b (Supplementary Fig. 24). Certaines de ces sous-familles situées sur les échafaudages 7 et 10 sont physiquement proches les unes des autres (Fig. 29 supplémentaire). Par exemple, 3 des 11 membres de la sous-famille TPS-b-Lau III sont adjacents à 4 des 11 membres de la sous-famille TPS-b-Lau V (figure supplémentaire 29), tandis que d’autres membres de la sous-famille ne se trouvent pas dans les régions synténiques correspondantes mais ailleurs dans le génome (figure supplémentaire 30). Les gènes appartenant à ce groupe n’étaient pas regroupés dans la phylogénie de leur sous-famille correspondante (Supplementary Fig. 30), ce qui suggère que leur disposition pourrait avoir eu lieu plus récemment que le dernier événement WGD.