Montagem e anotação de C. kanehirae
SCT é diplóide (2n = 24; Suplementar Fig. 1a) com um tamanho de genoma estimado de 823,7 ± 58,2 Mb/1 C (Suplementar Figs. 1b e 2). Produzimos um conjunto derivado unicamente de leituras de 85× PacBio (ler N50 = 11.1 kb; contig N50 = 0.9 Mb) com 728.3 Mb. As seqüências de consenso da montagem foram corrigidas usando-se 141× leituras de Illumina e mais andaimes com 207× ‘Chicago’ de cromatina reconstituída e 204× leituras de ponta de pizza Hi-C usando o gasoduto HiRise (Figura Complementar 3). Um conjunto final, integrado de 730,7 Mb foi produzido em 2.153 andaimes, compreendendo 91,3% da estimativa do tamanho do genoma da citometria de fluxo. O andaime final N50 foi de 50,4 Mb com mais de 90% em 12 pseudomoleculas (Tabela Suplementar 1), presumivelmente correspondendo aos 12 cromossomos SCT.
Usando uma combinação de suporte de homologia de proteínas vegetais de referência e sequenciamento de transcriptomas derivados de vários tecidos (Suplementar Fig. 1c e Tabela 2) e previsão do gene ab initio, 27.899 modelos de genes codificadores de proteínas foram anotados usando o pipeline MAKER218 (Tabela Suplementar 1). Destes, 93,7% foram encontrados como sendo homólogos às proteínas no banco de dados TrEMBL e 50% puderam ser atribuídos a termos ontológicos do gene usando o eggNOG-mapper19. O proteoma foi estimado como sendo pelo menos 89% completo com base na avaliação BUSCO20 (benchmarking universal single-copy orthologs), que é comparável a outras espécies de plantas sequenciadas (Tabela Suplementar 1). Orthofinder21 agregação de modelos do gene SCT com aqueles de 12 genomas de plantas de sementes diversas produziu 20.658 grupos ortológicos (Tabela Suplementar 3). 24.148 genes de SCT (86,56%) fizeram parte de grupos ortológicos com ortologues de pelo menos uma outra espécie de planta. 3.744 modelos de genes não eram ortológicos para outros, e apenas 210 genes faziam parte dos 48 grupos ortológicos específicos de SCT. No total, eles sugerem que a diversificação fenotípica em magnolióides pode ser alimentada pelo nascimento de novos genes de espécies específicas e expansão das famílias de genes existentes.
Caracterização do genoma
Identificamos 3.950.027 locais heterozigotos bialleicos no genoma do SCT, correspondendo a uma heterozigocidade média de 0,54% (um polimorfismo heterozigótico de nucleotídeo único (SNP) por 185 bp). As frequências alélicas alternativas (sem referência) nesses locais tiveram um pico maior em torno de 50% consistente com o fato de que a TCS é diplóide, sem evidências de aneuploidia recente (Figura Suplementar 4). A distribuição espacial dos sítios heterozigóticos foi altamente variável, com 23,9% do genoma exibindo menos de 1 locus SNP por kb comparado a 10% do genoma com pelo menos 12,6 loci SNP por kb. As execuções de regiões homozigóticas pareciam estar distribuídas aleatoriamente entre os cromossomos da TCE, atingindo um máximo de 20,2 Mb no andaime 11 (Fig. 1a). Essas longas séries de regiões de homozigocidade têm cobertura de sequência igual ao resto do genoma (Fig. 5 suplementar) e podem estar associadas a varreduras seletivas, consanguinidade ou gargalos populacionais recentes. Genes localizados nessas séries de regiões de homozigocidade foram encontrados enriquecidos no processo biossintético da lignina e no metabolismo da galactose (Tabela suplementar 4), o que sugere alguns papéis potenciais na formação de complexos lignina-carboidratos22. A análise seqüencialmente Markoviana de coalescência23 (PSMC) baseada em densidades heterozigotas de SNP implicou uma redução contínua do tamanho efetivo da população nos últimos 9 milhões de anos (Fig. 1b), com um possível gargalo de estrangulamento coincidente com a mudança climática do meio do Pleistoceno há 0,9 milhões de anos (Ma). Tais padrões podem refletir uma complexa história populacional de SCT associada com a história geológica de Taiwan, incluindo a elevação e formação da ilha no final do Mioceno (9 Ma), seguida pela construção da montanha 5-6 Ma, respectivamente24.
Elementos transponíveis e repetições intercaladas compõem 48% do conjunto do genoma (Tabela suplementar 5). A maioria dos elementos transponíveis pertenceu a retransposições de longa repetição terminal (LTR) (25,53%), seguidos pelos elementos transponíveis de DNA (12,67%). Entre os LTRs, 40,75% e 23,88% dos retrotransposons pertenciam a Ty3/Gypsy e Ty1/Copia, respectivamente (Tabela Suplementar 5). A filogenia do domínio da transcriptase reversa mostrou que a maioria das cópias Ty3/Gypsy formaram um clade distinto (20.092 cópias), presumivelmente como resultado da expansão e proliferação recentes, enquanto os elementos Ty1/Copia foram agrupados em dois clades irmãos (7.229 e 2.950 cópias) (Fig. 6 Suplementar). Com excepção de dois andaimes, os elementos transponíveis Ty3/Gypsy e Ty1/Copia LTR foram agrupados nos centros pericentrómeros dos 12 maiores andaimes (Fig. 1c e Suplementar Fig. 7). Além disso, as regiões enriquecidas com LTR (definidas em 100 kb com um excesso de 50% compreendendo elementos transponíveis da classe LTR) tiveram em média 35% de cobertura maior que o resto do genoma (Fig. 1c e Suplemento Fig. 8), sugerindo que estas repetições foram colapsadas no conjunto e podem ter contribuído para as diferenças na citometria de fluxo e estimativas do tamanho do genoma k-mer. O conteúdo da seqüência de codificação das TCS é similar aos outros genomas angiospermas incluídos em nossas análises (Tabela Suplementar 1), enquanto os introns são ligeiramente mais longos nas TCS devido a uma maior densidade de elementos transponíveis (P < 0,001, teste Wilcoxon rank-sum; Suplementar Fig. 9).
Como foi descrito para outros genomas vegetais25, os andaimes de nível cromossômico das TCT apresentam baixa densidade de genes codificadores de proteínas e alta densidade de elementos transponíveis nos centros dos cromossomos, e maior densidade de genes em direção às extremidades dos cromossomos (Fig. 1c). Identificamos clusters de um suposto heptâmero subtelomero, TTTAGGG, que se estendem até 2.547 cópias, o que implica em repetições teloméricas nas plantas26 (Tabela Complementar 6). Além disso, foram descobertos 687 kb de seqüências semelhantes a DNA plastificado nuclear (NUPTs), com média em torno de 202,8 bp (Tabela Suplementar 7). As SCT NUPTs foram esmagadoramente dominadas por fragmentos curtos, com 96% das NUPTs identificadas com menos de 500 bp (Tabela Suplementar 8). O NUPT mais longo é de ~20 kb de comprimento e sintético com 99,7% de identidade para uma porção do plastoma da SCT que contém sete genes codificadores de proteína e cinco genes de tRNA (Tabela Suplementar 10).
Posicionamento filogenômico de C. kanehirae sister to eudicots
Para resolver o longo debate sobre o posicionamento filogenético dos magnólidos em relação a outras linhagens de plantas com floração maior, nós construímos uma árvore filogenética baseada em 211 conjuntos ortogonais estritamente de uma cópia (ou seja, um e apenas um homólogo em todas as espécies) identificados através da circunscrição da família genética OrthoFinder21 de todos os modelos de genes do SCT e 12 outros genomas de plantas de semente (ver Métodos). Uma árvore de uma única espécie foi recuperada através da análise de máxima verosimilhança27 de uma supramatriz concatenada dos alinhamentos genéticos de uma única cópia e análise baseada em coalescência usando as 211 árvores genéticas28 (Fig. 2 e Fig. 11 Complementar). A TCS, representando a linhagem magnolóide, foi colocada como irmã do clade eudicóptero (Fig. 2). Esta topologia permaneceu robusta quando incluímos um conjunto de dados transcriptométricos de mais 22 espécies de magnoliídeos da iniciativa de 1.000 plantas29 (1KP), embora tenha sido obtido um suporte inferior para o bootstrap (Fig. 12 Suplementar). Usando MCMCtree30 com calibrações fósseis, calculamos um intervalo de confiança de 95% para o tempo de divergência entre magnolóides e eudicóides de 136,0-209,4 Ma (Fig. 2), que se sobrepõe a duas outras estimativas recentes (114,8-164,1 Ma31 e 118,9-149,9 Ma32).
Análise de Synteny/duplicação de todo o genoma
As investigações prévias de dados de tags de sequência expressos inferiram uma duplicação de todo o genoma dentro dos magnólidos antes da divergência dos Magnoliales e Laurales10, mas não foi possível testar esta hipótese de forma sintética sem um genoma magnólido montado. Um total de 16.498 pares de genes foram identificados em 992 blocos sintéticos compreendendo 72,7% da montagem do genoma SCT. Destes blocos intra-genômicos sintéticos, 72,3% foram encontrados como sendo sintéticos para mais de um local no genoma, sugerindo que mais de uma duplicação do genoma inteiro (WGD) ocorreu na ancestralidade do SCT (Fig. 3a). Duas rodadas de WGD antigas foram implicadas por extensa sintenização entre pares de regiões cromossômicas e emparelhamento significativo mas menos sintênico de cada região com dois segmentos genômicos adicionais (Suplemento Fig. 13). Blocos sintéticos dos 12 maiores andaimes do SCT foram atribuídos a cinco grupos que podem corresponder a cromossomos ancestrais pré-WGD (Fig. 3a, Suplemento Fig. 13 e Nota Complementar).
Amborella trichopoda é a única espécie representando a linhagem irmã de todas as outras angiospermas existentes e não tem nenhuma evidência de WGD desde a divergência do último ancestral comum das linhagens de plantas com flores33. Para confirmar que duas rodadas de WGD ocorreram na linhagem do SCT após a divergência das linhagens que levaram ao SCT e A. trichopoda, nós avaliamos a sintonia entre os dois genomas. Consistente com nossa hipótese, um a quatro segmentos do genoma SCT foram alinhados a uma única região no genoma A. trichopoda (Fig. 3b e Suplementar Fig. 14).
Para inferir mais precisamente o tempo das duas rodadas de WGD evidentes no genoma SCT, foram estimadas distribuições homólogas intragenômicas e interespécies Ks (substituições sinônimas por local sinônimo). As duplicatas intragenômicas do SCT mostraram dois picos em torno de 0,46 e 0,76 (Fig. 4a), em congruência com os dois eventos do WGD. Com base nesses dois picos, pudemos inferir a evolução do cariótipo organizando os blocos sintéticos agrupados em quatro grupos, presumivelmente originários de um dos cinco cromossomos pré-WGD (Fig. 15 Suplementar). A comparação entre Aquilegia coerulea (Ranunculales, uma linhagem irmã de todos os outros eudicópteros existentes33) e os ortologues SCT revelou um pico proeminente em torno de Ks = 1,41 (Fig. 4a), enquanto o duplicado intragenômico de Aquilegia estava em torno de Ks = 1, implicando WGDs independentes após a divergência de linhagens que levavam a SCT e Aquilegia. A disponibilidade do transcriptoma de 17 Laurales + Magnoliales do 1KP29 nos permitiu testar as hipóteses de tempo das WGDs evidentes no genoma do SCT8. A distribuição de Ks de cinco das seis espécies disponíveis de Lauraceae revelou dois picos (Fig. 4b e Suplementar Fig. 16), como foi visto na distribuição de Ks do SCT (Fig. 4a) e correspondente a duas inferências baseadas em sínteses de WGDs na ancestralidade do SCT (Fig. 3 e Suplementar Fig. 15). Apenas um pico de Ks foi observado nas demais espécies de Laurales e Magnoliales, sugerindo que apenas um evento de WGD ocorreu na ancestralidade dessas espécies (Fig. 17 e 18 Suplementares). O pico de Ks observado nos dados da Aquilegia é provavelmente atribuível à WGD dentro do Ranunculales bem após a divergência de eudicóides e magnolióides (Fig. 4a).
Especialização do proteoma dos magnólidos
Procuramos identificar genes e domínios protéicos específicos para SCT através da anotação dos domínios da família proteica (Pfam) e avaliando sua distribuição através dos 13 genomas de plantas de semente incluídos em nossas análises filogenômicas. Consistente com a observação de que existiam muito poucos grupos ortológicos específicos de TCT, a análise dos componentes principais do conteúdo do domínio Pfam agrupou TCT com as monocotiledôneas e eudicópteros, com os dois primeiros componentes principais separando gimnospermas e A. trichopoda deste grupo (Suplemento Fig. 19a). Houve considerável sobreposição entre as espécies de TCE, eudicó e monocotiledôneas, sugerindo significativa diversificação funcional, já que estas três linhagens se dividiram. A TCS também mostrou um enriquecimento e redução significativa de 111 e 34 domínios protéicos em comparação com outras espécies vegetais, respectivamente (Suplemento Fig. 19b e Suplemento Tabela 9). O ganho de domínios proteicos incluiu o domínio terpeno sintase (TPS) carboxi-terminal envolvido nas respostas de defesa e as repetições ricas em leucina (628 versus 334,4) na eficiência de transpiração das plantas34. Curiosamente, descobrimos que a SCT possui 21 cópias do fator de transcrição tipo EIN3/EIN3 (EIL), mais do que o máximo relatado anteriormente de 17 cópias no genoma da banana (Musa acuminata)35. As EILs iniciam uma resposta de sinalização de etileno ativando o fator de resposta de etileno (ERF), que também encontramos altamente expandido na SCT (150 cópias contra uma média de 68,3 cópias de nove espécies relatadas na ref. 35; Suplemento Fig. 20). O FRE responde e modula positivamente a biossíntese dos sinais fito-hormonais, incluindo o etileno36. A expressão da FRE tem sido implicada na modulação positiva do desenvolvimento vegetal desde a maturação dos frutos35 até ao crescimento secundário na formação da madeira37, bem como no aumento da resistência aos factores abióticos38 ou bióticos39. Assim, a expansão das EILs na TCE pode estimular a FRE, levando à regulação de vários efeitos a jusante que resultam em traços específicos da TCE.
A seguir avaliamos as expansões e contrações do grupo ortológico através da filogenia da planta semente (Fig. 2). A evolução do tamanho da família Gene foi dinâmica através da filogenia, e o ramo que levou à TCT não apresentou números significativamente diferentes de expansões e contrações. O enriquecimento dos termos da Ontologia Genética revelou ou diferentes famílias de genes compartilhando funções comuns ou famílias de um único gene passando por grandes expansões (Tabelas Suplementares 10 e 11). Por exemplo, membros expandidos de genes de resistência de plantas (R) somam-se a “resposta hipersensível do tipo planta” (Tabela Suplementar 10). Em contraste, os termos Ontologia Genética enriquecida das famílias de genes contraídos do ramo SCT (Tabela Complementar 11) contêm membros de transportadores de ABC, ácido acético-amido sintetase indole-3, xiloglucan endotransglucosilase/hidrolase e proteína auxino-responsiva, todos os quais fazem parte da “resposta à auxina”.
Genes R
A anotação do genoma SCT incluiu 387 modelos de genes R, 82% dos quais pertencem aos tipos NBS-LRRR (NBS-LRR) ou NBS-LRR em coiled-coil. Este resultado é consistente com um relatório anterior que o LRR é um dos domínios proteicos mais abundantes nas plantas e é altamente provável que o SCT seja capaz de reconhecer e combater os produtos patogénicos dos genes de avirulência (Avr)40. Entre os 13 genomas amostrados, a TCS abriga o maior número de genes R entre as plantas não cultivadas (Fig. 21 Suplementar). A árvore filogenética construída a partir de 2.465 domínios NBS também sugere que os clades dentro da família genética se diversificaram independentemente dentro dos eudicópteros, monocotiledôneas e magnolíides. Curiosamente, os clades mais diversos do gene SCT NBS foram os clades de genes depauperados do eudicot NBS (Suplemento 22).
família de genes TPS
Uma das características mais marcantes do genoma SCT é o grande número de genes TPS (CkTPS). Um total de 101 genes CkTPS foram previstos e anotados, o maior número para qualquer outro genoma até o momento. Ao incluir um conjunto de dados transcriptoma de mais duas espécies de magnoliides (P. americana e Saruma henryi), análises filogenéticas de TPS de 15 espécies colocaram genes de CkTPS entre seis das sete subfamílias de genes de TPS que foram descritas para plantas de semente41 (Fig. 5, Tabela 1 e Figs. 23-28 Suplementares). Os genes da CkTPS colocados nas subfamílias TPS-c (2) e TPS-e (5) provavelmente codificam diterpenossínteses, tais como copalil difosfato sintetase e ent-kaurene synthase42. Essas são enzimas-chave catalisadoras da formação dos 20 isoprenóides de carbono (coletivamente denominados diterpenóides; C20s), que foram considerados específicos do eudicóptero41 e servem para funções primárias, como a regulação do metabolismo primário das plantas. Os demais 94 genes CkTPS preditos provavelmente codificam as síntases 10-carbono monoterpeno (C10), 15-carbono sesquiterpeno (C15) e outras 20-carbono diterpeno (C20) (Tabela 1). Com 25 e 58 homólogos, respectivamente, as subfamílias TPS-a e TPS-b são as mais diversas em TCS, presumivelmente contribuindo para a produção em massa e mista de C15s e C10s43.
É de salientar que a árvore genealógica de TPS resolveu clades de genes de TPS específicos de Lauraceae dentro das subfamílias de genes de TPS-a, TPS-b, TPS-f e TPS-g (Figuras Suplementares. 23, 24, 27 e 28). Este padrão de duplicação do gene da TPS em um ancestral comum de Persea e Cinnamomum e posterior retenção pode indicar subfuncionalização ou neofuncionalização dos genes da TPS duplicados dentro da Lauraceae. Uma subclade específica de magnoliídeos na TPS – uma subfamília também foi identificada nas análises, incluindo mais genes magnolióides de TPS com funções caracterizadas (Suplemento Fig. 23). Na verdade, detectamos seleção positiva nas subclades TPS-f -I e -II específicas de Lauraceae, implicando em divergência funcional (Tabela Suplementar 13). Juntos, esses dados indicam uma diversificação crescente dos genes da TPS magnoliide antes e depois da origem da Lauraceae.
Os genes da TPSc não estão uniformemente distribuídos pelos cromossomos (Tabela Suplementar 12) e o agrupamento de membros de subfamílias individuais foi observado como duplicados em tandem (Suplementar Fig. 29). Setenta e seis genes de TPS foram observados nos 12 maiores andaimes da SCT. Destes, 60,5% (46 cópias) pertencentes a diferentes subfamílias foram encontrados na região 0,5-15 Mb e 22,0-24,5 Mb dos andaimes 7 e 10, respectivamente (Suplemento Fig. 29). O andaime 7 contém 29 genes CkTPS pertencentes a várias subfamílias, incluindo todas as oito CkTPS-a, 12 CkTPS-b, cinco CkTPS-e e três CkTPS-f (Suplemento Fig. 29). Em contraste, apenas dois membros da CkTPS-c residem no andaime 1. Vinte e quatro genes de CkTPS estão localizados em outros andaimes menores, 22 dos quais codificam a subfamília TPS-b (Suplemento Fig. 24). Algumas destas subfamílias localizadas nos andaimes 7 e 10 estão fisicamente próximas umas das outras (Suplemento Fig. 29). Por exemplo, 3 dos 11 membros da subfamília TPS-b-Lau III estavam localizados adjacentes a 4 dos 11 membros da subfamília TPS-b-Lau V (Suplemento Fig. 29), enquanto outros membros da subfamília foram encontrados não nas regiões sintéticas correspondentes, mas em outros lugares do genoma (Suplemento Fig. 30). Genes pertencentes a este agrupamento não foram agrupados na filogenia da subfamília correspondente (Suplemento Fig. 30), sugerindo que sua disposição poderia ter ocorrido mais recentemente do que no último evento do WGD.