Assembly and annotation of C. kanehirae
SCT is diploid (2n = 24; Supplement Figure 1a), estimated genome size 823.7 ± 58.2 Mb/1 C (Supplement Figure 1b and 2). 85×PacBio long reads (read N50 = 11.1 kb; contig N50 = 0.9 Mb) のみを用いて728.3 Mbに及ぶアセンブリを作成した。 このアセンブリのコンセンサス配列は、141×イルミナリードを用いて補正し、さらにHiRiseパイプラインを用いて207×「シカゴ」再構成クロマチンと204×Hi-Cペアエンドリードで足場固めを行った(補足図3)。 最終的に2,153のスキャフォールドで730.7 Mbの統合アセンブリが得られ、フローサイトメトリーで推定されたゲノムサイズの91.3%を構成していることがわかった。 最終的なスキャフォールドN50は50.4Mbで、90%以上が12の擬似分子(補足表1)であり、おそらく12のSCT染色体に相当する。
参照植物タンパク質相同性サポートと様々な組織から得られたトランスクリプトーム配列(補足図1cおよび表2)と第一原理遺伝子予測の組み合わせにより、MAKER2パイプライン18を用いて2789個のタンパク質コード化遺伝子モデル(補足表1)を注釈づけした。 このうち、93.7%がTrEMBLデータベースのタンパク質と相同であることがわかり、50%がeggNOG-mapper19を用いてGene Ontologyタームを割り当てることができた。 BUSCO20 (benchmarking universal single-copy orthologs)評価により、プロテオームは少なくとも89%完全であると推定され、これは他の配列決定された植物種と同程度であった(Supplementary Table 1)。 SCT遺伝子モデルを12の多様な種子植物ゲノムのものとOrthofinder21でクラスタリングしたところ、20,658のオルソロググループが得られた(補足表3)。 24,148個のSCT遺伝子(86.56%)は、少なくとも1つの他の植物種からのオルソログを持つオルソロググループの一部であった。 3,744の遺伝子モデルは他とオーソログがなく、わずか210の遺伝子が48のSCT特異的オーソロググループの一部であった。
ゲノム解析
SCTゲノムから3,950,027個の二重鎖ヘテロ接合部位を同定し、平均ヘテロ接合率0.54%(185bpに1個のヘテロ接合型一塩基多型(SNP))に相当することが明らかになった。 これらの部位における代替(非参照)対立遺伝子頻度は、SCTが2倍体であり、最近の異数性の証拠がないという事実と一致する50%付近に大きなピークを有していた(補足図4)。 ヘテロ接合部位の空間的分布は非常に多様で、ゲノムの23.9%は1kb当たり1SNP座未満であるのに対し、10%は1kb当たり少なくとも12.6SNP座を有していた。 ホモ接合領域のランはSCT染色体全体にランダムに分布しているように見え、スキャフォールド11では最大20.2Mbに達していた(図1a)。 このような長いホモ接合領域の配列範囲はゲノムの他の部分と同じであり(補足図5)、選択的掃引、近親交配または最近の集団ボトルネックと関連している可能性がある。 これらのホモ接合領域に位置する遺伝子は、リグニン生合成過程やガラクトース代謝に富んでおり(補足表4)、リグニン-糖鎖複合体形成に何らかの役割を担っている可能性が示唆された22。 ヘテロ接合型SNP密度に基づくPairwise sequentially Markovian coalescent23 (PSMC)解析では、過去900万年にわたって有効集団サイズが継続的に縮小しており(図1b)、90万年前の更新世中期気候変動と同時期にボトルネックとなった可能性が示唆されている。 このようなパターンは、台湾の地質学的歴史に関連した SCT の複雑な集団史を反映しているのかもしれない。例えば、後期中新世 (9 Ma) の隆起と島の形成に続いて、それぞれ 5-6 Ma に山が形成された24。
アンボレラ・トリコポダは他の全ての現存の被子植物の姉妹系統を代表する唯一の種であり、最後の共通祖先の現存の顕花植物の系統からの分岐以来WGDの証拠がない33。 SCTとA. trichopodaにつながる系統が分岐した後、SCTの祖先において2回のWGDが起こったことを確認するため、2つのゲノムのシンテニーを評価した。 我々の仮説と一致するように、SCTゲノムの1~4セグメントはA. trichopodaゲノムの単一領域に整列した(図3bおよび補足図14)。
SCTゲノムに見られる2ラウンドのWGDの時期をより正確に推測するために、ゲノム内および種間の相同Ks(同義部位あたりの同義置換)分布が推定された。 SCTのゲノム内重複は0.46と0.76の2つのピークを示し(図4a)、2つのWGDイベントと一致した。 この2つのピークをもとに、クラスター化したシンテニーブロックを、WGD前の5本の染色体のいずれかに由来すると推定される4つのグループにさらに整理し、核型の進化を推測することができた(補足図15)。 Aquilegia coerulea(Ranunculales、他の全ての現存する真正細菌の姉妹系統33)とSCTのオーソログを比較すると、Ks = 1.41付近に顕著なピークが見られた(図4a)。一方、Aquilegiaのゲノム内複製はKs = 1付近にあり、SCTとAquilegiaにつながる系統の分岐の後に、独立してWGDが生じたと推測できる。 1KP29から17種のLaurales + Magnolialesのトランスクリプトームが入手できたので、SCTゲノムで明らかになったWGDの仮説的時期を検証することができるようになった8。 ラウラス属の6種のうち5種のKs分布は、SCTのKs分布(図4a)に見られたように2つのピークを示し(図4bおよび補足図16)、SCTの祖先におけるWGDのシンテニーに基づいた2つの推定に対応した(図3および補足図15)。 残りのLauralesとMagnolialesの種では1つのKsピークのみが観察され、これらの種の祖先において1つのWGDイベントのみが発生したことを示唆している(補足図17と18)。 Aquilegiaのデータで見られたKsのピークは、おそらく真木類とモクレンの分岐のかなり後にRanunculalesの中で起きたWGDに起因すると考えられる(図4a)。
a, SCT, A. coerulea内およびSCTとA. coerulea間のシンテニーブロックで確認された一対の相同重複合。 b, 1KPプロジェクト29におけるラウラエス属とマグノリア属のゲノム内の一対の重複したKs。 破線はSCTで観察された2つのKsのピークを示す。
Specialization of the magnoliids proteome
我々は、タンパク質ファミリー(Pfam)ドメインを注釈し、我々の系統解析に含まれる13の種子植物ゲノムにわたってその分布を評価することによってSCTに特有の遺伝子およびタンパク質ドメインを特定しようとした。 SCTに特異的なオーソロググループはほとんどないという観察結果と一致し、Pfamドメイン含量の主成分 分析では、SCTは単子葉植物と真珠腫にクラスター化し、最初の二つの主成分は裸子植物とA. trichopodaをこのグループから分離した(補足図19a)。 SCT、edicot、単子葉植物の間にはかなりの重複があり、これら3つの系統が分かれて以来、著しい機能的多様化が進んでいることが示唆された。 また、SCTは他の植物種と比較して、111のタンパク質ドメインが有意に濃縮され、34のタンパク質ドメインが減少した(補足図19bおよび補足表9)。 タンパク質ドメインの増加には、防御反応に関与するテルペン合成酵素(TPS)カルボキシ 末端ドメインや、植物の蒸散効率に関わるロイシンリッチリピート(628対334.4)などが含まれていた34。 興味深いことに、SCTはEIN3/EIN3様(EIL)転写因子を21コピー保有しており、これまで報告されているバナナ(Musa acuminata)ゲノムの最大17コピーより多い35ことがわかった。 EILはエチレン応答因子(ERF)を活性化することによってエチレンシグナル応答を開始するが、この因子もSCTで高度に拡大していることがわかった(文献に報告された9種の平均68.3コピーに対し、150コピー)。 35; 補足図20)。 ERFはエチレンを含む植物ホルモンシグナルの生合成に応答し、それを積極的に調節する36。 ERFの発現は、果実の成熟35から木材形成における二次成長37までの植物発達を正に調節し、また、環境因子38や生物因子39に対する抵抗性を高めることに関与していると考えられてきた。 したがって、SCTにおけるEILの拡大はERFを刺激し、下流のエフェクターを様々に制御してSCTに特有の形質をもたらすと考えられる。
次に、種子植物の系統におけるオルソログ群の拡大・縮小を評価した(図2)。 遺伝子ファミリーサイズの進化は系統間で動的であり、SCTにつながる枝は拡大および縮小の数に有意な差を示さなかった。 また、Gene Ontologyの項目を充実させると、共通の機能を持つ異なる遺伝子ファミリーや、大きく拡大した単一遺伝子ファミリーの存在が明らかになった(補足表10、11)。 例えば、植物抵抗性(R)遺伝子の拡張メンバーは、「植物型過敏性応答」に追加される(補足表10)。 一方、SCTブランチの縮小遺伝子ファミリーのGene Ontology用語の拡大(補足表11)は、ABCトランスポーター、インドール-3-酢酸-アミド合成酵素、キシログルカンエンドトランスグルコシラーゼ/ヒドロラーゼ、オーキシン応答性タンパク質のメンバーを含み、これらはすべて「オーキシンへの応答」の一部である。
R遺伝子
SCTゲノムアノテーションには387のR遺伝子モデルが含まれ、その82%はヌクレオチド結合部位ロイシンリッチリピート(NBS-LRR)型またはコイルドコイルNBS-LRR型に属していることが判明した。 この結果は、LRRが植物において最も豊富なタンパク質ドメインの1つであるという以前の報告と一致し、SCTがアビルレンス(Avr)遺伝子の病原体産物を認識して撃退することができる可能性が高い40。 SCTは、サンプリングした13ゲノムのうち、非栽培植物の中で最も多くのR遺伝子を保有している(補足図21)。 また、2,465個のNBSドメインから構築された系統樹は、この遺伝子ファミリー内のクレードが、被子植物、単子葉植物、モクレンの中で独立して多様化していることを示唆するものであった。 興味深いことに、最も多様なSCT NBS遺伝子クレードはdpauperate eudicot NBS遺伝子クレードと姉妹関係にあった(補足図22)。
TPS遺伝子ファミリー
SCTゲノムの最も顕著な特徴の1つはTPS遺伝子(CkTPS)の数が非常に多いことである。 合計101のCkTPS遺伝子が予測され、アノテーションされたが、これは今までの他のゲノムで最も多い数であった。 さらにモクレンの2種(P. americanaとSaruma henryi)のトランスクリプトームデータセットを含む15種のTPSの系統解析により、CkTPS遺伝子は種子植物について記載されている7つのTPS遺伝子サブファミリーのうち6つに位置付けられた41(図5、表1、補足図23〜28)。 TPS-c(2)およびTPS-e(5)サブファミリーに配置されたCkTPS遺伝子は、おそらくコパリル二リン酸合成酵素やent-kaurene合成酵素などのジテルペン合成酵素をコードしていると思われる42。 これらは炭素数20のイソプレノイド(総称してジテルペノイド;C20s)の生成を触媒する重要な酵素であり、ユージック病に特異的であると考えられていた41が、植物の一次代謝を調節するなどの主要な機能を果たしている。 残りの94個のCkTPS遺伝子は、炭素数10のモノテルペン(C10)合成酵素、炭素数15のセスキテルペン(C15)合成酵素、さらに炭素数20のジテルペン(C20)合成酵素をコードしていると思われる(表1)。 TPS-aおよびTPS-bサブファミリーはそれぞれ25および58の相同性を持っており、SCTにおいて最も多様で、おそらく揮発性のC15sおよびC10sの大量および混合生産に寄与している43)。
系統樹は、配列決定された13の陸上植物ゲノムとトランスクリプトームデータが利用できる2つのモクレンの推定または特徴付けられたTPS遺伝子を使って構築されたものである。
TPS遺伝子ツリーは、TPS-a, TPS-b, TPS-f および TPS-g 遺伝子サブファミリー内でLauraceae特異的TPS遺伝子クラードを分解したことが注目されます(補図23、24、27および28)。 このように、PerseaとCinnamomumの共通祖先におけるTPS遺伝子の重複とその後の保持のパターンは、ローラシア属内で重複したTPS遺伝子が亜機能化または新機能化したことを示しているのかもしれない。 また、TPS-aサブファミリーの解析の結果、モクレン科に特異的なサブクレードが同定され、特徴的な機能を持つモクレン科のTPS遺伝子が多く含まれていた(補遺図23)。 また、Lauraceaeに特異的なTPS-f -Iと-IIサブクレードでは、機能的分岐を示唆する正の選択が検出された(Supplementary Table 13)。
CkTPS遺伝子は染色体全体に一様に分布しておらず(補足表12)、個々のサブファミリーのメンバーがタンデム重複していることが観察された(補足図29)。 SCTの最大12個のスキャフォールドには76個のTPS遺伝子が観察された。 そのうち、異なるサブファミリーに属する60.5%(46コピー)が、スキャフォールド7と10の0.5-15Mb領域と22.0-24.5Mb領域にそれぞれ見出された(補足図29)。 スキャフォールド7には、8個のCkTPS-a、12個のCkTPS-b、5個のCkTPS-e、3個のCkTPS-fのすべてを含む、いくつかのサブファミリーに属する29個のCkTPS遺伝子が含まれている(補足図29)。 一方、scaffold 1に存在するのはCkTPS-cの2メンバーのみである。 24のCkTPS遺伝子が他の小さなスキャフォールドに存在し、そのうちの22はTPS-bサブファミリーをコードしている(補足図24)。 スキャフォールド7と10に位置するこれらのサブファミリーのいくつかは、互いに物理的に近接している(補足図29)。 例えば、TPS-b-Lau IIIサブファミリーの11人中3人はTPS-b-Lau Vサブファミリーの11人中4人と隣接していたが(補足図29)、他のサブファミリーは対応するシンテニック領域ではなく、ゲノム内の別の場所に存在していた(補足図30)。 このクラスターに属する遺伝子は、対応するサブファミリーの系統樹ではグループ化されていないことから(補足図30)、これらの配置は前回のWGDイベントよりも最近になって生じた可能性があることが示唆された
。