Stout camphor tree genome fills understanding of flowering plant genome evolution

Assembly and annotation of C. kanehirae

SCT is diploid (2n = 24; Supplement Figure 1a), estimated genome size 823.7 ± 58.2 Mb/1 C (Supplement Figure 1b and 2). 85×PacBio long reads (read N50 = 11.1 kb; contig N50 = 0.9 Mb) のみを用いて728.3 Mbに及ぶアセンブリを作成した。 このアセンブリのコンセンサス配列は、141×イルミナリードを用いて補正し、さらにHiRiseパイプラインを用いて207×「シカゴ」再構成クロマチンと204×Hi-Cペアエンドリードで足場固めを行った(補足図3)。 最終的に2,153のスキャフォールドで730.7 Mbの統合アセンブリが得られ、フローサイトメトリーで推定されたゲノムサイズの91.3%を構成していることがわかった。 最終的なスキャフォールドN50は50.4Mbで、90%以上が12の擬似分子(補足表1)であり、おそらく12のSCT染色体に相当する。

参照植物タンパク質相同性サポートと様々な組織から得られたトランスクリプトーム配列(補足図1cおよび表2)と第一原理遺伝子予測の組み合わせにより、MAKER2パイプライン18を用いて2789個のタンパク質コード化遺伝子モデル(補足表1)を注釈づけした。 このうち、93.7%がTrEMBLデータベースのタンパク質と相同であることがわかり、50%がeggNOG-mapper19を用いてGene Ontologyタームを割り当てることができた。 BUSCO20 (benchmarking universal single-copy orthologs)評価により、プロテオームは少なくとも89%完全であると推定され、これは他の配列決定された植物種と同程度であった(Supplementary Table 1)。 SCT遺伝子モデルを12の多様な種子植物ゲノムのものとOrthofinder21でクラスタリングしたところ、20,658のオルソロググループが得られた(補足表3)。 24,148個のSCT遺伝子(86.56%)は、少なくとも1つの他の植物種からのオルソログを持つオルソロググループの一部であった。 3,744の遺伝子モデルは他とオーソログがなく、わずか210の遺伝子が48のSCT特異的オーソロググループの一部であった。

ゲノム解析

SCTゲノムから3,950,027個の二重鎖ヘテロ接合部位を同定し、平均ヘテロ接合率0.54%(185bpに1個のヘテロ接合型一塩基多型(SNP))に相当することが明らかになった。 これらの部位における代替(非参照)対立遺伝子頻度は、SCTが2倍体であり、最近の異数性の証拠がないという事実と一致する50%付近に大きなピークを有していた(補足図4)。 ヘテロ接合部位の空間的分布は非常に多様で、ゲノムの23.9%は1kb当たり1SNP座未満であるのに対し、10%は1kb当たり少なくとも12.6SNP座を有していた。 ホモ接合領域のランはSCT染色体全体にランダムに分布しているように見え、スキャフォールド11では最大20.2Mbに達していた(図1a)。 このような長いホモ接合領域の配列範囲はゲノムの他の部分と同じであり(補足図5)、選択的掃引、近親交配または最近の集団ボトルネックと関連している可能性がある。 これらのホモ接合領域に位置する遺伝子は、リグニン生合成過程やガラクトース代謝に富んでおり(補足表4)、リグニン-糖鎖複合体形成に何らかの役割を担っている可能性が示唆された22。 ヘテロ接合型SNP密度に基づくPairwise sequentially Markovian coalescent23 (PSMC)解析では、過去900万年にわたって有効集団サイズが継続的に縮小しており(図1b)、90万年前の更新世中期気候変動と同時期にボトルネックとなった可能性が示唆されている。 このようなパターンは、台湾の地質学的歴史に関連した SCT の複雑な集団史を反映しているのかもしれない。例えば、後期中新世 (9 Ma) の隆起と島の形成に続いて、それぞれ 5-6 Ma に山が形成された24。

Fig. 1: SCTゲノムのヘテロ接合性

a, 100-kb non-overlapping windowあたりのヘテロ接合バイラルSNPs数は最大12スキャフォールドに沿ってプロットされている. b, PSMC法を用いて有効母集団の大きさの履歴を推論した。 c, 100kbの非重複ウィンドウごとに、上から順に、遺伝子密度(予測モデルを持つヌクレオチドの割合)、トランスクリプトーム(トランスクリプトームマッピングの証拠を持つヌクレオチドの割合)、3種類の繰り返し配列(トランスポゾームアノテーションを持つヌクレオチドの割合)の分布を示す。 赤いTの文字は、足場端にテロメアリピートクラスターが存在することを示す。 LINE, long interspersed nuclear element.

トランスポーザブル・エレメントとインタースパージング・リピートはゲノムアセンブリの48%を占めた(補足表5)。 トランスポーザブルエレメントの大部分はロングターミナルリピート(LTR)レトロトランスポゾンに属し(25.53%)、次いでDNAトランスポーザブルエレメント(12.67%)であった。 LTRのうち、40.75%と23.88%のレトロトランスポゾンは、それぞれTy3/GypsyとTy1/Copiaに属していた(補足表5)。 逆転写酵素ドメインの系統解析の結果、Ty3/Gypsyの大部分は近年の拡大・増殖の結果と推定される明確なクレード(20,092コピー)を形成し、一方Ty1/COPIA要素は二つの姉妹クレード(7,229および2,950コピー)にグループ化された(補足図6)。 2つの足場を除いて、Ty3/GypsyとTy1/Copia LTR transposable elementはともに12個の最も大きな足場のペリセンタマーセンター内に集まっていた(図1c、補足図7)。 さらに、LTRに富む領域(LTRクラスのトランスポーザブルエレメントからなる割合が50%を超える100kbで定義)は、ゲノムの残りの部分よりも平均35%カバー率が高かった(図1cおよび補足図8)。これは、これらの繰り返しがアセンブリでつぶされ、フローサイトメトリーとk-merゲノムサイズ推定の違いに貢献した可能性を示唆している。 SCTのコード配列は我々の解析に含まれる他の被子植物ゲノムと同様であるが(補足表1)、イントロンはトランスポゾンの密度が高いため、SCTではわずかに長い(P < 0.001, Wilcoxon rank-sum test; Supplement Fig.

他の植物ゲノム25で報告されているように、SCTの染色体レベルのスキャフォールドは、染色体中央部では低いタンパク質コード遺伝子密度と高いトランスポゾーン密度を示し、染色体末端に行くほど遺伝子密度が高くなる(図1c)。 我々は、TTTAGGGという長さ2,547コピーのサブテロメアヘプタマーのクラスターを同定し、植物におけるテロメアリピートの存在を示唆した26 (Supplementary Table 6)。 さらに、平均約202.8 bpの687 kbの核プラスティドDNA様配列(NUPT)が発見された(補足表7)。 SCT NUPTは圧倒的に短い断片が多く、同定されたNUPTの96%は500bp以下であった(補足表8)。 最も長いNUPTは長さ約20kbで、7つのタンパク質コードと5つのtRNA遺伝子を含むSCTプラストームの一部と99.7%の同一性を持っている(補足図10)。 kanehirae sister to eudicots

他の主要顕花植物系統に対するモクレンの系統的配置に関する長年の議論を解決するために、我々はSCTおよび他の12種の種子植物ゲノムからのすべての遺伝子モデルのOrthoFinder21遺伝子ファミリーcircumcriptionによって特定された211の厳密に単一コピーの相同組織(すなわち、すべての種で1つのみ)(方法参照)に基づく系統樹を構築した。 単一コピー遺伝子アラインメントを連結したスーパーマトリクスを用いた最尤解析27と、211個の遺伝子木を用いた合体ベース解析28により、単一種樹を復元した(図2および補足図11)。 モクレン系統を代表するSCTは、eudicotクレードと姉妹関係にあることがわかった(図2)。 このトポロジーは、1,000 plant initiative29 (1KP)で得られたモクレン科22種のトランスクリプトームデータセットを追加しても、ブートストラップサポートは低くなったが、頑健であった(補足図12)。 MCMCtree30を用い、化石の較正を行った結果、モクレン類と真正細菌の分岐時期に対する95%信頼区間は136.0-209.4 Maとなり(図2)、最近の他の推定値(114.8-164.1 Ma31, 118.9-149.9 Ma32)と重なることが示された。

Fig.2: 13種の植物から得た211の単一コピーオルトログに基づく種樹。

遺伝子族の拡大と縮小はそれぞれプラスとマイナスの符号の隣の数字で示される。 括弧内の緑色の数字は乖離時間の推定値を示す。

シンテニー解析/全ゲノム重複

以前、発現配列タグのデータから、マグノリア類とラウレス類の分岐前にモクレンの中でゲノム全体の重複があったと推測されたが10、シンテニーによる検証はモクレンのゲノムが揃わないと不可能であった。 SCTゲノムの72.7%を構成する992のシンテニックブロックにおいて、合計16,498の遺伝子対が同定された。 これらのゲノム内シンテニックブロックのうち、72.3%はゲノム上の2箇所以上にシンテニックであることが判明し、SCTの祖先において複数の全ゲノム重複(WGD)が起こったことを示唆した(図3a)。 2回の古代のWGDは、染色体領域のペア間の広範なシンテニーと、各領域がさらに2つのゲノムセグメントと有意にシンテニックでないペアリングによって示唆された(補遺図13)。 SCTの12個の最大のスキャフォールドのシンテニーブロックは5つのクラスターに割り当てられ,それらはWGD以前の祖先染色体に対応すると思われる(図3a,補足図13,補足注)。 3:SCTゲノムの進化解析。

a, SCTゲノムの637シンテニーブロックのゲノム内関係を模式的に示したもの。 シンテニーブロック(桃色のブロックで示される)は、古代の核型を表す5つの連鎖クラスターに一義的に割り当てられ、色分けされている。 紫色のブロックは最初の連鎖群に割り当てられたシンテニーブロックを示す(補足図13も参照)。 b, SCTゲノム内の最初の連鎖群とA. trichopodaにおける対応関係の模式図。

アンボレラ・トリコポダは他の全ての現存の被子植物の姉妹系統を代表する唯一の種であり、最後の共通祖先の現存の顕花植物の系統からの分岐以来WGDの証拠がない33。 SCTとA. trichopodaにつながる系統が分岐した後、SCTの祖先において2回のWGDが起こったことを確認するため、2つのゲノムのシンテニーを評価した。 我々の仮説と一致するように、SCTゲノムの1~4セグメントはA. trichopodaゲノムの単一領域に整列した(図3bおよび補足図14)。

SCTゲノムに見られる2ラウンドのWGDの時期をより正確に推測するために、ゲノム内および種間の相同Ks(同義部位あたりの同義置換)分布が推定された。 SCTのゲノム内重複は0.46と0.76の2つのピークを示し(図4a)、2つのWGDイベントと一致した。 この2つのピークをもとに、クラスター化したシンテニーブロックを、WGD前の5本の染色体のいずれかに由来すると推定される4つのグループにさらに整理し、核型の進化を推測することができた(補足図15)。 Aquilegia coerulea(Ranunculales、他の全ての現存する真正細菌の姉妹系統33)とSCTのオーソログを比較すると、Ks = 1.41付近に顕著なピークが見られた(図4a)。一方、Aquilegiaのゲノム内複製はKs = 1付近にあり、SCTとAquilegiaにつながる系統の分岐の後に、独立してWGDが生じたと推測できる。 1KP29から17種のLaurales + Magnolialesのトランスクリプトームが入手できたので、SCTゲノムで明らかになったWGDの仮説的時期を検証することができるようになった8。 ラウラス属の6種のうち5種のKs分布は、SCTのKs分布(図4a)に見られたように2つのピークを示し(図4bおよび補足図16)、SCTの祖先におけるWGDのシンテニーに基づいた2つの推定に対応した(図3および補足図15)。 残りのLauralesとMagnolialesの種では1つのKsピークのみが観察され、これらの種の祖先において1つのWGDイベントのみが発生したことを示唆している(補足図17と18)。 Aquilegiaのデータで見られたKsのピークは、おそらく真木類とモクレンの分岐のかなり後にRanunculalesの中で起きたWGDに起因すると考えられる(図4a)。

a, SCT, A. coerulea内およびSCTとA. coerulea間のシンテニーブロックで確認された一対の相同重複合。 b, 1KPプロジェクト29におけるラウラエス属とマグノリア属のゲノム内の一対の重複したKs。 破線はSCTで観察された2つのKsのピークを示す。

Specialization of the magnoliids proteome

我々は、タンパク質ファミリー(Pfam)ドメインを注釈し、我々の系統解析に含まれる13の種子植物ゲノムにわたってその分布を評価することによってSCTに特有の遺伝子およびタンパク質ドメインを特定しようとした。 SCTに特異的なオーソロググループはほとんどないという観察結果と一致し、Pfamドメイン含量の主成分 分析では、SCTは単子葉植物と真珠腫にクラスター化し、最初の二つの主成分は裸子植物とA. trichopodaをこのグループから分離した(補足図19a)。 SCT、edicot、単子葉植物の間にはかなりの重複があり、これら3つの系統が分かれて以来、著しい機能的多様化が進んでいることが示唆された。 また、SCTは他の植物種と比較して、111のタンパク質ドメインが有意に濃縮され、34のタンパク質ドメインが減少した(補足図19bおよび補足表9)。 タンパク質ドメインの増加には、防御反応に関与するテルペン合成酵素(TPS)カルボキシ 末端ドメインや、植物の蒸散効率に関わるロイシンリッチリピート(628対334.4)などが含まれていた34。 興味深いことに、SCTはEIN3/EIN3様(EIL)転写因子を21コピー保有しており、これまで報告されているバナナ(Musa acuminata)ゲノムの最大17コピーより多い35ことがわかった。 EILはエチレン応答因子(ERF)を活性化することによってエチレンシグナル応答を開始するが、この因子もSCTで高度に拡大していることがわかった(文献に報告された9種の平均68.3コピーに対し、150コピー)。 35; 補足図20)。 ERFはエチレンを含む植物ホルモンシグナルの生合成に応答し、それを積極的に調節する36。 ERFの発現は、果実の成熟35から木材形成における二次成長37までの植物発達を正に調節し、また、環境因子38や生物因子39に対する抵抗性を高めることに関与していると考えられてきた。 したがって、SCTにおけるEILの拡大はERFを刺激し、下流のエフェクターを様々に制御してSCTに特有の形質をもたらすと考えられる。

次に、種子植物の系統におけるオルソログ群の拡大・縮小を評価した(図2)。 遺伝子ファミリーサイズの進化は系統間で動的であり、SCTにつながる枝は拡大および縮小の数に有意な差を示さなかった。 また、Gene Ontologyの項目を充実させると、共通の機能を持つ異なる遺伝子ファミリーや、大きく拡大した単一遺伝子ファミリーの存在が明らかになった(補足表10、11)。 例えば、植物抵抗性(R)遺伝子の拡張メンバーは、「植物型過敏性応答」に追加される(補足表10)。 一方、SCTブランチの縮小遺伝子ファミリーのGene Ontology用語の拡大(補足表11)は、ABCトランスポーター、インドール-3-酢酸-アミド合成酵素、キシログルカンエンドトランスグルコシラーゼ/ヒドロラーゼ、オーキシン応答性タンパク質のメンバーを含み、これらはすべて「オーキシンへの応答」の一部である。

R遺伝子

SCTゲノムアノテーションには387のR遺伝子モデルが含まれ、その82%はヌクレオチド結合部位ロイシンリッチリピート(NBS-LRR)型またはコイルドコイルNBS-LRR型に属していることが判明した。 この結果は、LRRが植物において最も豊富なタンパク質ドメインの1つであるという以前の報告と一致し、SCTがアビルレンス(Avr)遺伝子の病原体産物を認識して撃退することができる可能性が高い40。 SCTは、サンプリングした13ゲノムのうち、非栽培植物の中で最も多くのR遺伝子を保有している(補足図21)。 また、2,465個のNBSドメインから構築された系統樹は、この遺伝子ファミリー内のクレードが、被子植物、単子葉植物、モクレンの中で独立して多様化していることを示唆するものであった。 興味深いことに、最も多様なSCT NBS遺伝子クレードはdpauperate eudicot NBS遺伝子クレードと姉妹関係にあった(補足図22)。

TPS遺伝子ファミリー

SCTゲノムの最も顕著な特徴の1つはTPS遺伝子(CkTPS)の数が非常に多いことである。 合計101のCkTPS遺伝子が予測され、アノテーションされたが、これは今までの他のゲノムで最も多い数であった。 さらにモクレンの2種(P. americanaとSaruma henryi)のトランスクリプトームデータセットを含む15種のTPSの系統解析により、CkTPS遺伝子は種子植物について記載されている7つのTPS遺伝子サブファミリーのうち6つに位置付けられた41(図5、表1、補足図23〜28)。 TPS-c(2)およびTPS-e(5)サブファミリーに配置されたCkTPS遺伝子は、おそらくコパリル二リン酸合成酵素やent-kaurene合成酵素などのジテルペン合成酵素をコードしていると思われる42。 これらは炭素数20のイソプレノイド(総称してジテルペノイド;C20s)の生成を触媒する重要な酵素であり、ユージック病に特異的であると考えられていた41が、植物の一次代謝を調節するなどの主要な機能を果たしている。 残りの94個のCkTPS遺伝子は、炭素数10のモノテルペン(C10)合成酵素、炭素数15のセスキテルペン(C15)合成酵素、さらに炭素数20のジテルペン(C20)合成酵素をコードしていると思われる(表1)。 TPS-aおよびTPS-bサブファミリーはそれぞれ25および58の相同性を持っており、SCTにおいて最も多様で、おそらく揮発性のC15sおよびC10sの大量および混合生産に寄与している43)。

系統樹は、配列決定された13の陸上植物ゲノムとトランスクリプトームデータが利用できる2つのモクレンの推定または特徴付けられたTPS遺伝子を使って構築されたものである。

Table 1 主要種子植物系統の13ゲノムと3トランスクリプトームにおけるTPSサブファミリーの数

TPS遺伝子ツリーは、TPS-a, TPS-b, TPS-f および TPS-g 遺伝子サブファミリー内でLauraceae特異的TPS遺伝子クラードを分解したことが注目されます(補図23、24、27および28)。 このように、PerseaとCinnamomumの共通祖先におけるTPS遺伝子の重複とその後の保持のパターンは、ローラシア属内で重複したTPS遺伝子が亜機能化または新機能化したことを示しているのかもしれない。 また、TPS-aサブファミリーの解析の結果、モクレン科に特異的なサブクレードが同定され、特徴的な機能を持つモクレン科のTPS遺伝子が多く含まれていた(補遺図23)。 また、Lauraceaeに特異的なTPS-f -Iと-IIサブクレードでは、機能的分岐を示唆する正の選択が検出された(Supplementary Table 13)。

CkTPS遺伝子は染色体全体に一様に分布しておらず(補足表12)、個々のサブファミリーのメンバーがタンデム重複していることが観察された(補足図29)。 SCTの最大12個のスキャフォールドには76個のTPS遺伝子が観察された。 そのうち、異なるサブファミリーに属する60.5%(46コピー)が、スキャフォールド7と10の0.5-15Mb領域と22.0-24.5Mb領域にそれぞれ見出された(補足図29)。 スキャフォールド7には、8個のCkTPS-a、12個のCkTPS-b、5個のCkTPS-e、3個のCkTPS-fのすべてを含む、いくつかのサブファミリーに属する29個のCkTPS遺伝子が含まれている(補足図29)。 一方、scaffold 1に存在するのはCkTPS-cの2メンバーのみである。 24のCkTPS遺伝子が他の小さなスキャフォールドに存在し、そのうちの22はTPS-bサブファミリーをコードしている(補足図24)。 スキャフォールド7と10に位置するこれらのサブファミリーのいくつかは、互いに物理的に近接している(補足図29)。 例えば、TPS-b-Lau IIIサブファミリーの11人中3人はTPS-b-Lau Vサブファミリーの11人中4人と隣接していたが(補足図29)、他のサブファミリーは対応するシンテニック領域ではなく、ゲノム内の別の場所に存在していた(補足図30)。 このクラスターに属する遺伝子は、対応するサブファミリーの系統樹ではグループ化されていないことから(補足図30)、これらの配置は前回のWGDイベントよりも最近になって生じた可能性があることが示唆された

コメントを残す

メールアドレスが公開されることはありません。