Järeä kamferipuun genomi täyttää aukkoja kukkivien kasvien genomin evoluution ymmärtämisessä

Kokoonpano ja annotaatio C. kanehirae

SCT on diploidi (2n = 24; Täydentävä kuva 1 a), ja sen arviolta 823,7 ± 58,2 Mb/1 C:n kokoinen perimätiedot (Täydentävät kuvat 1 b ja 2). Tuotimme kokoonpanon, joka on johdettu yksinomaan 85 × PacBion pitkistä lukemista (lukeman N50 = 11,1 kb; contig N50 = 0,9 Mb), jotka kattavat 728,3 Mb. Kokoonpanon konsensussekvenssit korjattiin 141× Illumina-lukujen avulla ja telineistettiin edelleen 207× ”Chicagon” rekonstruoidulla kromatiinilla ja 204× Hi-C:n pareittain luetuilla lukuluvuilla HiRise-putken avulla (täydentävä kuva 3). Lopullinen, integroitu 730,7 Mb:n kokoinen kooste tuotettiin 2153 scaffoldissa, mikä vastaa 91,3 prosenttia virtaussytometrialla arvioidusta genomin koosta. Lopullinen scaffold N50 oli 50,4 Mb, josta yli 90 % oli 12 pseudomolekyylissä (lisätaulukko 1), jotka oletettavasti vastaavat 12 SCT-kromosomia.

Käyttäen yhdistelmää referenssikasvien proteiinihomologiatukea ja eri kudoksista peräisin olevaa transkriptomisekvensointia (lisäkuva 1c ja taulukko 2) sekä ab initio-geenien ennustusta, 27 899 proteiineja koodaavan geenin mallit annotoitiin MAKER2-putkilinjan18 avulla (lisätaulukko 1). Näistä 93,7 prosenttia todettiin homologisiksi TrEMBL-tietokannassa olevien proteiinien kanssa, ja 50 prosentille niistä voitiin määrittää Gene Ontology -termiä eggNOG-mapperin19 avulla. Proteomin arvioitiin olevan vähintään 89-prosenttisesti täydellinen BUSCO20 (benchmarking universal single-copy orthologs) -arvioinnin perusteella, mikä on verrattavissa muihin sekvensoituihin kasvilajeihin (lisätaulukko 1). SCT-geenimallien klusterointi Orthofinder21 12 erilaisen siemenkasvin genomin kanssa tuotti 20 658 ortologista ryhmää (lisätaulukko 3). 24 148 SCT-geeniä (86,56 %) kuului ortologisiin ryhmiin, joiden ortologit olivat peräisin vähintään yhdestä muusta kasvilajista. 3 744 geenimallia ei ollut ortologinen muiden kanssa, ja vain 210 geeniä kuului 48 SCT-kohtaiseen ortologiseen ryhmään. Kaiken kaikkiaan ne viittaavat siihen, että magnoliidien fenotyyppinen diversifikaatio voi johtua lajispesifisten geenien de novo -syntymisestä ja olemassa olevien geeniperheiden laajenemisesta.

GENOMIN KARTOITUS

Tunnistimme SCT:n genomista 3 950 027 biallelista heterotsygoottipaikkaa, mikä vastaa keskimääräistä heterotsygoottiutta, joka on 0,54 % (yksi heterotsygootti yksittäinen nukleotidi-polymorfismi (SNP) jokaista 185:tä bp:tä kohti). Vaihtoehtoisten (ei-referenssi-) alleelien frekvensseissä näissä paikoissa oli suuri huippu noin 50 prosentin tienoilla, mikä vastaa sitä, että SCT on diploidinen, eikä siinä ole viitteitä viimeaikaisesta aneuploidiasta (täydentävä kuva 4). Heterotsygoottisten paikkojen alueellinen jakauma oli hyvin vaihteleva, sillä 23,9 prosentissa genomista oli alle yksi SNP-lokus per kb, kun taas 10 prosentissa genomista oli vähintään 12,6 SNP-lokusta per kb. Homotsygoottialueet näyttivät jakautuvan satunnaisesti SCT-kromosomeihin, ja ne olivat suurimmillaan 20,2 Mb:n suuruisia telineessä 11 (kuva 1a). Tällaisilla pitkillä homotsygoottialueilla on sama sekvenssipeitto kuin muualla genomissa (täydentävä kuva 5), ja ne voivat liittyä valikoiviin pyyhkäisyihin, sisäsiitokseen tai hiljattaisiin populaation pullonkauloihin. Näillä homotsygoottialueilla sijaitsevien geenien havaittiin olevan rikastuneita ligniinin biosynteettisessä prosessissa ja galaktoosiaineenvaihdunnassa (lisätaulukko 4), mikä viittaa joidenkin geenien mahdolliseen rooliin ligniini-hiilihydraattikompleksien muodostamisessa22. Heterotsygoottisten SNP:iden tiheyksiin perustuva pareittainen sekventiaalinen Markovian coalescent-analyysi23 (PSMC-analyysi) osoitti tehokkaan populaatiokoon jatkuvan pienenemisen viimeisten 9 miljoonan vuoden aikana (kuva 1b), ja mahdollinen pullonkaula osui samaan aikaan pleistoseenin puolivälin ilmastomuutoksen kanssa 0,9 miljoonaa vuotta sitten (ma). Tällaiset kuviot saattavat heijastaa SCT:n monimutkaista populaatiohistoriaa, joka liittyy Taiwanin geologiseen historiaan, kuten saaren kohoamiseen ja muodostumiseen myöhäismioseenin aikana (9 ma) ja sitä seuranneeseen vuoriston rakentumiseen 5-6 ma24.

Kuva 1: SCT:n genomin heterotsygoottius.

a, Heterotsygoottisten biallelisten SNP:iden määrä 100 kt:n päällekkäisiä ikkunoita kohti on piirretty 12 suurinta scaffoldia pitkin. Indelit jätettiin pois. b, Tehokkaan populaatiokoon historia päätellään PSMC-menetelmällä. Suoritettiin sata bootstrappia, ja marginaalit on esitetty vaalean punaisella. c, Jokaisen ei-ylittävässä 100 kt:n ikkunassa on esitetty jakauma ylhäältä alaspäin: geenitiheys (prosenttiosuus nukleotideista, joilla on ennustettu malli), transkriptomi (prosenttiosuus nukleotideista, joilla on näyttöä transkriptomikartoituksesta) ja kolme eri luokkaa toistuvia sekvenssejä (prosenttiosuus nukleotideista, joilla on transponoituvien elementtien annotaatio). Punainen T-kirjain tarkoittaa telomeerisen toistoklusterin esiintymistä telineen päässä. LINE, long interspersed nuclear element.

Transposoituvien elementtien ja interspersiivisten toistojen osuus genomikokoonpanosta oli 48 % (lisätaulukko 5). Suurin osa transponoituvista elementeistä kuului pitkien terminaalisten toistojen (LTR) retrotransposoneihin (25,53 %), ja seuraavaksi eniten oli DNA:n transponoituvia elementtejä (12,67 %). LTR-retrotransposoneista 40,75 prosenttia kuului Ty3/Gypsy- ja 23,88 prosenttia Ty1/Copia-retrotransposoneihin (lisätaulukko 5). Käänteisen transkriptiodomeenin fylogenia osoitti, että suurin osa Ty3/Gypsy-kopioista muodosti erillisen kladin (20 092 kappaletta), mikä oli oletettavasti seurausta viimeaikaisesta laajenemisesta ja lisääntymisestä, kun taas Ty1/Copia-elementit ryhmittyivät kahteen sisarklaadiin (7229 ja 2950 kappaletta) (Täydentävä kuva 6). Kahta scaffoldia lukuun ottamatta sekä Ty3/Gypsy- että Ty1/Copia LTR-transposable-elementit ryhmittyivät 12 suurimman scaffoldin perisentromeerisiin keskuksiin (Kuva 1c ja Täydentävä kuva 7). Lisäksi LTR-rikastetuilla alueilla (jotka on määritelty 100 kb:llä, joista yli 50 % koostuu LTR-luokan transpositiivisista elementeistä) oli keskimäärin 35 % suurempi peitto kuin muualla genomissa (kuva 1c ja lisäyskuva 8), mikä viittaa siihen, että nämä toistot oli koottu kokoonpanossa ja että ne saattoivat osaltaan vaikuttaa eroihin virtaussytometrisissä ja k-mer-genomin kokoa koskevissa arvioissa. SCT:n koodaavien sekvenssien sisältö on samankaltainen kuin muiden analyyseihimme sisältyneiden angiospermaisten genomien (lisätaulukko 1), kun taas intronit ovat SCT:ssä hieman pidempiä johtuen suuremmasta transponoituvien elementtien tiheydestä (P < 0,001, Wilcoxonin rank-summatesti; lisätaulukko 1).

Kuten on kuvattu muiden kasvigenomien25 osalta, SCT:n kromosomitason telineissä on alhainen proteiineja koodaavien geenien tiheys ja suuri transposoituvien elementtien tiheys kromosomien keskiosissa ja lisääntynyt geenitiheys kromosomien päissä (kuva 1c). Tunnistimme klustereita, joissa on jopa 2547 kopion pituinen oletettu subtelomeerinen heptameeri TTTAGGG, mikä viittaa telomeerisiin toistoihin kasveissa26 (lisätaulukko 6). Lisäksi löydettiin 687 kb ydinplastidin DNA:n kaltaisia sekvenssejä (NUPT), joiden keskiarvo on noin 202,8 bp (lisätaulukko 7). SCT:n NUPT-sekvenssejä hallitsivat ylivoimaisesti lyhyet fragmentit, sillä 96 prosenttia tunnistetuista NUPT-sekvensseistä oli alle 500 bp (lisätaulukko 8). Pisin NUPT on ~20 kb:n pituinen ja 99,7 %:n identtisyydellä synteninen SCT:n plastomin osalle, joka sisältää seitsemän proteiineja koodaavaa ja viisi tRNA-geeniä (Täydentävä kuva 10).

Phylogenomic placement of C. kanehirae sisarus eudikottien kanssa

Ratkaisemaan pitkään jatkunutta keskustelua magnoliidien fylogeneettisestä sijoittumisesta suhteessa muihin tärkeimpiin kukkivien kasvien sukulinjoihin, rakensimme fylogeneettisen puun, joka perustui 211:een tiukasti yksikopioiseen ortologisarjaan (eli yhteen ja vain yhteen homologiin kaikissa lajeissa), jotka tunnistettiin kaikkien SCT:n ja 12:n muun siemenkasvin genomista peräisin olevien geenimallien (ks. ”Menetelmät”) kaikkien SCT:n ja 12:n muun siemenkasvin genomin geenimallien (ks. ”Menetelmät”) ortologisen perheiden kiertokirjoituksen (ortofinderi21) avulla. Yhden lajin puu saatiin talteen yhden kopion geenikohdistusten konkatenoidun supermatriisin maksimaalisen todennäköisyysanalyysin27 ja 211 geenipuun28 avulla tehdyn koalesenssipohjaisen analyysin avulla (kuva 2 ja täydentävä kuva 11). SCT, joka edustaa magnoliidilinjaa, sijoitettiin eudikot-klaadin sisarpuuksi (kuva 2). Tämä topologia säilyi vakaana, kun otimme mukaan transkriptomitietoaineiston, joka koostui lisäksi 22 magnoliidilajin järjestyksestä 1 000 kasvin aloitteesta29 (1KP), vaikkakin saimme pienemmän bootstrap-tuen (täydentävä kuva 12). Käyttämällä MCMCtree30 -menetelmää fossiilisten kalibrointien kanssa laskimme 95 prosentin luottamusvälin magnoliidien ja eudikottien eroamisajankohdaksi 136,0-209,4 ma (kuva 2), joka on päällekkäinen kahden muun tuoreen arvion kanssa (114,8-164,1 ma31 ja 118,9-149,9 ma32).

Kuva 2: Lajipuu 13 kasvilajin 211 yhden kopion ortologin perusteella.

Geeniperheen laajeneminen ja supistuminen on merkitty plus- ja miinusmerkkien vieressä olevilla numeroilla. Suluissa olevat vihreät numerot merkitsevät divergenssiaika-arvioita. Kaikkien solmujen bootstrap-tuki oli 100, ellei toisin mainita.

Syntenia-analyysi/koko genomin duplikaatio

Aiemmat tutkimukset ilmaistujen sekvenssitunnisteiden aineistosta päättelivät, että magnoliidien sisällä on tapahtunut koko genomin laajuinen duplikaatio ennen Magnoliales- ja Laurales-sukujen erkaantumista.10 Tämän hypoteesin testaaminen syntenia-analyysiin perustuvalla menetelmällä ei kuitenkaan ole ollut mahdollista, ellei käytössä ole ollut magnoliidien genomia, joka on koottu. Yhteensä 16 498 geeniparia tunnistettiin 992 syntenisessä lohkossa, jotka muodostavat 72,7 prosenttia SCT:n genomikokoelmasta. Näistä intragenomisista syntenisistä lohkoista 72,3 prosenttia oli syntenisiä useampaan kuin yhteen paikkaan genomissa, mikä viittaa siihen, että SCT:n syntyperässä tapahtui useampi kuin yksi koko genomin duplikaatio (WGD) (kuva 3a). Kahteen muinaiseen WGD-kierrokseen viittasi kromosomialueiden parien välinen laaja syntenia ja kunkin alueen merkittävä, mutta vähemmän synteninen pariutuminen kahden muun genomisegmentin kanssa (täydentävä kuva 13). SCT:n 12 suurimman telineen syntenialohkot luokiteltiin viiteen klusteriin, jotka saattavat vastata WGD:tä edeltäviä esi-isien kromosomeja (Kuva 3a, Täydentävä kuva 13 ja Täydentävä huomautus).

Kuva. 3: SCT-genomin evoluutioanalyysi.

a, Kaavamainen esitys SCT-genomin 637 syntenialohkon välisistä intragenomisista suhteista. Syntenialohkot (merkitty persikkalohkoilla) jaettiin yksiselitteisesti viiteen linkitysklusteriin, jotka edustavat muinaisia karyotyyppejä, ja ne on värikoodattu. Violetit lohkot merkitsevät ensimmäiseen linkitysryhmään määritettyä syntenialohkoa (ks. myös täydentävä kuva 13). b, Kaavamainen esitys SCT-genomin ensimmäisestä linkitysryhmästä ja niiden vastaavasta suhteesta A. trichopodassa.

Amborella trichopoda on ainoa laji, joka edustaa sisarlinjaa kaikille muille olemassa oleville angiospermaattisille kasveille, eikä sillä ole todisteita WGD:stä sen jälkeen, kun se on eronnut viimeisestä yhteisestä esi-isästä, joka on olemassa olevien kukkivien kasvien linjojen viimeinen yhteinen esi33. Vahvistaaksemme, että SCT:n esivanhemmuudessa tapahtui kaksi WGD-kierrosta sen jälkeen, kun SCT:hen ja A. trichopodaan johtaneet sukulinjat erosivat toisistaan, arvioimme näiden kahden genomin välistä synteniaa. Hypoteesimme mukaisesti SCT:n genomin yhdestä neljään segmenttiä oli linjassa A. trichopodan genomin yhden alueen kanssa (Kuva 3b ja Täydentävä kuva 14).

Tarkemmin päätelläksemme SCT:n genomissa ilmeisesti esiintyneiden kahden WGD-kierroksen ajoituksen arvioitiin lajinsisäiset ja lajien väliset homologiset Ks-jakautumat (synonyymiset substituutiot synonyymistä kohdetta kohti). SCT:n intragenomisissa duplikaateissa havaittiin kaksi huippua noin 0,46 ja 0,76 (kuva 4a), jotka sopivat yhteen kahden WGD-tapahtuman kanssa. Näiden kahden piikin perusteella pystyimme päättelemään karyotyypin evoluution järjestämällä klusteroidut syntenialohkot edelleen neljään ryhmään, jotka oletettavasti olivat peräisin jostakin viidestä WGD:tä edeltäneestä kromosomista (täydentävä kuva 15). Aquilegia coerulean (Ranunculales, sisarlinja kaikille muille nykyisille eudikotteille33 ) ja SCT:n ortologien välinen vertailu paljasti näkyvän huipun Ks = 1,41:n tienoilla (kuva 4a), kun taas Aquilegian intragenominen kaksoiskappale oli Ks = 1:n tienoilla, mikä viittaa siihen, että SCT:n ja Aquilegian syntyyn johtaneiden sukulinjojen divergenssin jälkeen tapahtui itsenäisiä WGD:tä. Koska käytettävissä oli 17 Laurales- ja Magnoliales-lajin transkriptomi 1KP29:stä, pystyimme testaamaan SCT:n genomissa ilmenevien WGD:iden oletettua ajoitusta8. Lauraceae-heimon kuudesta saatavilla olevasta lajista viiden lajin Ks-jakauma paljasti kaksi huippua (kuva 4b ja täydentävä kuva 16), kuten SCT:n Ks-jakaumassa (kuva 4a), ja se vastaa kahta synteniaan perustuvaa päätelmää WGD:stä SCT:n esivanhemmuudessa (kuva 3 ja täydentävä kuva 15). Muissa Laurales- ja Magnoliales-lajeissa havaittiin vain yksi Ks-piikki, mikä viittaa siihen, että näiden lajien esivanhemmuudessa tapahtui vain yksi WGD-tapahtuma (täydentävät kuvat 17 ja 18). Aquilegian aineistossa havaittu Ks-piikki johtuu todennäköisesti Ranunculales-suvun sisällä tapahtuneesta WGD:stä hyvissä ajoin sen jälkeen, kun eudikotit ja magnoliidit erosivat toisistaan (kuva 4a).

Kuva 4: SCT-genomin ja muiden kasvilajien synonyymien substituutioiden (Ks) tiheysplotit.

a, SCT:n ja A. coerulean sisäisissä sekä SCT:n ja A. coerulean välisissä syntenialohkoissa tunnistetut pareittaiset ortologiduplikaatiot. b, Lauraceae- ja Magnoliales-suvun sisäisten pareittaisten duplikaatioiden Ks 1KP-hankkeessa29. Katkoviivat kuvaavat SCT:ssä havaittuja kahta Ks-huippua. Ruskeat ja harmaat viivat kuvaavat vastaavasti SCT:n ja muiden Lauraceae-heimojen Ks-jakaumaa.

Magnoliidien proteomin erikoistuminen

Tarkoituksemme oli tunnistaa SCT:lle spesifisiä geenejä ja proteiinidomeenejä annotoimalla proteiiniperheiden (Pfam) domeeneja ja arvioimalla niiden jakaantumista 13:ssa siemenkasvien genomissa, jotka sisältyivät fylogenomianalyyseihimme. Yhdenmukaisesti sen havainnon kanssa, että SCT-spesifisiä ortologisia ryhmiä oli hyvin vähän, Pfam-domeenien sisällön pääkomponenttianalyysi ryhmitti SCT:n monokoottien ja eudikottien kanssa, ja kaksi ensimmäistä pääkomponenttia erotti voimakaskasvuiset ja A. trichopodan tästä ryhmästä (täydentävä kuva 19a). SCT-, eudikotti- ja monokotilajien välillä oli huomattavia päällekkäisyyksiä, mikä viittaa merkittävään toiminnalliseen diversifikaatioon näiden kolmen sukulinjan jakautumisen jälkeen. SCT:ssä esiintyi myös merkittävää 111 proteiinidomeenin rikastumista ja 34 proteiinidomeenin vähenemistä verrattuna muihin kasvilajeihin (täydentävä kuva 19b ja täydentävä taulukko 9). Proteiinidomeenien lisäys sisälsi terpeenisyntaasin (TPS) karboksiterminaalisen domeenin, joka osallistuu puolustusreaktioihin, ja leusiinirikkaat toistot (628 vs. 334,4) kasvien transpiraatiotehokkuudessa34. Mielenkiintoista on, että SCT:ssä on 21 EIN3/EIN3-kaltaisen (EIL) transkriptiotekijän kopiota, mikä on enemmän kuin banaanin (Musa acuminata) genomissa aiemmin raportoitu maksimissaan 17 kopiota35. EIL:t käynnistävät etyleenisignaalivasteen aktivoimalla etyleenivastetekijän (ERF), jonka havaitsimme myös laajentuneen voimakkaasti SCT:ssä (150 kopiota verrattuna yhdeksän lajin keskimääräiseen 68,3 kopioon, joka on raportoitu ref. 35; täydentävä kuva 20). ERF reagoi fytohormonaalisten signaalien, kuten etyleenin, biosynteesiin ja moduloi sitä positiivisesti36. ERF:n ilmentymisen on todettu vaikuttavan myönteisesti kasvien kehitykseen hedelmien kypsymisestä35 sekundaarikasvuun puunmuodostuksessa37 sekä lisääntyneeseen vastustuskykyyn abioottisia38 tai bioottisia39 tekijöitä vastaan. Näin ollen EIL:ien laajeneminen SCT:ssä voi stimuloida ERF:ää, mikä johtaa erilaisiin alavirran efektoreiden säätelyihin, jotka johtavat SCT:lle ominaisiin piirteisiin.

Arvioimme seuraavaksi ortologisten ryhmien laajenemisia ja supistumisia koko siemenkasvien fylogeniassa (Kuva 2). Geeniperheen koon kehitys oli dynaamista koko fylogeniassa, eikä SCT:hen johtavassa haarassa ollut merkittävästi erilaista laajentumisten ja supistumisten määrää. Gene-ontologian termien rikastaminen paljasti joko erilaisia geeniperheitä, joilla oli yhteisiä toimintoja, tai yksittäisiä geeniperheitä, joissa tapahtui suuria laajentumisia (lisätaulukot 10 ja 11). Esimerkiksi kasvien resistenssi (R) -geenien laajentuneet jäsenet lisäävät ”kasvityyppisen yliherkkyysvasteen” (täydentävä taulukko 10). Sitä vastoin SCT-haaran supistuneiden geeniperheiden rikastuneet Gene Ontology -termit (lisätaulukko 11) sisältävät ABC-transporttereiden, indoli-3-etikkahappoamidosyntetaasin, ksyloglukaanin endotransglukosylaasi/hydrolaasin ja auksiiniherkän proteiinin jäseniä, jotka kaikki kuuluvat ”vasteeseen auksiinille”.

R-geenit

SCT-genomin annotaatioon sisältyi 387 R-geenimallia, joista 82 % kuuluu nukleotideja sitoviin leusiinirikkaisiin toistuviin geeneihin (NBS-LRR) tai coiled-coil NBS-LRR-tyyppeihin. Tämä tulos on yhdenmukainen aikaisemman raportin kanssa, jonka mukaan LRR on yksi runsaimmista proteiinidomeeneista kasveissa, ja on erittäin todennäköistä, että SCT pystyy tunnistamaan ja torjumaan patogeenien avirulenssigeenien (Avr) tuotteita40. Näytteeksi otetuista 13 genomista SCT:ssä on eniten R-geenejä viljelemättömien kasvien joukossa (täydentävä kuva 21). Myös 2 465 NBS-domeenista muodostettu fylogeneettinen puu viittaa siihen, että geeniperheen sisällä olevat kladit ovat monipuolistuneet itsenäisesti eudikottien, monokottien ja magnoliidien sisällä. Mielenkiintoista on, että monimuotoisimmat SCT:n NBS-geeniklaadit olivat sisaruksia depauperoituneille eudikottien NBS-geeniklaadeille (Täydentävä kuva 22).

TPS-geeniperhe

Yksi SCT:n genomin silmiinpistävimmistä piirteistä on TPS-geenien (CkTPS) suuri määrä. Yhteensä 101 CkTPS-geeniä ennustettiin ja annotoitiin, mikä on tähän mennessä suurin määrä missään muussa genomissa. Kun mukaan otettiin vielä kahden magnoliidilajin (P. americana ja Saruma henryi) transkriptomitiedot, 15 lajin TPS-geenien fylogeneettiset analyysit sijoittivat CkTPS-geenit kuuteen seitsemästä siemenkasveille kuvatusta TPS-geenien alaryhmästä41 (kuva 5, taulukko 1 ja täydentävät kuvat 23-28). TPS-c- (2) ja TPS-e- (5) alaryhmiin sijoitetut CkTPS-geenit koodaavat todennäköisesti diterpeenisyntaaseja, kuten kopalyylidifosfaattisyntaasia ja ent-kaureenisyntaasia42. Nämä ovat keskeisiä entsyymejä, jotka katalysoivat 20-hiilisten isoprenoidien (joita kutsutaan yhteisesti diterpenoideiksi; C20:t) muodostumista. Näiden entsyymien oletettiin olevan eudikoottispesifisiä41 , ja niillä on ensisijaisia tehtäviä, kuten kasvien primaariaineenvaihdunnan säätely. Loput 94 ennustettua CkTPS-geeniä koodaavat todennäköisesti 10-hiilisiä monoterpeenisyntaaseja (C10), 15-hiilisiä seskviterpeenisyntaaseja (C15) ja muita 20-hiilisiä diterpeenisyntaaseja (C20) (taulukko 1). TPS-a- ja TPS-b-alaperheet, joilla on 25 ja 58 homologia, ovat SCT:ssä monimuotoisimpia, mikä oletettavasti vaikuttaa haihtuvien C15- ja C10-geenien massa- ja sekatuotantoon43.

Kuva 5: 101 CkTPS-geenin fylogeneettinen sijoittuminen.

Fylogeneettinen puu muodostettiin käyttäen oletettuja tai karakterisoituja TPS-geenejä 13:sta sekvensoidusta maakasvien genomista ja kahdesta magnoliidista, joista oli saatavilla transkriptomitiedot.

Taulukko 1 TPS-alaperheiden lukumäärät 13:ssa tärkeimpien siemenkasvilinjojen genomissa ja kolmessa transkriptomissa

Huomionarvoista on, että TPS-geenipuu selvitti Lauraceae-spesifiset TPS-geenien kladit TPS-a-, -b-, -f- ja -g-geenien alaperheiden sisällä (Täydentävät kuviot 23, 24, 27 ja 28). Tämä TPS-geenien monistumisen malli Persean ja Cinnamomumin yhteisessä esi-isässä ja sen jälkeinen säilyminen voi viitata monistuneiden TPS-geenien subfunktionaalistumiseen tai neofunktionaalistumiseen Lauraceae-suvun sisällä. Analyyseissä tunnistettiin myös magnoliideille ominainen alaklaadi TPS-a-alaperheessä, johon kuuluu useampia magnoliidien TPS-geenejä, joilla on karakterisoituja toimintoja (täydentävä kuva 23). Havaitsimme positiivista valikoitumista Lauraceae-spesifisissä TPS-f -I- ja -II-alaluokissa, mikä viittaa toiminnalliseen eroavaisuuteen (lisätaulukko 13). Yhdessä nämä tiedot osoittavat magnoliidien TPS-geenien lisääntyvää monipuolistumista sekä ennen Lauraceae-suvun syntyä että sen jälkeen.

CkTPS-geenit eivät ole jakautuneet tasaisesti kromosomeihin (lisätaulukko 12), ja yksittäisten aliperheiden jäsenten klusteroituminen havaittiin tandemduplikaatteina (lisätaulukko 29). Seitsemänkymmentäkuusi TPS-geeniä havaittiin 12 suurimmassa SCT:n telineessä. Näistä 60,5 % (46 kopiota) eri alaperheisiin kuuluvia geenejä löytyi telineiden 7 ja 10 0,5-15 Mb:n ja 22,0-24,5 Mb:n alueelta (täydentävä kuva 29). Teline 7 sisältää 29 CkTPS-geeniä, jotka kuuluvat useisiin alaperheisiin, mukaan lukien kaikki kahdeksan CkTPS-a-, 12 CkTPS-b-, viisi CkTPS-e- ja kolme CkTPS-f-geeniä (täydentävä kuva 29). Sitä vastoin vain kaksi CkTPS-c:n jäsentä sijaitsee telineessä 1. Kaksikymmentäneljä CkTPS-geeniä sijaitsee muissa pienemmissä telineissä, joista 22 koodaa TPS-b-alaperhettä (täydentävä kuva 24). Jotkin näistä telineissä 7 ja 10 sijaitsevista aliperheistä ovat fyysisesti lähellä toisiaan (täydentävä kuva 29). Esimerkiksi 11:stä TPS-b-Lau III -aliperheen jäsenestä 3 sijaitsi vierekkäin 4:n 11:stä TPS-b-Lau V -aliperheen jäsenen kanssa (täydentävä kuva 29), kun taas muita alaperheen jäseniä ei löytynyt vastaavilta synteettisiltä alueilta vaan muualta genomista (täydentävä kuva 30). Tähän klusteriin kuuluvia geenejä ei ryhmitelty yhteen vastaavassa aliperheen fylogeniassa (Täydentävä kuva 30), mikä viittaa siihen, että niiden järjestäytyminen on saattanut tapahtua viimeisintä WGD-tapahtumaa myöhemmin.

Vastaa

Sähköpostiosoitettasi ei julkaista.