A nonadaptive hypothesis and its predictions
Beschouw een genomische positie in een coderende regio die momenteel bezet wordt door G en geen A accepteert (zie bovenste rij in Fig. 1a). Naarmate de bewerkingsactiviteit in de soort toeneemt, kan een G-naar-A mutatie op die plaats neutraal en gefixeerd worden als de resulterende A in een voldoende groot deel van de mRNA-moleculen wordt teruggeplaatst in G (zie middelste rij in fig. 1a). Bij de G-naar-A-substitutie zal het hoge bewerkingsniveau op de plaats selectief worden gehandhaafd, omdat op mRNA-niveau eerder G dan A toelaatbaar is. Aangezien bovenstaande situatie alleen geldt voor nonsynonieme G-naar-A-substituties en de gekoppelde nonsynonieme A-naar-G-bewerking, worden het aantal nonsynonieme bewerkingsplaatsen en nonsynonieme bewerkingsniveaus opgeblazen ten opzichte van de overeenkomstige synonieme waarden. Hoewel hier de nonsynonieme bewerking de fixatie van de anders zo schadelijke G-naar-A mutatie mogelijk heeft gemaakt, is het afgeleide genotype met een genomische A die sterk bewerkt is, niet fitter dan het oorspronkelijke genotype met een genomische G. De bewerking is dus nonadaptief. We hebben in bovenstaand scenario aangenomen dat het bewerkingsniveau zo hoog is dat de anders zo schadelijke G-naar-A mutatie neutraal wordt. Het is ook mogelijk dat het bewerkingsniveau niet hoog genoeg is, waardoor de G-naar-A mutatie licht schadelijk wordt (zie onderste rij in Fig. 1a). Een licht schadelijke mutatie kan toch gefixeerd worden en het bewerkingsniveau kan selectief verhoogd worden in de verdere evolutie. Zelfs in dit scenario is er geen netto fitness winst van het oorspronkelijke genotype met een genomische G naar het afgeleide genotype met een genomische A die sterk bewerkt is. Wij noemen het bovenstaande niet-adaptieve model met beide beschreven scenario’s het harm-permitting model, omdat RNA-editing de fixatie van anders schadelijke mutaties mogelijk maakt. Hoewel de mogelijkheid van harm-permitting door RNA editing meermalen is voorgesteld31,38,39,40, vooral met betrekking tot de editing van organel transcriptomen, ontbreekt empirisch bewijs dat het geheel of primair verantwoordelijk is voor het creëren van “adaptieve signalen” van RNA editing.
Gezien de uitzonderlijk hoge bewerkingsactiviteit in coleoïde neurale weefsels25,27, stellen wij de hypothese dat de gemelde overheersing van niet-synonieme bewerking verklaard wordt door het harm-permitting model en niet adaptief is. Om deze hypothese te testen, verdelen we nonsynonieme bewerking in twee categorieën: herstellende en diversifiërende bewerking41. Herstellende bewerking zet de aminozuurtoestand terug naar een voorouderlijke toestand (fig. 1b), terwijl diversificerende bewerking de aminozuurtoestand omzet naar een niet-voorouderlijke toestand (fig. 1c). Aangezien herstellende bewerking, maar niet diversifiërende bewerking, een schade veroorzakend effect kan hebben, voorspelt onze hypothese dat de overheersende aanwezigheid van niet-synonieme bewerking in coleoïden toe te schrijven is aan herstellende, maar niet aan diversifiërende bewerking. In het bijzonder voorspellen we dat (i) de frequentie van bewerkte sites groter is voor herstellende (FR) dan synonieme (FS) bewerking, en dat (ii) het mediane bewerkingsniveau hoger is voor herstellende (LR) dan synonieme (LS) bewerking. Verder voorspelt de hypothese dat (iii) de frequentie van bewerkte sites niet groter is voor diversifiërende (FD) dan synonieme (FS) bewerking, en dat (iv) het mediane bewerkingsniveau niet hoger is voor diversifiërende (LD) dan synonieme (LS) bewerking. De adaptieve hypothese daarentegen heeft geen specifieke voorspellingen over FR en LR, maar voorspelt dat FD en LD respectievelijk groter zijn dan FS en LS. Het is opmerkelijk dat, hoewel alleen herstellende bewerking harm-permitting kan zijn, niet alle herstellende bewerking noodzakelijkerwijs harm-permitting is. Bijvoorbeeld, de herstellende bewerking zou neutraal zijn als het een neutrale G-naar-A substitutie herstelt.
Patronen van herstellende en diversifiërende bewerking
Om de niet-adaptieve hypothese te testen, analyseerden we de gepubliceerde neurale transcriptomen van zes weekdiersoorten27, waarvan de fylogenetische relaties zijn afgebeeld in Fig. 2a. Onder hen hebben de vier coleoïden wijdverbreide coderende A-to-G bewerking in neurale weefsels, terwijl de twee outgroups aanzienlijk minder bewerkingssites hebben27.
We identificeerden 3587 één-op-één orthologe genen in deze zes soorten en leidden voorouderlijke coderende sequenties af op alle binnenste knooppunten van de soortenboom (Fig. 2a). We beschouwden een niet-synonieme bewerking in een extern knooppunt van de boom die de aminozuurtoestand wijzigt van X naar Y als herstellend als de afgeleide aminozuurtoestand op basis van de genomische sequentie Y is in elk knooppunt van de boom dat voorouderlijk is aan het centrale externe knooppunt (Fig. 1b; zie ook Methoden), of diversificerend als Y niet aanwezig is in elk knooppunt van de boom dat voorouderlijk is aan het centrale externe knooppunt (Fig. 1c). Het is vermeldenswaard dat deze definities gebaseerd zijn op aminozuurtoestanden en alleen worden toegepast op niet-synonieme bewerking. Synonieme bewerking is vermoedelijk neutraal en hoeft dus niet te worden gescheiden in herstellende en diversifiërende bewerking. Bovendien zou het scheiden van synonieme bewerking in de twee categorieën minder accuraat zijn vanwege de lagere betrouwbaarheid bij het afleiden van voorouderlijke sequenties op synonieme plaatsen. Van de twee categorieën niet synonieme bewerkingsplaatsen is het aantal diversificerende bewerkingsplaatsen 8,4-13,9 maal zo groot als het aantal restoratieve bewerkingsplaatsen in de vier coleoïden (aanvullende tabel 1).
In elk van de vier coleoïden zijn FR en LR significant groter dan FS (Fig. 2b) en LS (Fig. 2c), respectievelijk. FD is daarentegen significant kleiner dan FS (fig. 2b), terwijl LD niet significant verschilt van LS (fig. 2c). Deze resultaten bevestigen alle vier de voorspellingen van de niet-adaptieve hypothese en staan haaks op de voorspellingen van de adaptieve hypothese, wat sterk suggereert dat de overheersing van niet-synonieme bewerking in coleoïden wordt verklaard door het harm-permitting model en niet-adaptief is. Figuur 2c laat zien dat, hoewel LR significant hoger is dan LS in elk coleoid, het lager is dan 2,5%. Men kan zich afvragen of zulke lage mediane niveaus van herstellende bewerking harm-permitting kunnen zijn. Zoals gezegd is niet alle restauratieve bewerking noodzakelijkerwijs harm-permitting, wat zou kunnen verklaren waarom LR niet bijzonder hoog is. Fig. 2c laat niettemin een grotere fractie van herstellende bewerkingen zien dan synonieme bewerkingen met merkbare bewerkingsniveaus. Bijvoorbeeld, in de inktvis hebben 33.37% en 13.31% van de restoratieve bewerkingsplaatsen, maar slechts 22.97% en 6.74% van de synonieme bewerkingsplaatsen bewerkingsniveaus >5% en >20%, respectievelijk. Afhankelijk van de schade van de G-naar-A mutatie en de relatieve dominantie van de A en G isovormen, zouden deze aanzienlijke bewerkingsniveaus van A-naar-G de fixatiekans van de G-naar-A mutatie aanzienlijk kunnen verhogen. Ook moet worden opgemerkt dat de harm-permitting hypothese wordt voorgesteld als alternatief voor de adaptieve hypothese. Als gematigde niveaus van niet-synonieme bewerking gunstig kunnen zijn, zoals de adaptieve hypothese beweert, is er geen reden waarom ze niet harm-permitting zouden kunnen zijn. Bovendien ondersteunt de algemene trend van LR > LS en LD < LS de harm-permitting hypothese ten opzichte van de adaptieve hypothese.
Om de robuustheid van onze resultaten te onderzoeken, voerden wij vier aanvullende analyses uit. Ten eerste onderzochten we respectievelijk bewerkingsplaatsen die specifiek zijn voor elk van de vier coleoïden, omdat soortspecifieke bewerkingsgebeurtenissen vergelijkbare evolutionaire leeftijden hebben, waardoor eerlijkere vergelijkingen mogelijk zijn. De verkregen resultaten komen sterk overeen met die in Fig. 2 en zijn robuust tegen mogelijke foutieve identificaties van soortspecifieke bewerkingen (Supplementary Fig. 1). Ten tweede onderzochten we de bewerkingsgebeurtenissen geïdentificeerd uit individuele weefsels in bimac. FR > FS en FD < FS gelden voor alle weefsels, maar vergelijkingen van de bewerkingsniveaus zijn meestal niet significant, waarschijnlijk als gevolg van de verminderde statistische kracht als gevolg van de kleinere steekproefgroottes (Supplementary Table 2). Ten derde, omdat de bewerkingsniveaus van naburige editing sites kunnen worden mede beïnvloed door een mutatie, die de statistische kracht zou verminderen bij het vergelijken van synonieme met niet-synonieme editing sites, vergeleken we synonieme editing sites in de ene helft van het gen set met niet-synonieme editing sites in de andere helft. Meer specifiek, we rangschikten alle genen volgens de dN/dS verhouding tussen octopus en inktvis orthologs, en groepeerden genen met oneven rangen in bin 1 en die met even rangen in bin 2. Vervolgens vergeleken we synonieme bewerking in bin 1 met niet-synonieme bewerking in bin 2, en synonieme bewerking in bin 2 met niet-synonieme bewerking in bin 1. De resultaten (supplementaire Fig. 2) zijn vergelijkbaar met die verkregen voor alle editing sites (Fig. 2). Ten vierde onderzochten we respectievelijk FR/FS en FD/FS in vijf bewerkingsniveaus (0-20%, 20-40%, 40-60%, 60-80%, en 80-100%) in elk coleoid (supplementair Fig. 3). Zowel FR/FS als FD/FS nemen over het algemeen toe met het bewerkingsniveau. Hoewel FR/FS bijna altijd groter is dan 1, is FD/FS kleiner dan 1, behalve wanneer het bewerkingsniveau hoger is dan 60%. Het is belangrijk te benadrukken dat slechts een paar procent van de diversifiërende bewerkingsplaatsen in een coleoïde binnen dit bereik van bewerkingsniveaus valt (aanvullende tabel 3), wat suggereert dat de overgrote meerderheid van de diversifiërende bewerking niet adaptief is (zie hieronder voor kwantitatieve schattingen).
Versnelde nonsynonieme G-to-A substituties
Het schade-permissie model voorspelt verder dat de snelheid van nonsynonieme G-to-A substitutie ten opzichte van die van synonieme G-to-A substitutie (dN/dS voor G-to-A) verhoogd zou moeten zijn, omdat de hoge editing activiteit sommige anders deleterieuze nonsynonieme G-to-A mutaties acceptabel maakt. Bovendien zou deze verhoging bijzonder uitgesproken moeten zijn in genen die uitsluitend tot expressie komen in neuraal weefsel, maar niet in genen die niet tot expressie komen in neuraal weefsel, omdat de hoge bewerkingsactiviteit tot dusver alleen in neuraal weefsel is waargenomen25,27. Omdat echter alleen van bimac en inktvis RNA-sequencing gegevens beschikbaar zijn van verschillende niet-neurale weefsels en omdat genen die niet tot expressie komen in neurale weefsels niet voorkomen in de transcriptsequentiegegevens van de octopus en de zeekat, en dus uitgesloten zijn van onze alignments, moesten we twee groepen genen definiëren met relatief hoge en relatief lage specificiteit in neurale expressie, respectievelijk. De genen met een hoge specificiteit voor neurale expressie komen uitsluitend tot expressie in neuraal weefsel in de bimak of de inktvis, terwijl die met een lage specificiteit voor neurale expressie tot expressie komen in zowel neuraal als niet-neuraal weefsel in zowel de bimak als de inktvis. Het harm-permitting model voorspelt dat dN/dS voor G-to-A groter is voor genen met een relatief hoge neurale expressie specificiteit dan voor die met een relatief lage neutrale expressie specificiteit. Omdat het harm-permitting effect alleen optreedt wanneer een G-naar-A mutatie op een plaats schadelijk is zonder bewerking, hebben we ons geconcentreerd op niet-synonieme plaatsen die geconserveerd zijn in de twee outgroup soorten (d.w.z. nautilus, zeehaas, en het onmiddellijk voorouderlijke knooppunt van de focale soort delen dezelfde pre-editing toestand) om de gevoeligheid van onze test te verhogen. Bovendien moet de verhoging in dN/dS specifiek zijn voor G-naar-A veranderingen, omdat de potentiële schade van andere veranderingen zoals C/T-naar-A en G-naar-C/T niet kan worden verlicht door A-naar-G bewerking.
Daartoe beschouwden we alle zes takken die afstammen van de gemeenschappelijke voorouder van de vier coleoïden. We berekenden dN en dS van elk van deze takken met behulp van de bestaande en afgeleide voorouderlijke sequenties, en berekenden vervolgens dN/dS door het totale dN te delen door het totale dS van deze takken. Ter ondersteuning van onze voorspelling is dN/dS voor G-naar-A veranderingen groter voor genen met relatief hoge neurale expressie specificiteiten dan die met relatief lage specificiteiten (Fig. 3). Door de twee groepen genen respectievelijk 200 maal te bootstrappen, vonden we dat het bovenstaande verschil statistisch significant is (P = 0.015). Daarentegen bestaat er geen significant verschil in dN/dS tussen de twee groepen genen wanneer C/T-naar-A veranderingen of G-naar-C/T veranderingen in aanmerking worden genomen (Fig. 3). Het is opmerkelijk dat dN/dS < 1 in alle gevallen in Fig. 3, consistent met het harm-permitting model dat geen positieve selectie impliceert.
Het potentiële voordeel van gedeelde bewerking onder soorten
Er is gesuggereerd dat gedeelde bewerking onder meerdere soorten waarschijnlijk gunstig is, omdat het anders onwaarschijnlijk is dat de bewerkingsstatus evolutionair geconserveerd blijft36. Ter ondersteuning van deze suggestie werd vastgesteld dat zelfs bij zoogdieren, waar de meeste nonsynonieme bewerking neutraal of schadelijk lijkt, de frequentie van geconserveerde sites die onderhevig zijn aan nonsynonieme bewerking bij zowel mens als muis aanzienlijk hoger ligt dan de frequentie van geconserveerde sites die onderhevig zijn aan synonieme bewerking bij beide soorten36. Een soortgelijk verschijnsel werd gemeld bij fruitvliegen23. In coleoïden, een aanzienlijke fractie van nonsynonieme editing wordt gedeeld door ten minste twee soorten en sterk bewerkte sites hebben de neiging om te worden gedeeld27. Om de mogelijke evolutionaire krachten te begrijpen die RNA-bewerking op specifieke plaatsen in meerdere coleoïden in stand houden, hebben we bewerking geanalyseerd die gedeeld wordt door een clade van twee of meer soorten.
Een nonsynonieme bewerking die gedeeld wordt door een clade van soorten die de aminozuurtoestand wijzigt van X naar Y wordt als herstellend beschouwd als de afgeleide aminozuurtoestand op basis van de genoomsequentie Y is op elk knooppunt van de boom die ancestraal is aan de meest recente gemeenschappelijke voorouder van de clade, of diversificerend als Y niet aanwezig is op een van deze ancestrale knooppunten. In het onderzoek naar gedeelde bewerking hebben we gekeken naar het gemiddelde bewerkingsniveau in de clade waar de bewerking gedeeld wordt. Voor gedeelde bewerkingsplaatsen tussen de octopus en de bimac, en die tussen de inktvis en de zeekat, zijn FR en FD beide significant kleiner dan FS (Fig. 4a). Daarentegen zijn LR en LD beide significant groter dan LS (Fig. 4b). Voor de subset van de bovengenoemde gedeelde bewerkingsplaatsen die door alle vier de coleoïden worden gedeeld, zijn FD en LD respectievelijk significant groter dan FS (Fig. 4a) en LS (Fig. 4b), en dat geldt ook voor FR (Fig. 4a) en LR (Fig. 4b). Een significant grotere FD dan FS voor gedeelde bewerking kan veroorzaakt worden door (i) positieve selectie die de initiële fixatie bevordert van mutaties die leiden tot niet-synonieme bewerking en/of (ii) zuiverende selectie die het verlies voorkomt van vermoedelijk gunstige niet-synonieme bewerking; daarom is het een duidelijke indicator van adaptieve niet-synonieme bewerking. Een significant grotere LD dan LS voor gedeelde bewerking zou veroorzaakt kunnen worden door (i) positieve selectie die de toename van bewerkingsniveaus van vermoedelijk gunstige niet-synonieme bewerking bevordert, (ii) zuiverende selectie die de afname van bewerkingsniveaus van vermoedelijk gunstige niet-synonieme bewerking voorkomt, (iii) zuiverende selectie die bij voorkeur het verlies van hoge niveaus van niet-synonieme modificatie voorkomt, waarschijnlijk omdat hoge niveaus van modificatie gepaard gaan met grotere voordelen dan lage niveaus van modificatie, en/of (iv) positieve selectie die bij voorkeur het verlies van lage niveaus van niet-synonieme modificatie bevordert, waarschijnlijk omdat een A-naar-G-substitutie op een bewerkte plaats de voorkeur geniet, vooral wanneer het bewerkingsniveau laag is. Hoe dan ook, een significant grotere LD over LS wijst ook op adaptieve nonsynonieme editing. Vandaar dat nonsynonieme bewerking gedeeld door alle vier coleoïden sterke en consistente adaptieve signalen vertonen, wat suggereert dat een groot deel adaptief is. Ter vergelijking, nonsynonieme bewerking gedeeld tussen de octopus en de bimac, en die gedeeld tussen de inktvis en de zeekat vertonen enkele maar niet alle tekenen van adaptatie, en de adaptieve signalen zijn veel zwakker, wat suggereert dat slechts een kleinere fractie adaptief is.
Wat is het algemene voordeel van de gedeelde bewerking die adaptieve signalen vertoont? Er bestaan twee hypothesen. Ten eerste kan bewerking gunstig zijn vanwege de binnen het organisme gecreëerde eiwitdiversiteit25,27,32,42. Dat wil zeggen, bewerking maakt het bestaan van twee eiwit-isovormen per bewerkte site in een organisme mogelijk, wat een hogere fitness kan opleveren, analoog aan het heterozygote voordeel op polymorfe sites. Een andere mogelijkheid is dat het bewerken van een eiwit een nieuwe isovorm oplevert die gewoon fitter is dan de ongewijzigde isovorm. In deze laatste hypothese is het voordeel van editing vergelijkbaar met dat van een nucleotide-substitutie. Om een onderscheid te kunnen maken tussen deze twee hypothesen, hebben we ons geconcentreerd op plaatsen die in tenminste drie van de vier coleoïden bewerkt zijn, omdat volgens het parsimony-principe op deze plaatsen in de gemeenschappelijke voorouder van de vier soorten bewerking zou moeten hebben plaatsgevonden (Fig. 2a). Vervolgens schatten we de frequentie van vervanging van bewerking door een A-naar-G substitutie in elk van de vier soorten. Dergelijke vervangingen zijn naar verwachting min of meer neutraal voor synonieme bewerkingen. Voor niet synonieme bewerkingen zijn dergelijke vervangingen schadelijk onder de eerste hypothese vanwege het verlies aan eiwitdiversiteit, maar neutraal onder de tweede hypothese. Daarom voorspelt de eerste hypothese een lagere frequentie van dergelijke vervangingen voor niet-synonieme bewerking dan synonieme bewerking, terwijl de tweede hypothese gelijke frequenties van dergelijke vervangingen voorspelt voor synonieme en niet-synonieme bewerking.
Het is interessant dat de frequentie van dergelijke vervangingen voor niet-synonieme bewerking significant groter is dan die voor synonieme bewerking in een twee-staart Fisher’s exact test (Fig. 4c en supplementaire tabel 4). Omdat het de gedeelde diversifiërende bewerkingen zijn waarvan de aard van het voordeel in vraag wordt gesteld, beperkten we de analyse tot enkel diversifiërende bewerkingen, maar verkregen een gelijkaardig resultaat (Fig. 4c en Supplementaire Tabel 4). Het is opmerkelijk dat geen synonieme of niet-synonieme wijziging werd gevonden die werd vervangen door een A-naar-C/T substitutie onder deze set van sites (Aanvullende Tabel 4). Onze bevinding suggereert dat, als er al sprake is van synonieme bewerking, de kans groter is dat deze wordt vervangen door een A-naar-G substitutie dan synonieme bewerking, waarschijnlijk omdat het hebben van een genomische G superieur is aan het hebben van een genomische A die niet in alle mRNA-moleculen tot G kan worden bewerkt. Met andere woorden, onze resultaten verwerpen de eerste hypothese en suggereren dat de aard van het voordeel van adaptieve A-naar-G bewerking vergelijkbaar is met die van dezelfde nucleotide substitutie, hoewel de grootte van het voordeel van de eerste kleiner is dan die van de laatste. Bovendien suggereert de bevinding in Fig. 4c dat de significant grotere FD dan FS voor bewerking, gedeeld door alle vier coleoïden, beter verklaard kan worden door positieve selectie die de initiële fixatie bevordert van mutaties die leidden tot gunstige niet-synonieme bewerking, dan door zuiverende selectie die het verlies van gunstige niet-synonieme bewerking voorkomt.