Balancing selection and trans-specific polymorphisms

Guo en collega’s vergeleken whole-genome variation van de twee soorten om TSPs te identificeren. Vanwege het grote aantal genen dat werd vergeleken, gebruikten zij een reeks strenge filterstappen om vals-positieven te verminderen. (Dergelijke vals-positieven, waarbij TSP’s door andere evolutionaire processen zouden zijn gegenereerd in plaats van door balancerende selectie, zouden ons begrip van de omvang en het belang van balancerende selectie in de genoomevolutie misleiden). Om te vermijden dat variatie tussen genkopieën (paralogen) verkeerd geïnterpreteerd zou worden als polymorfismen op een enkele locus, concentreerden zij zich op 16.014 geconserveerde, orthologe, enkelvoudige genparen, die 1,1 en 0,45 miljoen bi-allelische SNPs bevatten in respectievelijk A. thaliana en C. rubella. Onder deze polymorfe sites, 8535 SNPs toonden paren van gedeelde SNPs (shSNP) tussen soorten. Omdat alignments in coderende regio’s betrouwbaarder zijn dan die in niet-coderende sequenties, behielden de auteurs slechts ongeveer een derde van de shSNP’s van hoge kwaliteit die in coderende regio’s werden gevonden, en die 433 genen beïnvloeden.

Deze shSNP’s kunnen neutrale evolutionaire processen weerspiegelen, zoals onvolledige lineage sortering van voorouderlijke polymorfismen, of recurrente mutatie in plaats van balancerende selectie. Om het potentieel voor neutrale factoren om gedeelde polymorfismen te behouden te begrijpen, leidden Guo en collega’s de demografische geschiedenis van A. thaliana en C. rubella af door gebruik te maken van coalescentie simulaties. Historische reducties in populatiegrootte (bottlenecks) werden gedetecteerd in beide soorten na divergentie van hun gemeenschappelijke voorouder. Bovendien blijkt uit deze analyses dat er een oude genenstroom heeft plaatsgevonden tussen de voorouders van deze twee soorten. Op basis van de neutrale coalescentietheorie en de geschatte demografische parameters is de waarschijnlijkheid van onvolledige lineage sorting (d.w.z. dat twee A. thaliana en C. rubella allelen niet zijn samengesmolten in het interval sinds speciatie) in de orde van 10-9. Dit impliceert dat < 1 shSNP zou worden behouden in uitgelijnde genomische regio’s onder genetische drift alleen. Deze geschatte waarschijnlijkheid geldt nog steeds met selfing en populatiestructuur binnen soorten, en wordt waarschijnlijk niet beïnvloed door voorouderlijke genenstroom. Daarom kan het bestaan van shSNPs niet worden verklaard door genetische drift alleen, en worden zij waarschijnlijk in stand gehouden door balancerende selectie.

Onder neutraliteit kunnen haplotypen die het voorouderlijke polymorfisme dragen, worden opgebroken als gevolg van recombinatie, en het is moeilijk om niet-recombinante allelen te identificeren voor soorten die lang geleden divergeerden. Daarentegen kan balancerende selectie recombinatie rond geselecteerde plaatsen onderdrukken, en korte voorouderlijke segmenten die meerdere gekoppelde varianten herbergen kunnen blijven bestaan totdat alle lineages samenvloeien tot hun gemeenschappelijke voorouder. In deze context kunnen oude gebalanceerde polymorfismen geclusterd zijn per alleltype eerder dan per soort (Fig. 1a en b), een indicatie van balancerende selectie. Op basis van een recombinatiesnelheid van 3.6 cM/Mb voor A. thaliana en C. rubella, schatten Guo en collega’s dat oude, neutraal evoluerende segmenten slechts enkele basenparen lang zouden zijn. Daarom scanden ze schuifvensters van 100 bp over de 433 geïdentificeerde kandidaatgenen om sequentieregio’s te vinden die geclusterd zijn volgens allelen in plaats van volgens soorten (Fig. 1b). Om de kans op valse positieven te verkleinen, werden een aantal filterstappen toegepast.

Fig. 1
figure1

Oorsprong en identificatie van trans-specifieke polymorfismen op een single-copy locus. a De tijd loopt van boven naar beneden, en variatie binnen een soort wordt omsloten door flankerende zwarte lijnen. Vóór het begin van de speciatie segregeren twee allelen binnen de voorouderlijke soort (paarse lijnen), en elke kopie geeft aanleiding tot een paar nakomeling-allelen (twee blauwe of twee rode). Naarmate de soortvorming voortschrijdt, erven deze nakomelings-allelen over in de dochtersoorten, en uiteindelijk bestaat er modern allelpolymorfisme tussen individuen. (Zoals gebruikelijk bij coalescentie-analyses worden alleen lijnen getoond die in onze moderne steekproef vertegenwoordigd zijn.) b Een allelfylogenie die de verwantschappen toont van moderne, gesequenteerde allelen op één enkel kopieëngen. In de blauwe clade zijn Arabidopsis thaliana allelen nauwer verwant aan blauwe allelen in Capsella rubella dan aan rode allelen in A. thaliana vanwege trans-specifiek polymorfisme. Figuur aangepast van Wu et al.

Guo en collega’s identificeerden vervolgens haplotypen van vijf genen als kandidaat-TSP’s onder langdurige balancerende selectie. Deze vijf genen zijn in beide soorten enkelvoudig gekopieerd, en simulatiestudies bevestigden dat dit patroon onder neutrale evolutie zeer onwaarschijnlijk zou zijn, wat suggereert dat deze vijf TSP’s door balancerende selectie in stand worden gehouden. Balancerende selectie werd ook ondersteund door hoge nucleotide diversiteit en polymorfisme met intermediaire frequentie in deze regio’s, zoals verwacht voor oude gebalanceerde polymorfismen. De vijf kandidaat-genen zijn geassocieerd met verschillende biologische en biochemische processen, waaronder de reactie op biotische en abiotische stress.

Ten slotte onderzochten Guo en collega’s de rol van deze vijf kandidaat-genen bij de aanpassing aan uiteenlopende habitats. Zij richtten zich op A. thaliana vanwege de uitgebreide informatie over de genetische, geografische en ecologische variatie in deze soort. Om verwarring met historische genetische divergentie te vermijden, namen zij vier genen in overweging die onafhankelijk waren van de populatiegeschiedenis en die correleerden met ecologische divergentie, wat wijst op lokale aanpassing. Modellering van ecologische niches bevestigde dat twee allelgroepen van de vier genen significant verschillende niches bewoonden, en expressieanalyses detecteerden verschillende expressieniveaus tussen haplotypegroepen in één van de vier genen. Al met al geven deze resultaten aan dat genen onder balancerende selectie mogelijk hebben bijgedragen aan aanpassing in A. thaliana.