Balansering av urval och transspecifika polymorfismer
Guo och kollegor jämförde variationen i hela arvsmassan hos de två arterna för att identifiera TSP:er. På grund av det stora antalet jämförda gener använde de en rad stränga filtreringssteg för att minska antalet falska positiva resultat. (Sådana falska positiva, där TSP:er genererades av andra evolutionära processer snarare än av balanserande urval, skulle missleda vår förståelse av omfattningen och betydelsen av balanserande urval i genomutvecklingen). För att undvika att misstolka variation mellan genkopior (paraloger) som polymorfismer på ett enda locus fokuserade de på 16 014 bevarade, ortologa genpar med en enda kopia, som innehöll 1,1 och 0,45 miljoner bi-alleliska SNPs i A. thaliana respektive C. rubella. Bland dessa polymorfa platser uppvisade 8535 SNP par av delade SNP (shSNP) mellan arter. Eftersom anpassningar i kodande regioner är mer tillförlitliga än de i icke-kodande sekvenser, behöll författarna endast omkring en tredjedel av de högkvalitativa shSNP som hittades i kodande regioner, vilket påverkade 433 gener.
Dessa shSNP kan återspegla neutrala evolutionära processer, såsom ofullständig linjesortering av förfädernas polymorfismer, eller återkommande mutationer i stället för balanserande urval. För att förstå potentialen för neutrala faktorer för att upprätthålla delade polymorfismer, härledde Guo och kollegor den demografiska historien hos A. thaliana och C. rubella genom att använda koalescenssimuleringar. Historiska minskningar av populationsstorleken (flaskhalsar) upptäcktes hos båda arterna efter divergens från deras gemensamma förfader. Dessutom visar dessa analyser att det förekom ett gammalt genflöde mellan förfäderna till dessa två arter. På grundval av neutral koalescensteori och uppskattade demografiska parametrar är sannolikheten för ofullständig sortering av släkten (dvs. att två A. thaliana- och C. rubella-alleler inte har samlats i intervallet sedan artbildningen) i storleksordningen 10-9. Detta innebär att < 1 shSNP skulle bibehållas i anpassade genomiska regioner enbart på grund av genetisk drift. Denna uppskattade sannolikhet gäller fortfarande med selfing och populationsstruktur inom arter, och det är osannolikt att den påverkas av ancestralt genflöde. Förekomsten av shSNP kan därför inte förklaras enbart av genetisk drift, och de upprätthålls troligen av balanserande urval.
Under neutralitet kan haplotyper som bär på den förfäderliga polymorfismen brytas upp som ett resultat av rekombination, och det är svårt att identifiera alleler som inte är rekombinerande för arter som divergerade för länge sedan. Däremot kan balanserande urval undertrycka rekombination kring utvalda platser, och korta ancestrala segment som innehåller flera länkade varianter kan finnas kvar tills alla linjer går samman till sin gemensamma förfader. I detta sammanhang kan gamla balanserade polymorfismer vara grupperade efter alleltyp snarare än efter art (fig. 1a och b), vilket är en indikation på balanserande urval. På grundval av en rekombinationshastighet på 3,6 cM/Mb för A. thaliana och C. rubella uppskattar Guo och kollegor att gamla, neutralt evolverande segment endast skulle vara flera baspar långa. Därför skannade de glidande fönster på 100 bp över de 433 identifierade kandidatgenerna för att hitta sekvensregioner som är klustrade av alleler snarare än arter (fig. 1b). För att minska risken för falska positiva resultat tillämpades ett antal filtersteg.
Guo och kollegor identifierade sedan haplotyper från fem gener som kandidat TSP:er under långsiktigt balanserande urval. Dessa fem gener är enkelkopierade hos båda arterna, och simuleringsstudier bekräftade att detta mönster skulle vara mycket osannolikt under neutral evolution, vilket tyder på att dessa fem TSP:er upprätthålls av balanserande urval. Balanserat urval stöddes också av hög nukleotiddiversitet och polymorfism med intermediär frekvens i dessa regioner, vilket förväntas för gamla balanserade polymorfismer. De fem kandidatgenerna är förknippade med olika biologiska och biokemiska processer, inklusive respons på biotisk och abiotisk stress.
Slutligt undersökte Guo och kollegor dessa fem kandidatgeners roll i anpassningen till olika livsmiljöer. De fokuserade på A. thaliana på grund av den omfattande informationen om den genetiska, geografiska och ekologiska variationen hos denna art. För att undvika förväxling med historisk genetisk divergens tog de hänsyn till fyra gener som var oberoende av populationshistoria och som korrelerade med ekologisk divergens, vilket tyder på lokal anpassning. Modellering av miljönischer bekräftade att två allelgrupper av de fyra generna upptog signifikant olika nischer, och uttrycksanalyser upptäckte olika uttrycksnivåer mellan haplotypgrupper i en av de fyra generna. Sammantaget tyder dessa resultat på att gener under balanserande urval kan ha bidragit till anpassning hos A. thaliana.