Frontiers in Genetics
- Introduction
- Materiały i Metody
- Zbieranie Danych i Kontrola Jakości
- Struktura populacji
- Wybór AIMs
- Klasyfikacja grup z minimalnymi AIMs
- Ancestry Inference With Optimal AIMs
- Wyniki
- Struktura populacji referencyjnych
- Group Classification Using AIMs
- Accurate Ancestry Proportion Estimation Using AIMs
- Ancestry Proportion Estimation for the Test Dataset
- Dyskusja
- Wkład Autorów
- Funding
- Oświadczenie o konflikcie interesów
- Materiały uzupełniające
- Footnotes
Introduction
Autosomalny polimorfizm pojedynczych nukleotydów (SNP) oraz insercja-delecja (InDel) są szeroko wykorzystywane do wnioskowania o pochodzeniu człowieka i przypisywania populacji (Bauchet i in., 2007; Tian et al., 2009; Sun et al., 2016). Markery informujące o pochodzeniu (Ancestry informative markers, AIMs) są markerami genetycznymi o różnicach w częstości występowania między populacjami (Shriver i in., 2003). Do uzyskania AIMs wykorzystano wiele statystyk, w tym statystykę F (FST), bezwzględne różnice częstości alleli (δ), miarę informatywności dla przypisania (In) oraz wyniki obciążenia składowych głównych (Rosenberg i in., 2003; Zhang i in., 2009; Ding i in., 2011; vonHoldt i in., 2016; Barbosa i in., 2017; Peterson i in., 2017). Zamiast stosowania markerów całego genomu, uznano, że AIMs są wystarczająco dokładne do wnioskowania o przodkach dla ograniczonej wielkości populacji. W konsekwencji, stanowi to ekonomiczny sposób na przesiewanie i analizę tysięcy próbek. Santos i wsp. (2016) podali, że 192 AIMs wybrane z danych ∼370 K SNP mogą być wykorzystane do dokładnego oszacowania proporcji przodków trzech głównych populacji w Brazylii. Li i wsp. (2016) opracowali panel 74 AIMs do wnioskowania o proporcjach rodowych 500 osobników testowych z 11 populacji. Ze względu na wysoką rozdzielczość AIMs, panel 23-AIMs wygenerowany przez Zeng i wsp. (2016). wyróżnił cztery główne populacje amerykańskie i prawidłowo przypisał rodowód dla dziewięciu dodatkowych populacji (Zeng i wsp., 2016).
W przypadku genetyki populacji zwierząt, AIMs zostały z powodzeniem zastosowane do identyfikacji ras różnych odmian oraz do oceny składu genetycznego w populacjach mieszańców (Dimauro i wsp., 2015; Bouchemousse i wsp., 2016). Bertolini i wsp. (2017) stwierdzili, że 96 AIMs dobrze sprawdziło się w dyskryminacji sześciu ras bydła mlecznego. W innym badaniu do oceny domieszek genetycznych u kojotów wykorzystano 63 AIMs wybrane spośród 427 canids (Monzon i in., 2014). Ostatnio 74 AIMs wykorzystano do obliczenia proporcji przodków u owiec krzyżowanych (Awassi z dwiema rodzimymi rasami w Etiopii) i stwierdzono, że różne poziomy domieszki Awassi istotnie wpłynęły na cechy wzrostu jagniąt i rozrodu maciorek (Getachew i in., 2017).
Świnie (Sus scrofa) zdywersyfikowały się do europejskich i azjatyckich dzików w połowie plejstocenu (1,2-0,8 mln lat temu) (Larson i in., 2005; Frantz i in., 2013). Udomowienie świń w Chinach nastąpiło ∼9000 lat temu (Larson i in., 2005). Udokumentowano, że chińskie świnie domowe zostały podzielone na sześć typów zgodnie z regionem zamieszkania i cechami fenotypu (I-Północne Chiny, II-Dolny Basen Changjiang, III-Centralne Chiny, IV-Południowe Chiny, V-Południowy Zachód i VI-Platforma) (Li i in., 2004; Fang i in., 2005). W najnowszych badaniach Yang i wsp. (2017). prześledzili rodowody różnych ras chińskich i zidentyfikowali dwa główne odrębne rodowody, które są pochodzenia wschodniochińskiego (np. Meishan i JinHua) i południowochińskiego (np. Luchuan i Bamaxiang). Ponadto, odnotowano również introgresję genomową z europejskich ras komercyjnych do chińskich świń rodzimych (Ai i in., 2013; Bosse i in., 2014; Zhu i in., 2017), czyniąc skład genetyczny współczesnych chińskich świń jeszcze bardziej skomplikowanym.
Aczkolwiek został on szeroko zastosowany u innych zwierząt i ma duże znaczenie w określonych scenariuszach zastosowań, w tym w nadzorze rynku i ochronie zasobów genetycznych, nie istnieje obecnie żadne badanie, które w sposób szczególny zajmuje się problemem efektywnego wykorzystania AIMs do rozróżniania ras świń lub do szacowania proporcji przodków. Tutaj, używając ∼60 K danych z chipów SNP świń, szukaliśmy optymalnej liczby AIMs dla odróżnienia świń pochodzących z Chin Wschodnich, Chin Południowych lub Europy. W oparciu o 129 wybranych AIMs, oszacowaliśmy proporcje przodków wyżej wymienionych pochodzeń dla innych chińskich świń. Zasugerowaliśmy, że AIMs wybrane z niezmieszanych populacji referencyjnych mogą być użyte do dokładnego oszacowania proporcji przodków w populacjach hybrydowych. Nasze wyniki stanowią użyteczny przykład wykorzystania AIMs do klasyfikacji ras i szacowania rodowodu u świń.
Materiały i Metody
Zbieranie Danych i Kontrola Jakości
Dane genotypowe 2,113 próbek zostały pobrane z Repozytorium Cyfrowego Dryad1. Tylko próbki z ras azjatyckich i europejskich zostały użyte w tym badaniu (w sumie 1157 próbek z 71 populacji, szczegóły w tabeli uzupełniającej S1). Próbki i SNP zostały wykluczone, jeśli spełnione zostały następujące kryteria: (1) osobnik zawierał więcej niż 10% brakujących genotypów; (2) SNPs o współczynniku wywołania niższym niż 95%; (3) SNPs o częstotliwości alleli mniejszej niż 0,05; (4) SNPs, które były zlokalizowane na chromosomach płci; i (5) SNPs nie były bialleliczne. Brakujące genotypy zostały następnie imputowane za pomocą BEAGLE (wersja 3.3.2) (Browning i Browning, 2007). Ostatecznie pozostało 45,562 SNPs i 1155 próbek. 1155 próbek zostało następnie podzielonych na dwa zbiory danych. Dla zbioru referencyjnego, 186 próbek zostało wybranych z 10 reprezentatywnych populacji trzech głównych grup rodowodowych: Świnia wschodniochińska (ECHP), Świnia południowochińska (SCHP), i Europejska świnia komercyjna (EUCP). Te 10 populacji zostało wybranych w oparciu o fakt, że nie było oczywistej domieszki pomiędzy populacjami należącymi do grupy ECHP lub SCHP, zgodnie z raportem Yang et al. (2017). Ten zestaw danych został podsumowany w tabeli 1. Testowy zbiór danych zawierał pozostałe 969 próbek z 61 populacji (szczegóły w Supplementary Table S2). Biorąc pod uwagę wygodę praktycznego zastosowania, dane genotypowe testowego zbioru danych zostały bezpośrednio wyodrębnione z surowych danych bez fazowania czy imputacji.
Tabela 1. Informacje o rasach świń w zbiorze referencyjnym.
Struktura populacji
Principal component analysis (PCA) została przeprowadzona na danych z chipów ∼60 K przy użyciu SMARTPCA (wersja 6.1.4) w zbiorze referencyjnym (Patterson i in., 2006). W celu potwierdzenia statusu unadmixed wykorzystano nienadzorowaną metodę ADMIXTURE (wersja 1.23) (Alexander i in., 2009) do obliczenia proporcji rodowych próbek ze zbioru referencyjnego z liczbą rodów (K) ustawioną od K = 3 do K = 15. Wybrano również model sprzężony ChromoPainter v2 (Lawson i in., 2012) do zbadania podobieństwa/podobieństwa dla osobników w zbiorze referencyjnym. Szczegółowo, plik mapy rekombinacji został wygenerowany przy użyciu skryptu makeuniformrecfile.pl dostarczonego przez fineSTRUCTURE (wersja 2.1.1) (Lawson i in., 2012). Wykorzystując profil ukrytego modelu Markowa, ChromoPainter v2 infukuje haplotypy „dawcy” i „biorcy” w celu utworzenia macierzy ko-ancestrii. Początkowo, 20 kroków expectation-maximization zostało użytych do oszacowania tempa mutacji i przełączania na 1/5 losowych członków próbkowania od wszystkich osób z wszystkimi autosomami branymi pod uwagę. Wywnioskowane wskaźniki mutacji i przełączania dla każdego chromosomu zostały następnie uśrednione. Następnie, z oszacowanymi mutacjami, switch rate i innymi wartościami domyślnymi, ChromoPainter v2 został ponownie użyty do wygenerowania macierzy ko-ancestrii dla wszystkich osobników. Na koniec, algorytm MCMC zaimplementowany w fineSTRUCTURE został zastosowany do hierarchicznego grupowania osobników z czasem wygrzewania i runtime wynoszącym odpowiednio 1 000 000 i 6 000 000 iteracji.
Wybór AIMs
Wszystkie 186 próbek w referencyjnym zestawie danych zostało użytych do obliczenia FST i In. Kandydackie SNP zostały wybrane za pomocą selektora algorytmu AIMs, który został zaimplementowany w AIMs_generator.py z ANTseq pipeline2. W szczególności, najpierw wykluczyliśmy SNPs w wysokim sprzężeniu zwrotnym (LD), wybierając tylko jeden SNP w silnym regionie LD (r2 > 0,3) i w odległości 500 kb. W obrębie każdej grupy, SNP, które wykazywały heterogeniczne częstości w poszczególnych populacjach były dalej wykluczane w oparciu o test Chi-kwadrat (Galanter i in., 2012). Po drugie, FST i In zostały obliczone dla każdej z trzech sparowanych grup: ECHP vs. EUCP, SCHP vs. EUCP, oraz ECHP vs. SCHP (Rosenberg i in., 2003).
Klasyfikacja grup z minimalnymi AIMs
Używając referencyjnego zbioru danych, najpierw porównaliśmy moc dyskryminacyjną AIMs wybranych przez FST lub In. Klasyfikacja binarna dla trzech sparowanych grup została przeprowadzona oddzielnie. Dla każdej sparowanej grupy, zaczęliśmy od wyboru od dwóch do 30 najlepszych AIM, z przyrostem o jeden AIM. Próbki w odpowiedniej sparowanej grupie zostały losowo podzielone na dwie proporcje: 75% do treningu, 25% do testów i operacja ta została powtórzona 50 razy. Następnie wykorzystano program GridSearchCV zaimplementowany w pakiecie Scikit-learn (wersja 0.18) do wyznaczenia optymalnych parametrów dla klasyfikatora typu support vector machine (SVM) (Da Mota i in., 2014). Parametry dla SVM zostały zestawione w tabeli uzupełniającej S3. Dla modelu z optymalnymi parametrami, dokładność klasyfikacji oceniano na podstawie średniej współczynnika korelacji Matthewsa (MMCC) dla 50 powtórzeń w następujący sposób:
gdzie TNi i FNi to liczba prawdziwych negatywów i fałszywych negatywów, a TPi i FPi to liczba prawdziwych pozytywów i fałszywych pozytywów, dla każdego przebiegu.
Aby określić minimalną liczbę AIM dla jednoczesnego rozróżnienia ECHP, SCHP i EUCP, zastosowano wieloklasowe podejście one-vs.-rest SVM na danych referencyjnych.reszty SVM zostało zastosowane na referencyjnym zbiorze danych (Hong i Cho, 2008). Podobnie, rozpoczęliśmy od wybrania dwóch najlepszych do 200 najlepszych AIM z każdej sparowanej grupy, z przyrostem o jeden AIM, co dało w sumie 199 zestawów AIM. W każdym zestawie, AIM wybrane z trzech sparowanych grup zostały połączone, a zduplikowane AIM zostały usunięte (Supplementary Table S4). Ponieważ MMCC nie został zaprojektowany do oceny dokładności klasyfikacji wieloklasowej, do oceny dokładności klasyfikacji wykorzystano macierz konfuzji, statystykę kappa Cohena i zrównoważony współczynnik błędu. Wyższy wskaźnik Cohen’s kappa, ale niższy zrównoważony poziom błędu wskazywał na większą dokładność klasyfikacji. Ponownie wykorzystaliśmy GridSearchCV do oszacowania najlepszych parametrów dla one-vs.-rest SVM, których parametry są podsumowane w Supplementary Table S3. Wygenerowaliśmy również losowe zestawy SNP o równej liczbie z całego genomu w celu porównania mocy dyskryminacyjnej do wybranych AIMs.
Ancestry Inference With Optimal AIMs
AIMs zostały szeroko wykorzystane do oszacowania proporcji przodków w populacjach hybrydowych, nawet w przypadkach, w których zostały wybrane z niezmieszanych populacji. W oparciu o wybrane AIMs, aby oszacować proporcje przodków w możliwych domieszkowych populacjach świń, zastosowaliśmy strategię, która była podobna do tej zastosowanej w poprzednim badaniu przez Pardo-Seco i wsp. (2014). Najpierw wygenerowaliśmy osobniki pseudo domieszkowe, wybierając losowo genotypy wybranych AIMs z próbek w referencyjnym zestawie danych z równymi proporcjami. W związku z tym oczekiwane proporcje rodowe tych pseudo domieszkowych osobników wynosiły 1/3 (∼0,3333) z każdej grupy (ECHP, SCHP i EUCP). Dla każdego z 199 wygenerowanych na tej podstawie zbiorów AIM wykonano 1000 symulacji. Do estymacji proporcji rodowych użyto nadzorowanej metody ADMIXTURE (K = 3). Wydajność oceniano na podstawie średniej i współczynnika zmienności (CV) oszacowanych proporcji rodowych. CV oszacowanych proporcji przodków w stosunku do liczby AIMs dopasowano za pomocą programu Curve Expert 1.43. Optymalna liczba AIMs została określona poprzez wybór nachylenia progu stycznej krzywej, której stabilna wydajność była obserwowana powyżej tego punktu. W celu dodatkowej walidacji przeprowadzono symulację pseudomieszanych osobników z losowymi proporcjami przodków, stosując ustaloną optymalną liczbę AIM. Proporcje rodowe ECHP, SCHP i EUCP zostały losowo przypisane z minimalną proporcją ustawioną na 10%.
Na podstawie AIMs wybranych w ostatnim kroku, przeprowadziliśmy wnioskowanie rodowodowe dla 969 osobników w testowym zbiorze danych za pomocą nadzorowanego ADMIXTURE. Wydajność została oceniona na podstawie współczynnika korelacji Pearsona pomiędzy genomowymi SNPs a optymalną liczbą AIMs.
Wyniki
Struktura populacji referencyjnych
Populacje w zbiorze referencyjnym miały być najmniej domieszkowane. Zaobserwowaliśmy, że ECHP, SCHP i EUCP były dobrze rozdzielone na wykresie składowych głównych (Rysunek 1A). Rozkład FST w całym genomie (Rysunek 1B) wykazał większe zróżnicowanie zarówno pomiędzy ECHP vs. EUCP (średnia = 0,2197, 95% CI 0,0006-0,7267) i SCHP vs. EUCP (średnia = 0,2153, 95% CI 0,0005-0,7570), podczas gdy zróżnicowanie pomiędzy ECHP vs. SCHP (średnia = 0,0588, 95% CI 0-0,3342) było zauważalnie mniej wyraźne. Stosując ADMIXTURE, wszystkie rasy zostały dobrze podzielone na przewidywane grupy (Ryc. 1C), gdy K = 3, zgodnie z poprzednim badaniem Yang i wsp. (2017). Gdy K = 10, 10 populacji można było wyraźnie rozdzielić, zgodnie z naszymi oczekiwaniami, że te 10 populacji było najmniej domieszkowanych (Supplementary Figure S1).
Figura 1. Struktura populacji 10 ras w referencyjnym zbiorze danych. (A) Analiza składowych głównych (PCA) danych z chipów ∼60 K. (B) Genomowy rozkład FST dla trzech sparowanych grup: ECHP vs. EUCP, SCHP vs. EUCP oraz ECHP vs. SCHP. Czerwona pionowa linia reprezentuje średnią rozkładu FST. Przerywane linie pionowe reprezentują 2,5 i 97,5% percentyl rozkładu FST. (C) Klasteryzacja ADMIXTURE danych z chipów ∼60 K przy K = 3-12. CNBX, China_Bamaxiang; CNCJ, China_Congjiangxiang; CNLU, China_Luchuan; CNDH, China_Guangdongdahuabai; CNJH, China_Jinhua; CNEH, China_Erhualian; CNMS, China_Meishan; DUR2, Duroc2; PIT1, Pietrain1; LDR1, Landrace1. Kody kolorów dla dużych aparatów są następujące, zielony: Świnia wschodniochińska (ECHP); czerwony: Świnia południowochińska (SCHP); niebieski: European commercial pig (EUCP).
Do dalszej kwantyfikacji, programy ChromoPainter v2 i fineSTRUCTURE zostały zatrudnione do sprawdzenia relacji między tymi rasami biorąc pod uwagę LD. Jak pokazano na mapie cieplnej koancestrii (Ryc. 2), osobniki w obrębie każdej grupy wykazywały jednorodny wzór, a osobniki z tej samej grupy dzieliły więcej fragmentów genetycznych niż osobniki z innych grup. W szczególności, EUCP miał znikomy stopień koancestrii z osobnikami z chińskich ras rodzimych. Próbka z ECHP i SCHP wykazywała wyższy stopień koacerwacji, ale osobniki z tej samej grupy nadal miały tendencję do grupowania się bardziej razem niż pomiędzy grupami. Podsumowując, wyniki sugerowały, że próbki w referencyjnym zbiorze danych wykazywały znikomy poziom domieszkowania.
Figura 2. analiza fineSTRUCTURE w referencyjnym zbiorze danych. Mapa cieplna przedstawia liczbę wspólnych fragmentów genetycznych skopiowanych z genomu dawcy (kolumna) do genomu biorcy (wiersz). CNBX, China_Bamaxiang; CNCJ, China_Congjiangxiang; CNLU, China_Luchuan; CNDH, China_Guangdongdahuabai; CNJH, China_Jinhua; CNEH, China_Erhualian; CNMS, China_Meishan; DUR2, Duroc2; PIT1, Pietrain1; LDR1, Landrace1. Kody kolorów są następujące, zielony: Świnia wschodniochińska (ECHP); czerwony: Świnia południowochińska (SCHP); niebieski: European commercial pig (EUCP).
Group Classification Using AIMs
W celu zbudowania efektywnego zestawu AIMs, najpierw porównaliśmy wydajność statystyki FST i statystyki In. Dla sparowanych grup ECHP vs. EUCP i SCHP vs. EUCP, minimum dwa AIMs okazały się wystarczające, aby doprowadzić do idealnego rozdzielenia (MMCC = 1), albo poprzez wybór najlepszych statystyk FST, albo poprzez najlepsze statystyki In (Supplementary Figure S2). Jednakże, aby rozdzielić ECHP vs. SCHP, wymagane były co najmniej cztery AIM przy użyciu FST, lub co najmniej pięć przy użyciu In. Dla AIMs wybranych przez FST lub In, stwierdziliśmy, że informacyjne AIMs wybrane przez In w dużej mierze pokrywały się z AIMs wybranymi przez FST, wskazując, że FST jest co najmniej tak samo informatywny jak In. Dlatego poniższe analizy były oparte tylko na AIMs wybranych przez FST.
Następnie próbowaliśmy zidentyfikować liczbę AIMs, które mogą być użyte do jednoczesnego oddzielenia ECHP, SCHP i EUCP przy użyciu podejścia wieloklasowego. Jak opisano w Materiałach i Metodach, najwyżej ocenione od 2 do 200 AIM zostały sekwencyjnie wybrane odpowiednio z ECHP vs. EUCP, SCHP vs. EUCP i ECHP vs. SCHP, co dało 199 zestawów AIM o rosnącej liczbie (Tabela uzupełniająca S4). AIM w każdym zestawie były łączone i deduplikowane. Na przykład, w największym zestawie 171 z 200 AIM było wspólnych dla ECHP vs. EUCP i SCHP vs. EUCP (Supplementary Figure S3), 12 z 200 AIM było wspólnych dla SCHP vs. EUCP i ECHP vs. SCHP, a 14 z 200 AIM było wspólnych dla ECHP vs. EUCP i ECHP vs. SCHP. Wszystkie 199 zestawów AIM zostało podanych klasyfikatorowi SVM typu one-vs.-rest. Jak pokazano na Rysunku 3 i w Tabeli Uzupełniającej S5, siedem AIM było wystarczających do całkowitego rozdzielenia ECHP, SCHP i EUCP z kappa Cohena = 1 i zrównoważonym poziomem błędu = 0. Szczegółowe informacje o siedmiu AIM zostały podsumowane w Tabeli 2 i Tabeli Uzupełniającej S7.
Rysunek 3. Macierze konfuzji dla klasyfikatora one-vs.-rest SVM. (A) Wydajność czterech AIM. (B) Wydajność siedmiu AIM. (C) Wydajność czterech losowych markerów, które są próbkowane z danych całego genomu. (D) Wydajność siedmiu losowych markerów.
Tabela 2. The pairwise FST values for the 129 AIMs.
Accurate Ancestry Proportion Estimation Using AIMs
AIMs selected from unadmixed populations were reported to be successfully applied to estimate ancestry proportions in admixed populations (Lee et al., 2012; Maples et al., 2013). Aby zweryfikować praktyczność w naszym badaniu, przeprowadziliśmy symulację danych. Jeśli badanie jest praktyczne, powinniśmy zaobserwować wysoką zgodność pomiędzy symulowanymi i szacowanymi proporcjami przodków. Dla każdego zestawu AIM, nadzorowany ADMIXTURE został użyty do obliczenia proporcji przodków w 1000 symulacji. Dla każdej symulacji genotypy 60 próbek wybranych z ECHP, SCHP i EUCP były losowo mieszane dla każdego AIM.
Jak pokazano na Rysunkach 4A,B, gdy 80 lub mniej AIM zostało włączonych, zaobserwowano duże różnice między średnią wartością szacowaną i oczekiwaną (∼0,3333). Na przykład, siedem AIM, które doskonale sprawdziły się w klasyfikacji, nie wystarczyło do dokładnego wnioskowania o proporcjach przodków: ECHP (średnia = 0,2994, współczynnik zmienności (CV) = 0,8450), SCHP (średnia = 0,3909, CV = 0,7783) i EUCP (średnia = 0,3097, CV = 0,9895). Jednakże, włączając 82 lub więcej AIMs, szacowane proporcje stopniowo zbliżały się do oczekiwanych wartości (Rysunek 4A). Ta sama tendencja dla wykresu CV, w którym CV zmniejszało się wraz ze wzrostem liczby AIMs (Rysunek 4B).
Rysunek 4. Wnioskowanie rodowodowe na symulowanych osobnikach ze 199 zestawów AIM. W każdym zestawie wykonano 1000 symulacji za pomocą skryptu Pythona, a rodowody wywnioskowano za pomocą nadzorowanego ADMIXTURE. Pionowe przerywane linie reprezentują cztery zestawy AIM: siedem AIM, 82 AIM, 129 AIM i 403 AIM. (A) Średnia proporcji przodków dla trzech grup: ECHP (zielony), SCHP (czerwony) i EUCP (niebieski). Czarna linia pozioma przedstawia wartość oczekiwaną (∼0,3333) dla każdego przodka. (B) Współczynnik zmienności (CV) proporcji przodków dla trzech grup.
W celu określenia optymalnego zestawu AIM dopasowaliśmy krzywe CV na rycinie 4B za pomocą odwrotnej funkcji logarytmicznej (Supplementary Figure S4) dla AIM w zakresie od 82 do 403. Ponieważ styczna do krzywej nieskończenie zbliża się do zera, wyznaczyliśmy arbitralny próg -0,0004, który odpowiada zestawowi 129 AIM, biorąc pod uwagę zarówno stabilność wartości CV, jak i koszt genotypowania SNPs (Tabela uzupełniająca S6). Zestaw 129 AIM dobrze sprawdził się we wnioskowaniu o rodowodzie dla symulowanych próbek (Rysunek 5), czego wynikiem było ECHP: średnia = 0,3310, odchylenie standardowe (std) = 0,0772; SCHP: średnia = 0,3356, std = 0,0751; oraz EUCP: średnia = 0,3334, std = 0,0394. Zaobserwowaliśmy również, że wydajność zestawu 129 AIMs wykazywała bardzo ograniczoną różnicę w stosunku do zestawu 403 AIMs, co sugeruje, że zestaw 129 AIMs był optymalny (Supplementary Table S6).
Rysunek 5. Wnioskowanie rodowodowe na symulowanych osobnikach ze 129 AIMs. Czarna linia pozioma reprezentuje wartość oczekiwaną (∼0,3333) każdego przodka. Kody kolorów są następujące, zielony: ECHP; czerwony: SCHP; niebieski: EUCP.
Rozważając praktyczność zestawu 129 AIMs, następnie symulowaliśmy osobników pseudo domieszkowych z nierównymi losowymi proporcjami przodków, używając tych samych AIMs. najpierw wyprodukowaliśmy 10 losowych proporcji przodków dla każdej z trzech grup, a następnie przeprowadziliśmy 1000 symulacji na każdych trzech proporcjach przodków. Dla każdej symulacji wygenerowano 60 osobników pseudo domieszkowych. Jak pokazano w Tabeli 3, 129 AIMs działało bardzo dobrze, nawet dla próbek o losowych proporcjach przodków.
Tabela 3. Symulacja losowych proporcji przodków przy użyciu 129 AIMs.
Jak przewidywano, przy użyciu 129 AIMs (Tabela 2 i Uzupełniająca Tabela S7), PCA wykazała, że 10 populacji zostało wyraźnie podzielonych na trzy odpowiednie grupy (Uzupełniająca Figura S5). Co ciekawe, w porównaniu do Figury 1A, podstruktura w obrębie populacji w każdej grupie była mniej oczywista.
Ancestry Proportion Estimation for the Test Dataset
Zgłoszono, że niektóre azjatyckie rasy świń były domieszkowane z europejskimi rasami domowymi, a zwłaszcza z rasami handlowymi. Na przykład, osiem azjatyckich ras (koreańska rasa lokalna (KPKO), tajlandzka rasa lokalna (THCD), China Lichahei (CNLC), China Sutai (CNST), China Kele (CNKL), China Guanling (CNGU), China Leanhua (CNLA), i China Minzhu (CNMZ)) zostało zgłoszonych jako introgresowane przez co najmniej 20% z europejskiego rodowodu (Yang i in., 2017). Aby symetrycznie zidentyfikować i określić ilościowo introgresję, wykorzystaliśmy 129 wybranych AIMs do oszacowania składu rodowego kolejnych 969 próbek z 61 populacji, które prawdopodobnie są domieszkowane przynajmniej w pewnym stopniu.
Ogółem, używając nadzorowanego ADMIXTURE, znaleźliśmy silną korelację (Figura 6) między proporcjami rodowymi obliczonymi przez 129 AIMs i tymi obliczonymi przez wszystkie dane chipowe ∼60 K na poziomie indywidualnym. Wykres Blanda-Altmana również wykazał zgodność w zakresie proporcji przodków oszacowanych pomiędzy danymi genomowymi a danymi 129 AIMs (Ryc. 7). W przypadku ras, o których wiadomo, że uległy introgresji z EUCP, uzyskaliśmy rozsądne wyniki. Jak pokazano na Rycinie 8 i w Tabeli S8, oszacowanie średniej trzech proporcji rodowych w populacji CNMZ przy użyciu 129 AIMs (ECHP:0.5325, SCHP:0.2456, EUCP:0.2219) było podobne do oszacowania średniej trzech proporcji rodowych w populacji CNMZ przy użyciu danych ∼60 K SNP (ECHP:0.6457, SCHP:0.1291, EUCP:0.2252). W przypadku krzyżówki LargeWhite-Meishan (CSLM), która została udokumentowana jako pokolenie F1 od LargeWhite × MeiShan, nasze oszacowanie proporcji przodków na podstawie 129 AIMs (ECHP:0.4992, SCHP:0.0455, EUCP:0.4553) było zgodne z oczekiwaniami i podobne do wyniku z danych ∼60 K SNP (ECHP:0.5128, SCHP:0.0020, EUCP:0.4852). W innym przypadku, Russia Minisibs (RUMS), o którym donoszono, że posiada w przybliżeniu połowę europejskiego rodowodu, również uzyskaliśmy wysoki poziom rodowodu EUCP przy użyciu 129 AIMs (ECHP:0.1428, SCHP:0.4780, EUCP:0.3791) lub danych ∼60 K SNP (ECHP:0, SCHP:0.5349, EUCP:0.4651).
Rysunek 6. Korelacja Pearsona między rodowodami oszacowanymi przez 129 AIMs i danymi z chipów ∼60 K. (A) Korelacja dla rodowodu ECHP. (B) Korelacja dla rodowodu SCHP. (C) Korelacja dla rodowodu EUCP.
Figure 7. Działki Blanda-Altmana pokazujące różnicę pomiędzy indywidualnym wnioskowaniem o rodowodzie. Oś x reprezentuje (A) ECHP, (B) SCHP, i (C) EUCP proporcje przodków oszacowane przez genom-wide, odpowiednio. Oś y reprezentuje różnicę w szacunkach między danymi genomowymi a danymi 129 AIMs. Czerwone i niebieskie przerywane linie to średnia i 95% przedziały ufności, oddzielnie.
Rysunek 8. Proporcje rodowe oszacowane metodą nadzorowaną ADMIXTURE przy K = 3. Wysokość każdego słupka reprezentuje trzy proporcje przodków w jednej populacji. Średnia proporcja każdego przodka w RUMS i CSLM jest podkreślona wykresami kołowymi, odpowiednio.
Dyskusja
Od XIX wieku hodowcy świń na Zachodzie używali chińskich świń do hybrydyzacji z europejskimi świniami, aby poprawić swoje stada hodowlane (Groenen, 2016). Bianco i wsp. (2015) stwierdzili, że europejskie świnie domowe mają 20% genomowej introgresji od świń azjatyckich. Z drugiej strony, Yang i wsp. (2017) podali, że europejskie świnie wniosły co najmniej 20% do ośmiu azjatyckich ras. W ostatnich latach przedstawiono dowody na to, że lokalni chińscy rolnicy krzyżują lokalne świnie z importowanymi świniami komercyjnymi (Berthouly-Salazar i in., 2012). Introgresja wprowadza nowy materiał genetyczny, który może pomóc w poprawie niektórych cech, zwłaszcza wydajności produkcyjnej. Niestety, introgresja, zarówno w wąskim znaczeniu, jako domieszka z rasami obcymi, jak i w szerokim znaczeniu, jako domieszka z rasami z różnych obszarów w obrębie danego kraju, wprowadza również „zanieczyszczenie genetyczne”, którego trudno jest uniknąć. Na przykład w ostatnim badaniu Zhang i in. stwierdzili, że prawie wszystkie chińskie rodzime kurczaki mają introgresję genów z komercyjnych brojlerów (Zhang i in., 2019).
Ponieważ rodzima wieprzowina jest sprzedawana po wyższej cenie niż europejskie komercyjne świnie w Chinach, fałszywa propaganda, tandetne zjawisko na rynku zaczęło rosnąć. Znaczna uwaga została poświęcona kwestii fałszowania wieprzowiny, jednak na tym etapie praca identyfikacji opierała się głównie na intuicjach i doświadczeniach ze strony klienta (Dai i in., 2009; Kwon i in., 2017). Na szczęście produkty wieprzowe z 10 ras w naszym zestawie referencyjnym są dominujące w Chinach (Bosse i in., 2015; Gong i in., 2018; Zhao i in., 2018), nasza metoda stanowi zatem obiecująco skuteczny sposób w wykrywaniu zafałszowań wieprzowiny na poziomie DNA w nadzorze rynku. Z punktu widzenia badacza, w badaniach asocjacyjnych obejmujących cały genom, różne rodowody genetyczne między przypadkiem a kontrolą będą prowadzić do stratyfikacji populacji. Dlatego też, jeśli wybór próbek o podobnych proporcjach przodków lub uwzględnienie przodków jako zmiennych w modelu regresji w celu dostosowania stratyfikacji, pomogłoby to zmniejszyć liczbę wyników fałszywie dodatnich (Qin i in., 2014).
Ogółem, bardzo ważne jest śledzenie pochodzenia lub oszacowanie przodków genetycznych w odniesieniu do ochrony zasobów genetycznych, nadzoru rynku lub stratyfikacji populacji. AIMs zapewnia efektywne kosztowo podejście w porównaniu z wykorzystaniem SNP całego genomu, a zatem jest bardzo odpowiednie do testowania dużych ilości.
W obecnym badaniu stwierdziliśmy, że zaledwie dwa AIMs są wystarczające do odróżnienia chińskich świń od europejskich świń handlowych, a 10 czystych ras może być dokładnie przypisanych do trzech odpowiednich grup (ECHP, SCHP i EUCP) przy użyciu zaledwie siedmiu AIMs. Poprzez symulacje danych wykazaliśmy, że AIMs wybrane z osobników niemieszanych mogą być również z powodzeniem stosowane do szacowania proporcji przodków dla osobników mieszanych. Następnie rozwinęliśmy panel 129 AIMs do efektywnego wnioskowania o proporcjach przodków u osób z domieszkami. Biorąc pod uwagę elastyczność, niezawodność i łatwość obsługi, platforma Agena MassARRAY jest obecnie najlepszym wyborem do genotypowania dla zestawu 129 AIMs. Jednak w przypadku testów o bardzo dużej objętości, niestandardowy chip SNP o niskiej gęstości lub multipleksowe sekwencjonowanie następnej generacji oparte na PCR byłoby bardziej opłacalne.
Nasza praca dostarczyła użytecznego przykładu wykorzystania niewielkiej liczby AIMs do klasyfikacji i szacowania proporcji przodków. Nadal można podjąć wysiłki w celu zoptymalizowania AIMs do minimalnej liczby, jeśli to konieczne. Na przykład, wśród 129 AIMs, te reprezentujące różnice między EUCP i ECHP lub SCHP mogłyby zostać zredukowane. Albo włączyć więcej AIMs, aby zwiększyć siłę dyskryminacji między ECHP i SCHP.
Warto zauważyć, że jednym z ważnych warunków wstępnych uzyskania skutecznych AIMs zarówno dla klasyfikacji jak i szacowania rodowodu jest znalezienie dobrych populacji referencyjnych. Na przykład Daya i wsp. (2013) donieśli, że panel 96 AIMs może być wykorzystany do wnioskowania o proporcjach rodowych dla populacji South African Colored (SAC), dzięki zastosowaniu reprezentatywnych populacji. Jednakże markery te nie wypadły dobrze we wnioskowaniu o rodowodach południowoazjatyckich i wschodnioazjatyckich. W naszym badaniu, 10 czystych ras świń z trzech grup (ECHP, SCHP i EUCP) zostało wybranych jako populacje referencyjne. Istnieje kilka powodów, dla których wybraliśmy te rasy. Po pierwsze, wiele europejskich komercyjnych świń lub krzyżowanie rodzimych ras z europejskimi rasami komercyjnymi staje się coraz bardziej powszechne w Chinach, więc tutaj główne importowane europejskie rasy komercyjne, w tym Duroc, Pietrain i Landrace zostały wybrane jako reprezentatywne populacje EUCP. Po drugie, rasy chińskie włączone do tego badania obejmowały dwa wyznaczone tła rodowodowe. W badaniach Yang i wsp. (Yang i wsp., 2017), świnie China_Erhualian (CNEH), China_Jinhua (CNJH), China_Meishan (CNMS) wyraźnie wywodzą się z jednego rodowodu, a świnie China_Bamaxiang (CNBX), China_Congjiangxiang (CNCJ), China_Guangdongdahuabai (CNDH) i China_Luchuan (CNLU) wyraźnie wywodzą się z drugiego. Analiza domieszek wykazała, że są one w najmniejszym stopniu introgresowane przez EUCP i mogą być od siebie wyraźnie oddzielone. Razem stanowią one zatem najlepszą dostępną dotychczas populację referencyjną, biorąc pod uwagę zarówno czystość genetyczną, jak i zdolność do ujawniania potencjalnych domieszek w innych rasach chińskich. Jeśli w przyszłości do zbioru referencyjnego zostanie włączonych więcej czystych ras, można oczekiwać dokładniejszego oszacowania, jak również szerszego zakresu populacji, w których nasza metoda może mieć zastosowanie.
Wkład Autorów
YZ wymyślił i nadzorował badania. ZL przeanalizował główną treść danych z pomocą LB, YQ, YP i RY. ZL i YZ napisali manuskrypt. Wszyscy autorzy przeczytali i zatwierdzili ostateczną wersję manuskryptu.
Funding
Projekt był wspierany przez National Key Technology Research and Development Program (2015BAD03B01-01) i National Natural Science Foundation of China (U1704233).
Oświadczenie o konflikcie interesów
Autorzy oświadczają, że badania zostały przeprowadzone przy braku jakichkolwiek komercyjnych lub finansowych powiązań, które mogłyby być interpretowane jako potencjalny konflikt interesów.
Materiały uzupełniające
Materiały uzupełniające do tego artykułu można znaleźć online pod adresem: https://www.frontiersin.org/articles/10.3389/fgene.2019.00183/full#supplementary-material
Footnotes
- ^http://dx.doi.org/10.5061/dryad.30tk6
- ^https://github.com/boxiangliu/ANTseq
- ^http://www.curveexpert.net
Ai, H., Huang, L., and Ren, J. (2013). Genetic diversity, linkage disequilibrium and selection signatures in chinese and western pigs revealed by genome-wide SNP markers. PLoS One 8:e56001. doi: 10.1371/journal.pone.0056001
PubMed Abstract | CrossRef Full Text | Google Scholar
Alexander, D. H., Novembre, J., and Lange, K. (2009). Fast model-based estimation of ancestry in unrelated individuals. Genome Res. 19, 1655-1664. doi: 10.1101/gr.094052.109
PubMed Abstract | CrossRef Full Text | Google Scholar
Barbosa, F. B., Cagnin, N. F., Simioni, M., Farias, A. A., Torres, F. R., Molck, M. C., et al. (2017). Ancestry informative marker panel to estimate population stratification using genome-wide human array. Ann. Hum. Genet. 81, 225-233. doi: 10.1111/ahg.12208
PubMed Abstract | CrossRef Full Text | Google Scholar
Bauchet, M., McEvoy, B., Pearson, L. N., Quillen, E. E., Sarkisian, T., Hovhannesyan, K., et al. (2007). Measuring european population stratification with microarray genotype data. Am. J. Hum. Genet. 80, 948-956. doi: 10.1086/513477
PubMed Abstract | CrossRef Full Text | Google Scholar
Berthouly-Salazar, C., Thevenon, S., Van, T. N., Nguyen, B. T., Pham, L. D., Chi, C. V., et al. (2012). Niekontrolowana domieszka i utrata różnorodności genetycznej w lokalnej wietnamskiej rasie świń. Ecol. Evol. 2, 962-975. doi: 10.1002/ece3.229
PubMed Abstract | CrossRef Full Text | Google Scholar
Bertolini, F., Galimberti, G., Schiavo, G., Mastrangelo, S., Di Gerlando, R., Strillacci, M. G., et al. (2017). Preselection statistics and random forest classification identify population informative single nucleotide polymorphisms in cosmopolitan and autochthonous cattle breeds. Animal 12, 12-19. doi: 10.1017/S1751731117001355
PubMed Abstract | CrossRef Full Text | Google Scholar
Bianco, E., Soto, H. W., Vargas, L., and Perez-Enciso, M. (2015). Chimeryczny genom dzikich świń z Isla del Coco (Kostaryka), populacji izolowanej od 1793 roku, ale o niezwykłym poziomie różnorodności. Mol. Ecol. 24, 2364-2378. doi: 10.1111/mec.13182
PubMed Abstract | CrossRef Full Text | Google Scholar
Bosse, M., Madsen, O., Megens, H. J., Frantz, L. A. F., Paudel, Y., Crooijmans, R. P., et al. (2015). Hybrid origin of european commercial pigs examined by an in-depth haplotype analysis on chromosome 1. Front. Genet. 5:442. doi: 10.3389/Fgene.2014.00442
PubMed Abstract | CrossRef Full Text | Google Scholar
Bosse, M., Megens, H. J., Frantz, L. A. F., Madsen, O., Larson, G., Paudel, Y., et al. (2014). Genomic analysis reveals selection for asian genes in european pigs following human-mediated introgression. Nat. Commun. 5:4392. doi: 10.1038/Ncomms5392
PubMed Abstract | CrossRef Full Text | Google Scholar
Bouchemousse, S., Liautard-Haag, C., Bierne, N., and Viard, F. (2016). Distinguishing contemporary hybridization from past introgression with postgenomic ancestry-informative SNPs in strongly differentiated Ciona species. Mol. Ecol. 25, 5527-5542. doi: 10.1111/mec.13854
PubMed Abstract | CrossRef Full Text | Google Scholar
Browning, S. R., and Browning, B. L. (2007). Szybkie i dokładne fazowanie haplotypów i wnioskowanie o brakujących danych dla badań asocjacyjnych całego genomu za pomocą zlokalizowanego grupowania haplotypów. Am. J. Hum. Genet. 81, 1084-1097. doi: 10.1086/521987
PubMed Abstract | CrossRef Full Text | Google Scholar
Da Mota, B., Tudoran, R., Costan, A., Varoquaux, G., Brasche, G., Conrod, P., et al. (2014). Machine learning patterns for neuroimaging-genetic studies in the cloud. Front. Neuroinform. 8:31. doi: 10.3389/Fninf.2014.00031
PubMed Abstract | CrossRef Full Text | Google Scholar
Dai, F. W., Feng, D. Y., Cao, Q. Y., Ye, H., Zhang, C. M., Xia, W. G., et al. (2009). Developmental differences in carcass, meat quality and muscle fibre characteristics between the landrace and a Chinese native pig. S. Afr. J. Anim. Sci. 39, 267-273.
Google Scholar
Daya, M., van der Merwe, L., Galal, U., Moller, M., Salie, M., Chimusa, E. R., et al. (2013). A panel of ancestry informative markers for the complex five-way admixed South African coloured population. PLoS One 8:e82224. doi: 10.1371/journal.pone.0082224
PubMed Abstract | CrossRef Full Text | Google Scholar
Dimauro, C., Nicoloso, L., Cellesi, M., Macciotta, N. P. P., Ciani, E., Moioli, B., et al. (2015). Selection of discriminant SNP markers for breed and geographic assignment of Italian sheep. Small Rumin. Res. 128, 27-33. doi: 10.1016/j.smallrumres.2015.05.001
CrossRef Full Text | Google Scholar
Ding, L. L., Wiener, H., Abebe, T., Altaye, M., Go, R. C. P., Kercsmar, C., et al. (2011). Comparison of measures of marker informativeness for ancestry and admixture mapping. BMC Genomics 12:622. doi: 10.1186/1471-2164-12-622
PubMed Abstract | CrossRef Full Text | Google Scholar
Fang, M., Hu, X., Jiang, T., Braunschweig, M., Hu, L., Du, Z., et al. (2005). The phylogeny of Chinese indigenous pig breeds inferred from microsatellite markers. Anim. Genet. 36, 7-13. doi: 10.1111/j.1365-2052.2004.01234.x
PubMed Abstract | CrossRef Full Text | Google Scholar
Frantz, L. A. F., Schraiber, J. G., Madsen, O., Megens, H. J., Bosse, M., Paudel, Y., et al. (2013). Genome sequencing reveals fine scale diversification and reticulation history during speciation in Sus. Genome Biol. 14:R107. doi: 10.1186/Gb-2013-14-9-R107
PubMed Abstract | CrossRef Full Text | Google Scholar
Galanter, J. M., Fernandez-Lopez, J. C., Gignoux, C. R., Barnholtz-Sloan, J., Fernandez-Rozadilla, C., Via, M., et al. (2012). Development of a panel of genome-wide ancestry informative markers to study admixture throughout the americas. PLoS Genet. 8:e1002554. doi: 10.1371/journal.pgen.1002554
PubMed Abstract | CrossRef Full Text | Google Scholar
Getachew, T., Huson, H. J., Wurzinger, M., Burgstaller, J., Gizaw, S., Haile, A., et al. (2017). Identifying highly informative genetic markers for quantification of ancestry proportions in crossbred sheep populations: implications for choosing optimal levels of admixture. BMC Genet. 18:80. doi: 10.1186/s12863-017-0526-2
PubMed Abstract | CrossRef Full Text | Google Scholar
Gong, H., Xiao, S., Li, W., Huang, T., Huang, X., Yan, G., et al. (2018). Unravelling the genetic loci for growth and carcass traits in Chinese Bamaxiang pigs based on a 1.4 million SNP array. J. Anim. Breed. Genet. 136, 3-14. doi: 10.1111/jbg.12365
PubMed Abstract | CrossRef Full Text | Google Scholar
Groenen, M. A. M. (2016). Dekada sekwencjonowania genomu świń: okno na udomowienie i ewolucję świń. Genet. Sel. Evol. 48:23. doi: 10.1186/s12711-016-0204-2
PubMed Abstract | CrossRef Full Text | Google Scholar
Hong, J. H., and Cho, S. B. (2008). A probabilistic multi-class strategy of one-vs.-rest support vector machines for cancer classification. Neurocomputing 71, 3275-3281. doi: 10.1016/j.neucom.2008.04.033
CrossRef Full Text | Google Scholar
Kwon, T., Yoon, J., Heo, J., Lee, W., and Kim, H. (2017). Śledzenie gospodarstwa hodowlanego udomowionej świni z wykorzystaniem selekcji cech (Sus scrofa). Asian Aust. J. Anim. Sci. 30, 1540-1549. doi: 10.5713/ajas.17.0561
PubMed Abstract | CrossRef Full Text | Google Scholar
Larson, G., Dobney, K., Albarella, U., Fang, M. Y., Matisoo-Smith, E., Robins, J., et al. (2005). Światowa filogeografia dzików ujawnia wiele ośrodków udomowienia świń. Science 307, 1618-1621. doi: 10.1126/science.1106927
PubMed Abstract | CrossRef Full Text | Google Scholar
Lawson, D. J., Hellenthal, G., Myers, S., and Falush, D. (2012). Inference of population structure using dense haplotype data. PLoS Genet. 8:e1002453. doi: 10.1371/journal.pgen.1002453
PubMed Abstract | CrossRef Full Text | Google Scholar
Lee, S., Epstein, M. P., Duncan, R., and Lin, X. H. (2012). Sparse principal component analysis for identifying ancestry-informative markers in genome-wide association studies. Genet. Epidemiol. 36, 293-302. doi: 10.1002/gepi.21621
PubMed Abstract | CrossRef Full Text | Google Scholar
Li, C. X., Pakstis, A. J., Jiang, L., Wei, Y. L., Sun, Q. F., Wu, H., et al. (2016). A panel of 74 AISNPs: improved ancestry inference within Eastern Asia. Forensic Sci. Int. Genet. 23, 101-110. doi: 10.1016/j.fsigen.2016.04.002
PubMed Abstract | CrossRef Full Text | Google Scholar
Li, S.-J., Yang, S.-H., Zhao, S.-H., Fan, B., Yu, M., Wang, H.-S., et al. (2004). Genetic diversity analyses of 10 indigenous Chinese pig populations based on 20 microsatellites. J. Anim. Sci. 82, 368-374. doi: 10.2527/2004.822368x
PubMed Abstract | CrossRef Full Text | Google Scholar
Maples, B. K., Gravel, S., Kenny, E. E., and Bustamante, C. D. (2013). RFMix: a discriminative modeling approach for rapid and robust local-ancestry inference. Am. J. Hum. Genet. 93, 278-288. doi: 10.1016/j.ajhg.2013.06.020
PubMed Abstract | CrossRef Full Text | Google Scholar
Monzon, J., Kays, R., and Dykhuizen, D. E. (2014). Assessment of coyote-wolf-dog admixture using ancestry-informative diagnostic SNPs. Mol. Ecol. 23, 182-197. doi: 10.1111/mec.12570
PubMed Abstract | CrossRef Full Text | Google Scholar
Pardo-Seco, J., Martinon-Torres, F., and Salas, A. (2014). Evaluating the accuracy of AIM panels at quantifying genome ancestry. BMC Genomics 15:543. doi: 10.1186/1471-2164-15-543
PubMed Abstract | CrossRef Full Text | Google Scholar
Patterson, N., Price, A. L., and Reich, D. (2006). Population structure and eigenanalysis. PLoS Genet. 2:e190. doi: 10.1371/journal.pgen.0020190
PubMed Abstract | CrossRef Full Text | Google Scholar
Peterson, R. E., Edwards, A. C., Bacanu, S. A., Dick, D. M., Kendler, K. S., and Webb, B. T. (2017). The utility of empirically assigning ancestry groups in cross-population genetic studies of addiction. Am. J. Addict. 26, 494-501. doi: 10.1111/ajad.12586
PubMed Abstract | CrossRef Full Text | Google Scholar
Qin, P., Li, Z., Jin, W., Lu, D., Lou, H., Shen, J., et al. (2014). A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese. Eur. J. Hum. Genet. 22, 248-253. doi: 10.1038/ejhg.2013.111
PubMed Abstract | CrossRef Full Text | Google Scholar
Rosenberg, N. A., Li, L. M., Ward, R., and Pritchard, J. K. (2003). Informativeness of genetic markers for inference of ancestry. Am. J. Hum. Genet. 73, 1402-1422. doi: 10.1086/380416
PubMed Abstract | CrossRef Full Text | Google Scholar
Santos, H. C., Horimoto, A. V. R., Tarazona-Santos, E., Rodrigues-Soares, F., Barreto, M. L., Horta, B. L., et al. (2016). A minimum set of ancestry informative markers for determining admixture proportions in a mixed American population: the Brazilian set. Eur. J. Hum. Genet. 24, 725-731. doi: 10.1038/ejhg.2015.187
PubMed Abstract | CrossRef Full Text | Google Scholar
Shriver, M. D., Parra, E. J., Dios, S., Bonilla, C., Norton, H., Jovel, C., et al. (2003). Skin pigmentation, biogeographical ancestry and admixture mapping. Hum. Genet. 112, 387-399. doi: 10.1007/s00439-002-0896-y
PubMed Abstract | CrossRef Full Text | Google Scholar
Sun, K., Ye, Y., Luo, T., and Hou, Y. (2016). Multi-InDel analysis for ancestry inference of sub-populations in china. Sci. Rep. 6:39797. doi: 10.1038/srep39797
PubMed Abstract | CrossRef Full Text | Google Scholar
Tian, C., Kosoy, R., Nassir, R., Lee, A., Villoslada, P., Klareskog, L., et al. (2009). European population genetic substructure: further definition of ancestry informative markers for distinguishing among diverse european ethnic groups. Mol. Med. 15, 371-383. doi: 10.2119/molmed.2009.00094
PubMed Abstract | CrossRef Full Text | Google Scholar
vonHoldt, B. M., Kays, R., Pollinger, J. P., and Wayne, R. K. (2016). Admixture mapping identyfikuje introgresowane regiony genomowe u północnoamerykańskich psowatych. Mol. Ecol. 25, 2443-2453. doi: 10.1111/mec.13667
PubMed Abstract | CrossRef Full Text | Google Scholar
Yang, B., Cui, L. L., Perez-Enciso, M., Traspov, A., Crooijmans, R. P. M. A., Zinovieva, N., et al. (2017). Genome-wide SNP data unveils the globalization of domesticated pigs. Genet. Sel. Evol. 49:71. doi: 10.1186/s12711-017-0345-y
PubMed Abstract | CrossRef Full Text | Google Scholar
Zeng, X. P., Chakraborty, R., King, J. L., Larue, B., Moura-Neto, R. S., and Budowle, B. (2016). Wybór wysoce informatywnych markerów SNP do oceny przynależności populacyjnej głównych populacji USA. Int. J. Legal Med. 130, 341-352. doi: 10.1007/s00414-015-1297-9
PubMed Abstract | CrossRef Full Text | Google Scholar
Zhang, C., Lin, D., Wang, Y., Peng, D., Li, H., Fei, J., et al. (2019). Szeroko rozpowszechniona introgresja w chińskich rodzimych rasach kurcząt z komercyjnych brojlerów. Evol. Appl. 12, 610-621. doi: 10.1111/eva.12742
PubMed Abstract | CrossRef Full Text | Google Scholar
Zhang, F., Zhang, L., and Deng, H. W. (2009). A PCA-based method for ancestral informative markers selection in structured populations. Sci. Chin. Series C Life Sci. 52, 972-976. doi: 10.1007/s11427-009-0128-y
PubMed Abstract | CrossRef Full Text | Google Scholar
Zhao, P., Yu, Y., Feng, W., Du, H., Yu, J., Kang, H., et al. (2018). Dowody historii ewolucyjnej i selektywnych przemiatań w genomie świni Meishan ujawniają jej genetyczną i fenotypową charakterystykę. Gigascience 7. doi: 10.1093/gigascience/giy058
PubMed Abstract | CrossRef Full Text | Google Scholar
Zhu, Y., Li, W., Yang, B., Zhang, Z., Ai, H., Ren, J., et al. (2017). Signatures of selection and interspecies introgression in the genome of chinese domestic pigs. Genome Biol. Evol. 9, 2592-2603. doi: 10.1093/gbe/evx186
PubMed Abstract | CrossRef Full Text | Google Scholar
.