Frontiers in Genetics

Introduction

オートソーム一塩基多型(SNP)と挿入欠失(InDel)は人間の家系推定と集団割り当てに広く利用される(Bauchet et al, 2007; Tian et al., 2009; Sun et al., 2016)。 Ancestry informative markers (AIMs) は、集団間の頻度差のある遺伝マーカーである (Shriver et al., 2003)。 AIMを得るために、F統計(FST)、絶対アレル頻度差(δ)、割付指標に対する情報量(In)、主成分負荷スコア(Rosenberg et al., 2003; Zhang et al., 2009; Ding et al., 2011; vonHoldt et al., 2016; Barbosa et al., 2017; Peterson et al., 2017)といった複数の統計が使用されてきた。 全ゲノムマーカーを使用する代わりに、AIMは限られた母集団サイズに対して十分な精度で祖先推定を行うことができると考えられていた。 その結果、これは数千のサンプルをスクリーニングし、分析する経済的な方法を構成する。 Santosら(2016)は、∼370 K SNPデータから選択された192のAIMを使用して、ブラジルの3つの主要な集団の祖先比率を正確に推定できることを報告した。 Liら(2016)は74個のAIMのパネルを開発し、11の集団から500人のテスト個体の祖先比率を推論した。 AIMの高い解像度により、Zengら(2016)が作成した23のAIMsパネル。アメリカの4つの主要な集団を区別し、さらに9つの集団について正しく祖先を割り当てた(Zengら、2016)。

動物集団遺伝学については、異なる品種の品種識別や雑種集団の遺伝組成の評価にAIMがうまく適用されている(Dimauroら、2015;Bouchemousseら、2016)。 Bertoliniら(2017)は、6つの乳牛品種の識別において96のAIMが良好な結果を示した。 別の研究では、427頭のイヌ科動物から選択された63のAIMが、コヨーテの遺伝的混血を評価するために利用された(Monzonら、2014年)。 最近では、交雑羊(エチオピアの2つの在来品種とAwassi)の祖先比率を算出するために74のAIMを利用し、Awassiの混血度の違いが羊の成長と雌羊の繁殖の形質に大きく影響することが明らかにされた(Getachew et al, 2017)。

ブタ(Sus scrofa)は、更新世中期(120万~080万年前)にヨーロッパとアジアのイノシシに分岐した(Larson et al.2005; Frantz et al.2013 )。 中国での豚の家畜化は約9,000年前に起こった(Larson et al.、2005)。 中国の家畜豚は、居住地域と表現型の特徴によって6つのタイプ(I-華北、II-長江下流域、III-華中、IV-華南、V-西南、VI-高原)に分けられたことが記録されている(Li et al.、2004; Fang et al.、2005)。 最近の研究では、Yangら(2017).は、様々な中国品種の祖先を追跡し、中国東部(例えば、梅山と金華)および中国南部(例えば、ルチアン、浜松)由来の2つの大きな異なる祖先を特定しました。 また、ヨーロッパの商業品種から中国在来豚へのゲノム導入も報告されている(Ai et al., 2013; Bosse et al., 2014; Zhu et al, 2017)、現代の中国豚の遺伝子組成をさらに複雑にしている。

他の動物でも広く応用されており、市場監視や遺伝資源保護など特定の応用場面では非常に重要であるが、豚の品種を区別するため、または祖先比率を推定するためにAIMを効率的に使用するという問題に特に対処した研究は現在存在しない。 ここでは、約60 KのブタSNPチップデータを用いて、華東、華南、ヨーロッパ由来のブタを識別するための最適なAIMの数を探索した。 選択された129個のAIMを基に、他の中国産豚の上記起源に由来する祖先比率を推定した。 非混合参照集団から選択したAIMを用いることで、雑種集団の祖先比率を正確に推定できる可能性が示唆された。

材料と方法

データ収集と品質管理

2,113サンプルの遺伝子型データはDryad Digital Repository1より取得した。 本研究では、アジア品種とヨーロッパ品種のサンプルのみを使用した(71集団から合計1,157サンプル、詳細は補足表S1参照)。 以下の基準を満たした場合、サンプルおよびSNPは除外した。 (1)10%以上の欠損遺伝子型を含む個体、(2)コールレートが95%未満のSNP、(3)マイナーアレル頻度が0.05未満のSNP、(4)性染色体上にあるSNP、(5)二重性ではないSNPを除外した。 欠損した遺伝子型は BEAGLE (version 3.3.2) を用いてインプットした (Browning and Browning, 2007)。 最終的に、45,562SNPs、1,155サンプルが残った。 1,155サンプルは、2つのデータセットに分割された。 参照セットには、3つの主要な祖先グループの代表的な10の集団から186のサンプルが選ばれました。 参照セットには、East China pig (ECHP), South China pig (SCHP), European commercial pig (EUCP)の3つの主要な祖先グループの代表的な10集団から186サンプルが選ばれました。 10の集団は、Yangら(2017)の報告によると、ECHPまたはSCHPグループに属する集団の間に明らかな混血がないことに基づいて選択された。 このデータセットの概要を表1に示す。 テストデータセットには、61の集団からの残りの969のサンプルが含まれていた(詳細は補足表S2に記載)。 実用化の利便性を考慮し、テストデータセットの遺伝子型データは、位相調整やインピュテーションを行わず、生データから直接抽出した。

TABLE 1
www.frontiersin.org

Table 1. 参考セットの豚品種情報。

Population Structure

主成分分析(PCA)は、参考セットのSMARTPCA(バージョン 6.1.4) を用いて∼60 Kチップデータで実施された(Patterson et al.) 非混合状態を確認するために、教師なしADMIXTURE (version 1.23) (Alexander et al., 2009) を利用し、祖先数 (K) をK = 3からK = 15に設定した参照セットからサンプルの祖先比率を計算した。 また、ChromoPainter v2 (Lawson et al., 2012) リンクドモデルを選択して、参照セットの個体の類似性/非類似性を調査した。 詳細には、fineSTRUCTURE (version 2.1.1) (Lawson et al., 2012)が提供するmakeuniformrecfile.plスクリプトを用いて組換えマップファイルを生成した。 ChromoPainter v2は、隠れマルコフモデルプロファイルを利用して、「ドナー」と「レシピエント」のハプロタイプを推論し、共縁関係行列を作成します。 最初に、20の期待値最大化ステップを使用して、すべての常染色体を考慮した全個体から1/5のランダムサンプリングメンバーの突然変異率とスイッチ率を推定した。 その後、各染色体について推定された突然変異率とスイッチ率を平均化した。 その後、推定された変異率、スイッチ率、その他のデフォルト値を用いて、再びChromoPainter v2を用いて全個体の共同祖先行列を生成した。 最後に、fineSTRUCTUREに実装されたMCMCアルゴリズムを用いて、個体の階層的なクラスタリングを行い、バーンインとランタイムをそれぞれ1,000,000と6,000,000回行った。

Selection of AIMs

参照データセットの全186サンプルでFSTとInを計算した。 候補となるSNPは、ANTseq pipeline2のAIMs_generator.pyに実装されたAIMsアルゴリズムセレクタから選択された。 具体的には、まず、強いLD(r2 > 0.3)領域で500 kb以内の距離のSNPを1つだけ選択し、高連鎖不平衡(LD)のSNPを除外した。 各グループ内で、集団間で不均一な頻度を示すSNPは、さらにカイ二乗検定に基づいて除外した(Galanter et al., 2012)。 次に、FSTとInを3つのペアグループ:ECHP対EUCP、SCHP対EUCP、ECHP対SCHPのそれぞれについて計算した(Rosenberg et al. 3つのペアグループに対する2値分類を別々に行った。 各ペアグループに対して、まず上位2個から上位30個までのAIMを1個ずつ選択した。 対応するペアグループのサンプルは、ランダムに2つの割合で分割された。 75%をトレーニング用、25%をテスト用とし、この操作を50回繰り返した。 次に、Scikit-learn(バージョン0.18)パッケージに実装されたGridSearchCVを使用して、サポートベクターマシン(SVM)分類器の最適パラメータを決定した(Da Mota et al.、2014)。 SVM のパラメータは、補足表 S3 にまとめた。 最適なパラメータを有するモデルについて、分類の精度は、以下のように50回繰り返した場合のマシューズ相関係数(MMCC)の平均によって評価した:

MMCC=×150

ここでTNiおよびFNiは真陰性および偽陰性の数、TPiおよびFPiは真陽性および偽陽性の数、各ランについてである。

ECHP、SCHP、EUCPを同時に区別するためのAIMの最小数を決定するために、1対-1対-1というマルチクラス・アプローチを行った。のマルチクラスアプローチが採用された(Hong and Cho, 2008)。 同様に、まずペアとなる各グループから上位2つから上位200つのAIMを1つずつ選択し、合計199のAIMセットを作成した。 各セットでは、3つのペアグループから選択したAIMをマージし、重複するAIMを削除した(補足表S4)。 MMCCは多クラス分類の精度を評価するために設計されていないため、分類精度の評価には、代わりに混同行列、コーエンのカッパ統計量、バランスエラー率を使用した。 Cohen’s kappaが高く、Balanced Error Rateが低いほど、高精度な分類であることを示す。 また、GridSearchCVを用いて、1-vs-rest SVMの最適なパラメータを推定し、そのパラメータは補足表S3にまとめた。 また、選択したAIMとの識別力を比較するために、全ゲノムから同数のランダムなSNPセットを作成した。

Ancestry Inference With Optimal AIMs

AIMは、混血集団における祖先比率の推定に広く用いられているが、非混血集団から選択した場合であっても使用されている。 選択されたAIMに基づき、混血の可能性があるブタ集団の祖先比率を推定するために、Pardo-Secoら(2014)による先行研究で用いられたものと同様の戦略を採用した。 まず、参照データセットのサンプルから選択したAIMの遺伝子型を等しい割合でランダムに選択し、擬似混血個体を生成した。 したがって、これらの擬似混血個体の予想される祖先比率は、各グループ(ECHP、SCHP、EUCP)から1/3(∼0.3333)であった。 以上から生成された199のAIMセットそれぞれについて、1,000回のシミュレーションを行った。 祖先比率の推定には、教師ありADMIXTURE (K = 3)を使用した。 性能は推定された祖先比率の平均値と変動係数(CV)によって評価された。 AIMの数に対する推定先祖比率のCVは、Curve Expert 1.4プログラム3によってフィッティングされた。 最適なAIM数は、その先で安定した性能が観測される曲線の接線閾値の傾きを選択することによって決定された。 さらに検証を加えるために、決定した最適なAIMの数を用いて、ランダムな祖先の比率を持つ擬似混血個体をシミュレートした。 ECHP、SCHP、EUCPの祖先比率は、最小比率を10%としてランダムに割り当てた。

最後のステップで選んだAIMに基づいて、テストデータセットの969人について、教師ありADMIXTUREで祖先推論を行った。 5663>

結果

参照集団の集団構造

参照集団の集団は混血が少ないはずであった。 しかし、主成分プロットではECHP、SCHP、EUCPはよく分離されていることが確認された(図1A)。 ゲノム全体のFST分布(図1B)では、ECHP対EUCP(平均0.2197、95%CI 0.0006-0.7267)とSCHP対EUCP(平均0.2153、95%CI 0.0005-0.7570)ともに高い分化が見られたが、ECHP対SCHP(平均0.0588、95%CI 0-0.3342)では顕著な分化は見られなくなった。 ADMIXTUREを用いることで、Yangら(2017)の先行研究に従い、K = 3の場合、すべての品種が予想されるグループによく分けられた(図1C)。 K = 10の場合、10の集団が明確に分離され、10の集団が最も混血が少ないという我々の予想と一致した(補足図S1)

FIGURE 1

www.frontiersin.org

Figure 1. 参考データセットに含まれる10品種の集団構造。 (A) ∼60Kチップデータの主成分分析(PCA)。 (B)3組のペアグループのゲノムワイドFST分布。 ECHP vs. EUCP、SCHP vs. EUCP、ECHP vs. SCHPの3群におけるゲノムワイドFST分布。 赤色の縦線はFST分布の平均値を表す。 破線の縦線はFST分布の2.5%および97.5%パーセンタイルを表す。 (C) ∼60KのチップデータのADMIXTUREによるクラスタリング(K = 3-12時)。 CNBX, China_Bamaxiang; CNCJ, China_Congjiangxiang; CNLU, China_Luchuan; CNDH, China_Guangdongdahuabai; CNJH, China_Jinhua; CNEH, China_Erhualian; CNMS, China_Meishan; DUR2, Duroc2; PIT1, Pietrain1; LDR1, Landrace1. 大ブレスのカラーコードは以下の通り、緑。 East China pig (ECHP); red: South China pig (SCHP)、blue:

さらに定量化するために、ChromoPainter v2およびfineSTRUCTUREプログラムを採用し、LDを考慮してこれらの品種間の関係を確認した。 coancestryヒートマップ(図2)に示すように、各グループ内の個体は均質なパターンを示し、同じグループの個体は他のグループの個体よりも多くの遺伝的塊を共有していた。 特に、EUCPは中国の土着品種からの個体とは無視できるほどの共集合を示していた。 ECHPとSCHPのサンプルはより高い共集合を示したが、同じグループからの個体はグループ間よりもより多く集まる傾向があることに変わりはない。 5663>

FIGURE 2
www.frontiersin.org

Figure 2.参照データセットにおけるFineSTRUCTURE解析。 ヒートマップは、ドナーゲノム(列)からレシピエントゲノム(行)にコピーされた共有遺伝子チャンクの数を示しています。 CNBX, China_Bamaxiang; CNCJ, China_Congjiangxiang; CNLU, China_Luchuan; CNDH, China_Guangdongdahuabai; CNJHはChina_Jinhua、CNEHはChina_Erhualian、CNMSはChina_Meishan、DUR2はDuroc2、PIT1はPietrain1、LDR1はLandrace1である。 カラーコードは以下の通り、緑。 East China pig (ECHP); red: South China pig (SCHP)、blue:

AIMによるグループ分類

効果的なAIMのセットを構築するために、まずFST統計とIn統計の性能を比較検討した。 ECHP対EUCP、SCHP対EUCPのペアグループについては、上位のFSTを選択するか、上位のIn統計量によって、最低2つのAIMがあれば完全分離(MMCC=1)になることがわかった(補足図S2)。 しかし、ECHPとSCHPを分離するためには、FSTを用いると少なくとも4つのAIMが必要であり、Inを用いると少なくとも5つのAIMが必要であることがわかった。 FSTまたはInで選択されたAIMについて、Inで選択された情報量の多いAIMはFSTで選択されたAIMとほぼ重なっており、FSTがInと少なくとも同等の情報量を持つことがわかった。

次に、マルチクラスアプローチを用いて、ECHP、SCHP、EUCPを同時に分離できるAIMの数を明らかにすることを試みた。 Materials and Methodsにあるように、ECHP対EUCP、SCHP対EUCP、ECHP対SCHPからそれぞれ上位2〜200位のAIMを順次選択し、数の多い順に199のAIMセットを得た(補足表S4)。 各セット内のAIMはマージされ、重複排除された。 例えば、最大セットの場合、200個中171個のAIMがECHP対EUCPとSCHP対EUCPで共有され(補足図S3)、200個中12個のAIMがSCHP対EUCPとECHP対SCHPで、200個中14個のAIMがECHP対EUCPとECHP対SCHPで共有されていることが確認されました。 すべての199のAIMセットは、1対休符のSVM分類器に供給された。 図3と補足表S5に示すように、7つのAIMは、コーエンのカッパ=1、バランスエラー率=0で、ECHP、SCHP、EUCPを完全に分離するのに十分だった。7つのAIMの詳細情報を表2と補足表S7にまとめた。 1-vs-restのSVM分類器のコンフュージョンマトリックス。 (A)4つのAIMの性能。 (B)7つのAIMの性能。 (C)全ゲノムデータから抽出した4つのランダムマーカーの性能。 (D)7つのランダムマーカーの性能。

TABLE 2
www.frontiersin.org

Table 2. AIMsを用いた正確な祖先比率の推定

非混合集団から選択したAIMsは、混血集団の祖先比率の推定にうまく適用できると報告されている(Lee et al.2012; Maples et al.2013). 本研究での実用性を検証するために、データシミュレーションを行った。 本研究が実用的であれば、シミュレーションと推定された祖先比率の間に高い一貫性が観察されるはずである。 各AIMセットについて、教師ありADMIXTUREを用いて、1,000回のシミュレーションで祖先比率を算出した。 各シミュレーションでは、ECHP、SCHP、EUCPから選んだ60サンプルの遺伝子型を各AIMごとにランダムに混合した。

図4A、Bに示すように、80以下のAIMを含む場合、推定値と期待値の平均(∼0.3333)に大きな差が見られた。 例えば、分類に完璧に機能した7つのAIMは、家系比率を正確に推論するのに十分ではなかった。 例えば、ECHP(平均値0.2994、変動係数0.8450)、SCHP(平均値0.3909、変動係数0.7783)、EUCP(平均値0.3097、変動係数0.9895)であった。 しかし、上位82個以上のAIMを含めることで、推定比率は徐々に期待値に収束していった(図4A)。 CVプロットも同様で、AIMの数が増えるにつれてCVが減少する傾向が見られた(図4B)。 199のAIMセットからの模擬個体に対する祖先推論。 各セットにおいて、パイソンスクリプトで1000回のシミュレーションを行い、教師ありADMIXTUREで家系を推定した。 縦の破線は4つのAIMセット(7つのAIM、82つのAIM、129つのAIM、403つのAIM)を表している。 (A)3つのグループの祖先比率の平均値。 ECHP(緑)、SCHP(赤)、EUCP(青)。 黒い横線は各祖先の期待値(∼0.3333)を表す。 (B)3群の祖先比率の変動係数(CV)<5663><1194><6179>最適なAIMセットを決定するために、82から403のAIMについて図4BのCV曲線を逆対数関数(補足図S4)でフィッティングした。 曲線の接線は無限にゼロに近づくので、CV値の安定性とSNPのジェノタイピングコストの両方を考慮して、129のAIMのセットに相当する-0.0004という任意の閾値を決定した(補足表S6)。 129個のAIMセットは、模擬サンプルに対する祖先推定において良好な結果を示し(図5)、ECHP:平均値=0.3310、標準偏差(std)=0.0772、SCHP:平均値=0.3356、std=0.0751、EUCP:平均値=0.3334、std=0.0394という結果となりました。 また、129AIMsセットの性能は403AIMsセットの性能とほとんど差がないことが確認され、129AIMsセットが最適であることが示唆された(Supplement Table S6)。 129のAIMから得た模擬個体の祖先推論。 黒い水平線は各祖先の期待値(∼0.3333)を表している。 カラーコードは以下の通り、緑。 ECHP、赤。 SCHP、青。

129個のAIMsセットの実用性を考慮し、次に同じAIMsを使ってランダムな祖先比率が不均等な疑似混血個体をシミュレーションした。まず3群それぞれについて10個のランダム祖先比率を作り、それぞれの祖先比率で1000回のシミュレーションを実行した。 各シミュレーションで、60個の擬似混血個体が生成された。 表3に示すように、129のAIMはランダムな祖先比率のサンプルに対しても非常によく機能した。

TABLE 3
www.frontiersin.org

Table 3. 129のAIMを用いたランダムな祖先比率のシミュレーション。

予想通り、129のAIM(表2および補足表S7)を用いて、PCAは10の集団が対応する3群に明確に分けられることを示した(補足図S5)。

Ancestry Proportion Estimation for the Test Dataset

アジアの豚品種にはヨーロッパの家畜品種、特に商業品種と混血した品種があることが報告されている。 例えば,アジアの8品種(韓国地方品種(KPKO),タイ地方品種(THCD),中国利茶平(CNLC),中国蘇泰(CNST),中国可楽(CNKL),中国観鈴(CNGU),中国楽華(CNLA),中国民衆(CNMZ))にはヨーロッパ家系から少なくとも20%が内殖されていると報告している(Yang et al, 2017)。 内殖を対称的に特定し定量化するために、選択した129のAIMを利用して、少なくともある程度混血している可能性がある61の集団から別の969のサンプルの祖先構成を推定した。

全体として、教師付きADMIXTUREを用いることにより、個人レベルで129のAIMによって算出された祖先割合と全ての〜60 Kチップデータによって算出された祖先割合との間に強い相関が見られた(図6)。 また、Bland-Altmanプロットは、ゲノムワイドと129 AIMsのデータ間で推定された祖先比率の一致を示した(図7)。 EUCPから導入されたことが知られている品種については、妥当な結果が得られている。 図8および補足表S8に示すように、129 AIMsを用いたCNMZ集団の3つの祖先比率の平均値(ECHP:0.5325, SCHP:0.2456, EUCP:0.2219) は、∼60 K SNPデータを用いたCNMZ集団の3つの祖先比率の平均値 (ECHP:0.6457, SCHP:0.1291, EUCP:0.2252) と同様であることが示された。 LargeWhite×MeiShanのF1世代として記録されているLargeWhite-Meishan交雑種(CSLM)では、129のAIMから推定した祖先比率(ECHP:0.4992、SCHP:0.0455、EUCP:0.4553)は予想通りであり、〜60K SNPデータの結果(ECHP:0.5128、SCHP:0.0020、EUCP:0.4852)に近いものであった。 また、約半数がヨーロッパ系の祖先を持つと報告されているRussia Minisibs(RUMS)でも、129 AIMのいずれかを用いて高いレベルのEUCP祖先を得た(ECHP:0.1428, SCHP:0.4780, EUCP:0.3791) または∼60 K SNPデータ (ECHP:0, SCHP:0.5349, EUCP:0.4651).

FIGURE 6
www.frontiersin.org

Figure 6.EUCPの祖先関係も高いレベルである。 129 AIMで推定した祖先と∼60 Kチップのデータとのピアソン相関。 (A)ECHPの家系に対する相関。 (B)SCHPの家系に対する相関。 (C)EUCPの家系との相関。

Figure 7
www.frontiersin.org

Figure 7. 個人の祖先推論の違いを示すBland-Altmanプロット。 x軸はそれぞれ(A)ECHP, (B)SCHP, (C)EUCPのゲノムワイドで推定した祖先比率を表している。 Y軸はゲノムワイドと129 AIMsデータの推定値の差を表す。 赤と青の破線はそれぞれ平均値と95%信頼区間。

図8www.frontiersin.org

図8. K = 3で教師付きADMIXTUREによって推定された祖先比率。 各棒の高さは1つの母集団における3つの祖先比率を表す。 RUMSとCSLMにおける各祖先の平均比率をそれぞれ円グラフで強調した。

考察

19世紀以降、西洋の豚の飼育者は中国豚を使ってヨーロッパ豚と交雑し、繁殖株を改良した(Groenen,2016年)。 Biancoら(2015)は、ヨーロッパの家畜豚はアジア豚から20%のゲノム導入があることを明らかにした。 一方、Yangら(2017)は、ヨーロッパの豚がアジアの8品種に少なくとも20%貢献していると報告している。 近年、中国の地元農家が地元の豚と輸入した商業用豚を交配している証拠が提示されている(Berthouly-Salazarら、2012)。 導入により新しい遺伝物質が導入され、特定の特性、特に生産成績の向上に役立つ可能性がある。 しかし、狭義には外国品種との混血、広義には国内の異なる地域からの品種との混血である導入は、残念ながら「遺伝的汚染」をもたらすものであり、これを回避することは困難である。 例えば、最近の研究で、Zhangらは、ほぼすべての中国の土着鶏が商業ブロイラーからの遺伝子導入があることを発見した(Zhangら、2019)

中国で土着豚がヨーロッパの商業豚より高い価格で販売されているため、市場での誤ったプロパガンダ、粗悪現象が上昇し始めた。 豚肉の粗悪品問題に大きな注目が集まっているが、現段階では、識別作業は顧客側の直感と経験に基づくものがほとんどであった(戴ら、2009;權ら、2017)。 幸いなことに,我々の参照セットに含まれる10品種の豚製品は中国で優勢であり(Bosse et al., 2015; Gong et al., 2018; Zhao et al., 2018),したがって我々の方法は,市場監視におけるDNAレベルでの豚肉混入の検出において有望で有効な方法を構成するものである。 研究者の立場からすると、ゲノムワイド関連研究において、症例と対照の遺伝的祖先が異なれば、集団の層別化が起こることになる。 そのため,祖先の割合が近いサンプルを選択するか,祖先を共変量として回帰モデルで考慮し層別化を調整すれば,偽陽性を減らすことができる(Qin et al.,2014)。 AIMは全ゲノムSNPsを用いるよりも費用対効果の高いアプローチを提供するため、大量の検査に非常に適している。

本研究では、わずか2つのAIMで中国豚とヨーロッパの商業豚を区別でき、わずか7つのAIMを用いて10種の純粋品種を対応する3つのグループ(ECHP、SCHP、EUCP)に正確に割り出せることが判明した。 また、混血していない個体から選択したAIMが混血した個体の祖先比率の推定にうまく適用できることをデータシミュレーションにより実証した。 さらに、混血の可能性がある個体の祖先比率を効率的に推定するために、129個のAIMのパネルを開発した。 柔軟性、信頼性、サービス性を考慮すると、Agena MassARRAY プラットフォームは 129 AIMs セットのジェノタイピングに現在最も適した選択と言えます。 しかし、非常に大量の検査を行う場合は、カスタマイズされた低密度SNPチップやmultiplex PCRベースの次世代シーケンサーがより費用対効果が高いと思われる。 必要であれば、AIMを最小限の数に最適化する努力はまだ可能である。 例えば、129のAIMのうち、EUCPとECHPまたはSCHPの違いを表すAIMは減らすことができるかもしれない。

分類や家系推定に有効なAIMを得るための重要な前提条件の一つは、良い参照集団を見つけることであることは注目に値する。 例えば,Dayaら(2013)は,代表的な集団を使って,96のAIMのパネルが南アフリカ有色人種(SAC)集団の家系比率を推測するために使用できると報告した。 しかし、これらのマーカーは、南アジアや東アジアの祖先推定ではうまくいかなかった。 本研究では、3つのグループ(ECHP、SCHP、EUCP)から10品種の純粋豚品種を参照集団として選択した。 これらの品種を選んだのにはいくつかの理由がある。 第一に,中国では多くのヨーロッパ商業豚,あるいは土着品種とヨーロッパ商業品種との交雑がますます一般化しているので,ここではデュロック,ピートラン,ランドレースなどの主要な輸入ヨーロッパ商業品種をEUCPの代表集団として選択した. 第二に、本研究で対象とした中国品種は、二つの指定された祖先背景をカバーしている。 Yangらの研究(Yang et al., 2017)では、China_Erhualian (CNEH), China_Jinhua (CNJH), China_Meishan (CNMS) pigは明らかに一方の祖先に由来し、China_Bamaxiang (CNBX), China_Congjiangxiang (CNCJ), China_Guangdongdahuabai (CNDH) and China_Luchuan (CNLU) は明らかに他方に由来しているとされている。 混血解析の結果、これらは EUCP による導入が最も少なく、明確に分離できることがわかった。 このように、遺伝的純度と他の中国品種の混血の可能性を明らかにする能力の両方を考慮すると、これらはこれまでに入手した中で最良の参照集団を構成している。

Author Contributions

YZ は本研究を構想し、監督した。 ZLはLB、YQ、YP、RYの協力を得て、データの主要な内容を分析した。 原稿はZLとYZが執筆した。 すべての著者が最終原稿を読み、承認した。

資金

本プロジェクトは、国家重点技術研究開発プログラム(2015BAD03B01-01)および中国国家自然科学基金(U1704233)により支援された。

利益相反声明

著者らは、潜在的な利益相反と解釈される商業的または金銭的関係がない状態で研究が行われたことを宣言する

補足資料

この論文の補足資料は、オンラインで見ることができる。 https://www.frontiersin.org/articles/10.3389/fgene.2019.00183/full#supplementary-material

脚注

  1. ^http://dx.doi.org/10.5061/dryad.30tk6
  2. ^https://github.com/boxiangliu/ANTseq
  3. ^http://www.curveexpert.net

Ai, H., Huang, L., and Ren, J. (2013). ゲノムワイドSNPマーカーで明らかにした中国と西洋の豚の遺伝的多様性、連鎖不平衡、選択シグネチャー。 PLoS One 8:e56001. doi: 10.1371/journal.pone.0056001

PubMed Abstract | CrossRef Full Text | Google Scholar

Alexander, D. H., Novembre, J., and Lange, K. (2009年). 非血縁者における祖先の高速モデルベース推定。 Genome Res. 19, 1655-1664. doi: 10.1101/gr.094052.109

PubMed Abstract | CrossRef Full Text | Google Scholar

Barbosa, F. B., Cagnin, N. F., Simioni, M., Farias, A. A., Torres, F. R., Molck, M. C., et al (2017). ゲノムワイドヒトアレイを用いた集団層別を推定するための祖先情報に基づくマーカーパネル。 Ann. Hum. Genet. 81, 225-233. doi: 10.1111/ahg.12208

PubMed Abstract | CrossRef Full Text | Google Scholar

Bauchet, M., McEvoy, B., Pearson, L. N., Quillen, E.E., Sarkisian, T., Hovhannesyan, K.、その他(2007). マイクロアレイ遺伝子型データによる欧州の人口層別化の測定。 Am. J. Hum. Genet. 80, 948-956. doi: 10.1086/513477

PubMed Abstract | CrossRef Full Text | Google Scholar

Berthouly-Salazar, C., Thevenon, S., Van, T. N., Nguyen, B. T., Pham, L. D., Chi, C. V.、他 (2012).。 ベトナムの地方豚品種における無秩序な混血と遺伝的多様性の喪失。 Ecol. Evol. 2, 962-975. doi: 10.1002/ece3.229

PubMed Abstract | CrossRef Full Text | Google Scholar

Bertolini, F., Galimberti, G., Schiavo, G., Mastrangelo, S., Di Gerlando, R., Strillacci, M. G., et al.(2017).の項をご参照ください。 Preselection statistics and random forest classification identify population informative single nucleotide polymorphisms in cosmopolitan and autochonous cattle breeds.前選択統計とランダムフォレスト分類は、国際牛品種と自家用牛品種における集団に有益な一塩基多型を同定する。 Animal 12, 12-19. doi: 10.1017/S1751731117001355

PubMed Abstract | CrossRef Full Text | Google Scholar

Bianco, E., Soto, H. W. , Vargas, L., and Perez-Enciso, M. (2015). 1793年以来孤立した集団でありながら、顕著なレベルの多様性を持つイスラ・デル・ココ野良豚(コスタリカ)のキメラゲノム。 Mol. Ecol. 24, 2364-2378. doi: 10.1111/mec.13182

PubMed Abstract | CrossRef Full Text | Google Scholar

Bosse, M., Madsen, O., Megens, H.J., Frantz, L. A. F., Paudel, Y., Crooijmans, R. P., et al(2015年).。 1番染色体上の詳細なハプロタイプ解析により検討した欧州商業豚の雑種起源。 フロント. Genet. 5:442. doi: 10.3389/Fgene.2014.00442

PubMed Abstract | CrossRef Full Text | Google Scholar

Bosse, M., Megens, H. J., Frantz, L. A. F., Madsen, O., Larson, G., Paudel, Y.、他(2014). Genomic analysis reveals selection for asian genes in european pigs after human-mediated introgression(ゲノム解析により、ヨーロッパ豚のアジア系遺伝子の選択が明らかになった)。 Nat. Commun. 5:4392. doi: 10.1038/Ncomms5392

PubMed Abstract | CrossRef Full Text | Google Scholar

Bouchemousse, S., Liautard-Haag, C., Bierne, N., and Viard, F. (2016).ブタがヒトに導入された後にアジア系遺伝子が選択されたことを明らかにした。 強く分化したCiona種におけるポストゲノム祖先情報SNPsを用いた現代のハイブリダイゼーションと過去の導入の区別。 Mol. Ecol. 25, 5527-5542. doi: 10.1111/mec.13854

PubMed Abstract | CrossRef Full Text | Google Scholar

Browning, S. R., and Browning, B.L. (2007). 局所的なハプロタイプクラスタリングを用いた全ゲノム関連研究のための迅速かつ正確なハプロタイプ位相決定と欠損データ推定 Am. J. Hum. Genet. 81, 1084-1097. doi: 10.1086/521987

PubMed Abstract | CrossRef Full Text | Google Scholar

Da Mota, B., Tudoran, R., Costan, A., Varoquaux, G., Brasche, G., Conrod, P.、他 (2014).。 クラウドでの神経画像・遺伝学研究のための機械学習パターン。 Front. Neuroinform. 8:31. doi: 10.3389/Fninf.2014.00031

PubMed Abstract | CrossRef Full Text | Google Scholar

Dai,F. W., Feng,D. Y., Cao,Q. Y., Ye,H., Zhang,C. M., Xia,W. G., et al. このような状況下において、「萌芽的研究」は、「萌芽的研究」を「萌芽的研究」と呼ぶにふさわしい。 S. Afr. J. アニム. Sci. 39, 267-273.

Google Scholar

Daya, M., van der Merwe, L., Galal, U., Moller, M., Salie, M., Chimusa, E. R.、その他 (2013). 複雑な5ウェイ混血の南アフリカ有色人種集団のための祖先情報マーカーのパネル。 PLoS One 8:e82224. doi: 10.1371/journal.pone.0082224

PubMed Abstract | CrossRef Full Text | Google Scholar

Dimauro, C., Nicoloso, L., Cellesi, M., Macciotta, N. P. P., Ciani, E., Moioli, B., et al. (2015)(2015). イタリア羊の品種および地理的割り当てのための判別SNPマーカーの選択。 Small Rumin. Res. 128, 27-33. doi: 10.1016/j.smallrumres.2015.05.001

CrossRef Full Text | Google Scholar

Ding, L. L., Wiener, H., Abebe, T., Altaye, M., Go, R. C. P., Kercsmar, C.、他 (2011).S. (2011). 祖先と混血のマッピングにおけるマーカーの情報量の測定方法の比較。 BMC Genomics 12:622. doi: 10.1186/1471-2164-12-622

PubMed Abstract | CrossRef Full Text | Google Scholar

Fang, M., Hu, X., Jiang, T., Braunschweig, M., Hu, L., Du, Z.、他 (2005). マイクロサテライトマーカーから推定される中国土着豚品種の系統。 Anim. Genet. 36, 7-13. doi: 10.1111/j.1365-2052.2004.01234.x

PubMed Abstract | Cross Full Text | Google Scholar

Frantz, L. A. F., Schraiber, J. G., Madsen, O., Megens, H. J., Bosse, M., Paudel, Y.,など. (2013). ゲノム配列解析から明らかになったSusの種分化における微細な多様化と網状化の歴史。 Genome Biol. 14:R107. doi: 10.1186/Gb-2013-14-9-R107

PubMed Abstract | CrossRef Full Text | Google Scholar

Galanter, J. M.., Fernandez-Lopez, J. C., Gignoux, C. R., Barnholtz-Sloan, J., Fernandez-Rozadilla, C., Via, M.、他 (2012). アメリカ大陸の混血を研究するためのゲノムワイドな祖先情報マーカーのパネルの開発。 PLoS Genet. 8:e1002554. doi: 10.1371/journal.pgen.1002554

PubMed Abstract | CrossRef Full Text | Google Scholar

Getachew, T., Huson, H. J., Wurzinger, M., Burgstaller, J., Gizaw, S., Haile, A., et al(2017).日本人の祖先は、アメリカ人の祖先の祖先である。 交雑羊集団における祖先比率の定量化のための情報量の多い遺伝マーカーの同定:最適な混血レベルの選択への示唆。 BMC Genet. 18:80. doi: 10.1186/s12863-017-0526-2

PubMed Abstract | CrossRef Full Text | Google Scholar

Gong, H., Xiao, S., Li, W., Huang, T., Huang, X., Yan, G., et al(2018)。 140万SNPアレイに基づく中国産浜江豚の成長および枝肉形質の遺伝的座の解明。 J. Anim. Breed. Genet. 136, 3-14. doi: 10.1111/jbg.12365

PubMed Abstract | CrossRef Full Text | Google Scholar

Groenen, M. A. M. (2016). ブタゲノム解読の10年:ブタの家畜化と進化を知る窓。 Genet. Sel. Evol. 48:23. doi: 10.1186/s12711-016-0204-2

PubMed Abstract | CrossRef Full Text | Google Scholar

Hong, J. H., and Cho, S. B. (2008). 癌分類のための1-vs-restサポートベクターマシンの確率的多クラス戦略。 Neurocomputing 71, 3275-3281. doi: 10.1016/j.neucom.2008.04.033

CrossRef Full Text | Google Scholar

Kwon, T., Yoon, J., Heo, J., Lee, W., and Kim, H. (2017). 特徴選択を用いた家畜化豚の繁殖農場の追跡(Sus scrofa)。 アジアン・オース. J. Anim. Sci. 30, 1540-1549. doi: 10.5713/ajas.17.0561

PubMed Abstract | CrossRef Full Text | Google Scholar

Larson, G., Dobney, K., Albarella, U., Fang, M. Y., Matisoo-Smith, E., Robins, J., et al. イノシシの世界的な系統地理学から、豚の家畜化の中心が複数あることが明らかになった。 Science 307, 1618-1621. doi: 10.1126/science.1106927

PubMed Abstract | CrossRef Full Text | Google Scholar

Lawson, D. J., Hellenthal, G., Myers, S., and Falush, D. (2012)(2012). 密なハプロタイプデータを用いた集団構造の推論。 PLoS Genet. 8:e1002453. doi: 10.1371/journal.pgen.1002453

PubMed Abstract | CrossRef Full Text | Google Scholar

Lee, S., Epstein, M. P., Duncan, R., and Lin, X. H. (2012). ゲノムワイド関連研究における祖先情報に基づくマーカーを特定するための疎な主成分分析。 Genet. Epidemiol. 36, 293-302. doi: 10.1002/gepi.21621

PubMed Abstract | CrossRef Full Text | Google Scholar

Li, C. X., Pakstis, A. J., Jiang, L., Wei, Y. L., Sun, Q. F., Wu, H., et al. (2016). 74のAISNPsパネル:東アジア内の祖先推定を改善。 フォレンジック・サイエンス・イント. Genet. 23, 101-110. doi: 10.1016/j.fsigen.2016.04.002

PubMed Abstract | CrossRef Full Text | Google Scholar

Li, S.-J., Yang, S.-H., Zhao, S.-H., Fan, B., Yu, M., Wang, H.-S.他 (2004).The panel of 74 AISNPs: Improved ancestion of Eastern Asia. 20個のマイクロサテライトに基づく中国在来豚10個体群の遺伝的多様性解析。 J. Anim. 82, 368-374. doi: 10.2527/2004.822368x

PubMed Abstract | CrossRef Full Text | Google Scholar

Maples, B. K., Gravel, S., Kenny, E. E., and Bustamante, C. D. (2013). RFMix: a discriminative modeling approach for rapid and robust local-ancestry inference (RFMix:迅速でロバストな局所祖先推定のための識別モデリングアプローチ)。 Am. J. Hum. Genet. 93, 278-288. doi: 10.1016/j.ajhg.2013.06.020

PubMed Abstract | CrossRef Full Text | Google Scholar

Monzon, J., Kays, R., and Dykhuizen, D. E. (2014). 祖先情報診断SNPsを用いたコヨーテ-オオカミ-犬の混血の評価。 Mol. Ecol. 23, 182-197. doi: 10.1111/mec.12570

PubMed Abstract | CrossRef Full Text | Google Scholar

Pardo-Seco, J., Martinon-Torres, F., and Salas, A. (2014). ゲノム祖先の定量化におけるAIMパネルの精度の評価。 BMC Genomics 15:543. doi: 10.1186/1471-2164-15-543

PubMed Abstract | CrossRef Full Text | Google Scholar

Patterson, N., Price, A. L., and Reich, D. (2006). 集団構造と固有値解析。 PLoS Genet. 2:e190. doi: 10.1371/journal.pgen.0020190

PubMed Abstract | CrossRef Full Text | Google Scholar

Peterson, R. E., Edwards, A. C., Bacanu, S. A., Dick, D. M., Kendler, K. S., and Webb, B. T. (2017)(2007). 依存症の母集団横断的遺伝学的研究における経験的に祖先グループを割り当てることの有用性。 Am. J. Addict. 26, 494-501. doi: 10.1111/ajad.12586

PubMed Abstract | CrossRef Full Text | Google Scholar

Qin, P., Li, Z., Jin, W., Lu, D., Lou, H., Shen, J., and al. (2014). 漢民族における集団層別化の潜在的な影響を推定・修正するための祖先情報マーカーのパネル。 Eur. J. Hum. Genet. 22, 248-253. doi: 10.1038/ejhg.2013.111

PubMed Abstract | CrossRef Full Text | Google Scholar

Rosenberg, N. A., Li, L. M., Ward, R., and Pritchard, J.K. (2003). 祖先の推定における遺伝マーカーの情報量。 Am. J. Hum. Genet. 73, 1402-1422. doi: 10.1086/380416

PubMed Abstract |Ref Full Text | Google Scholar

Santos, H. C., Horimoto, A. V. R., Tarazona-Santos, E., Rodrigues-Soares, F., Barreto, M. L., Horta, B. L., et al. (2016). アメリカの混合集団における混血比率を決定するための祖先情報マーカーの最小セット:ブラジルのセット. Eur. J. Hum. Genet. 24, 725-731. doi: 10.1038/ejhg.2015.187

PubMed Abstract | CrossRef Full Text | Google Scholar

Shriver, M. D., Parra, E. J., Dios, S., Bonilla, C., Norton, H., Jovel, C.、その他(2003). 皮膚の色素沈着、生物地理学的祖先と混血マッピング。 Hum. Genet. 112, 387-399. doi: 10.1007/s00439-002-0896-y

PubMed Abstract | CrossRef Full Text | Google Scholar

Sun, K., Ye, Y., Luo, T., and Hou, Y. (2016). 中国における亜集団の祖先推定を目的としたMulti-InDel解析. Sci. Rep. 6:39797. doi: 10.1038/srep39797

PubMed Abstract | CrossRef Full Text | Google Scholar

Tian, C., Kosoy, R., Nassir, R., Lee, A., Villoslada, P., Klareskog, L.、et al. (2009). ヨーロッパ集団の遺伝的下部構造:多様なヨーロッパ民族集団を区別するための祖先情報マーカーのさらなる定義(European population genetic substructure: Further definition of ancestry informative markers for distinguishing among diverse european ethnic groups). Mol. Med. 15, 371-383. doi: 10.2119/molmed.2009.00094

PubMed Abstract | CrossRef Full Text | Google Scholar

vonHoldt, B. M., Kays, R., Pollinger, J. P., and Wayne, R. K.(2016).ヨーロッパ人の遺伝的部分構造:多様なヨーロッパ人集団を区別するための、祖先情報に基づくマーカーのさらなる定義。 Admixture mappingは北アメリカのイヌ科動物において導入されたゲノム領域を同定した。 Mol. Ecol. 25, 2443-2453. doi: 10.1111/mec.13667

PubMed Abstract | CrossRef Full Text | Google Scholar

Yang, B., Cui, L. L., Perez-Enciso, M., Traspov, A., Crooijmans, R. P. M. A., Zinovieva, N., et al.(2017).のような、北米のイヌ科動物における外来種のゲノム領域を特定した。 ゲノムワイドSNPデータから家畜化された豚のグローバル化を解き明かす。 Genet. Sel. Evol. 49:71. doi: 10.1186/s12711-017-0345-y

PubMed Abstract | CrossRef Full Text | Google Scholar

Zeng, X. P., Chakraborty, R., King, J. L., Larue, B., Moura-Neto, R. S., and Budowle, B. (2016). 米国主要集団の集団所属のための情報量の多いSNPマーカーの選択。 Int. J. Legal Med. 130, 341-352. doi: 10.1007/s00414-015-1297-9

PubMed Abstract | CrossRef Full Text | Google Scholar

Zhang, C., Lin, D., Wang, Y., Peng, D., Li, H., Fei, J., and al. (2019). 中国土着鶏品種における商業ブロイラーからの広範な導入。 Evol.Appl. 12, 610-621. doi: 10.1111/eva.12742

PubMed Abstract | CrossRef Full Text | Google Scholar

Zhang, F., Zhang, L., and Deng, H. W. (2009)(2010). 構造化集団における祖先情報量マーカー選択のためのPCAに基づく方法. Sci. Chin. Series C Life Sci. 52, 972-976. doi: 10.1007/s11427-009-0128-y

PubMed Abstract | CrossRef Full Text | Google Scholar

Zhao, P., Yu, Y. , Feng, W. , Du, H. , Yu, J. , Kang, H. , et al.(2018).. 梅山豚のゲノムにおける進化の歴史と選択的掃討の証拠から、その遺伝的・表現的な特徴が明らかになった。 Gigascience 7. doi: 10.1093/gigascience/giy058

PubMed Abstract | CrossRef Full Text | Google Scholar

Zhu,Y., Li,W., Yang,B., Zhang,Z., Ai,H., Ren,J., et al. (2017). 中国産家畜豚のゲノムにおける選択と種間導入のシグネチャー。 Genome Biol. Evol. 9, 2592-2603. doi: 10.1093/gbe/evx186

PubMed Abstract | CrossRef Full Text | Google Scholar

.