對牛血統成分進行鑑定,探究最佳的標記篩選方法和標記密度

​文獻解讀:

Ultra-low-density genotype panels for breed assignment of Angus and Hereford cattle

期刊:Animal

發表單位: Animal & Grassland Research and Innovation Centre

發表時間:2016年11月


摘要:

Angus and Hereford beef is marketed internationally for apparent superior meat quality attributes; DNA-based breed authenticity could be a useful instrument to ensure consumer confidence on premium meat products. The objective of this study was to develop an ultra-lowdensity genotype panel to accurately quantify the Angus and Hereford breed proportion in biological samples. Medium-density genotypes (13 306 single nucleotide polymorphisms (SNPs)) were available on 54 703 commercial and 4042 purebred animals. The breed proportion of the commercial animals was generated from the medium-density genotypes and this estimate was regarded as the gold-standard breed composition. Ten genotype panels (100 to 1000 SNPs) were developed from the medium-density genotypes; five methods were used to identify the most informative SNPs and these included the Delta statistic, the fixation (Fst) statistic and an index of both. Breed assignment analyses were undertaken for each breed, panel density and SNP selection method separately with a programme to infer population structure using the entire 13 306 SNP panel (representing the gold-standard measure). Breed assignment was undertaken for all commercial animals (n = 54 703), animals deemed to contain some proportion of Angus based on pedigree (n = 5740) and animals deemed to contain some proportion of Hereford based on pedigree (n = 5187). The predicted breed proportion of all animals from the lower density panels was then compared with the gold-standard breed prediction. Panel density, SNP selection method and breed all had a significant effect on the correlation of predicted and actual breed proportion. Regardless of breed, the Index method of SNP selection numerically (but not significantly) outperformed all other selection methods in accuracy (i.e. correlation and root mean square of prediction) when panel density was ⩾300 SNPs. The correlation between actual and predicted breed proportion increased as panel density increased. Using 300 SNPs (selected using the global index method), the correlation between predicted and actual breed proportion was 0.993 and 0.995 in the Angus and Hereford validation populations, respectively. When SNP panels optimised for breed prediction in one population were used to predict the breed proportion of a separate population, the correlation between predicted and actual breed proportion was 0.034 and 0.044 weaker in the Hereford and Angus populations, respectively (using the 300 SNP panel). It is necessary to include at least 300 to 400 SNPs (per breed) on genotype panels to accurately predict breed proportion from biological samples.


研究背景

越來越多的消費者開始關心他們所購的肉產品來源以及這些來源畜禽的品種成分,尤其對於那些價格高昂的高端肉產品。

從另一個角度講,畜禽產品銷售企業為了讓他們的產品賣到更高的價格,明確原料畜禽的品種成分是非常必要的。隨著基因分型技術的不斷成熟和成本的不斷降低,也因為基於基因組信息分析得到的品種成分鑑定結果更為準確可靠,利用基因組信息代替系譜信息對畜禽個體進行品種鑑定正在逐漸成為主流。

然而,用於實際生產的畜禽品種成分鑑定要求我們在保種一定鑑定準確率的前提下,儘可能地使用較低密度的標記去完成這項工作。這就使得如何從全基因組標記中篩選出高信息含量的標記,以及至少多大的標記密度可以較好的完成這項工作,成為需要探究的問題。

本文作者設計相關實驗,對商品牛個體所含安格斯牛(Angus)血統分成和赫裡福德牛(Hereford)血統成分進行鑑定。主要對比了使用不同標記篩選方法,以及使用不同標記密度,對這兩種牛的血統成分鑑定結果,以此來探究最佳的標記篩選方法和標記密度。


材料方法

因型數據和實驗群體

1) 7個品種的共4042頭純種牛的高密度標記集(質控後包含646773個常染色體SNP)基因分型數據;

2) 54703頭商品牛個體(基本都是雜交種,5740頭含若干比例的安格斯血統,5187頭含若干比例的赫裡福德血統)的中密度標記集(質控後包含13306個常染色體SNP)基因分型數據;

3) 4042頭純種牛的中密度標記集(質控後包含13306個常染色體SNP)基因分型數據。


候選低密度標記集

從中密度標記集(13306個常染色體SNP)中篩選不同密度的標記集。共設置了10個不同密度的候選標記集,分別包含100到1000個SNP,每個梯度增加100個標記。


候選標記篩選方法

1) Delta統計法。本質就是兩個群體基因頻率的差異;

2) 固定係數法。也就是我們經常說的群體分化係數(Fst);

3) 以上兩種方法的結合:

對牛血統成分進行鑑定,探究最佳的標記篩選方法和標記密度

在挑選標記時,首先將每條染色體分成塊,然後對於每種篩選方法得到的每個標記的係數值,分別對每一個染色體塊獨立進行排序和標記挑選。這樣就避免了全部標記同時排序篩選導致的標記在基因組中分佈不均的問題,確保沒有大的gap。


品種成分分析方法

將4024頭已知品種的純種牛基因型數據作為參考集,使用ADMIXTURE軟件的有監督模型對54703頭商品牛個體所含安格斯和赫裡福德血統成分進行鑑定。

對不同篩選方法篩選得到的不同標記密度的基因型數據集都使用以上方法進行分析。另外,同時使用這些商品牛的中密度標記集的全部標記進行品種成分鑑定,該結果將被當作真值,與不同子集得到的品種鑑定結果進行對比分析。

研究結果

不同篩選方法

忽略標記密度,不同篩選方法的相關性非常高(>0.99):

對牛血統成分進行鑑定,探究最佳的標記篩選方法和標記密度

不論對於安格斯血統成分的鑑定還是對赫裡福德血統成分的鑑定,與真值的相關性分析結果顯示,使用Delta統計法和固定係數法結合的標記篩選方法得到的品種成分鑑定結果與真值的相關係數最高:

對牛血統成分進行鑑定,探究最佳的標記篩選方法和標記密度


不同密度標記集


隨著標記密度的增加,品種成分鑑定的準確性在不斷提高:

對牛血統成分進行鑑定,探究最佳的標記篩選方法和標記密度

忽略標記篩選方法,使用不同密度標記集所得到的品種鑑定結果隨著標記密度的增加,其與真值的相關性增長幅度在逐漸遞減。

標記集密度和品種之間存在較強的互作,即不同標記密度集數據所得到的鑑定結果準確性在兩個品種中的趨勢並不一致。


研究結論

一、結合兩種標記篩選方法篩選得到的標記集,將其用於品種成分鑑定得到的結果準確率高於單獨使用一種,尤其高於使用Delta統計法。此外,兩種方法相結合時,以50:50的權重結合要比用80:20或20:80的權重得到的準確率要高。

二、雖然隨著標記密度的增加,鑑定準確性會隨之提高,但在考慮成本和可實施性的情況下,標記密度在300到400之間時,可以得到較為準確的品種成分鑑定結果。然而,這裡的前提是如果只鑑定單個品種的樣本時。該研究顯示,當同時為安格斯牛和赫裡福德牛篩選標記,鑑定品種成分,那麼鑑定準確度要低於單獨為兩個品種篩選標記的情況。因此,作者認為如果需要對多個品種個體鑑定血統成分,則需要每個品種包含300到400個標記。


分享到:


相關文章: