近日,中國農業(yè)科學院北京畜牧獸醫(yī)研究所牛遺傳育種創(chuàng)新團隊開發(fā)了兩種基礎學習器的整合框架和一種改進算法并應用于肉牛基因組預測,提高了基因組估計育種值(GEBV)預測準確性和運算效率,為畜禽及其他物種的基因組選擇提供了方法參考。相關成果相繼發(fā)表在《Journal of Animal Breeding and Genetics(動物育種和遺傳)》、《Frontiers in Genetics(遺傳前沿)》和《Briefings in Bioinformatics(生物信息學簡訊)》。
據(jù)團隊首席李俊雅研究員介紹,非參數(shù)的機器學習算法相較傳統(tǒng)線性回歸模型有一定優(yōu)勢,在肉牛真實數(shù)據(jù)中支持向量機(SVR)、核嶺回歸(KRR)和隨機森林(RF)分別比基因組最佳線性無偏預測(GBLUP)預測準確性提高了12.8%、14.9%和5.4%。搭建多種單一學習算法的整合框架集成學習(Ensemble Learning)是進一步提升預測準確性的策略之一。結果顯示,在肉牛宰前活重、胴體重和眼肌面積性狀的預測中,Adaboost.RT和Stacking集成框架的準確性分別比GBLUP提高了14.4%和7.7%。
研究人員基于整合框架集成學習研究,同時受Cosine kernel在人臉識別領域優(yōu)秀的預測精度和計算效率啟發(fā),進一步開發(fā)了基于Cosine kernel的KRR,即KCRR,定義基因組Cosine相似矩陣(CS-matrix),并與傳統(tǒng)G-matrix進行了預測性能比較。結果表明,KCRR在多個物種的預測性能表現(xiàn)穩(wěn)定,具有廣泛的遺傳結構適應性。在預測準確性方面,KCRR比GBLUP平均提高4.82%,特別是在肉牛數(shù)據(jù)中提高了13.09%;在運算效率方面,KCRR比GBLUP和BayesB快20~4000倍,在樣本量少和SNP密度低的火炬松數(shù)據(jù)中提升最為明顯;CS-matrix與G-matrix結構相似,但構建速度比G-matrix平均快20倍,在肉牛高密度基因分型芯片數(shù)據(jù)中表現(xiàn)最為突出。
以上研究拓展了肉牛全基因組選擇技術體系發(fā)展的新維度,開發(fā)了系列有較高預測準確性的基因組選擇方案,也為機器學習算法在畜禽基因組預測方面的應用提出了新的思路。
相關研究得到國家肉牛牦牛產業(yè)技術體系、國家自然科學基金項目、院科技創(chuàng)新工程重大科研任務的資助。
原文鏈接:https://pubmed.ncbi.nlm.nih.gov/33089920/
https://pubmed.ncbi.nlm.nih.gov/33747037/
https://pubmed.ncbi.nlm.nih.gov/33963831/