English
实验室动态
当前位置: 首页 > 正文
我室开发一套基于理想目标材料识别的机器学习算法助力智能育种
来源: 时间:2022-03-17

3月15日,我室玉米团队在Genome Biology发表了题为“Target-Oriented Prioritization: targeted selection strategy by integrating organismal and molecular traits through predictive analytics in breeding”的研究论文。

该研究基于一个结合遗传研究和育种应用设计的包含5820份杂交种的玉米非完全双列杂交群体,开发了一套基于理想目标材料识别的机器学习算法:目标导向的优选技术(TOP, target-oriented prioritization)。该算法可整合组学数据实现多个性状的协同选择,在保证育种目标整体一致的基础上,特定性状实现更优,为作物智能设计育种提供了技术支撑。

作物育种技术正面临新的转型升级。利用基因编辑与合成生物学技术,借助生物和环境大数据与人工智能技术,快速聚合有利等位基因,实现作物新品种的定向智能培育被认为是未来育种技术发展方向。

多性状协同改良是目前制约育种效率的关键。作物育种中,育种家通常期待同时改良多个性状,但不同性状往往存在连锁累赘,如高产品种往往不抗病,适宜机械化收获的品种籽粒脱水快,但产量会受影响。同时选择两个或多个性状通常比选择单个性状育种更加困难。实际育种中,多性状选择主要有三种方法:一是逐项选择法,在一个育种周期中只对一个性状进行选择;二是独立淘汰水平法,在一个育种周期同时对多个性状进行选择,对满足条件的材料取交集;三是指数选择法,根据性状的经济重要性或期待改进的幅度对其进行加权的选择方法。尽管指数选择法比逐项选择法和独立淘汰水平法更有效,但性状重要性的赋值依赖育种家经验,且必须为每个特定的种群和育种目标建立理想的选择指数,这种思路操作起来非常困难,难以推广。

文章第一作者杨文宇博士开发了一套适用农作物的DNA画像技术,以特定品种(商业品种或区试对照材料)为目标,在育种资源中,通过基因组信息对材料进行“表型画像”,并搜索和“目标画像”整体性最相似的材料。该方法被命名为目标导向的优选技术(TOP, target-oriented prioritization)。该研究利用4套独立的不同数据集,对TOP选择效果进行测试,包括5820个F1的玉米杂交种,368个玉米自交系,282个玉米自交系和210个水稻自交系。研究结果发现,TOP方法在多个物种、多个数据中具有广泛的适用性,能有效平衡多个性状间的复杂相关性,实现与特定目标品种整体相似的前提下,筛选出特定性状更优的候选材料。如果进一步加入其它组学大数据,TOP的选择精度能进一步得到大幅提升。以我国生产上大面积推广的玉米品种“郑单958”为目标材料,从34188份理论可以组配的杂交组合中选出86个(中选率0.25%),进一步对这些中选的杂交组合进行田间试验验证,结果显示,10个杂交组合在整体性状和“郑单958”相似的基础上,实现了0.75%至8.66%的增产,为后续进行品种精准改良提供了优良材料资源,与常规杂交育种相比,大大降低了工作量。


玉米基因组育种选择TOP算法流程


玉米基因组育种选择TOP算法流程

杨文宇博士与严建兵教授团队开展合作研究,利用团队前期构建的CUBIC群体和各种数据,结合自身对生物数据的理解和数学专业优势,努力学习遗传学和生物育种学的知识,通过学科交叉和融合,做出一系列研究成果:开发了一种基于隐马可夫模型的血缘一致性(identity-by-descent, IBD)推断方法,可精准估计CUBIC群体24个亲本的遗传重组事件,精确度达到95%,为后续关联分析和基因挖掘奠定了基础,相应结果以共同一作发表在Genome Biology;参与CUBIC衍生的NCII杂交群体的杂种优势预测算法开发;独立开发了一套基于理想目标材料识别的机器学习算法TOP,为农作物基因组智能育种提供有力技术支撑。

利用玉米CUBIC群体已在Genome Biology连续发表三篇系列论文,从农艺性状遗传解析到杂种优势机理解析,再到智能设计育种。