English
实验室动态
当前位置: 首页 > 正文
油菜团队开发了基于机器学习的植物基因调控特征解析新工具PlantSetDelta
来源: 时间:2026-04-10

南湖新闻网讯(通讯员 王博 宗湛翔)近日,油菜团队在Plant Communications杂志发表了题为PlantSetDelta: Mining Regulatory Features for Interpretable Gene-Set Analysis in Plants的论文。PlantSetDelta是一个面向植物基因集比较分析的可解释调控特征解析框架,能够识别任意两组差异基因集背后的序列决定因素,包括顺式调控区的k-mer特征和特定的转录因子结合特征。

差异基因集比较是植物功能基因组学研究中最常见的分析范式之一。GO富集分析作为最常用的基因集解释方法之一,能够刻画基因集在功能类别上的整体特征,常用于描述差异基因集的功能富集模式,但难以回答这些差异由哪些具体调控因素驱动。因此,有必要发展新的计算方法,以精确识别驱动基因集差异的关键调控因子。

图1 PlantSetDelta核心架构与应用场景。(A)整体工作流程。只需输入两组具有生物学意义的比较基因集(如高/低表达组),PlantSetDelta即可自动整合特征、训练模型,并输出核心调控特征排名(默认展示 Top 10),直接锁定关键调控因子。(B)调控区域界定。精准锁定基因特征提取范围:包括启动子(转录起始位点上游 1kb 至下游 0.5kb)和终止子(转录终止位点上游 0.5kb 至下游 1kb)。(C & D) 双维度特征分类机制。基于k-mer序列(C):提取启动子/终止子区域的k-mer 频数矩阵进行分类。基于TF结合数据(D):当物种具备转录因子(TF)结合数据时,构建高分辨率的100-bp窗口特征矩阵进行精准识别。(E)跨物种深度学习预测。对于缺乏TF数据的非模式物种,PlantSetDelta利用在拟南芥等模式植物中预训练的DeeperDeepSEA 深度学习模型,直接从DNA序列跨物种预测油菜、水稻、玉米等作物的 TF结合特征。PlantSetDelta内置了10种植物的预测模型(基于大规模转录因子结合谱数据),用户可选择与目标物种亲缘关系最近的模型进行迁移预测。。(F - H) 强大的多场景应用能力。单细胞Marker挖掘(F):成功在拟南芥叶肉细胞中锁定与光信号相关的DET1调控信号。复杂性状TWAS解析(G):在甘蓝型油菜中,精准识别出决定种子含油量差异的NAC家族转录因子。不限于此,该框架还可广泛应用于突变体差异基因(DEGs)解析、特定靶基因Motif识别以及逆境胁迫响应特征挖掘等任意具有生物学意义的基因集比较场景(H)。

PlantSetDelta基于植物基因的顺式调控区域(启动子:−1 kb 至 +0.5 kb;终止子:−0.5 kb 至 +1 kb)构建特征表示,包括k-mer序列特征和转录因子结合特征。以上述特征为输入,对多种机器学习模型进行训练与比较,并选择最优模型用于差异基因集的分类。在此基础上,结合模型解释方法,提取主导分类的关键特征,作为差异基因集的候选调控因子。

PlantSetDelta首先以植物高、低表达基因集分类任务为切入点,证明了其有效性。研究表明,无论是基于顺式调控区序列的 k-mer 特征,还是基于转录因子结合信号的调控特征,都能够较好地区分高、低表达基因集,并识别出与表达水平差异相关的关键调控线索。进一步在甘蓝型油菜、水稻和玉米等物种中的测试结果也表明,该框架具有良好的跨物种适用性。

在多个具有代表性的生物学场景中,PlantSetDelta进一步展示了其解析差异基因集调控机制的能力。例如,在拟南芥单细胞 RNA-seq 数据中,该方法在叶肉细胞Marker基因分析中识别出与光形态建成和光信号转导相关的 DET1 信号;在拟南芥干旱胁迫响应基因比较中识别出 ABI5 相关调控信号;在多组织特异表达分析中进一步识别出与根发育相关的 ARR12 特征。值得注意的是,研究进一步收集并关注了多个转录因子突变体扰动数据集。结果表明,在这些案例中,有 62% 能够恢复与已知扰动转录因子相关的调控信号,说明该方法不仅适用于个别示例,也具有较好的整体稳健性和生物学解释力。

以上结果表明,相较于提供宏观功能概述的GO富集分析,PlantSetDelta更有助于直接挖掘具有明确生物学意义的关键调控因子。

针对非模式植物中转录因子结合谱数据资源不足的问题,PlantSetDelta借助拟南芥转录因子结合位点预测模型扫描油菜基因,精准识别了与种子含油量相关基因集差异有关的NAC家族调控信号。这说明通过性能良好的深度学习模型进行跨物种预测,可以有效挖掘实验数据有限的非模式植物复杂性状背后的潜在调控线索。

为方便更多植物学研究人员直接应用该工具,PlantSetDelta已作为软件包(可通过pip安装)和Web服务(https://rgmi.hzau.edu.cn/plantsetdelta)正式公布。该工具的源代码基于MIT协议在GitHub平台开源(https://github.com/bwang889/plantsetdelta),研究所涉及的所有原始数据均已完整托管于Zenodo数据库(https://zenodo.org/records/19183728)。此外,研究团队进一步训练并整理了10个植物物种的 DeeperDeepSEA 模型,并提供了4个物种的预计算调控特征资源,为更多植物中的差异基因集分析提供了可直接使用的坚实模型与数据基础。

华中农业大学硕士研究生王博、博士研究生宗湛翔为论文共同第一作者,华中农业大学赵虎研究员为论文通讯作者。华中农业大学/崖州湾国家实验室郭亮教授为本研究提供了重要指导。该研究得到国家自然科学基金等项目资助。

论文链接:https://www.cell.com/plant-communications/fulltext/S2590-3462(26)00155-0

审核人:赵虎

南湖新闻网链接:https://news.hzau.edu.cn/info/1010/68598.htm