日前,我校生命科学学院遗传多样性与进化团队,提出了一种基于深度学习卷积神经网络的物种识别新方法,构建了一种新的深度学习网络模型(MMNet),首次实现了将形态学和分子数据自动化整合用于物种鉴定。该模型在具有广泛代表性的实际数据中进行集中测试,结果表明所提出的MMNet新方法显著优于常用的利用单一数据的方法。其中,甲虫数据集的识别准确率为98.1%、蝴蝶数据集的识别准确率为98.8%、鱼类数据集的识别准确率为96.3%、蛾类准确率96.4%。此外,新的MMNet方法在更具有挑战性的同属近缘种的识别中也具有极高的识别准确性(大于98%)。新方法对序列长度和图像大小具有较强的鲁棒性,进一步分析表明形态数据和遗传数据对模型都很重要,遗传数据的贡献相对较大。这项成果9月15日在线发表于国际著名进化生物学期刊《系统生物学》(Systematic Biology, IF=15.683, ranking 3/50, Evolutionary Biology;ranking 7/647,Ecology, Evolution, Behavior and Systematics)。我校生命科学学院硕士研究生杨炳为论文的第一作者,资源环境与旅游学院青年教师张振鑫副教授,为论文共同第一作者和共同通讯作者,张爱兵教授为论文最后通讯作者。
图1. 本研究提出的新的MMNet网络模型
生物多样性是生命长期演化的结果,也是人类文明赖以生存的基础,人类对于生物多样性的认知在近几十年取得许多重要进展,然而作为现代分类学重要基础的经典林奈分类学,面临着趋同进化、表型可塑性的重要挑战;另一方面新兴的DNA分类方法则由于基因渐渗、不完全谱系分选和基因水平转移现象而导致物种鉴定存在潜在谬误。虽然整合分类学思想早在2005年就被提出,但在过去的16年间,鲜有相关的新算法报道,尤其是基于深度学习的整合新算法
MMNet新方法为进一步整合图像、音频、视频、三维扫描和生物传感器等多模态信息进行整合分类奠定了基础,而且能够更全面地描述生物特征,为进一步开展生物多样性调查、监测和保护奠定基础。该工作在审稿过程中被审稿人及专题副主编评价为对系统生物学研究的重要贡献“a valuable contribution to Systematic Biology”。
本次科研成果的发表是张爱兵教授继2008年在国际上提出基于人工智能的DNA条形码物种识别新方法以来(Zhang et al. 2008. Syst. Biol. ),首次以首都师范大学为第一单位指导研究生在该国际著名进化生物学期刊发表研究成果。研究获国家杰出青年基金、国家自然基金面上项目及首都师范大学交叉科学研究院交叉项目资助。
# 论文相关信息 #
1. Yang,B,Z.X. Zhang, C.Q. Yang, Y. Wang, Mi. C. Orr, H.B. Wang, A.B. Zhang. (2021). Identification of Species by Combining Molecular and Morphological Data Using Convolutional Neural Networks,Systematic Biology, 2021; syab076,https://网址未加载/10.1093/sysbio/syab076.
2. Zhang, A. B., D. S. Sikes, C. Muster, S. Q. Li. (2008). Inferring Species Membership using DNA sequences with Back-propagation Neural Networks. Systematic Biology, 57(2):202-215. http://academic.网址未加载/sysbio/article/57/2/202/1622290.
来源:首都师范大学官网