近期,国际权威的“声音事件分类与检测学术评测-IEEE AASP Challenge on DCASE 2021”落下帷幕,在其“任务5-少样本生物声学事件检测(Few-shot Bioacoustic Event Detection)”评测任务中,信息与机电工程学院“上海师范大学-云知声 自然人机交互联合实验室” 龙艳花副教授指导的研究生唐甜甜、梁芸浩提交的“SHNU系统”综合性能排名第二,这表明学院自然人机交互研究团队在声音事件检测领域具有较好的研究基础和快速工程系统开发能力,其在该领域的算法与技术积累已处于国际先进水平。
“上海师范大学-云知声 自然人机交互”联合实验室在Task 5中系统性能排名第二
截图来源:DCASE 2021(IEEE AASP Challenge)官方网站:http://网址未加载munity/challenge2021/task-few-shot-bioacoustic-event-detection-results
研究团队参加的“少样本生物声音事件检测”(Task 5),该技术所涉及的领域包括声学、智能感知信息处理、人工智能、深度统计分析等,可广泛应用于“稀有动物保护”“环境保护与监测”“声学照相机”和“工业听诊器”等“A.I.+工业”的应用场景,具有重要的学术及工程应用价值。DCASE Task5-Few-shot Bioacoustic Event Detection的目标是在比赛官方提供的录制音频资料中检测出动物(哺乳动物和鸟类)叫声的时间戳。该任务仅提供5个待测动物叫声的样例。要求参赛者可以从哺乳动物或鸟类的五个声音样例中提取信息,并在录音中检测和分类声音。流程如下:
任务流程
“SHNU3”系统
在“SHNU3”系统中,主要考虑由于训练数据少和训练数据与测试数据不匹配而带来的过拟合问题。针对该问题,提出了基于原型网络的预训练和特征正则化(Embedding Propagation)的一套系统。系统主要分为三个阶段:一是基于AudioSet的预训练,首先将录制的包含生物声音事件的原始音频重采样,然后提取手工特征送入高维特征提取器,利用输出的高维特征向量计算出类原型,接着实现度量分类。预训练系统如下图:
预训练系统
二是微调训练阶段,高维特征提取器输出的高维特征向量先经过Embedding Propagation处理得到嵌入插值向量,再计算类原型来实现度量分类。Embedding Propagation效果图如下:
Embedding Propagation效果图
三是目标声音事件检测阶段,将原始音频经过一系列适应模型的处理后送入训练好的N个模型中进行检测,分别得出相应的正例得分序列,并对同一条音频的N个正例得分序列进行取平均融合,以此来增强模型预测结果的稳定性,其后,为了将间断的声音事件接续起来并剔除干扰,对融合后的正例得分序列进行的中值滤波及峰值挑选的后处理操作,最后输出得到音频时间戳。检测系统设计如下图:
检测系统
该系统设计了两阶段声学模型训练策略和特征正则化方法,在加强模型对高维特征的表征的同时提升了模型鲁棒性和泛化能力。在阶段一学习通用的泛化表征模型,在阶段二有针对性的学习定制化数据的表征方式,有利于提升测试阶段未见过数据的度量分类性能。检测阶段进行得分融合的方案,减小了随机性的干扰,提高了模型的稳定性,同时可调节滤波及峰值挑选的后处理方式提高了模型对事件时间戳检测的准确性。此次参赛结果表明,我校自然人机交互实验室紧跟国际音频研究新领域,不断探索进取并活跃在技术的最前沿。
赛事简介
DCASE(Detection and Classification of Acoustic Scenes and Events)Challenge是由IEEE(Institute of Electrical and Electronics Engineers)举办的声音场景识别和事件检测学术评测,自2013年组织发起以来,至今已举办七届,是国际上声音事件检测领域最权威的学术评测。本届评测共设置了六个任务,吸引了包括英特尔、三星等国际公司和清华大学、北京大学、中国科学技术大学、新加坡南洋理工大学、美国约翰霍普金斯大学等顶级高校在内共127支队伍、394个有效系统参赛。
团队介绍
“上海师范大学-云知声 自然人机交互联合实验室”于2017年正式成立, 该实验室由上海师范大学与语音领域知名企业-云知声(上海)智能科技有限公司联合共建。双方以该实验室作为平台,以工业界实际应用需求为导向,结合自身优势,在科研平台建设、数据资源共享、成果转化等方面开展深入持续性合作,共同研究自然人机交互技术中的一些关键性、综合性问题,为智能语音领域的科学研究与工程实践培养高质量人才。
龙艳花,上海师范大学信息与机电工程学院电气信息系研究生导师。主要从事人工智能、深度学习、智能语音信息处理相关方面的研究,主持并参与过国家自然科学基金、十一五国防预研、英国EPSRC等项目。在语音识别、语音增强与分离、声音事件检测等领域做出了一定的研究成果,在语音领域两大顶级国际会议ICASSP、INTERSPEECH 上发表多篇学术论文,担任“上海师范大学-云知声 自然人机交互”联合实验室负责人,多次带领实验室成员参与国际语音领域学术评测并取得优异成绩。
供稿:科技处、信息与机电工程学院
校对:王章华
编辑:融媒体中心
往期推荐
●“满月日记” 我在上海师大的每一天
●时光留痕 上海师大教苑楼的老故事
●122名“小叶子”服务第四届中国国际进口博览会
●首个!上海师大国家科技创新平台获批建设
点个赞和在看,和上海师大一起加油!