如何用向量表示声音信号?线性代数如何应用于图片处理?大数据技术如何解决语音降噪?要了解这些问题的答案,那就快来看看香港中文大学(深圳)副校长、加拿大皇家科学院院士罗智泉教授的公开课。
罗智泉教授于3月28日在腾讯课堂及哔哩哔哩直播间同步开展“大数据中的数学问题”公开课。他通过具体例子为大家介绍了处理大数据的数学方法以及大数据的前沿研究。他的研究方向主要集中在信息科学中的数学问题,尤其是大数据分析方法、优化算法设计、分析和应用。
主讲人介绍:罗智泉教授
罗智泉教授是深圳市大数据研究院院长和香港中文大学(深圳)-腾讯 AI LAB 机器智能联合实验室主任,他还是电子工程师学会会士和美国工业与应用数学学会会士。他于1984年获得北京大学数学系学士学位,于1989年获得麻省理工学院博士学位。加入港中大(深圳)前,罗智泉教授先后担任了加拿大麦克马斯特大学终身教授、加拿大国家科研讲席教授、美国明尼苏达大学电子与计算机工程系终身教授等。
罗智泉教授曾任IEEE信号处理学会通信信号处理技术委员会主席、《 IEEE信号处理》《运筹学数学》《管理科学》《数学规划》等国际著名杂志的编委。罗教授还长期为国内外高科技企业以及政府研究机构提供技术咨询。
01
大数据中的数学基础
罗智泉教授首先在直播中介绍了线性代数的基础知识。线性代数首先把标量(scalar)的概念扩展到了向量(vector)。一个n维的向量可以通过n元数组来表示,它在物理学、工程科学等领域都有广泛的运用。比如我们可以用向量来表示二维或三维空间的位置或者位移;一张图片的每个像素可以用三维向量来表示,该向量的三个分量代表了红色/绿色/蓝色的分布。声音信号也可以用向量来表示。虽然声波随时间的变化是连续的,但人耳一般只能察觉出毫秒级别的声音变化,因此我们可以对一个信源进行离散地采样,用随机采样得到的离散数据代表对应的音频信号。因此,在某一个时间段得到的音频信号可以用向量来表示,在直播中演示的一段四秒的鼓声实际上是十万维级别的向量:
图1:直播中演示的鼓声和演讲声实际是十万维级别的向量
向量之间可以定义类似于标量之间的运算,比如加减法、数与向量之间的乘法(数量积)。线性组合是线性代数中比较重要的运算。给定一组向量{a_1,a_2,...,a_n}和一组标量(系数){β_1,β_2,...,β_n},我们定义对应的线性组合为
例如,在三维空间中的任何一个向量都可以由向量组以{(1,0,0),(0,1,0),(0,0,1)}及对应的系数通过线性组合表示出来。随后罗校长用音频信号来帮助我们理解向量运算的意义。如果把x表示音频信号的话,2x相当于把音频的声音大小放大两倍,0.5x相当于把音频的声音缩小了二分之一。因为音频信号可以由三角函数的线性组合表示出来,所以音频信号-x和x之间只相差了一个相位,因此人耳并不能分辨这两个音频信号的差别。同时,不同音频信号做线性组合相当于不同种声音混合后的结果。
图2:对音频信号做数量积的演示
同样,线性代数也可以用来处理图像。实际上,一张黑白的图像可以用矩阵来表示,其中矩阵的每个分量代表着图像对应部分的亮度。对图片做亮度的调整也相当于对相应的矩阵做加法和数量积。我们用表示一张黑白图片,对图像做亮度处理实际上是在进行运算:
其中a控制着生成图像的亮度差,b控制着生成图像的平均亮度。
图3:对图片做亮度的调整相当于对矩阵做加法和向量积
市场上对图片做去水印或者涂鸦的操作也用到了线性代数的知识。例如给定一张带有水印的图片,我们首先把它堆成一个列向量,记做x_noise。随后我们对该向量做离散傅里叶变换,即乘以离散的傅立叶矩阵A,得到了观测向量y。因为真实的向量x近似满足线性方程
所以我们可以用最小二乘法(Least Squares)来估计真实的向量,从而恢复原始的图片。
图4:从左至右是原始的图片、带水印的图片以及修复后的图片
02
大数据的前沿研究
随后,罗智泉教授把线性代数的知识与大数据研究的前沿问题联系起来——最小二乘法可以应用于核磁共振技术。该技术假定了观测矩阵的行数小于列数,即观测的次数小于未知向量本身的维度。根据线性代数的知识我们知道求解对应的线性方程组得到的解是无穷多个的,因为未知数的数目多于方程的数目。但我们考虑找到其中最稀疏的解,即求解ell_0-norm minimization问题:
图5:核磁共振问题图解
虽然这个问题属于非凸优化,但是我们可以将ell_0-norm换成ell_1-norm,从而求解凸优化问题
这样,我们可以设计快速算法求解,在大部分情况下,我们可以证明得到的最优解是稀疏的,而且是原始的图像。这一技术被称为压缩感知(compressive sensing)。
图6:压缩感知方法图解
稀疏线性程组求解技术可以延展运用在语音信号数据的处理中,解决降噪问题。比如它可以延展为稀疏负矩阵分解技术用来提取语音的特征。发展和建立这种新的语音特征提取系统也是未来学术界致力于解决的一大问题。
图7:语音信号数据处理技术图解
罗智泉教授用案例向大家介绍了处理大数据的数学方法,展示数学在信息时代的有趣应用。未来,大数据将被广泛应用于学术研究和金融、物流、医疗健康、通讯等行业。
请关注香港中文大学(深圳)哔哩哔哩官方号,本次公开课将于近期更新于公开课频道。点击下方图片,观看更多视频。
为培养学术成绩优异且有实践能力的数据科学相关领域的人才,香港中文大学(深圳)于2020年新增数据科学与大数据技术专业。专业所涉及的领域包括运筹学、统计学、机器学习、运营管理和决策科学等研究领域及相关交叉领域。教授队伍由海内外知名学者组成,所有教授均拥有世界一流学府的博士学位,在学术界和工业界的相关领域具有显著的国际影响力。
- End-
图片来自罗智泉教授课件
鸣谢资讯与科技服务处、招生办的大力支持
撰文:王捷(2016级理工学院、逸夫书院)
排版:林洁洁(2017级理工学院、思廷书院)
关注我们
更多“足不出户上大学”系列网络直播公开课将在腾讯课堂、哔哩哔哩或抖音同步播出,详情请见直播预告。
回放视频将在每期直播后两周内更新在大学哔哩哔哩账号公开课频道。了解更多公开课预告,敬请关注我们。
浏览更多直播回顾
香港中文大学(深圳)两位校长首次在B站开讲
经管学院叶帅教授分享个人投资的建议
经管学院张劲帆教授漫谈经济学
经管学院王健教授解读理性的非理性金融
如何判断公司价值:从新冠疫情说起
人文社科学院王沁博士解读疫情中的伦理学
人文社科学院余鹏博士解读方言与中国文化
人文社科学院陈山泉博士教你如何健康饮食
白宗让博士解读《黄帝内经》中的长寿养生之道
港中大(深圳)专家学者解析AI如何助力疫情防控
杜洋教授分享人体免疫系统如何抗战病毒
经管学院校友丁若虚畅谈大学体验
首届本科毕业生应悦的求学感悟与实习通关分享
首届本科毕业生万玮的求学体验与实习分享
理工学院学生分享升学与就业(一)
理工学院学生分享升学与就业(二)
翻译专业本科生帮你厘清升学与实习误区
CUHK-Shenzhen
香港中文大学(深圳)
结合传统与现代 融会中国与西方