Advanced Science:让机器长出智能的耳朵——基于声学超材料的单通道多声源定位与分离系统

传统的声源定位与分离系统常常需要借助多个麦克风组成阵列,定位和分离的精度会受到麦克风数量和阵列物理尺寸的限制。这种基于麦克风阵列的系统不仅不便于安装和操控,处理多通道信号的计算成本往往也很大,导致其应用受限。

而对于包括人类在内的许多生物而言,仅依靠两只耳朵甚至一只耳朵就能完成高精度的定位和分离任务。这是由于人的鼓膜并不是直接裸露在空气中的,声波到达鼓膜之前会受到头部、肩膀、外耳和耳道等一系列散射作用,由于这些结构是不规则的,因此人耳收到的来自空间各个方向的信号也就具有了差异性,人脑正是利用这样的差异性来完成后续的定位和分离任务,上述散射过程被建模为头部相关传递函数(Head Related Transfer Function, HRTF)。

受生物听觉系统启发,中科院声学所噪声与振动重点实验室的博士生孙雪聪与其导师杨军研究员、贾晗研究员提出了一种基于声学超材料的单通道多声源定位与分离系统。研究者根据声学滤波器的工作原理设计了一个在频率响应上具有高度各向异性的半球状结构,并在结构中心放置了一个单通道的全指向麦克风。该半球状结构使得系统在三维空间的各个方向具有不同的频率响应,从而对空间中不同方向的入射声波进行编码,让结构中心的麦克风接收到的信号包含了声源的位置信息。该团队研究人员还在压缩感知框架下提出了一种将变稀疏度主成分分析与正交匹配追踪相联合的新型算法(VSPCA-OMP),该算法为该定位分离系统引入了学习机制。与人类基于长期的听音经验来判断声源位置和种类的原理类似,该算法使得系统能够基于一定的先验知识对单通道信号进行感知,实现三维空间中多声源的定位与分离。

为了证明该系统的定位与分离能力,研究者在多个真实场景下进行了听音测试。结果表明,当空间中同时发声的声源个数不超过3个时,该系统的定位与分离的平均准确率在90%以上。由于所提出的算法具有较低的复杂度,完成定位与分离的耗时控制在1s以内,良好的实时性使系统也可以对声目标进行追踪和识别。

研究者相信,此项研究为三维空间内声源定位与分离问题提出了一种全新的解决方案,所提出的系统操控简单,且具有较好的实时性与稳定性。该系统有望应用于智能场景监测、机器听觉和语音识别的前端处理等领域。相关论文在线发表在Advanced Science (DOI: 10.1002/ advs.201902271)上,并被选为当期封面文章(inside back cover)。