声学技术 technology
您现在的位置:首页 > 声学技术 > 研究人员提出一种基于源滤波器的实时语音频带扩展方法
学会动态

人物专栏

  • 毛伟

    毛伟,男,1986年11月生,博士,高级工程师,中国建筑学会建筑物理分会理事,中国环境科学学会环境物理分会常务理事,中国建...

                       
  • 宋韧

    宋韧,现任重庆清文科技有限公司副总经理。主要研究领域为声场设计、定向发声等。 学历与经历: 1992年~1996年首都经贸大学 ...

                       
  • 马晋毅

     马晋毅,男,1971年10月生,汉族,山西晋中市人,中共党员。中国电子科技集团公司第二十六研究所首席专家、正高级工程师。

                       
  • 牟笑静

    牟笑静,工学博士,毕业于新加坡国立大学。重庆大学教授,博士生导师,国家“青年千人计划”学者。 智能传感器创新联盟副秘书长...

                       

研究人员提出一种基于源滤波器的实时语音频带扩展方法

发布时间:2026/03/22 声学技术 浏览次数:221

随着蓝牙通信、窄带语音通话等实时通信场景对高品质语音的需求日益增长,窄带语音频带扩展(Bandwidth Extension, BWE)技术成为提升用户体验的关键。实际生活中,受限于物理传输带宽及硬件设备约束,语音信号在传输中高频分量缺失严重,导致音质受损、听感沉闷且可懂度下降。尽管基于语音生成模型的传统方法具有较低的运算复杂度,但其恢复质量难以满足用户的高品质语音需求;而现有的深度学习算法虽在音质提升上成效显著,却往往受困于庞大的计算负载,难以兼顾恢复效果与处理时延,无法满足资源受限场景下的实时通信需求。

郑成诗研究员和李晓东研究员研究团队将语音生成的物理机制与深度学习技术相融合,提出了一种基于源滤波器网络(SFNet)的实时语音频带扩展方法。该方法突破了基于深度学习的语音频带拓展算法缺乏物理可解释性的瓶颈,通过模拟人类发声机理,在确保算法具备极低计算复杂度的同时,实现了高质量的全频带语音重建,为实时通信环境下的频带拓展任务提供了新的理论框架与工程范式。

图1 SFNet网络框图(图/中国科学院声学研究所)

图2 4 kHz到24 kHz频带拓展任务下的语谱图结果展示(图/中国科学院声学研究所)

相关研究成果2026年1月发表于语音和音频信号处理顶刊IEEE Transactions on Audio, Speech and Language Processing

关键词:

语音频带拓展,源滤波器,深度学习。

参考文献:

Dai, L., Ke, Y., Li, A., Li, X., & Zheng, C*. (2025). SFNet: A Two-Stage Source-Filter-Based Neural Network for Real-Time Speech Bandwidth Extension. IEEE Transactions on Audio, Speech and Language Processing, 34, 169-183.

论文链接:

https://ieeexplore.ieee.org/document/11269710