复杂的环境,一方面是外在环境的复杂,另一方面是方言和口音。外在环境复杂包括噪声、混响、回声等,而且噪音又分为不同的会议室、户外、商场等不同环境,为了解决这些问题,除了单通道语音增强技术,现在普遍是采用上面提到的麦克风阵列硬件和相关算法实现。
为解决这方面的问题,分离器通过以下的技术方案,去适应各种复杂环境的要求。包括以下方面:
1) 提供条形、环形、球形的四麦、五麦、八麦等多种不同的麦克风阵列构型,以适应不同的产品需求,比如叮咚音箱采用的就是环形8麦的方案。
麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m、20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。
所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。
2)不同环境的语音识别声学模型,如上面提到的远场拾音,专门针对远距离拾音的环境进行训练;
3)基于特定人群的模型训练,目前已经为面向儿童的玩具方案,专门训练针对儿童的声学匹配模型;
4)为每个应用、每个用户,提供个性化的语言模型。
这一切都是为了语音识别的终极目标:人机交互的融合做准备。
联系人:蒋经理(业务)
手机: 19128645738
电话:020-31608101
邮箱:3528142582@qq.com
地址: 广州市黄埔区彩频路7号(广东软件科学园C栋)401-5房