2018年,智能音箱已成为新风口,市场呈现群雄并战的局面。前不久,京东叮咚发布了京东叮咚play和mini2两款智能音箱新品,其中京东叮咚mini2在活动期间的价格仅为79元,可以说是这个价位上比较有竞争力的产品。
近日,打造了这款产品的叮咚团队对这款产品的软硬件技术进行了深入的讲解。
6mic+全新算法,提升唤醒和识别效果
语音交互能力是智能音箱的体验基础,硬件拾音能力和软件降噪能力都非常重要。唤醒和远场识别都要依赖噪声场景下的关键词识别能力,降噪性能越好,越容易唤醒,识别准确率也高。
叮咚团队负责人介绍称,虽然京东叮咚mini2是一款入门级产品,但仍然使用了6mic环形阵列,可采集更多声音信息,提供更好的降噪效果和更精确的声源定位。同时在mic和扬声器之间还通过密封空间和加装胶垫等方法进行隔音,降低了共振造成的影响。
雷锋网在与叮咚团队进一步沟通后得知,京东叮咚mini2依然使用硅麦(mems麦克风)而不是传统的驻麦(驻极体电容麦克风)。据雷锋网了解,硅麦相比驻麦,体积和功耗更小,性能和稳定性更好,且多片联用时的一致性好,更适合降噪算法发挥。
软件方面,京东叮咚mini2使用了科大讯飞第三代基于卷积神经网络cnn的全新唤醒和声学处理算法,能有效消除环境中的噪声、混响,抑制设备本身的回声,将纯净音频流输送到唤醒和识别引擎,以提升唤醒和识别效果。
自定义唤醒词,提供个性化体验
作为入门级产品,京东叮咚mini2的一大卖点便是个性化的自定义唤醒词功能。为了提升自定义唤醒词的可用性,研发团队为其加入了唤醒效果评价机制、唤醒词迭代等技术,以提升自定义唤醒词的唤醒率。
由于不同的词发音难度和音调不同,并不是所有的词语都适合做唤醒词。为了保证唤醒效果和用户体验,京东叮咚mini2加入了量化的客观标准,通过星级评价唤醒词的适用程度,并在实际使用中建议用户使用四星以上的自定义唤醒词。
自定义唤醒算法的全新数据模型,会让处理语音信号时的运算量大幅上涨。在音箱计算能力有限的前提下,研发团队除优化算法本身之外,还加入了前置的激活检测,提高语音数据的准入标准,以避免无用的数据处理量。
此外,在生成自定义唤醒词的算法模型后,唤醒效果并不是一成不变的。叮咚团队使用了唤醒词迭代技术,在用户使用自定义唤醒的过程中,由唤醒所产生的语料也可用于优化唤醒效果。唤醒的次数越多,积累的语料越多,唤醒效果越好。
区分闲聊和唤醒?做好降噪和选词
京东叮咚mini2有了6mic和科大讯飞最新算法,能够很好地消除噪声和混响等杂讯,但还有一个比较偏门的问题:如何区分闲聊中出现的唤醒词和真正的唤醒?
在技术讲解时,京东叮咚mini2全程没有出现被误唤醒的情况,表现可说是非常不错。不过团队负责人表示,其实目前还不能完全解决此问题。
他告诉雷锋网,从识别唤醒词的技术逻辑来讲,只要麦克风能为识别引擎传递清晰的唤醒词,音箱就应该被唤醒。而日常闲聊严格来说应该被当做环境噪音处理,在做好降噪等软硬件基础工作的前提下,可以减少这种闲聊中的误唤醒。
而在唤醒词的选择上,使用叠词且尽量不用产品名作为唤醒词,也是目前比较好的避免误唤醒的方法。同时京东叮咚mini2可让用户使用自定义唤醒词,可以进一步减少误唤醒问题的出现。
但同时他也指出,目前智能音箱产品的唤醒机制均为离线执行,识别引擎只对设置好的唤醒词敏感。如果想完全杜绝闲聊误唤醒,需要让识别引擎全程在线,并将所有语音信息上传到云端进行分析,这在目前是不现实的。
全双工语音交互?语料数据库是关键
目前在日常闲聊功能领域,表现最好的当属微软小冰,其“全双工语音交互感官”技术和session-oriented框架,让人机语音交互可以很自然的随时打断、转移话题,真正像真人对话一样聊不停。
这样的技术,能不能应用到京东叮咚mini2以及其他智能音箱中?
叮咚团队称,全双工语音交互和session-oriented目前几大主流语音交互厂商都能实现,微软小冰真正的厉害之处在于其背后的庞大语料数据库,这是影响全双工交互最终效果的关键。
如果没有足够丰富的语料数据库,即便使用了全双工语音交互、session-oriented或其他类似的技术,最终也会出现“ai知道你在说什么,却不知道用什么来回答”的情况。
团队负责人对雷锋网说,京东叮咚具备全双工多轮对话的能力即aiui功能,其主要应用在任务交互和多轮对话上,用户可自行选择打开或关闭,但在目前条件尚不成熟的情况下,暂时不会将其作为主流功能使用。