科大讯飞语音专利技术解析

科大讯飞早在12年3月2日就申请了一项名为“一种基于短时分析的异常情绪自动检测和提取方法和系统”的发明专利(申请号:201210052659.2)来解决这个问题。

作为全球历史最悠久,影响力最广的新兴科技商业媒体,《麻省理工科技评论》从2010年至今,每年都会依据公司的业内技术领军能力和在商业方面的敏感度这两个必要条件,从全球范围内评选出“50家最聪明的公司”(简称TR50)。今年,科大讯飞再登MITTR50榜单!
大家都知道,传统客服质检主要采用人工方式检测客服历史电话录音或实时抽查检测。然而在客服业务量日益增多的当今,由于涉及到的客服语音数据规模日益庞大,单纯依靠人工处理海量数据显得过于繁重,同时人工长时间疲劳操作也会影响到检测质量。所以,需要一种可实现对异常情绪自动检测的系统和方法,从而大大减少人工任务量,提高工作效率。
而科大讯飞早在12年3月2日就申请了一项名为“一种基于短时分析的异常情绪自动检测和提取方法和系统”的发明专利(申请号:201210052659.2)来解决这个问题,申请人为安徽科大讯飞信息科技股份有限公司。
根据目前公开的专利资料,就让我们一起来看看这项基于短时分析的异常情绪自动检测和提取方法和系统的发明专利吧。


科大讯飞语音专利技术解析

如上图为异常情绪自动检测和提取方法流程图。首先,提取待测语音信号中情绪特征序列;其次,计算所述情绪特征序列与预设的情绪模型中异常情绪模型的似然度,计算所述情绪特征序列与预设的情绪模型中非异常情绪模型的似然度。
第三,根据所述情绪特征序列与异常情绪模型的似然度,以及所述情绪特征序列与非异常情绪模型的似然度,计算似然比。
第四,最后,判断所述似然比是否大于设定的阈值,如是,则确定所述待测语音信号为异常情绪语音,否则确定所述待测语音信号为非异常语音信号。
该阈值由系统预先设置在一个有人工标注的开发集合上调试得到,具体是通过在开发集上尝试设定多个阈值参数并统计其检测率,最后从测试的多个阈值中选择具有最高检测率的阈值作为系统预设阈值。
考虑到真实语音信号往往存在各种噪音干扰,为了提高系统的鲁棒性,对采集到的语音信号执行前端降噪处理,为后续语音处理提供较为纯净的语音,在提取待测语音信号中情绪特征序列前,对原始语音信号进行降噪预处理。具体如下:采用端点检测技术去除多余的静音和非说话音,采用盲源分离技术实现噪声和语音的自动分离。
由于传统的模型训练算法在少量的训练数据根本无法训练一个高阶稳定的高斯模型。因此该系统采用了一种通过通用背景模型(UBM)自适应的模型训练方法:
1)首先用充足的包括各种情绪类型的语音训练一个通用的高阶高斯模型UBM,以避免训练数据不足的问题。
2)随后通过自适应算法实现从UBM到特定情绪模型的自适应。由于有足够多的高斯函数可以拟合任意的特征分布,该情绪模型的模拟的精度更高。
具体背景模型训练的流程图如下所示:


科大讯飞语音专利技术解析

首先构建通用背景模型;再利用人工标注的异常情绪数据自适应构建异常情绪模型,利用人工标注的非异常情绪数据自适应构建非异常情绪模型。
其中通用背景模型包含下述步骤:
1)采集包括异常情绪和非异常情绪的各种语音数据;
2)提取各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲区;
3)构建通用背景模型拓扑结构;
4)利用步骤c的短时特征序列集合训练背景模型,获得模型参数,得到一个通用的高阶高斯GMM模型的似然函数p(x|λ)。


科大讯飞语音专利技术解析

如上图所示为自适应算法的情绪模型的构建流程图。其中包括:
第一采集单元,用于采集包括异常情绪和非异常情绪的各种语音数据;第二提取单元,用于提取第一采集单元采集的各种语音数据中的短时动态特征,生成对应的短时特征序列,存入训练数据缓冲;
构建单元,用于利用第二提取单元中训练数据缓冲区构建通用背景模型拓扑结;
第一训练单元,用于利用构建单元得到的短时特征序列集合训练背景模型,获得模型参数;第二采集单元,用于采集第一训练单元得到的人工标注的异常情绪语音数据或非异常情绪的语音数据;第三提取单元,用于提取第二采集单元的语音数据的短时动态特征,生成对应的短时特征序列,并存入自适应数据缓冲区;
设置单元,用于设置异常情绪模型或非异常情绪模型的初始模型为通用背景情绪副本;第二训练单元,用于利用第三提取单元中自适应数据缓冲区中短时特征序列的集合自适应训练异常情绪模型或非异常情绪模型,获得更新后的模型参数。
这个结构通过基于通用背景模型自适应的情绪模型训练算法,实现少量人工标注数据上的异常情绪模型和非异常情绪模型训练,提高其对连续语音信号中少量片段异常情绪检测的鲁棒性。
根据你的声音就能识别出你的情绪,这的确是很有创意的一项专利,尤其是在今天这个大数据时代,其应用空间还有待人们去挖掘,例如可以应用在网约车的语音识别中,来识别异常的司机或者乘客情绪等等。应用前景广大,期待大家的智慧!

科大讯飞语音专利技术解析

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)

相关推荐

  • 人脸、指纹、声纹均被破解?哪种生物识别才安全?

    生物识别的安全性,只能说是特定关系下的安全问题。在更复杂的应用场景中,面临更极端的入侵挑战,各项生物识别的安全性又将如何呢?

    2026年3月24日
  • 找准定位的科大讯飞如何迎战BAT

    在这几年时间内,科大讯飞做了诸多调整,如拓展业务线、寻找核心场景等。在不断探索中,定位愈加明晰的科大讯飞正在一步步化解BAT带来的难题。

    2026年3月24日
  • 机器人在公安业务领域中的应用

    机器人是人工智能(AI)最集中和最有显示度的应用之一,已经广泛进入当今社会生产、生活领域的方方面面。作为一种智能装备,机器人综合应用了人工智能、物联网、云计算、大数据等高新技术。随着这些技术的进步,机器人的发展也十分迅速.在各个行业都开始有广泛应用。近年来.警用机器人在公共安全领域的应用较多,且表现良好。

    2026年3月24日
  • 赵克志检查环京“护城河”安保 要求发挥科技和大数据优势

    在兴礼公安检查站,赵克志与民警、辅警亲切交谈,详细询问进京车流量和值班执勤、工资收入等情况,深入了解智慧安检、勤务查控和疫情防控处置情况。他要求,要充分发挥科技优势和大数据优势,积极改进检查方式,科学设置检查流程,提高安检效率,提高查控精准度,做到“少扰民、多惠民、保畅通”。

    2026年3月24日
  • 人脸识别具备自然性优势

    人脸识别技术通过观察人们所具有的自然性的脸部生物特征来进行身份的确认,识别方式十分便捷,用户无需携带任何证件或额外进行其他操作,只需站在设备旁十几秒就能完成扫描识别,没有他人冒充的风险,易于维护信息安全。而指纹识别和虹膜识别等因人类不能通过此类生物特征区别个体所以不具备自然性,其中指纹识别技术需要通过指纹信息的获取,并不是利用自然性优势。

    2026年3月24日
  • 声纹识别技术在公安业务领域的应用情况

    声纹识别是生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号,再用计算机进行识别。

    2026年3月24日