新技术不断刷新我对测试工作的认知！如何进行机器语音交流测试？

2020-08-14

与机器进行语音交流，让机器明白你说什么，是人们长期以来梦寐以求的事情，随着AI人工智能技术的实现，语音识别技术已经开始在各个领域应用。而如何验证机器是否正确采集并识别语音，在测试领域又是一个新兴的课题。下文将阐述如何针对语音语义识别技术进行测试。

一、什么是语音&语义

假设我们对某AI说了心事，那机器该怎么理解我们所说的呢？首先机器会对我们发出的语音信息进行识别，语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。特征提取技术可以对某一模式的组测量值进行变换，以突出该模式具有代表性的特征，并通过影像分析和变换，以提取所需的特征，而通过模式匹配准则，我们就可以精准的在模板库里锁定特征，然后通过大量模型训练形成语音识别模型。这样可以让机器明白了我们说的文字是什么，而机器不是人，那对自然语言的识别和理解就是语义识别技术需要解决的问题。

语义识别就是将连续的讲话分解为词、音素等单位，并建立起一个理解语义的规则，并把其中分解出来的某一个词作为关键词，当语义识别出来关键词的时候，返回识别结果。语义识别的核心除了理解文本词汇的含义，还要理解这个词语在语句、篇章中所代表的意思，这意味着语义识别从技术上要做到：文本、词汇、句法、词法、篇章层面的语义分析和歧义消除，以及对应的含义重组，以达到识别本身的目的。

二、语音&语义识别应用场景

语音和语义识别技术可以分析网页、文件、邮件、音频、论坛、社交媒体中的大量数据，也可以直接应用于医疗、教育、金融等行业。还可以通过技术接口应用于所有智能语音交互场景，如智能家居、车载语音、可穿戴设备、VR、机器人等。

医疗场景，为医疗专业人士提供实时语音听写、电子病历录入，也可以让医疗专业人士，通过对症状的描述，关键词查询，进行病症的初步判断，分类科室、辅助诊断等。

教育场景，基于自然语言处理技术进行口语能力的测评，同时也可以通过人工智能技术，题库系统，以及算法模型，根据学生在测试中对上一道问题的回答情况，自动调整学生接下来所需回答问题的难度和顺序，以达到让每一个学生拥有最合适的学习方案

金融场景，运用自然语言处理，深度学习等多种AI技术，进行量化交易模型的建立来量化交易，以更强大的计算机模型运用人工智能的技术对大量客户进行财富画像，为客户量身定制的资产管理投资的智能投顾。

商业场景，基于系统数据库、知识图谱，在与客户的对话中，获取客户需求，并提供相应的答案来解决客户的问题。

营销场景：通过各种算法模型，对用户在互联网上留下的大量个人信息、登录信息、路径关系、社交关系、消费记录等数据进行数据挖掘，来对用户进行精准需求分析，自动化营销。

三、语音&语义识别模型测试方法

1.语音&语义识别功能的测试标准

在常规的测试内容中我们会对模型的接口调用连通性、参数非法校验、返回码正误等等进行测试，而最重要的是测试模型的识别效果。因此语音&语义识别功能的测试通过标准有两个，第一是模型接口可以成功调用，而且会对无法识别的语音信息于前端进行错误抛出；第二就是模型的识别结果准确率达到通过准则（大量的语音信息，语音的模糊性和环境噪声都会对模型的识别造成困扰，很难做到每一次都能识别成功。虽然模型训练追求完美，但目前却无法保证100%的正确，因此一般来说准确率就是各自场景的使用人员自行决定准确率通过准则，业界的通用标准是语音识别准确率达到99%以上）

2.语音&语义识别功能的测试流程

我们以某掌银的导航和转账业务为例，下图展示了测试模型识别效果的主要流程。首先需要准备一定量的数据（当数据量越大的时候，模型的训练效果越好）分为两个部分，一部分是语音测试数据，一部分是语义测试数据。其中语音测试的数据都是提前录好的对应文字的语音，语义测试的数据是包含意图关键词的语料文档，两部分的数据都包含导航和转账两个业务场景的语句。

把录制的语音文件发送至“语音识别模型”，返回语音识别的结果，并根据识别的结果出具一个语音识别的准确率，其中包含接口请求的成功率，字准率（识别正确的字符数/评测集所有字符数）和句准率（全部识别正确的句子数目/评测集所有句子数），并将该结果装载至“语义识别模型”，返回语义识别结果，同样出具一个语义识别准确率，即词准率（正确识别出的某类关键词（例如意图）/评测集所有某类关键词数（例如意图）），语音和语义识别的准确率即为模型效果评价指标的方式。

以下图中第一条自造数据为例，当客户说出我要转账给丁某三十元的时候，把语音识别模型识别出来的结果装载至语义识别模型，语义识别模型提取关键字“转账”、“丁某”、“三十元”，对应意图“TRANSFER”、人名以及金额,即可识别出来客户需要给丁扬转账30元，当该条转账的操作可以成功完成即测试通过。

当导航和转账的自造数据通过批量运行脚本都成功加载至语音识别模型和语义识别模型，并在语音识别模型得到了相应的字准率和句准率，且两个准确率均能达到99%以上的时候，我们可以判定语音识别是成功的，同理，在语义识别模型里，得到的词准率也能达到99%以上的时候，语义识别也是成功的。通过字准率，句准率，词准率，我们可以认为该语音语义识别模型的效果是符合业界标准的，同时也达到了测试通过准则。