腾讯警告：你的声音正在被AI「偷走」

2021-04-20 机器之心

腾讯朱雀实验室

腾讯安全平台部下属的腾讯朱雀实验室，致力于实战级 APT 攻击和 AI 安全研究，不断发现现实网络安全风险，为 AI 业务提供安全保障。

近日，腾讯朱雀实验室受邀参加全球顶级信息安全峰会 CanSecWest 2021，并进行了题为《The Risk of AI Abuse: Be Careful with Your Voice（AI 被滥用的风险：小心您的声音安全》的分享。腾讯朱雀实验室分享的最新研究成果表明，VoIP 电话劫持与 AI 语音模拟技术的结合将带来极大潜在风险。

在分享中，实验室创造性地展示了用 AI 进行声音克隆并劫持电话的攻击场景。区别于此前脚本类的电信诈骗，这一新技术可实现从电话号码到声音音色的全链路伪造，攻击者可以利用漏洞劫持 VoIP 电话，实现虚假电话的拨打，并基于深度伪造 AI 变声技术生成特定人物的声音进行诈骗。

那么腾讯朱雀实验室是如何做到的呢，让我们来看下这种新型攻击的技术原理以及腾讯专家给出的防范建议。

一、风险背景

人工智能有巨大的潜能改变人类命运，但同样存在一定安全风险。一方面，AI 基础设施潜藏安全风险。比如，全球著名漏洞数据库 CVE 披露的典型机器学习开源框架平台安全漏洞数量逐渐增多。另一方面，AI 设计研发阶段安全风险突出，出现了许多针对 AI 系统的新型安全攻击手法，如对抗样本攻击、数据投毒攻击、模型窃取攻击等。除此之外，AI 应用失控风险危害显著，像 “深度伪造” 类应用，给大众带来新奇的体验的同时，也带来了新的安全隐患，一旦这类应用被攻击者滥用，将助长谣言传播、黑灰产诈骗等。

二、VoIP 电话劫持语音模拟攻击

AI 语音技术是 AI 的一个分支，随着 AI 技术的发展，AI 语音技术也在突飞猛进换代升级。通过基于 AI 的深度伪造变声技术，可以利用少量用户的声音生成他想要模仿的声音。这种技术给用户带来新奇体验的同时，也潜在安全风险。

深度伪造 AI 变声技术也可能成为语音诈骗的利器。研究发现，利用漏洞可以解密窃听 VoIP 电话，并利用少量目标人物的语音素材，基于深度伪造 AI 变声技术，生成目标人物声音进行注入，拨打虚假诈骗电话。

图 1. 整体流程

三、技术原理

总的来说，这种新型攻击的实现方式分为两个部分，一是 VoIP 电话劫持，二是语音模拟。

1、VoIP 电话劫持

（1）音频嗅探技术

在某品牌 CP-79XX 系列电话中，通信使用 SCCP 协议，该协议没有使用 TLS 对流量进行加密，导致可以在同 vLAN 下对目标电话进行窃听操作。

ARP 协议是网络行为中应用广泛的基础数据链路层协议，用于在局域网内完成 IP 到 mac 地址的转换。在正常的网络通信中，我们在访问一个 IP 地址时首先会在同局域网下发送问询广播包：

Who has 10.15.2.1？

在接收到该广播的主机会比较问询 IP 是否为自己的 IP，如果是则向询问主机发送应答包，应答包中包含自身的 MAC 地址。随后询问主机会根据 MAC 地址构造自己的数据包完成数据交互。

在操作系统中存在 ARP 缓存表来加速这种映射关系，当黑客攻击 ARP 协议是会抢先应答 ARP 广播，从而造成被攻击者的 ARP 缓存表被投毒的情况，再后续的网络通信中，数据包均会被发送到黑客的主机中：

图 2. ARP 攻击示意

下图是真实的 ARP 应答包：

图 3 . 真实 ARP 应答流量

通过这种 ARP 欺骗的攻击方式，攻击者将被攻击者的语音流量劫持到攻击者主机，并进行 RTP 语音流的还原实现窃听操作：

图 4. VoIP 电话劫持：电话窃听

（2）来电身份及语音篡改

在监控电话流量时，攻击者通过修改 SCCP 协议中呼入者的用户名与电话号码信息：

图 5. 篡改呼入姓名与呼入电话

SCCP 协议在无法对呼入数据做真实性校验，而将数据包中的呼入姓名与来电号码完整的现实在来电屏中：

图 6. 篡改呼入姓名与呼入电话效果

在呼入姓名与呼入电话号码篡改后继续修改 RTP 协议中的语音流，实现完整的电话欺骗链路：

图 7. 语音流替换

2、语音模拟

语音模拟可以根据源人物的说话内容合成具有目标人物音色特征的音频输出。这项技术其实并不新鲜，早已在许多现实场景中应用落地，比如地图应用中的定制播报语音，利用少量自己的声音，就可以定制自己语音的播放声音。同样，在 VoIP 电话劫持中，利用少量被攻击者的声音，就可以合成与被攻击者音色相似的任意内容的语音片段，一旦被恶意利用，攻击者可以轻松拨打虚假电话，与目标人员对话。

这里语音模拟用的是语音克隆技术，该技术只需要数秒目标人物的音频数据和一段任意的文本序列，就可以得到逼真的合成音频。基于深度学习的语音克隆技术主要包含音色编码器、文本编码器、解码器、语音生成器几个模块：

音色编码器：音色编码器从音频中提取不同说话人的语音特征。

文本编码器：文本编码器将输入文本转换为特征。

解码器：解码器将说话人特征和文本特征拼接后的结果转化为梅尔声谱图。

语音生成器：最后语音生成器根据梅尔声谱图合成语音。

图 8. 语音模拟过程

四、真实案例

英国某公司 CEO 遭 AI 语音诈骗，损失 220，000 欧元（约合人民币 173 万元）。

图 9. AI 语音诈骗 case

五、防范建议

如何防范这样的攻击，其实可以从防范传统攻击以及防范 AI 恶意应用两个角度来说。

首先，要防御类似的攻击手法，需要防止 VoIP 漏洞被攻击者利用，安全工程师建议，可以使用新版本的 VoIP 协议电话，如 SIP、SRTP 等，减少数据被嗅探甚至被篡改流量包的风险。

其次，可以用 AI 对抗 AI，规避 AI 技术的不合理应用。在这种攻击中，需要借助语音生成技术来合成虚假语音，可以基于 AI 技术来提取真实语音和虚假语音特征，根据特征差异来分辨真实语音和生成语音。

图 10. 用 AI 对抗 AI

六、结尾

其实针对语音的攻击手段并不只有这一种，可以给语音中添加微小扰动，或修改部分频谱信息，就可以欺骗语音识别系统。或者，将唤醒命令隐藏在不易察觉的音乐中，就可能唤醒智能设备进行对应操作。AI 应用失控问题不应忽视，应合理善用 AI 技术，捍卫技术的边界。

除了 AI 应用失控的问题，AI 的数据、算法、模型、基础组件等核心要素，均潜在安全隐患，AI 安全问题日益凸显。腾讯安全平台部下属的腾讯朱雀实验室，致力于实战级 APT 攻击和 AI 安全研究，不断发现现实网络安全风险，为 AI 业务提供安全保障。