AI 改变千行万业，开发者如何投身 AI 语音新“声”态

2022-07-28 CSDN

从图灵测试到 AlphaGo 击败围棋世界冠军，AI 在近 10 年间再次进入新一轮的高速发展期。与以往不同的是，随着数字化的发展普及，AI技术开始进入千行万业，从技术界的热点宠儿，变成移动应用的常客。

AI 在行业应用中较为普及的，是使用 AI 中自动构建分析模型的机器学习技术（machine Learning，ML），用于人脸、文本等图像类识别，例如电商物流的智能分拣、智能安防监控、工业智能质检等。随着机器学习模型的发展强大，AI 正在用于语音等更复杂的信息识别，并逐渐应用于智能家居语音控制、智能交互等场景。不过，快速发展的AI 应用和机器学习模型，既是技术发展的焦点，也需要投入高成本、人力去开发，而聚焦自身业务场景的技术开发者更需要的，是可以轻松调用、通用的机器学习与 AI 应用技术。

HMS Core ML Kit 机器学习服务，交付前沿 AI 应用体验

AI 已经成为 IT 技术厂商需要重点打造的能力，例如在华为提供端、云开放能力服务的HMS Core 中，重点为开发者打造了 ML Kit 机器学习服务，覆盖了文本类、语音语言类、图像类和人脸人体类等各类 AI 场景和能力，涵盖了常用的基础 AI 应用能力和场景，例如海外旅游出行使用 ML Kit 文本识别和翻译以获取路标、菜单，视频会议使用ML Kit 图像分割能切换虚拟会议背景。在文本识别、文本翻译、图像分割、人脸检测、手势识别、文本嵌入这些 AI 能力之外，ML Kit 还拥有更前沿的算法模型才得以实现的 AI 能力。

例如在 HMS Core ML Kit 人脸人体识别服务中，除了静态人脸识别，还提供快速捕捉动态人脸信息的活体检测能力。ML Kit 活体检测甚至已经做到不需要用户配合做动作，就可以判断是真实人脸，还是恶意人脸图片攻击。另外 ML Kit 活体检测还可以将模板人像和人脸进行高精度比对，输出相似度值，进而判断两者是否为同一个人。

活体检测可在几秒钟内识别人脸

ML Kit 的活体检测采用全新的一个模型多个任务技术，联合华为“昇腾”推理库对AI模型的加速效果，量化后模型仅有 0.2M 大小，CPU 推理时延低至 0.01s；端到端同时检测人脸框和人脸关键 68 关键点，可以实时检测动作例如摇头，响应时延达到毫秒级别；在安全性方面可以有效防范各种类型打印攻击，视频攻击，面具攻击。

在实际应用中，例如对安全性和精准度要求更高的金融场景里，采用 ML Kit 活体检测，比对用户身份证照片和人脸检测结果，可以判断用户信息真实性，实现快速安全的身份核验流程，让 AI 识别可以真正有效助力互联网远程开户、刷脸支付等金融业务的开展。

再例如用于文本、文档、身份证、银行卡等文本类信息识别中，HMS Core ML Kit 文本识别汇聚了华为在 OCR 技术上的最新研究成果，支持任意角度的文本识别，能够对横竖排，弯曲文本精准识别的同时，还能对文本段落进行准确划分，对文本内容精确定位。

目前身份证识别是对精度、延时要求较高的 OCR 场景

另外在保证最高识别精度的同时，ML Kit 的文本识别在端侧已经支持 11 种文字检测，在云侧支持 20 多种文字，基本覆盖主流语种，能够服务全球用户。这种文本识别的广度，背后需要大量算法和研发工作去支撑。

对于更加抽象的语音数据的识别，由于增加了时间维度，使用机器学习识别也更加复杂。其中 TTS（Text To Speech 文本到语音）是 AI 声音识别中重要的应用场景，也是 AI 识别发展的重要方向。现在，HMS Core ML Kit 的 TTS 音色定制已经实现个性化的 TTS，模拟定制多种真人音色。TTS 语音要达到高度拟人、自然流畅（而不是早期 AI 语音的机器化和顿挫感），背后是华为技术团队采用深度神经网络技术对 TTS 模型训练、精细地调优，付出大量研发精力才得以实现。TTS 音色定制的应用场景非常广泛，在新闻小说的阅读、智能硬件、地图导航、服务类应用中，开发者都可以集成 TTS 能力，为用户提供实时、可替换、多音调的语音播放，极大提升和创新应用的交互体验。

TTS 音色定制的应用场景非常广泛

除了 TTS 音色定制，HMS Core ML Kit 采用语音识别、文本翻译、语音合成等多项 AI 能力，推出了音色模拟的 AI 同传解决方案。具体实现过程是将现场演讲者声音实时识别并转换为文本内容，对文本内容进行翻译，最终通过语音合成技术输出翻译后的音频流。在这个过程中，HMS Core 语音识别技术能够迅速将语音转换成文字，首字时延最低为 350ms；文本翻译技术则将文本以最快 200ms/300 字节文本的速率快速翻译。更具特色的是，通过 AI 音色定制，HMS Core AI 同声传译实现了用演讲者自己的音色进行同声传译，展现逼真同传效果。它还可支持跨语种个性化音色的快速定制，最快 5 句话即可极速定制个人喜好的音色，满足包括同声传译等不同场景不同用户的个性化诉求与合成体验。

HMS Core ML Kit 同声传译 APK 界面

像活体检测、TTS 音色定制、同声传译，这些都是 AI 应用技术发展中较为热门和重要的领域，而现在华为 HMS Core ML Kit 将这些需要大量算法模型支撑的 AI 能力开放出来，为开发者生态提供了及时和前沿的 AI 技术服务，赋能千行万业各类开发应用的 AI 智慧和创新体验，所有这些工作，也让华为 HMS Core 正在成为 AI 开发生态的重要主力军。

立即预约 HMS Core Discovery 直播，创造你的 AI 智能语音世界

为了做好开发者技术与服务，华为 HMS Core 提供了丰富和详实的开发文档、技术资料，在开发者中形成了良好的口碑。现在，华为 HMS Core 又在重磅打造一档针对开发者服务的技术解读系列直播栏目——HMS Core Discovery，每一期直播都会邀请行业大咖或者合作伙伴探讨热门技术、HMS Core 场景解决方案与案例。开发者可以非常直观高效地去了解目前热门开发技术与 HMS Core 开发能力特性。直播通过与开发者的互动交流与“对话”，对 HMS Core 生态技术竞争力深度解读，最终帮助合作伙伴实现用户和流量的增长与发展共赢。

现在，最新一期的 HMS Core Discovery 直播第 16 期将在 7 月 28 日 19:00 正式开播，主题《与虎墩一起，玩转 AI 新“声”态》，就是聚焦于目前 AI 语音语言的热门应用领域，本次直播将重点分析讲解 ML Kit 机器学习服务的语音语言类能力，如上文提到的 TTS、文本翻译、同声传译这些前沿的机器学习场景和应用，进一步展示 HMS Core 在 AI 与机器学习领域赋能开发者的前沿技术。

HMS Core Discovery 第 16 期：与虎墩一起，玩转 AI 新“声”态（扫码即可预约直播）

在直播中，ML Kit 同声传译能力将全新亮相，嘉宾将为开发者揭秘底层技术和设计，另外嘉宾也将为开发者讲解 ML Kit AI 翻译能力升级后的功能，例如语种扩充情况和翻译播报的功能。

除了技术讲解，直播还邀请到了抖音网红 IP“虎墩小镖师”，“虎墩小镖师”同时也是 HMS Core ML Kit 机器学习服务中 TTS 语音的合作伙伴，通过与抖音网红 IP 的破圈合作，HMS Core ML Kit 希望将最热门和真实应用场景的智能声音提供给开发者使用。

通过直播的内容，开发者可以了解到 AI 语音识别原理、应用场景、技术调用等实操细节，还可以获得 ML Kit 已经训练完成并开放的“虎墩小镖师”声音，去定制个性化的音色，应用于自己的业务场景中，为用户带来新鲜和具有创意的新体验。

AI 热潮正在深入千行万业，AI 应用开发的机遇窗口稍纵即逝，建议开发者持续关注 HMS Core Discovery 技术直播，深研开发热点背后底层技术逻辑，玩转 AI 新“声”态。