领先语音体验,探析博泰车联网擎AI语音技术
可能谁都没有想到在互联网发明之后的半个世纪,AI技术会在人类世界发掀起如此波澜。人们的双手被解放,想法说之于口而被AI语音助手识别、理解直至完成指令操作。
随着网络科技的发展,人工智能技术也在不断地更新迭代,小到随处可见的智能音箱,大到人、车、机交互的智能互联,AI技术不断为社会生产和人类生活带来翻天覆地的变化。
而在数字化升级,消费风口转变的当下,还有怎样的AI技术能为我们的生活带来日新月异的便捷改变呢?我们今天从博泰车联网擎AI语音技术为切入,深入了解在车载语音使用场景下,一整套完整语音解决方案的技术魅力。
行业唯一具备端到端的能力的独立第三方,融合多家优势,打造技术全链路完整车载语音解决方案
博泰车联网擎AI语音是博泰车联网自主研发的语音AI平台,专门针对车载语音使用场景,可以集成到手机端、车机端,可以提供一套完整的全链路语音解决方案,已经迭代到3.0版本。第一款搭载擎AI 3.0的车型已于2020年4月底顺利SOP,目前擎AI3.0已经实现技术全链路、数据全打通、场景全闭环。日后,擎AI 3.0将逐步落地到多个车厂项目。
博泰车联网擎AI语音包括语音终端和语音服务端两个部分,融合了多家优势技术,能够为用户提供领先的语音体验。体现在以下三个方面:
高可用和弹性扩容的能力、平台化开发思路,打造高效运转基础语音技术
高质量低延时的语音合成能力,是人车交互过程中智能车联必不可少的能力。如何能保障高效正确的语音输入,擎AI向我们展示了TA的实力。在网关接入服务过程中,采用websocket通讯协议,只需要在建立连接时进行一次权限校验,减少重复的权限校验,降低服务器负载;减少传输延时和消耗,在弱网环境下还可以切换为压缩传输格式,能够在很大程度上保障服务的可用性。
同时在基础语音技术模块,擎AI还可以根据使用场景选择最好的技术供应商,保证技术领先性的同时通过组合使用可动态图插拔和替换技术,保证良好的产品体验,领先于单一技术供应商。
以常见的车噪场景为例,在噪声影响下,语音识别的准确度势必会受到明显影响,采用常规识别方式识别语音交互流程存在加大困难。擎AI针对此类场景,除了采用AEC(声学回声消除)算法以及NS(噪声抑制)的算法进行处理之外,提供“可见即可说”功能,通过技术优化将界面上可点击部分注册成UIControl的方式,通过临时增加UIControl中文字的识别率来实现识别增强,对冲了环境噪音对于识别的影响,大大提高了语音操作的便捷程度;通过此项技术,实现了在几乎所有的应用以及场景中都可以用语音来进行操作。
又比如此次疫情期间,电影院不对外开发,那么就可以通过配置化的方式,临时禁用电影垂类,并给出友好提示,待电影院再次开放后重新放开电影垂类的配置,即可具备了电影垂类的语音能力。这种特殊时期,针对生活场景、出行偏好,而设置的贴心、便捷的配置化操作主要是源于擎AI语音采用平台化开发思路,使得它能够从架构设计上就支持可插拔的切换能力,支持不同的ASR、NLU、TTS能力接入,支持在线动态配置和裁减,可以根据实际情况配置、增加、减少技能垂类;通过这个功能还可以在遇到临时故障的时候可以快速切换基础能力供应商,保障服务的连续性和可用性。
场景化配置、模块化设计,打造个性化多设备识别推送
人车交互的实际,不是指令的传达,而实情感的传递。擎AI平台不仅仅是一个语音平台,其实还是一个越来越了解你的生活伴侣(soulmate)。
对于危险驾驶的提醒,直接在车机端实时触发,为用户的长途旅程保驾护航;
根据用户的日程安排定时触发场景推送,贴心地推送与日程相关的提醒和服务;
根据车机实时上报的车况及乘客状态实时触发场景推送,为用户推送当前位置、当前环境等相关的提醒和服务。
其实在识别模块,擎AI保持了各个模块设计的灵活性,分场景选择单个优势的识别引擎,通过灵活的配置数据动态调整场景推送条件和一个场景规则引擎;
比如,Soulmate采用模块化方式进行构建,擎AI提供一组通用场景,用户也可以基于变量表和规则表达式自定义场景,通过灵活的配置数据动态调整场景推送条件和一个场景规则引擎,实现只向用户推送感兴趣的场景,实现个性化的场景推送。为了将场景推送到用户希望的设备上,用户可以绑定多个设备,然后可以将不同的场景推送到不同的设备。为了实现更精准、更个性化的场景推送,平台会对用户语音交互数据和场景推送反馈数据进行分析,逐步丰富用户画像,再将用户画像作用于场景规则引擎和场景推送服务。
而在终端语音的设计方面也是同样,就会像搭积木一样,组合使用语音终端中的各个模块,构建完整语音方案。目前擎AI语音技术的这套方案,已经交付的多个车机与手机车联网项目。
语义融合与深度理解,打造连续且准确多轮闭环对话
人车交互的愉悦体验,向来在于智能车联能够直接、准确地理解指令传达并正确、贴心地给出回复。而这也一直是业界比较难的课题。对此,博泰车联网擎AI语音平台支持多NLU平台的接入,通过自行开发的中控系统实现了语义仲裁;中控服务能够结合终端提供的场景化数据和用户个性化数据,以及NLU平台返回的语义结果进行综合研判,选择最合理的结果返回给用户,能够最大程度的保持会话的连续性和准确性。
但在语义理解的过程中,难免存在基于机器学习或者深度学习的语义模型留有一定的欠拟合或者过拟合问题,因此,擎AI语音平台通过支持hotfix特性,来避免模型输出错误。从语音识别到语义理解再到TTS合成都集成了hotfix能力;通过场景化信息以及上下文信息,能够在语音识别阶段就进行识别的纠错,提升识别准确度; Hotfix服务具备实时更新的特性,能够快速应对反馈的较严重的问题,为完整修复提供时间缓冲。
而在日常使用场景中,作为博泰车联网擎AI语音平台的重要成果,擎AI3.0通过插件化的设计思路将每个模块的处理逻辑抽象成标准接口,具备了多个不同同类服务之间切换的能力,使得擎AI具备了更灵活便捷的配置选择。擎AI3.0集成了博泰车联网生态的服务,用户可以在车机上或者手机上完成预订酒店,购买机票等操作。擎AI语音开发了全双工语音交互的功能特性,用户在整个交互过程中无需再次唤醒语音助理就可以实现连续对话,并且擎AI能够识别用户的输入是否是有效输入,擎AI语音还具备挽留的功能,通过挽留的方式,避免多轮对话的随意退出,尽可能的在比较流畅的环境中帮助用户完成相应的操作。
在多轮对话中,存在场景切换、上下文继承、指代消解等技术功能,在擎AI的多轮闭环中都得到了体现,以下视频以场景实操展现擎AI在多轮对话中的语义融合理解实力。
集成快应用高通过性能力的开发与实现,降低车企适配成本
对于车机端来说,如何动态扩展其服务能力助力车企降低适配成本?擎AI平台通过集成快应用来实现这一目标。
擎AI平台通过项目快应用配置来满足不同车厂、不同车型的快应用需求,并达到实时动态的调整;同时,为了快应用可以在车机端显示较好的效果,进行了多次控件适配,第三方快应用开发者还可以针对车机进行全屏适配。
通过车机端的语音适配和平台提供的可见即可说语音交互能力,用户可以直接通过语音来控制快应用,甚至可以让快应用深度集成语音能力实现快应用内的全语音交互;为了实现车机端在零改动的情况下可以支持更多的快应用,支持快应用的更新版本,云端会对所有快应用的语音语义进行协议转换,转换成各个快应用版本可解析的数据结构。
而作为一款全程语音交互的智能AI产品,在交付车企之前,为了保证产品的稳定性、易用性和友好体验,产品研发到发布过程中的每个流水线擎AI平台都会严格保证质量,做到产品的极致体验。通过搭建自动化测试框架,通过数据爬取、语音合成、框架选型、用例生成以及发布执行等环节进行功能性和非功能性需求展开测试,保证服务发布质量。针对整个发布过程通过自动化实现,实现可持续发布可靠的软件系统。
技术发展也是人类发展走向繁荣的一大前提。
博泰车联网以集大成的领先之姿,融合多项优势技术,为用户创造着领先的AI语音体验,为车企带来保质保量的低成本高适配率快应用。未来,以技术壁垒、技术资产、技术平台为强大后盾的博泰车联网擎AI语音技术的发展与市场机会,前途可观。