一、音区锁定功能。车内空间狭小,声音环境复杂,包括车内外的环境噪声、司乘人员的对话干扰,播放音乐或视频的声音干扰等。小鹏和镁佳科技都可以通过锁定唤醒者音区的方式来排除这些干扰,不同的是,小鹏只支持主副驾驶双音区锁定,后排用户如果要使用语音交互需要通过后排按钮开启。 二、可见即可说。这意味着,只要在图形界面中可以找到的功能,无论它隐藏得多么深,一句话便可直达,交互扁平化,简单高效。小鹏和镁佳科技在这方面旗鼓相当。 三、细粒度语义理解与多指令并发。粒度是语言文本单位,汉语的基础单位是字,但字的多少并不能代表信息量的大小。 例如篮球只有两个字,但它即是球类名称,又是韩剧名字,还是代表了多部书籍,篮和球又可拆开代表不同的意思,因此这个词的文本粒度较大,如果转换成语音还要考虑到同音字、词的问题,粒度的判定就变得更加复杂。 因此,优秀的细粒度语义分析,是正确理解口语化长句的基础。这一点,小鹏和镁佳科技也同样支持。 在理解长句的基础上,如果长句中包含多个指令,也要求系统能一一执行。 值得注意的是,镁佳科技可以很好地拆分长句中的多个相反含义的任务及多个任务中的多个对象,并且对方位词也能准确识别。 比如,用户可以直接说:把左前车窗关上,然后右后车窗打开三分之一。这句话里包含了关上和打开两个相反的任务,还包含了左前和右后两个方位词,以及两个不同的车窗对象。 四、一次唤醒、连续对话。多轮连续对话能力一直被视为智能语音交互能力的重要指标,这项能力的挑战在于,语音系统必须能正确判断语句中的停顿甚至改口,能区分指令和闲聊内容,能屏蔽他人插话的干扰,以及联系上下文进行语义分析,这就要求交互系统具备完善的边听、边想、边调整的智能预测模型。 在这方面,小鹏和镁佳科技都有很好的表现,不过在对上下文的分析上,稍有差别。 小鹏主要通过省略主语和礼貌用语的方式来增加多轮对话的流畅度,也就是不会重复做主人,你好。主人,在呢。之类的无意义响应。 而镁佳科技可以更进一步,通过上下文联系很好地执行连续的,缺少主语或者宾语,甚至缺少明确谈话对象的任务语句。 我们可以假设这样一个场景,用户问:今天天气怎么样?镁佳科技播报时,用户与朋友闲聊,然后又问:明天呢?这次,用户会在自言自语后打断播报,追问:那上海呢?这种情况下,镁佳科技也可以正确无误地执行任务。 除了上述四个方面,镁佳科技还有一个优势,就是具备非常完善的离线交互能力,这一点在用户驾车出游时特别有用,就算远离市区,开进大山,在弱网甚至断网的情况下,也可以无缝切换至离线状态,而用户完全不知道这个切换过程,也感受不到使用差别。 谈了这么多全场景语音互动的能力,也只是冰山一角。 镁佳科技介绍,公司作为Tier1供应商,其SmartMegaVoiceOS系统可以为客户提供完全个性化的定制服务,不仅胜任被动执行用户指令,甚至还可以依据温度、油量(电量)、空气质量等传感器数据主动建议用户该做什么。 从用户角度出发,可以简单地将该系统的能力概括为:没有规则,和真人怎么说话,就和它怎么说话,只要是车内可见的功能,它都能帮你实现,甚至是主动实现。就这么简单。 用户端简单的背后是车企的不简单,很多新势力造车企业不具备这方面的全栈开发能力,即便是小鹏汽车,也会在底层技术上依靠思必驰。更多的传统车企同样不具备这个能力,虽然他们经验丰富,资金力量相对雄厚,但根深蒂固的传统组织架构和思维模式很难改变。