追一科技多模态数字人,5G时代下的人机交互未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力,在人工智能更像人这个进程中更进一步
近日,追一科技联合创始人、CTO刘云峰博士在腾讯5G+AI论坛上分享了5G时代多模态数字人的发展趋势
追一科技数字人在传统的AI认知中,视觉领域人脸识别、行为检测,语音领域语音识别和语音合成,自然语言领域人机对话,都有众多成功应用
这些领域之前是独立演进的技术和应用,可以认为是单模态技术,不同的模态形式分别描述同一个对象在不同角度下的特征
人工智能是对人的模仿和学习,而人是一个看、听、说多模态共同工作的智能体,所以多模态技术是未来人工智能应用发展的方向
人机对话交互,一直是人工智能的重要应用场景
就像人类获取资讯的方式,经历了从报纸->收音机->电视机的发展过程,伴随着通讯技术的发展,人机对话交互也经历了从文本交互->语音交互->多模态交互的发展过程
文本交互简单快捷(如常见的在线服务机器人),但是用户体验冷冰冰,缺少情感;语音交互随呼随到(如语音应答和外呼机器人),但也缺少具象化体验
而未来多模态交互融合了语义、语音、视觉等多种AI技术,对人体的形语语人工智能技术融合趙势计算机观觉、智能语音、自然语言处理三大人工智戦术均已成瞬也未来趋向于深度融合
多模态本质是多模态信号的相互补充,发现更细节的特征或者组合特征,有助于AI应用场景的拓展
比如鸡尾酒会问题,在一个人多嘈杂的环境中,加入视觉对唇形动作的捕获,有助于提升语音识别的准确度;再比如多模态情感分析,我们实验发现可以取得比单模态情感分析更高的准确率
当前多模态AI技术正逐渐引起重视,未来还有很大发展空间
5G高速率以及低时延的信息传输特点有助于实现交互模式升级,将在很大程度上推进多模态对话数字人的发展
听说多模态人机交互由单模态交互方式,向多模态交互升纵带来更多功能和更好交互体验