追一科技多模态数字人,5G时代下的人机交互VIP免费

下载本文档

阅读 168
下载 4
格式 docx
大小 288.43 KB
约6页
2024-11-13 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

追一科技多模态数字人，5G时代下的人机交互未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力，在人工智能更像人这个进程中更进一步。近日，追一科技联合创始人、CTO刘云峰博士在腾讯5G+AI论坛上分享了5G时代多模态数字人的发展趋势。追一科技数字人在传统的AI认知中，视觉领域人脸识别、行为检测，语音领域语音识别和语音合成，自然语言领域人机对话，都有众多成功应用。这些领域之前是独立演进的技术和应用，可以认为是单模态技术，不同的模态形式分别描述同一个对象在不同角度下的特征。人工智能是对人的模仿和学习，而人是一个看、听、说多模态共同工作的智能体，所以多模态技术是未来人工智能应用发展的方向。人机对话交互，一直是人工智能的重要应用场景。就像人类获取资讯的方式，经历了从报纸-＞收音机-＞电视机的发展过程，伴随着通讯技术的发展，人机对话交互也经历了从文本交互-＞语音交互-＞多模态交互的发展过程。文本交互简单快捷（如常见的在线服务机器人），但是用户体验冷冰冰，缺少情感；语音交互随呼随到（如语音应答和外呼机器人），但也缺少具象化体验。而未来多模态交互融合了语义、语音、视觉等多种AI技术，对人体的形语语人工智能技术融合趙势计算机观觉、智能语音、自然语言处理三大人工智戦术均已成瞬也未来趋向于深度融合.多模态本质是多模态信号的相互补充，发现更细节的特征或者组合特征，有助于AI应用场景的拓展。比如鸡尾酒会问题，在一个人多嘈杂的环境中，加入视觉对唇形动作的捕获，有助于提升语音识别的准确度；再比如多模态情感分析，我们实验发现可以取得比单模态情感分析更高的准确率。当前多模态AI技术正逐渐引起重视，未来还有很大发展空间。5G高速率以及低时延的信息传输特点有助于实现交互模式升级，将在很大程度上推进多模态对话数字人的发展。听说多模态人机交互由单模态交互方式，向多模态交互升纵带来更多功能和更好交互体验.四丈樓心能力-表IW动柞•肢体动作・匡1文信息我们设想的数字人，首先具备表情动作、唇形动作、肢体动作，这些动作和对话内容是相关的，随着近年来GAN深度学习技术发展，现在已经可以较高精度和较高分辨率的视觉合成，我们已经实现4k分辨率的实时推理。同时数字人借助视频载体，可以呈现语音机器人无法呈现的图文等信息，多媒体的呈现让信息传达更加准确。・前作识别・1H愍态、表情和功能进行模拟仿真，打造出高度拟人化的虚拟形象，能像真人般与人沟通互动，我们称之为数字人。其次，数字人不仅是一个单向交互数字人，应当是双向多模态交互的数字人，通过摄像头和麦克风采集用户输入，数字人能够识别人的身份，理解人的语言，通过声音、图像、语义技术共同识别人的情感细节，并且通过手势指令的识别提高语义理解的准确率，做出相应的回应。甚至是将手语表达作为数字人的输入，和聋哑人实现人机对话。所以未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力，在人工智能更像人这个进程中更进一步。多模态数字人基于NLP、语音、视觉技术，从低维信号到高维信号逐步升级,抽象来说，不同于识别、检测类的任务，这是一个创造性的过程，难度高得多。数字人在功能分类上，一类是内容播报型的数字人，是静态的，我们常见AI虚拟主播就是属于这种类型，这类技术相对成熟；另一类可以实时对话的交互型数字人，需要在实时对话过程中完成语音、语义、视觉的理解和合成，因此更具挑战。形态上，可以分为2D和3D的形象；在展现终端上，又区分为移动端、PC端和大屏端，因为终端计算能力的不同，也会对应不同的技术路径。数字人对网络传输有着更高的要求，5G技术让数字人应用成为可能。如果采用3D写实数字人，那么一般对终端算力要求比较高，采用云渲染的技术可以很好解决这个问题，这时可以由云端完成渲染，终端由视频流接入，当前游戏厂商已经用这种方法解决大型游戏在手机端运行的问题。如果我们采用2D拟人的数字人形态，特别是4K超清分辨率下，30帧/s，需要60~80M的带宽要求。双向交互多模态数字人对网络传输的延迟有着更高要求，因为用户希望自己的动作表达，可以快速被数字人感知。目前数字人...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

追一科技多模态数字人,5G时代下的人机交互

追一科技多模态数字人，5G时代下的人机交互未来的多模态数字人应当具备类似人的看、听、说和知识逻辑的能力，在人工智能更像人这个进程中更进一步

近日，追一科技联合创始人、CTO刘云峰博士在腾讯5G+AI论坛上分享了5G时代多模态数字人的发展趋势

追一科技数字人在传统的AI认知中，视觉领域人脸识别、行为检测，语音领域语音识别和语音合成，自然语言领域人机对话，都有众多成功应用

这些领域之前是独立演进的技术和应用，可以认为是单模态技术，不同的模态形式分别描述同一个对象在不同角度下的特征

人工智能是对人的模仿和学习，而人是一个看、听、说多模态共同工作的智能体，所以多模态技术是未来人工智能应用发展的方向

人机对话交互，一直是人工智能的重要应用场景

就像人类获取资讯的方式，经历了从报纸-＞收音机-＞电视机的发展过程，伴随着通讯技术的发展，人机对话交互也经历了从文本交互-＞语音交互-＞多模态交互的发展过程

文本交互简单快捷（如常见的在线服务机器人），但是用户体验冷冰冰，缺少情感；语音交互随呼随到（如语音应答和外呼机器人），但也缺少具象化体验

而未来多模态交互融合了语义、语音、视觉等多种AI技术，对人体的形语语人工智能技术融合趙势计算机观觉、智能语音、自然语言处理三大人工智戦术均已成瞬也未来趋向于深度融合

多模态本质是多模态信号的相互补充，发现更细节的特征或者组合特征，有助于AI应用场景的拓展

比如鸡尾酒会问题，在一个人多嘈杂的环境中，加入视觉对唇形动作的捕获，有助于提升语音识别的准确度；再比如多模态情感分析，我们实验发现可以取得比单模态情感分析更高的准确率

当前多模态AI技术正逐渐引起重视，未来还有很大发展空间

5G高速率以及低时延的信息传输特点有助于实现交互模式升级，将在很大程度上推进多模态对话数字人的发展

听说多模态人机交互由单模态交互方式，向多模态交互升纵带来更多功能和更好交互体验

wxg + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

追一科技多模态数字人,5G时代下的人机交互VIP免费

追一科技多模态数字人,5G时代下的人机交互

您可能关注的文档

相关文档

热门下载

相关标签