基于局部信息融合的行为识别研究Research on Behavior Recognition Based on Local Information FusionII摘 要人体视觉和行为识别技术目前是计算机科学和视觉技术领域以及人工智能视频技术领域中的一个重要的学术研究课题
在信息时代,人们的日常生活和工作中,具有较强的人体视觉和行为识别能力的人体智能识别设备在高级人机交互、无人驾驶、智能视频与监控、移动机器人定位与卫星导航、虚拟与现实等人工智能领域中都具有重要的应用,同时人们对于此类人工智能产品的需求也与日俱增
因此,对于人工智能视频技术中人体行为识别技术的研究和发展具有重要的学术研究价值和意义
目前的人体行为识别方法对短视频的人体行为识别处理效果较好,例如双流神经网络、3d 卷积神经网络、时空卷积神经网络等识别方法
这些行为识别网络的视频输入或是随机选择的一个原始的 RGB 图像,或是选择堆叠一组密集的 RGB 图像,或是一组光流图
但是对于长视频而言,密集的选择一组图像帧无法比较客观的表示全局信息
因此本文从短视频的理论与技术实际的角度出发,针对长视频的人体行为识别提出了一种基于关键帧的局部信息融合的分段视频识别网络(Key Frame Segment Network,KFSN),该方法将长视频分为等长的多段视频分别进行人体行为的识别,再把分段的短视频的识别结果进行融合
这种网络是基于长时间建模的思想,它很好的结合了稀疏时间视频采样的策略,使整个动作视频能高效学习
本文提出的识别方法在公开的数据集 UCF101 和 HMDB51 上分别进行了实验,对比实验结果表明本文提出的 KFSN 网络能够取得较好的行为识别效果,在 UCF101 上达到了 95
0%的识别率,在 HMDB51 上达到了 70
1%的识别率,优于一些现有的行为识别网络性能
关键词:行为识别;关键帧提