基于局部信息融合的行为识别研究Research on Behavior Recognition Based on Local Information Fusion摘 要人类视觉和行为识别技术是计算机科学、视觉技术和人工智能视频技术领域的重要学术研究主题
在这个信息时代,人们的日常生活和工作离不开一个具有强大的人眼视觉和运动识别功能的设备,先进的人机交互,无人驾驶,智能视频和监控,在移动机器人领域具有非常的重要
对诸如定位和卫星导航,虚拟现实以及此类人工智能产品之类的智能设备的需求也在不断增长
因此,对于人工智能视频技术中人体行为识别技术的研究与开发具有重要的学术研究价值和意义
目前的人体行为识别方法对短视频的人体行为识别处理效果较好,例如双流神经网络、3d 卷积神经网络、时空卷积神经网络等识别方法
这些行为识别网络的视频输入或是随机选择的一个原始的 RGB 图像,或是选择堆叠一组密集的 RGB 图像,或是一组光流图
但是对于长视频而言,密集的选择一组图像帧无法比较客观的表示全局信息
因此本文从短视频的理论与技术实际的角度出发,针对长视频的人体行为识别提出了一种基于关键帧的局部信息融合的分段视频识别网络(Key Frame Segment Network,KFSN),该方法将长视频分为等长的多段视频分别进行人体行为的识别,再把分段的短视频的识别结果进行融合
这种网络是基于长时间建模的思想,它很好的结合了稀疏时间视频采样的策略,使整个动作视频能高效学习
本文中所提出的识别方法已在公共数据集 UCF101 和 HMDB51 上进行了多次实验
得出的实验结果表明,本文提出的 KFSN 网络能够取得较好的行为识别效果,在 UCF101 可以达到 95
0%的识别率,在 HMDB51 上可以达到 70
1%的识别率
优于一些现有的行为识别网络性能
关键词:行为识别;关键帧提取;局部信息