摘要: 编码视频数据流中的运动矢量和残差等语法元素可用于替代光流进行运动表示,但其固有的像素噪声和特征稀疏性会影响精细动作的识别精度。对此,在对编码视频语法元素进行数据优化的基础上, 设计了一个高精度、低复杂度的动态手势识别框架。首先,提出了关键 P 帧选择方法,通过选择信息量更高的编码帧解决了特征稀疏性问题;其次, 提出了联合残差特征表示方法,利用残差得到精细的手势轮廓图,去除了运动矢量中手部以外的像素噪声;最后, 设计了一种轻量而高效的动态手势识别模型,利用优化后的运动矢量和残差获得了类似于光流的计算效果。在 viva,sheffield klnect gesture,NvGesture 和 EgoGesture 等数据集上对所提方法进行了验证,实验结果显示,所提方法中仅使用 RGB 数据模式可达到的识别精度分别为 82.94% 、99.72% 、81.12% 和 90.48% ,降低了 89% 的存储开销,并且以 4.7 倍的运行速度获得了与先进方法相近的结果。
中图分类号: