计算机视觉
图像处理

视频浓缩摘要简介

视频摘要,就是以自动或者半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取有意义的片段,将它们以某种特点的方式重新组合成紧凑的、能够充分表现视频语义内容的浓缩视频。

 

一、静态视频摘要:

静态的视频摘要,也称之为视频概要(video summary),是以一系列从原始视频流中抽取出来的静态语义单元来表现视频的内容。静态语义单元是诸如关键帧、标题、幻灯片等可以概括表示视频镜头内 容的静态特征信息。目前的静态视频摘要的研究主要是基于关键帧选取方法来展开的。通过将多个关键帧组合成视频摘要,允许用于通过少量的关键帧快速浏览原始 视频的内容,并提供快速检索。关键帧的选取主要利用颜色、运动矢量等视觉特征去区分帧间的差异性。但差异性的区分计算依赖阈值的选择,选择过程中计算了较 大、实时性较差。基于关键帧的视频摘要结果简单,观看方便。但由于其以静态图像为结果的表达形式,很难准确地表达视频的内在语义,且对“对象”动态特征的 描述不够全面,所以仅仅适用于视频的精彩瞬间生成,无法适应需要进行“对象”特征分析的场合。

静态视频浓缩摘要流程图

静态视频浓缩摘要通过描述原始视频中的每帧图像特征(如,颜色、纹理、视觉显著性等),通过对相邻帧间的特征差异分析,抽取出原始视频的关键帧,对关键帧进行聚类,形成表达不同主题场景的视频片段,最后根据视频片段的信息进行组合,生成一段短的摘要视频。

这种方式的优点是摘要视频的浓缩比较高,摘要生成算法与场景无关,较为成熟。缺点是生成的摘要视频仅仅表示了一小部分的视频内容,丢失了大量的信息,且生成的摘要视频不一定是用户感兴趣的片段。

 

 

二、动态视频摘要:

动态视频摘要,又称之为视频浓缩(video synthesis),是一段比原始视频短的多的浓缩结果。动态视频摘要可以分为精彩剪辑视频、专题浓缩视频、一般浓缩视频三种。精彩剪辑视频主要用于电 影电视行业,是由原始视频中的精彩瞬间组成,专题浓缩视频主要应用于医学、金融等特定领域,利用特定专业知识对原始视频进行分析后浓缩得到的表现该领域特 定内容的浓缩视频。相对而言,一般视频浓缩采用通用浓缩方法面向较为普通视频,用户可以通过播放这些相对精炼的摘要视频来了解整个视频的内容。

动态视频浓缩摘要流程图

动态视频浓缩在得到视频帧之后,先对当前场景建立背景模型,然后快速根据视频照耀处理的特殊性,将原始视频分为静态视频段、目标密集视频段、摘要基 本段,同时为每个摘要基本段落生成其最佳背景模型。接着,基于背景建模,对运动目标进行检测、跟踪,提取其运动轨迹,通过运动轨迹表示该目标对象。然后对 时空异步的多目标轨迹进行重新组合,去除视频的空间冗余,在重组的过程中应该考虑避免伪碰撞、保护原始相关性等原则,使重组的轨迹不丢失隐形信息。最后需 要对重组后的轨迹及背景模型进行融合,这里主要解决的是背景图像的最优选择及多目标轨迹与背景的无痕融合问题。

 

视频浓缩中的轨迹组合技术:

轨迹组合就是通过分析原始视频中所有的运动目标的轨迹信息,然后将时空异步的估计搬移浓缩,去除视频的空间与时间冗余。通过轨迹组合技术能够有效地保持视频内容随着时间动态变化的特征,同时最大限度地去除视频的时间冗余信息与空间冗余信息,常见的轨迹组合算法如下:

(1)      基于运动过程的轨迹组合

生成一段无遮挡碰撞的摘要视频,将原始视频中不同时发生的对象活动在视频摘要中重新组合成彼此不发生碰撞遮挡的摘要视频,在重新组合过程中,尽可能 使摘要视频时空紧凑且保留主要的活动过程。该方法能够有效去除原始视频中的时空冗余细心,完整保留了每个对象的独立运动信息,且表现了镜头中的动态变化, 但该方法调整了活动间的时序关系,破坏了目标间的隐性相关关系。

 

(2)      基于相似活动聚类的轨迹组合方法

这种方法假设同一场景中目标的活动是类似的,通过聚类算法将相似活动目标分类,对于每个分类的目标采用基于运动过程的轨迹组合方法来重组,最后分布为每个类别的目标生成摘要视频。

这种方法得到的视频摘要条理清晰,大大提高了浏览效率,同时,非正常活动更容易被检测到。但由于其相似活动类内仍然使用基于运动过程的轨迹组合方法,所以丢失了目标之间的隐性相关关系及活动间的时序性。

 

(3)      基于用户关注空间与注意力分析的轨迹组合方法

通过学习观看者浏览视频和跟踪运动目标的方法,从而利用视觉感知信息来定位并选取视频观看者可能感兴趣的区域。

 

(4)      基于带状雕刻裁剪的轨迹组合方法

该方法与基于运动过程的轨迹组合方法类似,都是将视频序列中时空异步的物体在彼此不发生碰撞遮挡的情况下,重新组合到同一帧或帧序列当中,从而去除时空冗余信息。

该方法认为在x-y平面上,定向运动的物体对应的坐标存在一个不变的分量,故通过轨迹提取后运动目标都是定向运动的,目标在该2D空间中就是基本平 行的。所以该方法将视频的时间-空间3D描述空间转换为2D空间,通过2D空间上的重组算法去除每两个运动目标之间存在的空间冗余信息。

(5)      多视频轨迹组合方法

该方法首先选取一段较长的视频作为主视频,一些较短的视频作为增补视频,增补视频的数目由主视频和增补视频的长短、内容决定。先将视频转换到一个 3D的时间-空间描述空间当中,利用主视频中对象轨迹间空隙构成3D“孔洞”,再将增补视频中的对象轨迹插入到3D“孔洞”当中,最终形成视频摘要。

该方法能够最大限度缩略多段视频,但面对场景复杂的视频时,该方法无法生成合适的“3D孔洞”,导致增补视频填充结果不理想。

 

转载注明来源:CV视觉网 » 视频浓缩摘要简介

分享到:更多 ()
扫描二维码,给作者 打赏
pay_weixinpay_weixin

请选择你看完该文章的感受:

0不错 5超赞 0无聊 0扯淡 0不解 0路过

评论 20

评论前必须登录!