运动估计算法简述
- 格式:doc
- 大小:83.00 KB
- 文档页数:3
计算机视觉中的目标跟踪与运动估计算法摘要:随着计算机视觉技术的迅猛发展,目标跟踪与运动估计成为了计算机视觉领域一个重要的研究方向。
目标跟踪是指在给定的视频序列中,通过对目标的连续观察和判断,实时地追踪目标的位置,运动估计则是通过对目标在图像或视频序列中的运动进行建模和预测。
本文将介绍目标跟踪与运动估计的基础概念、常用算法和应用领域,并讨论其挑战和发展趋势。
1.引言计算机视觉是一门研究如何使计算机能够“看”的学科,它将图像处理、模式识别和人工智能等知识相结合,旨在模拟人类的视觉系统,实现对图像和视频的理解和分析。
目标跟踪与运动估计是计算机视觉领域的一个重要方向,具有广泛的应用前景。
2.目标跟踪算法目标跟踪算法是指在给定的视频序列中,通过对目标的连续观察和判断,实时地追踪目标的位置。
常见的目标跟踪算法包括基于模板匹配的方法、基于特征匹配的方法、基于相关滤波的方法等。
这些算法利用了图像中目标的特征信息(如颜色、纹理、形状等)来判断目标的位置,并通过更新模型或特征来实现目标的连续跟踪。
3.运动估计算法运动估计是指通过对目标在图像或视频序列中的运动进行建模和预测。
常见的运动估计算法包括基于光流的方法、基于特征点匹配的方法、基于深度学习的方法等。
这些算法利用了图像序列中的像素或特征点之间的变化关系,预测目标的未来位置,进而实现对目标的运动估计。
4.应用领域目标跟踪与运动估计在很多领域有着广泛的应用,例如视频监控、交通管理、移动机器人、虚拟现实等。
在视频监控领域,目标跟踪与运动估计可以实时地追踪事件发生的位置和运动轨迹,提供重要的监控信息。
在交通管理领域,目标跟踪与运动估计可以预测交通流量和车辆轨迹,提供交通优化的参考。
在移动机器人领域,目标跟踪与运动估计可以实现对机器人的自主导航和动作控制。
在虚拟现实领域,目标跟踪与运动估计可以实现用户动作捕捉和虚拟对象的交互。
5.挑战和发展趋势目标跟踪与运动估计在实际应用中仍面临一些挑战,如目标形变、光照变化、遮挡等。
第 22卷第 7期2023年 7月Vol.22 No.7Jul.2023软件导刊Software Guide基于提前终止策略改进的运动估计算法朱鑫磊,汪伟(上海理工大学光电信息与计算机工程学院,上海 200093)摘要:针对HM-16.14中TZSearch标准算法存在的计算复杂度高、耗时相对较长等问题,提出一种基于提前终止策略的改进TZSearch算法。
首先,根据编码产生的率失真代价对编码单元、变换单元和预测单元的深度进行划分,有效避免了额外的划分深度;然后,在TZSearch初始网格搜索过程中,采用钻石搜索和六边形搜索两种搜索方式,根据运动矢量分布位置选择一种更为有效的方式,精确找出最佳匹配点;最后,使用OARP栅格搜索和精细搜索完成运动估计。
由实验结果可知,该方法与标准算法相比,平均降低了60%以上的TZSearch运动估计耗时,且基本不影响视频质量。
关键词:TZSearch算法;提前终止策略;栅格搜索;精细搜索;运动估计DOI:10.11907/rjdk.221887开放科学(资源服务)标识码(OSID):中图分类号:TP391.1 文献标识码:A文章编号:1672-7800(2023)007-0051-08A Modified Motion Estimation Algorithm Based on Early Termination StrategyZHU Xinlei, WANG Wei(School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology,Shanghai 200093, China)Abstract:Considering the high computational complexity and relatively long time consumption of the TZSearch standard algorithm within HM-16.14, an improved TZSearch algorithm based on early termination strategy is proposed to improve the efficiency of video coding. Firstly,the depth sorting of the coding unit, transform unit and prediction unit is calculated according to the performance of rate distortion, which can effectively decrease additional division depths. Secondly, two search methods, i.e. diamond search and hexagonal search, are employed within the initial grid search step of TZSearch in order to precisely find the best matching point according to the motion vector distribution. Finally,OARP raster search and fine search are used to acquire the motion estimation results. Compared with the standard algorithm, experimental re‐sults show that the proposed method reduces more than 60% motion estimation time consumption on average, yet keeps the similar video quali‐ty .Key Words:TZSearch algorithm; early termination strategy; raster search; fine search; motion estimation0 引言随着视频技术的快速发展,依靠视频传递信息变得越来越普及,这使得视频流数据在互联网传输中的占比越来越大。
四步法运动估计算法
"四步法"运动估计算法通常指的是在计算机视觉中用于估计物
体运动的一种方法。
这个方法包括四个基本步骤。
请注意,具体的实现可能会有所不同,以下是一个概括:
1.特征提取(Feature Extraction):
从连续的图像帧中提取特征点或特征描述子,这些特征可以唯一地标识场景中的关键点。
常见的特征包括角点、边缘等。
2.特征匹配(Feature Matching):
将第一帧和后续帧中提取的特征进行匹配,以确定它们在不同帧之间的对应关系。
这可以使用各种匹配算法,如最近邻匹配、光流等。
3.运动模型估计(Motion Model Estimation):
根据特征匹配的结果,使用运动模型来估计物体或相机的运动。
运动模型可以是刚体变换、仿射变换等,取决于场景的复杂性。
4.运动参数优化(Motion Parameters Optimization):
通过优化算法(例如最小二乘法)对运动模型的参数进行调整,以最小化特征点在相邻帧之间的误差。
这一步旨在提高运动估计的准确性。
这个四步法的运动估计算法在许多计算机视觉应用中都有应用,包括目标跟踪、光流估计、SLAM(Simultaneous Localization and Mapping)等。
在实际应用中,也可能需要考虑图像噪声、遮挡、光照变化等因素,因此算法的鲁棒性也是一个重要的考虑因素。
需要注意的是,这只是一种常见的运动估计方法之一,还有其他许多复杂的算法和技术,具体选择取决于应用场景和需求。
自适应运动估计算法
自适应运动估计(Adaptive Motion Estimation)是指利用历史图像信息和当前图像信息,动态估计待估计运动场景中当前图像与历史图像之间的运动关系。
这些历史图像通常被称为参考图像(reference image),通过对参考图像进行多步搜索来估计寻找当前图像和参考图像的运动关系,它的核心目的是搜索最小化当前图像和参考图像之间的平均绝对像素误差(Mean Absolute Difference),从而估计出最佳的运动估计参数。
自适应运动估计算法的主要思想是:利用历史图像信息估算当前图像的位置;根据当前图像信息来更新位置估计,这称为自适应位置估算。
此位置估算有助于搜索最佳运动估算,从而产生最优质的运动模型,因此称为自适应运动估计。
运动估计与运动补偿运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。
运动估计是从视频序列中抽取运动信息的一整套技术。
运动估计与运动补偿技术MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。
它采用了H.263中的半像素搜索(half pixel searching)技术和重叠运动补偿(overlapped motion compensation)技术,同时又引入重复填充(repetitive padding)技术和修改的块(多边形)匹配(modified block(polygon)matching)技术以支持任意形状的VOP区域。
此外,为提高运动估计算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改进的PMVFAST(Predictive MVFAST)方法用于运动估计。
对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。
编解码器用来减少视频序列中的空域冗余。
它也可以用来进行去交织(deinterlacing)的操作。
定义运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。
分类包括全局运动补偿和分块运动补偿两类。
运动补偿是一种描述相邻帧(相邻在这里表示在编码关系上相邻,在播放顺序上两帧未必相邻)差别的方法,具体来说是描述前面一帧(相邻在这里表示在编码关系上的前面,在播放顺序上未必在当前帧前面)的每个小块怎样移动到当前帧中的某个位置去。
这种方法经常被视频压缩/视频编解码器用来减少视频序列中的空域冗余。
它也可以用来进行去交织(deinterlacing)的操作。
第33卷第3期计算机辅助设计与图形学学报Vol.33No.3 2021年3月Journal of Computer-Aided Design & Computer Graphics Mar. 2021视频图像运动估计中的一维块匹配算法刘泉洋, 刘云清*, 史俊, 颜飞, 张琼(长春理工大学电子与信息工程学院长春 130022)(**************.cn)摘要: 运动估计是视频图像压缩和视频图像修复等领域的基础问题, 传统的块匹配法搜索质量较好, 但搜索速度不够快. 针对传统块匹配法搜索速度上的不足, 提出一种快速的一维块匹配运动估计算法. 首先对运动矢量正交分解, 使用特殊权重系数矩阵对二维匹配块做降维处理, 得到2组一维特征矩阵; 然后选择一维三步搜索法作为搜索策略, 最小绝对误差和准则作为匹配准则, 使用2组一维特征矩阵搜索匹配运动矢量的2个分量; 最后将分量组成完整的运动矢量. 通过多组对比实验的结果表明, 该算法在保证定量评价PSNR的前提下, 显著提升运动估计的搜索速度, 视频清晰度越高、匹配块像素尺寸越大, 运动估计搜索速度提升越明显.关键词: 运动估计; 块匹配算法; 正交分解; 特征矩阵; 三步搜索法中图法分类号: TP391.41 DOI: 10.3724/SP.J.1089.2021.18343One-dimensional Block Matching Algorithm in Video Image Motion EstimationLiu Quanyang, Liu Yunqing*, Shi Jun, Yan Fei, and Zhang Qiong(School of Electronics and Information Engineering, Changchun University of Science and Technology, Changchun 130022)Abstract: Motion estimation is a basic problem in the fields of video image compression and video image restoration. The traditional block matching methods have good search quality, but the search speed is not fast enough. Aiming at the shortcomings of the search speed in the traditional block matching methods, we pro-posed a fast one-dimensional block matching motion estimation algorithm. Firstly, the motion vector is or-thogonally decomposed, and the two-dimensional matching block is reduced by a special weight coefficient matrix to obtain two sets of one-dimensional feature matrices. Then the one-dimensional three step search method is selected as the search strategy. The sum of absolute differences criterion is used as the matching criterion. The two sets of one-dimensional feature matrices are used to search for the two components of the matching motion vector. Finally the two components are formed into a complete motion vector. The results of multiple sets of comparative experiments show that the search speed of motion estimation is significantly improved while the algorithm is guaranteed to quantitatively evaluate the PSNR. The higher the video defi-nition and the larger the pixel size of the matching block, the better the algorithm can improve the search speed of motion estimation.Key words: motion estimation; block matching algorithm; orthogonal decomposition; feature matrix; three-step search收稿日期: 2020-05-04; 修回日期: 2021-01-08. 基金项目: 吉林省科技厅重点项目(20190303080SF, 20190303034SF).刘泉洋(1995—), 男, 硕士研究生, 主要研究方向为传感与信号处理; 刘云清(1970—), 男, 博士, 博士生导师, 论文通讯作者, 主要研究方向为智能信息处理、自动控制; 史俊(1996—), 男, 硕士研究生, 主要研究方向为模式识别与智能系统; 颜飞(1987—), 男, 博士, 硕士生导师, 主要研究方向为智能信息处理; 张琼(1991—), 女, 博士, 讲师, 主要研究方向为数据处理.第3期刘泉洋, 等: 视频图像运动估计中的一维块匹配算法 425运动估计是视频修复和视频压缩的关键技术, 其主要目的是利用图像帧间信息修复视频并减少图像帧间的信息冗余[1-2]. 目前, 已有很多运动估计算法, 其中, 由于块匹配算法(block matching algorithm, BMA)在计算处理和硬件实现上较为容易[3], 因此被许多视频压缩编码标准所采用, 如H.261/3/4[4]和MPEG-2/4[5].BMA计算量较大, 给实时处理带来较大压力. 为了减少运动估计的计算量, 近些年有很多学者对块匹配法进行改进. 改进方式主要有2种: 一种是改变匹配块的形状和位置, 但依然使用二维匹配块进行搜索, 如局部区域匹配法[6]将中间的匹配块变为4个等大小的小方块, 其准确性和实时性比BMA略有提高. 还有许多学者针对搜索策略进行优化并提出许多不同的搜索方式, 其速度较三步搜索法(three step search, TSS)有一定的提高, 如文献[7]通过运动矢量概率分布分析, 发现了运动矢量概率分布具有除中心十字偏置特性以外的方向性特性, 提出了一种快速的双十字搜索运动估计算法, 在保持相当搜索质量的前提下, 与菱形搜索算法和十字菱形搜索算法相比, 其搜索速度均有提高. 切换的快速运动估计算法[8]采用了提前停止和选择性搜索技术来提高编码速度, 以小菱形作为起始搜索模式, 然后过渡到六边形模式, 最后使用正方形搜索模式进行细化; 该算法对于各种运动情况的视频序列具有强普适性, 速度也有所提高. 还有从其他角度优化运动估计算法, 如文献[9]以像素块为单位, 利用块内外点的比例判定前景区域, 同时引入马尔可夫聚类方法进行后处理, 有效地提高了运动对象的定位精度; 通过对目标函数引入权重系数增强对残差的鲁棒性, 以进一步提高算法的估计精度. 此外, 文献[9]基于像素掩模的3层金字塔构建序列图像, 并将改进的梯度方法引入到优化过程中, 提高了算法的实时性. 文献[10]基于运动分解估算的运动估计算法, 利用矩阵分解原理将全局运动分解成帧间运动和前帧运动, 保证了场景快速变化条件下运动估计的准确性和时效性.这些算法均采用为二维匹配块搜索匹配运动矢量的最优值, 而完整二维匹配块存在大量的信息冗余, 会增大搜索匹配过程中的计算量, 很难通过优化搜索策略和匹配块位置大幅度提升算法运算速度. 文献[11]提出基于边界灰度投影匹配的全局运动估计算法, 将图像边界水平投影和垂直投影值作为匹配特征, 较好地估计了全局运动参数; 但是其特征提取模型和搜索策略存在缺陷, 不能有效地提高搜索速度. 为了进一步提高算法的速度, 降低算法实现的复杂度, 本文提出了一维块匹配运动估计算法(one-dimensional BMA, OBMA).1 一维特征矩阵和一维TSS1.1一维特征矩阵通过对运动矢量的特点进行分析, 运动矢量精度是单位像素, 方向和大小均不确定. 因此, 本文采用将运动矢量MV分解为水平方向分量x和垂直方向分量y, 如图1所示.图1 运动矢量正交分解求解x和y需要使用一维特征矩阵X和一维特征矩阵Y, 一维特征矩阵求解过程为[]1nλ=A(1)[]1mμ=B(2)=X AP(3)T=Y BP(4) 其中, A为权重系数矩阵, λ为A的权重系数; B 为权重系数矩阵, μ为B的权重系数; P为匹配块矩阵, 形状为(),n m; X的形状为()1,m; TP 形状为(),m n; Y的形状为()1,n.为了更直观地表示一维特征矩阵的特点, 选取连续3帧1 080P测试图像, 从测试图像中提取P. λ和μ设置为1256. A的形状为()1,540, B 的形状为()1,960; 得到3幅连续测试图像的一维特征矩阵如图2所示. 其中, X的形状为()1,960, Y的形状为()1,540, 纵坐标表示一维矩阵中每个元素的数值.分析图2的发现, 连续视频图像匹配块的一维特征矩阵具有整体趋势相似的特点, 利用此特点进行运动估计, 可以有效地减少信息冗余, 提高后续搜索匹配的速度.1.2一维TSS相比于全搜索法(full search, FS)要遍历匹配块426计算机辅助设计与图形学学报 第33卷图2 连续3帧视频图像特征矩阵折线图的所有像素点, TSS 搜索点数大幅减少[12]. 有别于逐一遍历所有像素点, 如图3所示, TSS 每步搜索对搜索边界上的8个点以及正方形的中心点共9个搜索点进行比较, 搜索步长等于或者略大于最大搜索范围的一半; 上一步比较得到的最佳匹配点作为下一个新的搜索步的搜索中心. 搜索范围大于7时, 搜索步骤不止3步.图3 二维TSS本文的特征矩阵X 和特征矩阵Y 是一维矩阵, 因此需要将二维TSS 改为一维TSS. 一维TSS 的搜索步骤与二维TSS 类似, 每一搜索步对搜索边界上的2个点以及中心点共3个搜索点进行比较, 搜索步长等于或者略大于最大搜索范围的一半; 上一步比较后得到的最优匹配点作为下一步的搜索中心. 一维TSS 如图4所示.图4 一维TSS一维TSS 实际使用时需要确定搜索步数, 确定一维TSS 搜索步数就是确定搜索半径. 搜索半径r 与搜索步数steps 的关系为steps 21r =-(5) 本文算法将()M ,x y V 分解为x 和y , 因此x 和y 可以针对不同r 设置不同的steps . 测试数据使用400帧清晰度为1 080P 的连续视频图像序列, 求出运动矢量, 制作散点图如图5所示.图5 M V 散点图通过图5散点图的分析, 散点图中点的整体分布呈菱形, 水平方向的范围大于垂直方向的范围, 在实际的运动估计计算中, 可以针对不同的范围设置不同的r , 减少不必要的steps , 提高搜索速度. 以图5为例, 设水平方向的r 为I , 垂直方向的r 为J , 则应设I =31, J =15; 将其分别代入式(5)求出搜索步数分别为5步和4步.2 OBMA2.1 算法概述本文提出的OBMA 整体流程图如图6所示. 2.2 匹配块匹配块选择当前帧图像S 的中心区域, 图像S 的形状为(),N M , P 的形状为(),n m , 在S 的位置如图7所示.第3期刘泉洋, 等: 视频图像运动估计中的一维块匹配算法 427图6 算法流程图图7 匹配块前一帧图像的匹配块记为1-P , 1-P 的最大可能出现区域用R 表示, 区域R 包括区域1-P 以及水平方向的搜索半径I 和垂直方向的搜索半径J 包含的区域, R 的形状为()2,2n I m J ++, 区域R 如图8所示.图8 区域R 示意图区域P 和区域R 的计算公式分别为:,:22222222N n N n M m M m ⎛⎫=-+-+ ⎪⎝⎭P S (6)1:,:22222222N n N n M m M m J J I I -⎛⎫=--++--++ ⎪⎝⎭R S (7)其中, 1-S 是图像S 的前一帧图像, R 是图像1-S 匹配块1-P 的最大可能出现区域.2.3 特征矩阵A 和B 的λ和μ设为灰度级的倒数. 8位深度的图像灰度级为256, 设λ=μ=1. 区域R 的特征矩阵为R 1(+2)1256n J ⎡⎤=⎢⎥⎣⎦X R (8)T R 1(+2)1256m I ⎡⎤=⎢⎥⎣⎦Y R (9)其中, R X 和R Y 为区域R 的特征矩阵; R X 形状为()1,2m I +,R Y 形状为()1,2n J +.特征矩阵组X 和i X 分别为1()1256n ⎡⎤=⎢⎥⎣⎦X P (10)()R :i I i m I i =+++X X(11)其中, i X 的形状为()1,m ; i 为水平方向的偏移量.特征矩阵组Y 和j Y 分别为T 1()1256m ⎡⎤=⎢⎥⎣⎦Y P (12)()R :j J j n J j =+++Y Y(13)其中, j Y 的形状为()1,n ; j 为垂直方向的偏移量.2.4 搜索最优值搜索策略使用一维TSS, 匹配准则使用SAD [13]. 以运动矢量分量x 的搜索步数等于3为例, 具体搜索步骤如下:输入. 特征矩阵X 与i X .输出. 运动矢量分量x .Step1. 以0中心搜索点, 加上中心点左右步长为4的2个搜索点, 计算3个搜索点X 与i X 的SAD.Step2. 将上一步的最佳匹配点设为中心搜索点, 计算中心点左右步长为2的2个搜索点X 与i X 的SAD, 与上一步最佳匹配点比较,更新最佳匹配点.Step3. 步长改为1, 同上一步, 最佳匹配点为x .运动矢量分量x 和运动矢量分量y 除了一维TSS 的搜索步数不同, 其他搜索步骤均相同, 这里不再赘述.428计算机辅助设计与图形学学报 第33卷3 实验结果为了验证本文提出OBMA, 选择主观评价与客观指标相结合的评价方式. 主观评价为不同算法运动补偿后的前后帧差值图像; 客观评价指标选择峰值信噪比(peak signal to noise ratio, PSNR)和搜索时间. PSNR 将未加入运动补偿的前后帧差值图像作为原图像, 加入运动补偿后的前后帧差值图像为处理后图像.3.1 实验平台本文进行实验的计算机配置为AMD Ryzen52600 CPU(3.40 GHz), 内存为16 GB; 操作系统为Windows 10; 编程环境为Python 3.6.3.2 主观评价为了直观地对比本文的OBMA 与BMA 的实际效果, 选取测试视频图像序列中5个不同场景, 将未加入运动补偿的前后帧差值图像与加入运动补偿后的前后帧差值图像进行对比. 考虑差值图像对比度较低, 为了提高差值图像的对比度, 对样本的结果进行直方图均衡化处理, 最后得到对比度增强后的差值图像如图9所示. 图9a 所示为与前一帧参考帧的差值图像; 图9b 所示为加入a. 无运动补偿b. BMA [3]c.OBMA图9 不同场景下前后帧差值图像第3期刘泉洋, 等: 视频图像运动估计中的一维块匹配算法 429BMA 运动补偿后与前一帧参考帧的差值图像; 图9c 所示为加入OBMA 运动补偿后与前一帧参考帧的差值图像.通过图9中5个不同场景下运动补偿后的差值图像对比分析发现, 本文提出的运动估计算法的实际补偿效果与传统块匹配法基本一致.3.3 客观评价客观评价使用1 080P 和720P 测试视频中的连续50帧视频图像序列作为测试样本. 对比实验分别为相同清晰度测试视频图像序列、不同匹配块比例; 相同匹配块、不同清晰度测试视频图像序列.为了验证匹配块大小对算法性能的影响, 测试实验选择1 080P 测试视频图像序列, 2种不同尺寸的匹配块作对比实验, 分别是测试图像尺寸的1/2(540像素×960像素)和1/4(270像素×480像素). 图10a 所示为匹配块尺寸为1/2(540像素×960像素)时, OBMA 与BMA 的PSNR 和运行时间对比图; 图10b 所示为匹配块尺寸为1/4(270像素×480像素)时, OBMA 与BMA 的PSNR 和运行时间对比图.为了验证视频清晰度对算法性能的影响, 本文选择720P 测试视频与上述1 080P 测试视频进行对比实验. 图10c 是匹配块尺寸为1/4(180像素×320像素)时, OBMA 与BMA 的PSNR 和运行时间对比图.图10 BMA 和OBMA 的PSNR 和运行时间对比对表1中的实验结果进行分析: 当匹配块尺寸和测试视频清晰度相同时, OBMA 与BMA 的PSNR 基本相同, 这说明它们具有同样搜索质量. 匹配块为测试图像尺寸的1/2(540像素×960像素),OBMA 的平均运行时间是BMA 的29.5%, 搜索速度提高238.6%; 匹配块为测试图像尺寸的1/4(270像素×480像素), OBMA 的平均运行时间是BMA 的59.6%, 搜索速度提高67.64%; 匹配块为测试图像尺寸的1/4(180像素×320像素), OBMA 的平均运行时间是BMA 的80.1%, 搜索速度提高24.72%.由上述数据分析可知, 与传统的BMA 相比,在搜索质量相同的情况下, OBMA 实时性优于BMA. 运动估计使用的匹配块尺寸越大, 搜索速度提高越明显; 视频清晰度越高, 搜索速度提高越表1 2种算法连续5帧视频图像序列关键指标横向对比 算法 分辨率匹配块平均PSNR/dB 平均搜索 时间/s 1 080P 1/2 28.87 0.143 05 1 080P 1/428.840.052 59720P 1/4 27.36 0.016 85 1 080P1/2 28.83 0.042 24 1 080P 1/429.160.031 37OBMA 720P1/4 27.42 0.013 51明显. 本文提出OBMA 更适用于清晰度较高的视频. 随着视频分辨率的不断提高, 2K, 4K 和8K 视频的普及, 运动估计需要的块尺寸也会随之增大, 传统BMA 庞大的数据量会占据更多的资源, 而使用本文提出OBMA 可以有效地解决此问题.BMA [3]430 计算机辅助设计与图形学学报第33卷4 结语目前主流运动估计算法依然停留在直接使用二维视频图像的二维信息直接计算运动矢量, 本文通过对视频帧间相关性的研究发现, 经过特定的权重系数矩阵对二维匹配块降维后, 一维特征矩阵具备二维矩阵的部分特征, 使用一维特征矩阵代替二维矩阵进行运动估计, 减少计算量. 通过对比实验表明, 本文提出的OBMA与BMA相比, 在搜索质量相当的前提下, 能有效地提高运动估计的计算速度, 具有一定实用价值.参考文献(References):[1] Yu Yinghuai, Wang Jinrong. High accuracy sub-pixel globalmotion estimation based on upsampled gradient cross-correla-tion algorithm[J]. Journal of Image and Graphics, 2012, 17(12):1492-1499(in Chinese)(余应淮, 王锦荣. 高精度亚像素全局运动估计的上采样梯度互相关算法[J]. 中国图象图形学报, 2012, 17(12): 1492-1499)[2] Li Ziyin, Zhu Shanan. A fast efficient partial distortion searchalgorithm for block motion estimation[J]. Journal of Image andGraphics, 2006, 11(4): 480-485(in Chinese)(李子印, 朱善安. 一种快速高效的部分失真块运动估计搜索算法[J]. 中国图象图形学报, 2006, 11(4): 480-485)[3] Zhao N N, O’Connor D, Basarab A, et al. Motion compensateddynamic MRI reconstruction with local affine optical flow es-timation[J]. IEEE Transactions on Biomedical Engineering, 2019, 66(11): 3050-3059[4] Mukaddim R A, Meshram N H, Mitchell C C, et al. Hierarchi-cal motion estimation with Bayesian regularization in cardiacelastography: simulation and in-vivo validation[J]. IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control, 2019, 66(11): 1708-1722[5] Qin Rong, Ma Zhiqiang, Zhang Xiaoyan, et al. A fast and ro-bust global motion estimation algorithm[J]. Journal of Air Force Engineering University: Natural Science Edition, 2012,13(6): 55-59(in Chinese)(秦荣, 马志强, 张晓燕, 等. 一种快速鲁棒的全局运动估计算法[J]. 空军工程大学学报: 自然科学版, 2012, 13(6): 55-59)[6] Tang Jialin, Zheng Jiefeng, Li Xiying, et al. Video stabilizationalgorithm based on feature matching and motion compensa-tion[J]. Application Research of Computers, 2018, 35(2): 608- 610(in Chinese)(唐佳林, 郑杰锋, 李熙莹, 等. 基于特征匹配与运动补偿的视频稳像算法[J]. 计算机应用研究, 2018, 35(2): 608-610) [7] Liu Haihua, Lei Yi, Xie Changsheng. Fast block-matching mo-tion estimation based on a dual-cross search algorithm[J]. Comp-uter Research and Development, 2006, 43(9): 1666-1673(in Chinese)(刘海华, 雷奕, 谢长生. 双十字搜索算法的快速块匹配运动估计[J]. 计算机研究与发展, 2006, 43(9): 1666-1673) [8] Li Hejun, Li Heping, Li Jianxiong. A multi-pattern switchingalgorithm for fast motion estimation[J]. Journal of Electronics & Information Technology, 2013, 35(3): 689-695(in Chinese)(李贺军, 李和平, 李建雄. 一种采用多模式切换的快速运动估计算法[J]. 电子与信息学报, 2013, 35(3): 689-695) [9] Li Qiaoliang, Wang Guoyou, Zhang Guilin, et al. Accurateglobal motion estimation based on pyramid with mask[J].Journal of Computer Aided Design & Computer Graphics, 2009, 21(6): 758-762(in Chinese)(李乔亮, 汪国有, 张桂林, 等. 基于掩模金字塔的高精度全局运动估计算法[J]. 计算机辅助设计与图形学学报, 2009, 21(6): 758-762)[10] Zhang Maolei, Chen Jianguo, Yuan Hongyong, et al. Videostabilization on a six-rotor aircraft platform[J]. Journal of Tsinghua University: Science and Technology, 2014, 54(11): 1412-1416(in Chinese)(张毛磊, 陈建国, 袁宏永, 等. 六旋翼飞行平台的视频稳像技术[J]. 清华大学学报: 自然科学版, 2014, 54(11): 1412-1416) [11] Zhang T, Fei S M, Li X D, et al. Fast global motion estimationand moving object extraction algorithm in image sequences[J].Journal of Southeast University: English Edition, 2008, 24(2): 192-196[12] Li R X, Zeng B, Liou M L. A new three-step search algorithmfor block motion estimation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1994, 4(4): 438-442 [13] Xu Jin. Research on key technology of digital restoration ofmotion picture film[D]. Shanghai: Shanghai Jiaotong Univer-sity, 2009(in Chinese)(徐进. 电影胶片数字修复关键技术研究[D]. 上海: 上海交通大学, 2009)。
多媒体信息处理与分析的算法与优化多媒体信息处理与分析是一门涉及计算机科学和信息技术的跨学科领域,旨在开发和优化算法,以提高对多媒体数据的处理和分析效率。
本文将探讨多媒体信息处理与分析中的算法与优化方面的知识。
一、多媒体信息处理的算法1. 图像处理算法图像处理是多媒体信息处理的重要组成部分,其算法有助于提高图像的质量和准确性。
常见的图像处理算法包括图像增强、图像分割、图像压缩等。
图像增强算法可以改善图像的亮度、对比度和清晰度,使图像更易于观察和分析。
图像分割算法可以将图像分割为不同的区域,以便独立地处理每个区域的特征。
而图像压缩算法可以减少图像的存储空间和传输带宽,提高图像传输的效率。
2. 视频处理算法视频处理是多媒体信息处理的另一重要方面,其算法有助于提取和分析视频中的关键信息。
常见的视频处理算法包括视频处理、运动估计和视频压缩等。
视频处理算法可以对视频进行降噪、去抖动和去模糊等处理,提高视频质量。
运动估计算法可以估计视频中物体的运动轨迹和速度,以实现跟踪和分析。
而视频压缩算法可以减少视频的存储空间和传输带宽,提高视频传输的效率。
3. 音频处理算法音频处理是多媒体信息处理的重要组成部分,其算法有助于提取和分析音频中的特征。
常见的音频处理算法包括音频增强、音频合成和音频压缩等。
音频增强算法可以去除音频中的噪声和杂音,提高音频的清晰度和准确性。
音频合成算法可以根据特定的规则和模式生成音频,如语音合成和音乐合成。
而音频压缩算法可以减少音频的存储空间和传输带宽,提高音频传输的效率。
二、多媒体信息处理的优化1. 数据结构的优化在多媒体信息处理过程中,合适的数据结构选择和设计对于算法的效率至关重要。
不同的数据结构适用于不同类型的多媒体数据,如图像、视频和音频等。
通过选择和设计合适的数据结构,可以减少存储空间和提高数据的访问效率,从而提高算法的性能。
2. 并行计算的优化多媒体信息处理中往往涉及大量的数据和复杂的计算任务,采用并行计算可以显著提高算法的处理速度和效率。
运动估计综述1.定义这里指基于块的运动估计,基本思想是将图像序列的每一帧分成许多互不重叠的块,并认为块内所有像素的位移量都相同,然后对每个宏块到参考帧某一给定特定搜索范围内根据一定的块匹配准则找出与当前块最相似的块,即匹配块,匹配块与当前块的相对位移即为运动矢量。
2.运动估计算法2.1全搜索每一点都要比较,需计算(2*d+1)*(2*d+1)次(d是搜索范围)。
对分辨率360x288,帧率30fps的视频,设d=21,每秒要计算1.09E10次,计算量太大,需要研究相应的快速算法。
2.2早期的快速算法(固定模式法)这些算法假设匹配误差随着离全局误差最小点的距离增加而单调增加。
一般从原点开始,采用固定的搜索模板和搜索策略得到最佳匹配块。
常见的有:三步法(TSS)、四步法(FSS)、菱形法(DS)、六边形法(HEXBS)等。
三步法(TSS)四步法(FSS )菱形法(DS ):六边形法(HEXBS ):早期算法的不足:∙ 没有利用图像本身的相关信息,不能根据物体运动的剧烈程度自适应的改变搜索起点和搜索半径;∙ 以菱形法为例,对背景图像,也要经历从大模板到小模板的转换过程,至少需要13个搜索点,搜索速度还有待改进;∙ 对于运动剧烈的图像,从原点开始搜索时,要经过多次搜索才能找到匹配点,搜索点过多,且容易陷入局部最优点。
2.3近年来提出的新算法针对以上不足,近几年来,针对序列图像的时空相关性和人眼视觉特性,提出了许多改进算法,主要从以下几个方面着手:∙预测搜索起点利用相邻块之间的运动相关性选择一个反映当前块运动趋势的预测点作为初始搜索点,这个预测点一般比原点更靠近全局最小点。
从预测点开始搜索可以在一定程度上提高搜索速度和搜索精度。
∙中止判别条件利用相邻块的相关性自适应的调整终止阀值,当搜索值小于该值时,则认为满足条件,跳出后面的搜索过程。
∙搜索模板的选择在序列图像中,大多数的运动矢量都位于水平或垂直方向,因此可以设计相应的搜索模板(非对称搜索模板)来加快搜索速度。
分数像素快速块匹配运动估计方法综述陈志江;涂丹【期刊名称】《电子设计工程》【年(卷),期】2011(019)016【摘要】The basic theory of fractional pel block-matching motion estimation was introduced,because of the high-complexity,fast algorithm is required.This article gave a summarize of existed fastalgorithm,introduced the main four key technique: mathematical model,motion vector prediction,search strategy optimize and early termination.It gave an introduction of representative algorithms.Finally,the paper prospected some future directions of fast fractional pel block-matching motion estimation algorithm.%介绍了视频压缩中分数像素快速块匹配运动估计的基础原理,由于全搜索算法计算量很大,需要发展快速算法。
对现有快速算法进行了研究总结,介绍了所应用的数学模型、向量预测、搜索优化、提前终止4个关键技术及代表算法。
最后对分数像素快速块匹配运动估计方法进行了总结和展望。
【总页数】7页(P182-187,192)【作者】陈志江;涂丹【作者单位】国防科技大学信息系统与管理学院系统工程系,湖南长沙410073;国防科技大学信息系统与管理学院系统工程系,湖南长沙410073【正文语种】中文【中图分类】TP391【相关文献】1.分数像素精度运动估计的DSP优化方法 [J], 宋立锋;戴青云2.一种适用于H.264的分数像素快速运动估计算法 [J], 姜有田;李金良3.基于分组误差的快速分数像素运动估计算法 [J], 向东;骆正华4.自适应AVS_M分数像素运动估计快速算法 [J], 魏志强;李翠苹;刘敏;王岩;王莉5.H.264中快速的整像素和分数像素的运动估计 [J], 丁毅因版权原因,仅展示原文概要,查看原文内容请购买。
论文引用格式:Shao X Q , Yang Y and Liu Y L. 2021. Review of optical flow algorithms in fluid motion estimation. Journal of Image and Graphics ,26(02):0355-0367(邵绪强,杨艳,刘艺林.2021.流体运动估计光流算法研究综述.中国图象图形学报,26(02):0355-0367 ) [ DOI : 10. 11834/ jig. 200050]E-mail: ***********.cn Website: Tel: ************中国图象图形学报JOURNAL OF IMAGE AND GRAPHICS©中国图象图形学报版权所有355中图法分类号:TP391 文献标识码:A 文章编号:1006-8961(2021)02-0355-13流体运动估计光流算法研究综述邵绪强,杨艳,刘艺林华北电力大学控制与计算机工程学院,保定071003摘要:对流体图像序列进行运动分析一直是流体力学、医学和计算机视觉等领域的重要研究课题。
从图像对中提取的密集精确的速度矢量场能够为许多领域提供有价值的信息,基于光流法的流体运动估计技术因其独特的优势成为一个有前途的方向。
光流法可以获得具有较高分辨率的密集速度矢量场,在小尺度精细结构的测量上有所改进,弥补了基于相关分析法的粒子图像测速技术的不足。
此外,光流方法还可以方便的引入各种物理约束,获 得较为符合流体运动特性的运动估计结果。
为了全面反映基于光流法的流体运动估计算法的研究进展,本文在广泛调研相关文献的基础上,对国内外具有代表性的论文进行了系统阐述。
首先介绍了光流法的基本原理,然后将现有算法按照要解决的突出问题进行分类:结合流体力学知识的能量最小化函数,提高对光照变化的鲁棒性,大位 移估计和消除异常值。
对每类方法,从问题解决过程的角度予以介绍,分析了各类突出问题中现有算法的特点和 局限性。
MOTIONESTIMATION运动估计
运动估计是视频编码过程中⾮常重要的⼀个过程,也是最耗时的⼀个过程。
运动估计就是针对当前块从邻近帧中搜索最相似的块。
如果采⽤全搜索的⽅法会⾮常耗时,不划算。
于是出现了很多快速算法,⼤概思路是:先找到⼀个初始运动向量,从这个初始值出发按照⼀定规则搜索邻近块,并不断更新最优运动向量。
不同的快速算法对应不同的搜索规则和终⽌搜索规则。
快速算法的评价规则包括:计算速度和搜索准确度。
所以对快速运动估计的优化也包括两种⽅式:搜索规则和提前结束搜索。
提高编码效率:媒体编码技术的优化方法引言:在当今信息爆炸的时代,媒体编码技术的发展变得愈发重要。
媒体编码技术旨在通过压缩和处理媒体数据,提高传输和存储的效率。
本文将探讨一些优化方法,以提高编码效率。
一、声音编码技术的优化方法声音编码是媒体编码技术领域的重要组成部分。
为了提高编码效率,可以采取以下的优化方法。
1. 使用更高级的声音编码器:传统的声音编码器定律编码存在着数据冗余的问题。
为了优化编码效率,可以使用更高级的声音编码技术,如矢量量化编码或者子带编码等。
这些编码器能够更好地压缩声音数据,减少传输和存储的开销。
2. 使用自适应编码算法:自适应编码算法可以根据声音信号的特征动态调整编码参数,以适应不同的信号特点。
这样可以有效地提高编码效率,避免了传统固定编码参数的局限。
二、图像编码技术的优化方法图像编码技术在数字媒体传输和存储中扮演着重要的角色。
为了提高编码效率,我们可以考虑以下的优化方法。
1. 使用更先进的图像编码标准:JPEG是一种传统的图像编码标准,但它存在着编码效率低的问题。
为了提高编码效率,可以选择使用更先进的图像编码标准,如JPEG2000、WebP等。
这些标准可以在保证图像质量的前提下,更好地压缩图像数据。
2. 使用无损图像编码算法:无损图像编码算法可以在不丢失任何图像信息的情况下进行压缩。
这种算法可以用于需要确保图像完整性的应用场景,例如医学图像或者卫星图像的传输和存储。
三、视频编码技术的优化方法视频编码技术是媒体编码技术的一个重要分支。
为了提高编码效率,我们可以考虑以下的优化方法。
1. 选择适当的视频编码器:根据不同的应用场景和需求,选择适合的视频编码器对提高编码效率非常重要。
目前最流行的视频编码器有和等。
这些编码器能够在保证视频质量的前提下,更好地压缩视频数据。
2. 优化运动估计算法:运动估计是视频编码中的关键环节。
通过优化运动估计算法,可以更准确地捕捉视频中的运动信息,从而提高编码效率。
课程设计任务书题目: 通信工程应用技术初始条件: MATLAB 软件,电脑要求完成的主要任务:设计视频压缩系统中的运动估计算法:全搜索法(FS: Full Search)和三步法(TSS: Three Step Search),比较二种方法的搜索点和每帧的峰值信噪比(PSNR: peak signal to noise ratio)要求:编制算法代码;对视频进行运动估计;计算PSNR时间安排:指导教师签名: 2013 年月日系主任(或责任教师)签名: 2013 年月日目录摘要 (I)Abstract (II)1 设计任务 (1)2 实验原理及基本思想 (2)2.1 实验原理 (2)2.2基本思想 (2)3 运动估计算法 (3)3.1全搜索算法 (3)3.1.1全搜索算法及程序流程图 (3)3.1.2全搜索的特点 (4)3.2三步法 (4)3.2.1三步法的方法 (4)3.2.2三步法的特点 (4)1.搜索范围为[-7,7]; (4)4 仿真结果 (6)4.1全搜索算法仿真结果 (6)4.2三步法算法仿真结果 (6)4.3全搜索算法和三步法指标对比 (12)4.3.1全搜索算法指标 (12)4.3.2三步法指标 (12)4.4仿真结果分析 (12)5 心得体会 (13)6 参考文献 (14)试验程序 (15)附录: ..................................................... 错误!未定义书签。
摘要在视频编码和处理系统中,运动估计和运动补偿技术对降低视频序列时间冗余度、提高编码效率起着非常关键的作用。
运动估计的准确程度将直接决定视频编码器的编码效率。
它极大地消除了视频序列的帧间相关性。
运动估计算法的复杂性将直接决定视频压缩编码系统的复杂性,如何提高运动估计的效率,使运动估计算法的搜索过程更快速、更高效一直是人们研究的热点。
掌握运动估计的块匹配算法,以及快速运动估计算法。
运动估计算法简述
标签:搜索运动估计预测矢量算法分类:探索H.2642007-02-03 13:59
马上要做运动估计算法,重点整理了一下这方面的内容。
帧间预测编码可以简单地分为单向预测、双向预测、多帧预测。
而H.264
标准采用了多帧预测,参考帧可达5—15帧。
运动补偿采用较多的有运动矢量估计[重叠块运动补偿(OBMC)]、全局运动估计、基于象素点的运动估计、基于区域的运动估计、基于网格的运动估计。
1.单向预测原理:将重建帧和参考帧送运动参数估值器(ME)比较得到运动矢量,再将运动矢量和重建帧送到运动补偿预测器中,得预测帧Ft^(x,y)。
Ft^(x,y)=Ft(x+i,y+j) 其中(i,j)即MV
2.基于块匹配算法的运动矢量估计
简单地说就是以块为单位分配运动矢量。
在前一帧搜索区(M+2Wx,M+2Wy)内找到与当前帧块相匹配的块,位移d(i,j)即为运动矢量。
常用的块匹配准则有:均方误差(MSE)最小准则,绝对误差均值(MAD)最小准则、NCCF准则。
搜索方法:
a.穷尽搜索计算(2Wx+1)×(2Wy+1)个MAD值,全局最优,计算量大。
b.快速搜索
(1)分层的和多分辨率的快速块匹配方法
(2)基于连续消除的快速块匹配方法
(3)固定搜索模式的快速块匹配方法(e.g.三步搜索法)
(4)基于时空相关性和视觉特性的快速块匹配方法
3.重叠块运动补偿(OBMC)
为解决方块效应特别是运动矢量估计不准确或物体运动不是简单的平移运动以及一个块中有多个不同物体运动时的问题,采用OBMC方法,即一个像素的预测不仅基于其所属块的MV估计,还基于相邻块的MV估计。
4.运动估计
•运动表示法:
(1)基于块的运动表示法
帧间宏块分割区域大小的选择:大分区,表征MV的选择和区分割类型的比特数较少,但运动压缩的冗余度较高,运动补偿残差在多细节区域能量很高。
小分区,运动补偿残差能量较低,但需要较多的表征MV的选择和区分割类型的比特数,运动压缩的冗余度较低。
一般策略:平缓区域大分区,多细节区域小分区。
树状结构运动补偿,宏块和子宏块各4种分割方法。
色度成分均为量度成分水平、垂直尺寸的1/2。
(2)亚像素位置的内插
亚像素运动矢量:亮度精度1/4,色度精度1/8
对亮度成分,用六抽头滤波器对整数像素点内插:左右相邻的6个像素的加权均值得1/2像素点,然后是线性滤波得到1/4像素点。
对色度块以类似方法得到1/4像素点,再次进行线性内插就得到1/8精度MV.
(3)运动矢量在时空域的预测方式
空间 (1)运动矢量中值预测
(2)空间域的上层块模式运动矢量(最优)
时间 (1)前帧对应块运动运动矢量预测
(2)时间域的临近参考帧运动矢量预测
(4)匹配误差在时空域上的预测方式
H.264定义的匹配误差函数
J(MV,λMOTION)=SAD(s,c(MV))+λMOTION×R(MV-PMV)。
匹配误差在时空域的预测方式与运动矢量类似
空间 (1)中值预测
(2)上层预测
时间 (1)前帧对应块的预测
(2)时间域的临近参考帧预测(最优)
•运动估计准则分类:
(1)MSE最小(2)MAD最小(3)NTD
——子集匹配法大大减少每帧图像的平均搜索时间
•运动搜索算法
(1)全局搜索算法
(2)分数精度搜索算法
(3)快速搜索算法
1)二位对数搜索法
2)三步搜索法
3)自适应搜索范围的快速运动估计算法
4) 分级搜索范围(DSR)算法 ?
5) 混合搜索算法
•运动矢量预测:基于临近分割的相关性。
(1)非16×8,8×16分割,MVp为A,B,C中值。
(2)16×8分割,上面取B预测,下面取A预测。
(3)8×16分割,左边取A预测,右边取C预测。
(4)Skipped MB,同(1)。
若所需已传送块不可得,则MVp的选取要进行调整。