靜網PWA視頻評論

基於超像素與BoF的運動目標跟蹤算法

2023年10月29日

- txt下載

邱曉榮+彭力+劉全勝
摘 要: 針對由遮擋、光照、形變等干擾產生的漂移問題,提出基於超像素和BoF的運動目標跟蹤算法。此算法首先利用SLIC方法對運動目標的觀測區域進行超像素分割,然後基於超像素構造中層視覺線索的超像素字典以及低層像素特徵的BoF字典,實現對運動目標表觀模型的混合建模,最後引入粒子濾波框架和在線字典更新,以適應目標和背景的變化。實驗結果表明,該算法能夠很好地應對嚴重遮擋、非剛性變換、複雜背景等干擾因素的影響,具有很好的穩定性和魯棒性。
關鍵詞: 目標跟蹤; 表觀模型; 中層視覺線索; 超像素; BoF; 粒子濾波框架
中圖分類號: TN820.4?34; TP391.41 文獻標識碼: A 文章編號: 1004?373X(2018)06?0037?04
Abstract: In allusion to the drift problems caused by occlusion, illumination and deformation, a motion target tracking algorithm based on superpixel and BoF is proposed. The SLIC method is adopted to perform superpixel segmentation for observation area of motion target. The superpixel dictionary with mid?level visual cues and BoF dictionary with low?level superpixel characteristic are constructed based on superpixel to realize hybrid modeling for motion target appearance model. Particle filtering framework and online dictionary update are introduced to adapt the variations of targets and background. The experimental results show that the algorithm can tackle the effects of severe occlusion, non?rigid deformation, complex background and other interference factors, and has good stability and robustness.
Keywords: target tracking; appearance model; mid?level visual cue; superpixel; BoF; particle filtering framework
0 引 言
作為機器視覺領域的研究熱點,運動目標跟蹤融合圖像處理、人工智慧、模式識別等眾多不同領域的相關基礎知識,已經被廣泛應用於智能交通、工業機器人、醫療診斷等領域。Wu等人總結了近年來眾多學者提出的31種有效跟蹤算法[1],用於解決常見的11種干擾問題,例如光照變換、非剛性變換、目標遮擋等。
根據算法中對運動目標表觀模型相似度的判別方式,運動目標跟蹤算法可以分為生成式算法和判別式算法兩大類。其中,生成式算法是根據運動目標的全局特徵在後續的場景中搜索最相似的狀態作為跟蹤結果。當運動目標受干擾因素影響發生較為劇烈的特徵變化時,算法會產生較大的漂移問題。經典的生成式算法有VTD[2],L1T[3]等。Bao等人改進了L1T方法,使用L1APG方法加速求解稀疏係數[4],提高了跟蹤的效率和精度。Cheng等人提出粒子濾波框架下目標狀態的多個片段和SIFT特徵點匹配相結合的算法[5],較好地應對了遮擋、光照、尺度等複雜場景的運動變化。
判別式算法基於運動目標的局部特徵建立表觀模型,把運動目標跟蹤轉換成目標與背景的二元分類問題。此類算法能夠較好地應對跟蹤過程中遇到的多種複雜干擾。經典的生成式算法有MIL[6],TLD[7]等。Yang等人提出了BoFT算法[8],該算法基於傳統的IVT算法,結合RGB和LBP兩種類型的局部BoF,獲得了良好的跟蹤效果。近年來,綜合上述兩大類算法的互補性,Zhong等人提出了生成式算法和判別式算法相結合的稀疏跟蹤模型[9]。Yang等人提出了SPT算法[10],先獲取目標與背景區域中超像素和特徵簇的機率分布,然後通過在線字典學習和MAP方法推導出最佳的候選運動目標區域,能夠較好地應對嚴重遮擋、大幅度非剛性變換等干擾因素的影響。
受上述研究的啟發,本文提出一種新的運動目標跟蹤算法,該算法在文獻[10] SPT算法的基礎上加入BoF特徵包,結合超像素字典和BoF字典進行運動目標跟蹤,克服了SPT算法對相似背景干擾應對能力較差的缺陷。同文獻[5]提及的算法相比,本算法的BoF字典提取了圖像低層像素對應的超像素,可以充分利用超像素對光照、速度、形變的不變性,更為魯棒地重構受外界干擾的目標。實驗結果表明,本算法構建了自適應的運動目標表觀模型,提高了多種嚴重干擾因素影響下相似度的匹配值,降低了目標跟蹤結果漂移的機率,最終提高了算法的魯棒性和有效性。
1 構建超像素字典和BoF字典的表觀模型
1.1 超像素字典的構建
為了能夠在跟蹤階段快速準確地找到運動目標,一般選取前5幀待測圖像作為訓練階段的訓練圖像,並以此構建運動目標表觀模型中的字典信息。超像素字典的構建共分為4個步驟:
1) 以前5幀待測圖像中的運動目標為中心,構建一個包含運動目標前景和背景的矩形觀測區域,該區域的邊長為運動目標區域對角線長度的1.5倍。如圖1a)所示,白色虛線矩形內部為觀測區域,白色實線矩形內部為運動目標區域。
2) 運用SLIC算法對各訓練幀的觀測區域進行超像素分割,分割時設置超像素個數為300、顏色空間相似度為10。結果如圖1b)所示,並用[sp(n,r)]表示第[n]幀的第[r]個超像素。
3) 對訓練階段得到的所有超像素進行特徵提取。由於超像素在通常情況下具有不規則的形狀,不能簡單地提取其邊緣特徵或紋理特徵。因此,本文選用的是歸一化後的HIS顏色直方圖,並用[frn]表示第[n]幀第[r]個超像素的特徵向量,如圖1c)所示。
4) 使用K?Means算法對前[n]幀獲取的所有超像素特徵向量進行聚類,聚類所得的結果就是超像素字典Dsp。該字典中的第[i]個聚類包含3部分信息:聚類的前景背景置信值[ciclst],如式(1)所示;聚類中心對應超像素的特徵向量[fi];該聚類中所含超像素特徵向量的集合為[frnfrn∈cluster(i)]。
[ciclst=s+(i)s+(i)+s-(i)] (1)
式中:[s+(i)]表示該超像素聚類與前景的重合面積;[s-(i)]表示該超像素聚類與背景的重合面積。[ciclst]的取值範圍是[0,1],某一時刻[ciclst]越大,表明該超像素聚類是運動跟蹤目標的可能性更大。如圖1d)所示,當某超像素聚類中所有超像素都位於目標區域時,其置信值為1;當某超像素聚類中的所有超像素都在目標區域外的觀測區域中時,其置信值為0。
1.2 BoF字典的構建
為了更好地提高運動目標跟蹤算法的精度和魯棒性,本文在超像素字典的基礎上進一步引入了BoF字典。該BoF字典只基於運動目標的前景,整個過程為:
1) 如圖2a)所示,先運用SLIC算法對前5幀圖像中的運動目標區域進行超像素分割。再使用傳統的規則網格分割方法將待測圖像分割為尺寸大小完全相同的矩形塊(本文選定為5×5像素)。
2) 以各矩形塊中心點像素為基準點,獲取該像素所屬超像素的HIS顏色直方圖特徵向量[frn],見圖2b)所示。
3) 使用K?Means算法對前5幀圖像中所有矩形塊對應超像素的特徵向量進行聚類,生成BoF字典DBoF,如圖2c)所示。
4) 最後根據該BoF字典生成訓練階段各幀圖像的BoF直方圖,並用[bn]表示第[n]幀圖像的BoF直方圖特徵向量,如圖2d)所示。
2 基於超像素和BoF的運動目標跟蹤
2.1 粒子濾波框架
粒子濾波是一種基於貝葉斯重要性採樣原理的序貫蒙特卡洛方法,在非線性、非高斯分布的目標跟蹤系統中,具有較好的魯棒性,一般可以分為預測和更新兩個階段,如下:
[p(XtY1:t-1)=p(XtXt-1)p(Xt-1Y1:t-1)dXt-1] (2)
[p(XtY1:t)∝p(YtXt)p(XtXt-1)p(Xt-1Y1:t-1)dXt-1] (3)
式中:[p(YtXt)]表示目標的表觀模型;[p(XtXt-1)]表示目標的運動模型。在粒子濾波框架下,[p(XtY1:t)]可以通過t時刻N個帶有重要性權值[ωit]的採樣粒子[Xiti=1,2,…,N]通過MAP方法近似求解。
2.2 相似度度量
粒子濾波框架下,需要度量粒子候選目標與表觀模型中字典的相似度,從中選出相似度最大的最優粒子作為當前幀的跟蹤結果,相關過程如下:
1) 新一幀圖像的特徵提取:以上一幀運動目標的跟蹤結果為均值,隨機生成600個候選粒子。然後以每個候選粒子為中心,構建包含目標區域的觀測區域,經超像素分割後,用[fjm]表示候選粒子[m]的第[j]個超像素的HIS直方圖特徵向量,[εjm]表示該超像素包含的像素個數。
2) 求解候選粒子[m]與超像素字典的相似度[Ψspm]:先求出候選粒子中第[j]個超像素與超像素字典中第[i]個聚類的最大相似度[ωspm(j,i)],如式(4)所示。[ωspm(j,i)]越大,表明該超像素與聚類[i]的相似度越高。
[argmaxiωspm(j,i)=argmaxiexp-fjm-fi22] (4)
再由[ωspm(j,i)]、對應聚類的前景背景置信值[ci]以及該超像素所含像素數目[εjm]進行加權求和,最終得到[Ψspm],如下:
[Ψspm=εjm*ωspm(j,i)*ciclst] (5)
3) 求解候選粒子[m]與BoF字典的相似度[ΨBoFm]:先求出候選粒子[m]的第[j]個超像素[fjm]與BoF字典中第[i]個聚類[DiBoF]之間的最大相似度,如下:
[Ijm=argmaxiexp-DiBoF-fjm22] (6)
然後由[Ijm]得到該候選粒子基於超像素BoF字典的特徵向量[bm]。再由式(7)求解該候選粒子與各訓練幀BoF特徵向量[bn]的最大相似值,即得該候選粒子與BoF字典的相似度[ΨBoFm]:
[ΨBoFm=argmaxiexp-bm-bn22] (7)
4) 由[Ψspm]和[ΨBoFm]可以得到候選粒子[m]與運動目標表觀模型的相似度[Ψm],如式(8)所示,並由此求出相似度最大的最優粒子。
[Ψm=μ1Ψspm+μ2ΨBoFms.t. μ1+μ2=1] (8)
2.3 在線字典更新
為了能夠使算法更好地應對遮擋、光照、形變等干擾因素的影響,需要在運動目標跟蹤過程中對表觀模型中的字典進行在線更新。通過更新可以及時獲取運動目標表觀模型前景和背景的變化,更新得越頻繁,得到的表觀模型越相似,但計算量會急劇增大。本算法中,字典的在線更新包括樣本選擇和聚類更新兩個階段,其中字典樣本集中包含12幀圖像的跟蹤結果。
樣本選擇階段,需要判定是否存在遮擋。本算法根據式(5)和式(7)求解最優粒子的[Ψsp]和[ΨBoF],當兩者分別低於指定閾值[λsp]和[λBoF],即判定存在遮擋。當不存在遮擋時,剔除樣本集中第一幀(時間最早)的相關信息,並把當前幀的相關信息放在樣本集的末尾。當存在遮擋時,同樣剔除時間最早一幀的相關信息,但在樣本集中保留最後3幀的位置不變,將當前幀的信息存放到倒數第4幀的位置。聚類更新階段,本算法每隔12幀(也就是常用幀率的[12)],通過聚類算法更新一次超像素字典和BoF字典,更新的方式可參考第1.1節和1.2節中的相關內容。因此在實際跟蹤過程中,當運動目標被遮擋時,聚類結果仍然保留了未遮擋時運動目標的相關信息,提高了跟蹤算法的有效性和魯棒性。
3 實驗結果與分析
為了驗證本文算法能在複雜環境下實現有效而準確的跟蹤,本文基於bird2,lemming,woman等複雜場景的視頻圖像序列,將其與MIL,L1APG,SPT,TLD四種算法做了定量和定性兩方面的對比分析。相關視頻序列和算法源碼可參考文獻[1]提供的網址:http://cvlab.hanyang.ac.kr/tracker_benchmark/index.html。本文相關實驗都基於Matlab平台,遮擋閾值[λsp]和[λBoF]統一設定為0.8。
3.1 定量分析
本算法使用以下2個評價標準進行定量分析:
1) 跟蹤成功率:定義如式(9)所示,當[P>0.5]時表明算法跟蹤成功。
[P=area(Rgt?Ral)area(Rgt?Ral)] (9)
式中:[Rgt]表示各視頻序列中原先標定好的真實目標區域;[Ral]表示算法實時在線跟蹤後得到的目標區域。表1顯示了5種算法跟蹤成功率的平均值,並用黑色粗體標識了各視頻圖像序列的最優算法。
3.2 定性分析
視頻序列的跟蹤結果比較見圖4。
1) 實驗一:bird2圖像序列中的運動目標主要受到遮擋、非剛性變換、快速移動等內外部因素的影響。例如,13幀處目標被遮擋,58幀處目標外觀第一次反轉,97幀處發生第二次反轉。本文算法和SPT算法精確跟蹤目標,且本文算法的跟蹤精度更高。主要原因是在傳統SPT算法的基礎上結合了超像素BoF字典,使表觀模型能夠更好地反應低層像素所對應的超像素特徵信息。
2) 實驗二:lemming圖像序列中的目標在運動過程中主要受到遮擋、快速移動、尺度變換等干擾因素的影響。例如,557幀處目標部分移出了取景框,896幀處目標受到了相似背景的干擾,1 130幀前目標經歷了多次前後翻轉。傳統SPT算法發生了較大的漂移甚至完全丟失目標,在結合了BoF字典的相關信息後,使得本文算法精準地跟蹤到了目標。
3) 實驗三:woman圖像序列中的運動目標受到了遮擋、光照變換、尺度變換、運動模糊等干擾因素的影響。例如,126幀處運動目標的下半部分受到了相似背景的大面積遮擋,MIL,L1APG,TLD算法產生了漂移並丟失了目標,513幀處運動目標的頭部受到了相似背景的遮擋,562幀處目標發生了快速的尺度變化。本文算法能夠比SPT算法更快更准地追蹤到目標的變化,其原因主要是基於規格網格中心點像素對應超像素BoF字典的輔助作用。
4 結 語
本文提出一種粒子濾波框架和在線字典更新相結合的運動目標跟蹤算法。該算法將運動目標表觀問題轉化為中層視覺線索的超像素字典和低層像素特徵的BoF字典的最大相似度匹配,實現對運動目標表觀模型的混合建模。其優點在於當目標處於重度遮擋、非剛性變換、相似背景等嚴重干擾因素的影響下,該算法仍能準確地跟蹤到物體,具有較好的穩定性和魯棒性。
參考文獻
[1] WU Y, LIM J, YANG M H. Object tracking benchmark [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834?1848.
[2] KWON J, LEE K M. Visual tracking decomposition [C]// Proceedings of IEEE Computer Society Conference on Computer Vision & Pattern Recognition. San Francisco: IEEE Computer Society, 2010: 1269?1276.
[3] MEI X, LING H. Robust visual tracking and vehicle classification via sparse representation [J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(11): 2259?2272.
[4] BAO C, WU Y, LING H, et al. Real time robust L1 tracker using accelerated proximal gradient approach [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 1830?1837.
[5] CHENG X, LI N, ZHANG S, et al. Robust visual tracking with SIFT features and fragments based on particle swarm optimization [J]. Circuits systems & signal processing, 2014, 33(5): 1507?1526.
[6] BABENKO B, YANG M H, BELONGIE S. Visual tracking with online multiple instance learning [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 983?990.
[7] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking?learning?detection [J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 34(7): 1409?1422.
[8] YANG F, LU H, ZHANG W, et al. Visual tracking via bag of features [J]. IET image processing, 2012, 6(2): 115?128.
[9] YANG M H, LU H, ZHONG W. Robust object tracking via sparsity?based collaborative model [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 1838?1845.
[10] YANG F, LU H, YANG M H. Robust superpixel tracking [J]. IEEE transactions on image processing, 2014, 23(4): 1639?1651.

收藏

相關推薦

清純唯美圖片大全

字典網 - 試題庫 - 元問答 - 简体 - 頂部

Copyright © cnj8 All Rights Reserved.