您的位置 :  首頁 > 新聞資(zī)訊 > 行業新聞

智能視覺分(fēn)析技術應用而生(shēng) 未來市場可觀

發布時間: 2015-03-27  浏覽:181次
淺談智能視覺技術應用與發展
【CPS中(zhōng)安網 cps.com.cn】通俗地說,智能視覺技術,就是通過計算機自動對攝像頭采集的視頻信息進行分(fēn)析處理,從視頻序列中(zhōng)捕捉存在的感興趣區域及目标,并進一(yī)步獲取目标的出現時間、運動軌迹、顔色等諸多信息,通過對各個目标的上述信息的分(fēn)析。
  智能視覺技術核心是運動目标檢測、分(fēn)類、跟蹤與識别技術等。運動目标檢測是将視頻圖像序列中(zhōng)的感興趣目标(如車(chē)輛或人)檢測出來,以備後續步驟的使用;目标檢測的目的就是準确地從通過運動檢測得到的運動區域中(zhōng)提取出與目标相對應的團點。
  研究人員(yuán)已經開(kāi)發了多種運動目标檢測的方法,包括幀間差分(fēn)法,光流法和背景減除算法。根據實際應用需求的不同,不同的檢測算法都是在可靠性、實時性和準确性之間折衷得到的。目标分(fēn)類的目的是從檢測到的運動區域中(zhōng)将對應于人的運動區域提取出來.不同的運動區域可能對應于不同的運動目标,比如交通道路上監控攝像機所捕捉的序列圖像中(zhōng)可能包含行人、車(chē)輛及其它諸如飛鳥、流雲、搖動的樹(shù)枝等運動物(wù)體(tǐ),爲了便于進一(yī)步對行人進行跟蹤和行爲分(fēn)析,運動目标的正确分(fēn)類是完全必要的.注意,這個步驟在一(yī)些情況下(xià)可能是不必要的(比如已經知(zhī)道場景中(zhōng)僅僅存在人的運動時)。運動目标跟蹤是在需要監控的環境裏,如何能夠判斷出進入特定區域的目标,并且能夠跟蹤目标的軌迹。
  具體(tǐ)可分(fēn)爲兩種情況:一(yī)是靜态背景下(xià)的目标跟蹤;二是動态背景下(xià)的目标跟蹤。靜态背景下(xià)的目标跟蹤方法具體(tǐ)可分(fēn)爲單目标跟蹤與多目标跟蹤。單目标的靜态背景下(xià)的目标跟蹤指的是攝像頭是固定在某一(yī)方位,其所觀察的視野也是靜止的。多目标跟蹤是指在靜态環境下(xià)的多目标跟蹤,需要确定每個目标的特征,位置,運動方向,速度等信息。動态背景下(xià)的目标跟蹤指的是攝像頭在雲台控制下(xià)旋轉,會使得他所采集的圖像時可在變化,所以,對于整個目标跟蹤過程來說,背景是變化,目标也是在整個過程中(zhōng)運動的,所以跟蹤起來較有難度。人的行爲理解與描述是越來越被廣泛關注的研究熱點,它是指對人的運動模式進行分(fēn)析和識别,并用自然語言等加以描述.行爲理解可以簡單地認爲是時變數據的分(fēn)類問題,即将測試序列與預先标定的代表典型行爲的參考序列進行匹配。
  當前的智能視覺技術主要集中(zhōng)在基于RGB光學圖像的處理上,根據各種顔色空間、目标的紋理結構分(fēn)析或者灰度特征、運動特征等來檢測與跟蹤目标,但由于RGB圖像無法獲取物(wù)體(tǐ)在三維空間中(zhōng)的距離(lí)信息,相關的算法受到周圍環境、光照變化、背景等因素的影響,在目标檢測與跟蹤上魯棒性較差,難以實現複雜場景下(xià)的任意目标檢測和在線跟蹤,應用受到很大(dà)的限制。
  因爲彩色攝像頭獲取的圖像隻保留了空間的二維信息,所以這些方法都是二維空間上進行處理,隻能獲得目标的二維運動信息。真實世界中(zhōng)的目标是在三維空間運動的,如果隻獲取二維運動信息将難以達到實際應用的魯棒性要求。因此,越來越多的研究者開(kāi)始利用深度圖像來進行目标的檢測、跟蹤與識别。目前通過圖像感應器獲取三維信息主要有兩種方式。其中(zhōng)一(yī)種原理與人眼視覺系統類似,采用兩個彩色攝像頭同時拍攝同一(yī)場景,通過兩個攝像頭的視差推導出場景中(zhōng)像素離(lí)攝像機的遠近,即深度(Depth)。這種方式通常稱爲雙目立體(tǐ)視覺(BinocularStereoVision)。利用雙目圖像推導深度信息需要先計算兩幅圖像像素之間的對應關系,即左邊圖像的像素與右邊圖像的哪個像素是描述的空間中(zhōng)的同一(yī)個點。根據投影關系,距離(lí)較遠的點投射到兩個圖像平面的坐标偏差較小(xiǎo)。利用這一(yī)原理可以通過坐标偏差推導出深度。
  然而求左右圖像像素的對應關系是一(yī)個不适定性問題(Ill-PosedProblem),因爲本質上彩色攝像機捕獲的表面的外(wài)觀,并不包含深度信息,求對應關系隻能根據外(wài)觀的相似度來推導,而不是同一(yī)位置的外(wài)觀也可能是相似的。因此雖然多年來學者們在這個方向上嘗試了各種可能的手段,仍不能取得滿意的效果。另外(wài),計算像素對應關系以及根據對應關系并利用像素間的相關性進行優化得到深度都需要耗費大(dà)量的計算資(zī)源。到目前爲止,該問題仍是一(yī)個開(kāi)放(fàng)性問題,沒有能夠産品化而得到普遍的應用。
  另一(yī)種利用圖像感應器獲取三維信息的原理與雷達類似:采用主動的方式由一(yī)個激光發射器向場景中(zhōng)發射激光(一(yī)般是肉眼不可見的紅外(wài)激光),然後用一(yī)個接受感應器接受反射回來。發射的激光可以是一(yī)些特定的規則模式,遠近不同的對象反射回來後模式會不同(如大(dà)小(xiǎo)),這樣通過分(fēn)析接收到的發射紅外(wài)圖像就可以得到深度信息。這種方式稱之爲結構光(StructuredLight)深度獲取方法;發射的激光也可以是一(yī)些相位固定,遠近不同的對象發射會得到不同的相位,這樣根據接收到的激光的相位可以分(fēn)析出激光飛行的時間,從而得到深度。這種方式稱之爲飛行時間(Time-of-Flight,ToF)深度獲取方式。
  不管是結構光還是ToF方式的攝像頭,早期由于其制造工(gōng)藝複雜,造價很貴,而且感應速度很慢(màn)遠達不到實時,隻能應用在一(yī)些專業領域。随着制造技術及電子技術的發展,最近兩年來,這類利用光源獲取深度信息的技術取得了突破性的進展。一(yī)些價格低廉并且速度很快的三維成像設備開(kāi)始面世。不少公司都發布了可以實時采集深度信息的攝像頭(例如MicrosoftKinect、PrimeSense、華碩Xtion)等。這些攝像頭可以以大(dà)于30幀每秒的速度采集分(fēn)辨率超過640480的深度圖像。所謂深度圖像指以像素矩陣的形式組織的場景中(zhōng)的深度信息,與普通圖像不同的是,圖像中(zhōng)的每一(yī)個像素的值不是顔色或者灰度值,而是該像素描述的點離(lí)攝像機的距離(lí)。Kinect是微軟在2010年發布的專爲XBOX360遊戲機開(kāi)發的體(tǐ)感設備,它使用結構光産生(shēng)深度圖像。Kinect的全身體(tǐ)感技術引發了基于深度信息的研究熱潮如圖1所示。
  深度圖像的處理和識别雖然不是一(yī)個全新的研究方向,但是以前由于受限于深度攝像頭,其研究都局限在一(yī)些專業的領域,很多地方還是空白(bái)。随着廉價實時的深度攝像頭的出現,對人機交互和計算機視覺提出了很多新的問題。從近兩年計算機視覺和模式識别的頂級國際會議IEEEConferenceonComputerVisionandPatternRecognition(CVPR)上發表的論文來看深度圖像處理相關的論文越來越多并且影響力也越來越大(dà)。
  其次,由于廉價、實時的深度圖像攝像頭的出現,在視頻監控領域也有了不俗的應用。韓國一(yī)名程序員(yuán)利用Kinect開(kāi)發出了一(yī)款監視邊境線的系統,如圖2所示。這個系統早在去(qù)年8月就開(kāi)始開(kāi)發,直到最近才向外(wài)界公開(kāi),并被韓國軍方使用。這個系統利用Kinect攝像頭的紅外(wài)線功能檢測穿過韓朝兩國邊境線的物(wù)體(tǐ),能夠識别動物(wù)和人。如果系統檢測到穿過邊境線的是人,就會立即拉響最近的警報。
  微軟表示Kinect最具潛力的一(yī)個新用途就是用來确保家庭安全,它的運動跟蹤系統完全可以勝任這種類似安防攝像機的工(gōng)作。雖然傳統的安防攝像機也可以很出色的完成安防工(gōng)作,但Kinect的感應功能引入以後就可以更精準的跟蹤入侵者的活動,以便讓記錄下(xià)了更有利用價值的視頻資(zī)料。歐洲的一(yī)家高端視頻監控公司也利用KINECT進行安全監控,他們開(kāi)發的産品使用戶可以通過手勢來改變監控錄像的布局,可進行錄像、變焦、快退、孤立片段的操作以及内容顯示如地圖和網頁等。 
  國内不少院校也對基于深度信息的智能視頻技術展開(kāi)了深入研究,武漢大(dà)學計算機學院國家多媒體(tǐ)軟件工(gōng)程技術研究中(zhōng)心采用微軟公司的Kinect傳感器來獲取深度圖像,并重點研究基于深度圖像實時徒手交互中(zhōng)的人手檢測、跟蹤與手勢識别技術,實現複雜背景下(xià)自然的手勢交互。人手檢測指交互系統初始化時判定場景中(zhōng)出現人手或者出現有交互意願的人手;人手跟蹤指根據初始的人手位置判斷後續幀圖像中(zhōng)人手的位置,手勢識别以人手部的動作直接控制計算機的輸入。
  針對KINECT深度圖在距離(lí)變大(dà)情況下(xià)人手輪廓模糊,無法根據手部輪廓特點來确認候選手區域,揮手檢測失敗的問題,根據人手形狀在距離(lí)變化的情況下(xià),長寬比例滿足長條形的約束條件,引入人手形狀似長條型先驗知(zhī)識,提出基于形狀先驗和運動先驗的區域增長人手定位模型,形狀先驗按手型形狀比例約束爲限制,不受用戶與攝像頭距離(lí)遠近變化的影響。克服了手部輪廓模糊無法獲取候選人手及質心的困難。結合揮手運動先驗,最終定位人手啓動人機交互。将揮手檢測的适用距離(lí)由以前的0.7米到1.8米增加到3.2米,同時檢測率達到95%,提升了揮手檢測的效率,如圖3所示。針對人手跟蹤過程中(zhōng),人手與軀幹融合導緻跟蹤失敗的問題,提出了基于鄰域深度距離(lí)度量的人手跟蹤模型,通過預判人手與軀幹融合情況,來決定是否啓動人手運動檢測,恢複人手跟蹤,解決了人手與軀幹融合時,人手跟蹤錯誤問題,預判融合正确率92.9%,跟蹤恢複正确率92.3%如圖4所示。以上研究結果在國内外(wài)發表多篇SCI、EI檢索的科技文獻及專利。其成果具有現實的應用價值。
  綜上所述,智能視覺技術是安防領域中(zhōng)一(yī)個重要的研究分(fēn)支,它在智能監控、虛拟現實、用戶接口等方面的應用前景引起了廣大(dà)科研人員(yuán)的濃厚興趣。更多的研究者們正逐步将其成果推向更加智能的應用場合。


Copyright © 2019 青岛睿嘉弱电工程有限公司 All Rights Reserved.