前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的改進主題范文,僅供參考,歡迎閱讀并收藏。
DOIDOI:10.11907/rjdk.171863
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0198-04
0 引言
圖像分類一直是計算機視覺領域的一個基礎而重要的核心問題,具有大量的實際應用場景和案例。很多典型的計算機視覺問題(如物體檢測、圖像分割)都可以演化為圖像分類問題。圖像分類問題有很多難點需要解決,觀測角度、光照條件的變化、物體自身形變、部分遮擋、背景雜波影響、類內差異等問題都會導致被觀測物體的計算機表示(二維或三維數值數組)發生劇烈變化。一個良好的圖像分類模型應當對上述情況(以及不同情況的組合)不敏感。使用深度學習尤其是深度卷積神經網絡,用大量圖像數據進行訓練后可以處理十分復雜的分類問題。
卷積神經網絡是為識別二維形狀而專門設計的一個多層感知器,這種網絡結構對平移、縮放、傾斜等擾動具有高度不變性,并且具有強大的特征學習與抽象表達能力,可以通過網絡訓練獲得圖像特征,避免了復雜的特征提取與數據重建過程。通過網絡層的堆疊,集成了低、中、高層特征表示。AlexNet等網絡模型的出F,也推動了卷積網絡在海量圖像分類領域的蓬勃發展。
1 卷積神經網絡
卷積神經網絡是人工神經網絡的一種,其“局部感知”“權值共享”[1]等特性使之更類似于生物神經網絡,網絡模型復雜度大大降低,網絡訓練更容易,多層的網絡結構有更好的抽象表達能力,可以直接將圖像作為網絡輸入,通過網絡訓練自動學習圖像特征,從而避免了復雜的特征提取過程。
Yann LeCun等[2]設計的LeNet-5是當前廣泛使用的卷積網絡結構原型,它包含了卷積層、下采樣層(池化層)、全連接層以及輸出層,構成了現代卷積神經網絡的基本組件,后續復雜的模型都離不開這些基本組件。LeNet-5對手寫數字識別率較高,但在大數據量、復雜的物體圖片分類方面不足,過擬合也導致其泛化能力較弱。網絡訓練開銷大且受制于計算機性能。
2012年,在ILSVRC競賽中AlexNet模型[3]贏得冠軍,將錯誤率降低了10個百分點。擁有5層卷積結構的AlexNet模型證明了卷積神經網絡在復雜模型下的有效性,并將GPU訓練引入研究領域,使得大數據訓練時間縮短,具有里程碑意義。AlexNet還有如下創新點:①采用局部響應歸一化算法(Local Response Normalization,LRN),增強了模型的泛化能力,有效降低了分類錯誤率;②使用Dropout技術,降低了神經元復雜的互適應關系,有效避免了過擬合;③為了獲得更快的收斂速度,AlexNet使用非線性激活函數ReLU(Rectified Linear Units)來代替傳統的Sigmoid激活函數。
Karen等[4]在AlexNet的基礎上使用更小尺寸的卷積核級聯替代大卷積核,提出了VGG網絡。雖然VGG網絡層數和參數都比AlexNet多,但得益于更深的網絡和較小的卷積核尺寸,使之具有隱式規則作用,只需很少的迭代次數就能達到收斂目的。
復雜的網絡結構能表達更高維的抽象特征。然而,隨著網絡層數增加,參數量也急劇增加,導致過擬合及計算量大增,解決這兩個缺陷的根本辦法是將全連接甚至一般的卷積轉化為稀疏連接。為此,Google團隊提出了Inception結構[5],以將稀疏矩陣聚類為較為密集的子矩陣來提高計算性能。以Inception結構構造的22層網絡GoogLeNet,用均值池化代替后端的全連接層,使得參數量只有7M,極大增強了泛化能力,并增加了兩個輔助的Softmax用于向前傳導梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC競賽中以Top-5錯誤率僅6.66%的成績摘得桂冠。
網絡層數的增加并非永無止境。隨著網絡層數的增加,將導致訓練誤差增大等所謂退化問題。為此,微軟提出了一種深度殘差學習框架[6],利用多層網絡擬合一個殘差映射,成功構造出152層的ResNet-152,并在2015年的ILSVRC分類問題競賽中取得Top-5錯誤率僅5.71%的成績。隨后,對現有的瓶頸式殘差結構進行改進,提出了一種直通結構[7],并基于此搭建出驚人的1001層網絡,在CIFAR-10分類錯誤率僅4.92%。至此,卷積神經網絡在越來越“深”的道路上一往直前。
2 可變形的卷積神經網絡
2.1 空間變換網絡
空間變換網絡(Spatial Transformer Network,STN)[8]主要由定位網絡(Localisation net)、網格生成器(Grid generator)和可微圖像采樣(Differentiable Image Sampling)3部分構成,如圖1所示。
定位網絡將輸入的特征圖U放入一個子網絡(由卷積、全連接等構成的若干層子網絡),生成空間變換參數θ。θ的形式可以多樣,如需要實現2D仿射變換,那么θ就是一個2×3的向量。
2.3 本文模型
本文以自建的3層卷積網絡C3K5(如圖6所示)和VGG-16作為基準網絡,分別引入空間變換網絡、可變形卷積和可變形池化,構造出8個卷積神經網絡,用以驗證可變形模塊對淺層網絡和深層網絡的影響,如表1所示。
圖6中C3K5網絡模型包含3個帶有ReLU層、LRN層和池化層的卷積模塊,卷積層采用步長為1的5×5卷積核,輸出保持原大小,池化層采用步長為2核為2×2的最大值池化,即每經過一個卷積模塊,特征圖縮小為原來的一半。
3 實驗與分析
3.1 實驗設置
本文實驗環境:CPU為Intel i5-7400,8G內存,顯卡為GTX1060,采用Cuda8+CuDNN6.0加速。
實驗數據集包括公共圖像數據集mnist、cifar-10、cifar-100和自建圖像數據集pen-7。公共數據集分別有50 000張訓練樣本圖像和10 000張測試樣本圖像。自建數據集pen-7為京東商城的七類筆圖像庫,每類有600張圖片,圖像分辨率為200×200,總計訓練樣本數3 360,測試樣本數840, 圖7為其中的14個樣本。
3.2 結果與分析
分別將表1中的10個卷積網絡應用到mnist、cifar-10、cifar-100和pen-7四個數據集進行訓練,batch-size設置100,即每次傳入100張圖片進行訓練,每訓練100次測試一次(記為一次迭代),總共迭代100次,取最后10次迭代的準確率計算平均值,得各網絡應用在不同數據集的分類結果,如表2所示。
實驗結果表明,在卷積網絡中引入空間變換網絡、用可變形的卷積層和可變形的池化層替換傳統的卷積層和池化層,不管是在淺層網絡還是在深層網絡,都能獲得更高的分類準確率,這驗證了空間變換網絡和可變形卷積(池化)結構,豐富了卷積神經網絡的空間特征表達能力,提升了卷積網絡對樣本的空間多樣性變化的魯棒性。包含3種模塊的網絡獲得了最高的分類精度,使空間變換網絡、可變形卷積層和可變形池化層在更多應用場景中并駕齊驅成為可能。
4 結語
通過在現有卷積神經網絡中引入空間變換網絡、可變形的卷積層和可變形的池化層,使得卷積網絡在mnist、cifar-10、cifar-100及自建的pen-7數據集中獲得了更高的分類精度,包含3種模塊的網絡獲得了最高分類精度,證明了空間變換網絡、可變形的卷積層和可變形池化層都能豐富網絡的空間特征表達能力,協同應用于圖像分類工作,這為后續研究打下了堅實的基礎。
參考文獻:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
關鍵詞:無人機;STM32;道路檢測;神經網絡;模型訓練
傳統的道路巡檢和保養主要由人工來完成,需要投入大量的人力物力來保證道路的相對安全,這種方式存在著低效率、高成本且難以保證道路的決定安全[1]。固定式交通檢測設備大量設置在道路的主干路上,也存在著一些缺陷:(1)監控攝像頭不能做到全覆蓋且具有一定的探測盲區。(2)監控系統采用多屏幕方式,工作人員進行道路故障判斷時受限。(3)不能靈活的通知有關部門對事故的快速應急處理。為了克服上述的缺點,本文設計了一種基于卷積神經網絡的無人機道路巡檢系統,對發生故障和需要保養的道路能快速響應,及時的通知有關部門,避免事故的發生。
1系統的總體設計
在無人機道路巡檢系統中,我們主要考慮了以下幾個要求[3]:(1)無人機系統能滿足正常的工作;(2)無人機系統能適應各種天氣和氣候變化等;(3)無人機系統應充分考慮控制的安全性;(4)視頻流的傳輸應避免較長的延時。無人機道路巡檢系統主要由無人機系統設計、遠程控制系統、PC端系統三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:無人機將道路環境檢測的結果,將處理后的視頻流通過遠程傳輸的方式,發送到PC端進行實時監控道路狀況。遠程控制系統以STM32作為主控芯片,主要包括在無人機端和遙控端兩個部分,遙控端將控制指令通過2.4G通信發送到無人機端,此時無人機的做出相應的位姿變化,完成遙控端對無人機位姿的控制。無人機系統的圖像采集模塊芯片為樹莓派,完成圖像的采集并采用TCP通信實現遠程視頻的傳輸,將獲取的視頻流傳輸到PC端。PC端上使用OpenCV對圖像進行處理[4],利用深度學習模塊對設計的神經網絡進行數據訓練,從而得到檢測模型,最后在PC上接收處理過的數據并實時監測道路狀況。上述工作原理可實現無人機道路巡檢系統,下文將對其包括的三大模塊進行說明介紹。
2無人機系統設計
本次使用的是RaspberryPi3(modelB+)作為無人機的主控制板[7],無人機的飛行控制算法和圖像采集模塊集成在樹莓派中。遠程控制系統通過2.4G無線通信模塊連接,通過控制器實現對無人機飛行和圖像采集的控制。無人機系統總體結構如圖2所示。
3PC端系統設計
在PC端系統設計主要分為圖像預處理、模型訓練和視頻監控三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對前兩部分詳細介紹。
3.1圖像預處理
本系統對地面裂縫檢測的圖像預處理流程如圖3所示具體工作原理為:(1)采用加權平均灰度化對獲取的無人機影像進行灰度化處理;(2)對灰度化處理后的影像進行直方圖均衡化,使得影像具有高對比度和多元的灰度色調變化,為后續的濾波降噪奠定基礎;(3)對處理后的影像進行濾波降噪,消除孤立的噪聲點,采用方法的是中值濾波降噪;(4)使用迭代二值化處理將影像的灰度值設置合適的閾值,使得圖像更簡單,目標更突出,然后對圖像進行分割,計算迭代的閾值,判斷迭代的閾值是否收斂到某一值或者達到限定的迭代次數,如果是的話,將完成二值化處理和濾波,否則將初始二值化閾值;(5)最終完成道路故障的識別與標記。
3.2模型檢測
3.2.1卷積神經網絡原理使用卷積神經網絡進行模型訓練,首先使用卷積層實現特征的提取,原理如圖4所示。如圖5所示,卷積操作是模仿神經元的機制。不同的輸入在權重的影響下會有不同的輸出,根據損失函數的計算來不斷的更新權重,直到獲得合理的權重參數。初始傳遞的信號為x,中間通過權重w,再經過偏置b后連接在末端,最后輸出信號變成wx+b。fun(?)表示激活函數,最終f(z為輸出的結果,如式(1)所示。3.2.2卷積神經網絡訓練流程通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測道路安全的關鍵一步,(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:根據實際應用場景增加圖像的種類和數量,不斷訓練模型。3.2.3故障的基本分類道路故障主要路面缺陷(例如裂縫、殘缺等)和路面增加(例如長時間靜止的車輛和路人),各自訓練集數量為1000張。如表1所示。3.2.4實驗測試為實現故障的檢測,測試數據集為100張,不同類型故障數據50張,均采集自新道路且與訓練樣本一致,實驗結果如表2所示。由表2可知,檢測路面增加(例如長時間靜止的車輛和路人)的準確率高達96%,但是地面缺陷的準確率相比較而言略低,可能造成的原因是:①硬件原因導致采集的圖像清晰度比較低;②地面缺陷太小,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但是滿足了設計需求,還需進一步改進。
4總結與展望
關鍵詞:圖像復原;盲復原;逆濾波;神經網絡復原
1 圖像退化及復原模型
1.1 圖像降質的數學模型
圖像復原處理的關鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經過某個退化系統后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應用情況一致,如圖像數字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數方式將其轉化為相加形式。原始圖像f(x,y) 經過一個退化算子或系統H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數學表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統計性質的信息下圖表示退化過程的輸入和輸出的關系,其中H(x,y)包含了退化系統的物理過程,即所要尋找的退化數學模型。
1.2 圖像的退化恢復模型
數字圖像的圖像恢復問題可以看作是:根據退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復原是數字圖像處理技術的一個重要研究方向,在現實生活中,有著非常廣闊的應用前景和市場。數字圖像處理研究很大部分是服務于數字圖像復原的,而運動模糊圖像的復原又是圖像復原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛星所拍攝的圖像進行復原,因為衛星相對地球是運動的,所拍出的圖像是模糊的(當然衛星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發回的月球照片進行了圖像恢復處理。傳統的圖像恢復方法可以很好地恢復出來原始圖像,但是需要事先知道系統的先驗知識(例如系統的點擴散函數)。在先驗知識不足的情況下,如何恢復出來原始圖像?這就需要模糊圖像盲恢復技術。根據不同的應用背景和先驗知識,大致可以兩種方法恢復兩種類型的模糊圖像,以滿足不同的應用要求。
第一種方法:如何快速恢復模糊圖像,進行適時性圖像處理?這個技術在實際生活中有著廣泛應用。
第二種方法:如何在事先不能確定模糊系統點擴散函數的情況下,恢復模糊圖像,改善圖像的質量,這就是圖像盲恢復的問題。
3 國際國內研究發展和現狀
從歷史上來看,數字圖像處理研究有很大部分是在圖像恢復方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應用于數字圖像恢復。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復原過來,從而增強人們的判讀能力。早期做圖像復原研究,主要強調盡可能使模糊圖像復原到原貌,增加它的判讀性,在此發展了很多的復原方法,諸如:差分復原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應用上均有一定的限制。
雖然經典的圖象復原方法不少,但歸納起來大致可分為逆濾波法,或稱相關變換法( inv ersefiltering or t ransfo rm related techniques) 和代數方法( alg ebraic techniques) 兩種。
3.1 傳統復原法
3.1.1 逆濾波方法
逆濾波法大致有經典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經典逆濾波的變換函數是引起圖象失真的變換函數的逆變換,其雖在沒有噪聲的情況下,可產生精確的復原圖象,但在有噪聲時,將對復原圖象產生嚴重的影響,雖然濾波函數經過修改,有噪聲的圖象也能復原,但它僅適用于極高信噪比條件下的圖象復原問題; 維納濾波法是通過選擇變換函數,同時使用圖象和噪聲的統計信息來極小化均方復原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩過程的假設,還需要知道非退化圖象的相關函數或功率譜特性等等,而在實際應用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復原問題時,提出了一種解決空間和時間相關性的多幀維納濾波法,是近年來維納濾波法的新發展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩圖象的復原,但是因計算量過大,而限制了其實際應用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復原方法,該方法可以較好地復原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數估計濾波法,它實質上是維納濾波法的變種. 20 世紀90 年代初,又提出了基于遞歸圖象濾波的自適應圖象復原方法及合成濾波方法,它代表了濾波方法新的發展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數中增加了空間自適應正則化項,從而很好地抑制了噪聲,并減少了振鈴現象,較好實現了在低SNR 條件下的盲圖象復原. 2001 年,Eng 等人結合模糊集的概念,提出了自適應的軟開關中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節,是一種值得重視的新的圖象復原方法。
3.1 2 代數方法
Andrews 和Hunt 提出了一種基于線性代數的圖象復原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數,而相對于分析連續函數,又更喜歡離散數學的人的口味。它為復原濾波器的數字計算提供了一個統一的設計思路。代數方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復原方法等。 其中,偽逆法,實質上是根據圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經常會出現不穩定的現象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協方差的情況。前面的方法僅把圖象看成是數字的陣列,然而一個好的復原圖象應該在空間上是平滑的,其在幅度值上是正的,而約束圖象復原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術而提出的圖象復原方法就是一種約束圖象復原方法,而且通過選取不同的約束參數和回歸方法可以得到不同的圖象復原算法。傳統的圖象復原算法或面臨著高維方程的計算問題,或要求恢復過程滿足廣義平穩過程的假設,這就是,使得具有廣泛應用價值的圖象復原問題沒有得到圓滿的解決的根本原因。
3.2 神經網絡圖象復原的方法
神經網絡圖象復原方法的發展方向自從神經網絡圖象復原首次提出十多年來,其研究在不斷地深入和發展,描述它的現狀已屬不易,展望它的未來更是困難,況且科學研究具有不確定性. 據筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經網絡用于圖象復原將是研究的重點
自1992 年Zhang 提出小波神經網絡以來,如今已提出了各種類型的小波網絡,且小波與神經網絡的結合成了一個十分活躍的研究領域。通過學者們的理論分析和模擬實驗表明: 由于小波神經網絡具有逼近能力強、可顯著降低神經元的數目、網絡學習收斂的速度快、參數( 隱層結點數和權重) 的選取有理論指導、能有效避免局部最小值問題等優點,因此將其用于圖象復原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質,與神經網絡的大規模并行性、自學習特性等優點結合起來,不僅將使用于圖象復原的小波神經網絡具有自適應分辨性,也將使正則化參數的選取更具有自適應能力. 最終使復原圖象既能保持圖象的細節,又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經網絡、BP 網絡、自組神經網絡
值得進一步研究細胞神經網絡( CNN ) 由于其具有易于硬件實現的特點,因而具有很強的商業價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經網絡理論基礎的進一步完善及在此基礎上建立細胞神經網絡中鄰域系統的概念; 與圖象數據局部相關性等概念結合起來研究,以建立新的圖象復原理論,形成新的圖象復原技術。BP 網絡對受污染或帶噪聲的訓練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網絡的泛化能力強,使它在解決圖象復原問題時,可能比其他神經網絡具有更好的潛在性能。 將BP 網絡用于圖象復原是很值得進一步研究的.大家知道,人腦的學習方式是“自主的”,即有自組織和自適應的能力的,即人腦能在復雜、非平穩和有“干擾”的環境及其變化的情況下,來調整自己的思維和觀念,還能根據對外界事物的觀察和學習,找到其內在的規律和本質屬性,并能在一定的環境下,估計到可能出現的情況以及預期會遇到和感覺到的各種內容及情況。 自組織神經網絡(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數據中,揭示出它們之間內在關系的能力,因此將其用于“盲圖象”的復原將是非常有利的。
3.2.3 需要提出更適合圖象復原的新神經網絡模型
小波神經網絡是為逼近任意非線性函數而提出來的,但為了圖象復原的需要,可考慮針對圖象復原的特殊情況,提出新的神經網絡模型。 如,因為大多數圖象是由平滑區域和輪廓細節組成的,其圖象數據在平滑區域雖具有較強的相關性,但與輪廓細節相鄰的數據應極不相關,所以,提出一種專用于圖象復原的“相關性神經網絡模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應提出的“多項式神經網絡”,將它們用于圖象復原也是值得研究的。
3.2.4 神經網絡與其他理論的結合
研究是尋求新模型、新方法的重要途徑目前神經網絡的研究正由單純的神經計算轉向計算智能,并結合腦科學的研究向生物智能方向發展。 為此,神經網絡圖象復原的研究也應考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學科的研究成果。 與模糊系統的結合將是一個重要的研究方向,因為,神經網絡與模糊系統有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數學模型,而只需要根據輸入的采樣數據去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現出了很強的容錯能力; ( 3) 它們都可以用硬件來實現. 由此可見,將神經網絡與模糊系統結合,用于圖象復原將是有意義的研究工作。
4 未來展望
圖像恢復發展到現在,已經有了許多成熟的算法,但是還是存在許多問題,等待著我們去解決。目前圖像恢復的最新發展有:
1. 非穩圖像復原,即空間可變圖像復原。
2. 退化視頻信號的復原問題,以及攝像機拍照圖像復原,這是一個需要進一步研究的領域。
3. 運動補償時空復原濾波,同時將時間相關應用到運動補償中。
4. “Telemedicine“的出現,遠程診斷極大的依賴于遠程接受的圖像質量,圖像恢復在醫學領域中有相當重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復圖像恢復,這是一個具有發展潛力的研究方向。
參考文獻
1 馮久超,黃海東. 基于神經網絡的盲圖象恢復[ J ] . 計算機科學,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
關鍵詞: 積分投影; 循環神經網絡; 長短時記憶網絡; 防止過擬合技術; 精度; 留一法
中圖分類號:TP391.4 文獻標志碼:A 文章編號:1006-8228(2017)04-13-04
Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.
Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation
0 引言
人們表情的短時間變化,也叫微表情,心理學在這方面的研究很早就開始了。近年來,有關利用機器學習的方法來對微表情進行研究的學者越來越多,其成為當前一個熱門研究方向。微表情的研究成果可用于測謊[2-4]、臨床診斷等方面,因橐話閎思幢閌切睦硪繳也很難注意到1/25~1/5秒人表情的變化[1],而這時,機器可以很好的對微表情進行自動的識別。
最近,基于積分投影和紋理描述符的方法被用在人臉識別[5],然而,很少有研究將積分投影用于包含人臉的時間序列中進行識別。微表情與人臉識別有很大不同,特征很難單從每幀圖片中提取,這時就需要考慮時間軸。LSTM可以對時序數據進行分類,以前基本用在語音識別和自然語言處理的任務中,很少用于圖像識別,可能是因為LSTM處理的是一維的數據,而圖像是二維的數據。將圖像的二維信息積分投影到一維(水平方向和垂直方向),并以此作為LSTM的輸入并分類,這樣就能將二者很好的結合起來。
本文構造了基于積分投影和LSTM的深度學習的模型來對微表情進行識別。得到的結果不僅比以前的基于局部二值模式(LBP)的方法好,而且也略微的優于最近基于積分投影的論文中的方法。
1 CASME II微表情數據集介紹
2014年,中科院心理研究所建立了更進一步改進的自然誘發的微表情數據庫CASMEII[8]。CASMEII有26個平均年齡為22歲左右的亞洲人,9類表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)組成。用來錄制的高速相機為200 fps。高速相機可以捕捉更細節的微表情。CASMEII是據我們所知目前最好的自然誘發的微表情數據庫。
2 基于差分圖像的積分投影
Mateos等人的開拓性工作[6-7]表明積分投影可以提取同一人臉圖像的共同基本特征。積分投影將人臉的特征水平和垂直投影,可以用公式⑴和⑵表示:
其中It(x,y)表示時間為t時,圖像位于(x,y)時的像素值,Ht(y)和Vt(x)表示水平和垂直積分投影。直接將積分投影應用到CASME II微表情數據集上效果如圖1所示。
然而,由于微表情的變化是十分微小的,若直接采用上面的積分投影會有很多噪聲,從圖1(c)可以看出區分不是很明顯。因此,我們采用改進的積分投影方法。可以用公式⑶和⑷表示:
我們將每個視頻下的2到N幀微表情的圖像減去第1幀,將得到的差分圖像做積分投影,效果如圖2所示。
從圖2的(c)可以看出,采用基于差分圖像的水平積分投影效果更好,去掉了不必要的噪聲。
3 長短時記憶網絡
循環神經網絡(RNN)可以用來處理時序數據,但它有一個明顯的缺陷,就是不能記憶發生在較久以前的信息。長短時記憶網絡(LSTM)[9]是一種特殊的RNN,比RNN多了一些特殊的門和細胞,可以學習長期依賴信息。LSTM結構如圖3所示。
最上面橫著帶箭頭的線包含細胞單元,作用是記憶之前LSTM單元的信息。x和+表示點分的乘法與加法,表示Sigmoid激活函數(如公式⑸),tanh表示雙曲正切激活函數(如公式⑹)。
最下面圓圈中的X和最上面圓圈中的h分別表示時序輸入和輸出。
通用的LSTM結構可以參考圖4,圖4中,底層節點為輸入,頂層節點為輸出,中間層為隱藏層節點或記憶塊。(a)描述的是傳統的 感知機(MLP)網絡,即不考慮數據的時序性,認為數據是獨立的;(b)將輸入序列映射為一個定長向量(分類標簽),可用于文本、視頻分類;(c)輸入為單個數據點,輸出為序列數據,典型的代表為圖像標注;(d)這是一種結構序列到序列的任務,常被用于機器翻譯,兩個序列長度不一定相等;(e)這種結構會得到一個文本的生成模型,每詞都會預測下一時刻的字符。
4 LSTM-IP模型
因為CASME II數據集每個視頻下微表情圖像幀數是不一樣的,為了方便我們統一LSTM的輸入,所以我們提取了最能代表這個視頻微表情的10幀,同時,本文將整個數據集圖像的尺寸統一到200×200像素,將原來彩色圖像轉化為灰度圖像。通過基于差分圖像的積分投影,得到一個視頻下差分圖像每幀圖像的水平和垂直投影,一個圖像可以得到一個200維的水平向量和一個200維的垂直向量,因為差分圖像是后面9張減去了第一張圖像,所以一個視頻下共有9個水平向量和9個垂直向量,初始化兩個9×200大小的一維向量分別保存水平向量和垂直向量。
本文采用圖4(b)和圖4(e)結合的LSTM結構,如圖5所示。
頂層的X_IP表示將一個視頻下9個差分圖像的水平投影組成的9×200的一維特征向量作為輸入,經過第一層LSTM得到9×128的一維特征向量,接著經過第二層LSTM得到9×128的一維特征向量,最后經過一層LSTM得到一個128的特征向量,Y_IP也是同樣的處理過程。最后將這兩部分的128的特征向量連接起來作為一個256的特征向量輸入softmax分類器,結果輸出屬于五類微表情的哪一類。在圖5的每兩層之間加入一層Dropout層,Dropout的比率設為0.5。LSTM內部參數初始化采用了glorot_normal,相比較于其他初始化方法,glorot_normal效果最好。
Softmax和Dropout在深度學習中都是常用的技術。Softmax是邏輯斯特回歸應用于多分類的推廣。Dropout[10]這種技術的作用是減少過擬合,是一種正則化技術,通過防止由完全連接的層引起神經元的參數過多,有助于減少神經網絡的過度擬合問題。給定 dropout率p,其在我們的LSTM中被設置為0.5,50%單位將被保留,而另外50%將被放棄。簡單地說,“Dropout”只是隨機忽略一些神經元。然而在測試階段,每個神經元的輸出將通過因子1-p(保持率)加權以保持與訓練階段中產生相同的效果。如圖6所示。
我們的實驗采用基于Theano的keras框架,keras借b了Torch的搭建深度學習網絡的方式,而且使用筆者比較熟悉的Python語言(Torch使用Lua語言),keras的底層可以是Theano或者Tensorflow,可能是因為keras最先在Theano開發的,經過實驗比較單個GPU下,Theano的速度要比Tensorflow快,所以我們的底層采用Theano。
5 實驗結果與分析
現在微表情識別的算法主要是基于LBP改進的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-
TOP)等。我們將LSTM-IP算法與以前的方法做了比較,如表1所示。
實驗是在CASME II上做的,因為CASME II微表情數據集是最新最好的微表情數據集。STLBP-IP也是基于積分投影的,結合了1DLBP來提取特征。通過表1的比較我們發現,基于積分投影的算法效果好于原來基于LBP的算法,可以得出,采用提取積分投影特征的方法在微表情數據集CASME II上效果比較好。可以看出,STLBP-IP的性能優于文獻[27]的重新實現,STLBP-IP的精度提高了20.64%。從表1中可知,時間插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,與STLBP-IP相比,LBP-TOP在微表情識別上的效果上有很大的差距(19.43%)。比較兩種基于積分投影的方法,本文提出的方法略微好于STLBP-IP,但通過閱讀STLBP-IP的論文筆者發現,這種方法存在繁瑣的調參過程,比如圖像如何分塊,SVM核參數的選擇,而本文提出的LSTM-IP算法可以自動從差分圖像的積分投影中學習,調參的內容比較少,而且速度也很快。這些結果表明,LSTM-IP實現了令人滿意的效果,而不是LOCP-TOP和LBP-SIP。 這部分地解釋了LSTM-IP通過使用積分投影來保持形狀和辨識的能力。
實驗采用了留一法交叉驗證,CASME II有26個subjects,通過把每個subject作為測試,其余作為訓練,循環26次,最后把每次測試得到的正確視頻個數相加除以總的視頻數,得到識別精度,這種方法現在是微表情識別主流的驗證方法。
6 Y束語
基于差分圖像的積分投影方法,保存了我們微表情形狀的特征,然后增強微表情的辨別力。深度學習在圖像識別領域已經取得了很不錯的成績,而現在深度學習的技術還沒有應用于微表情識別。本文將差分圖像的積分投影與LSTM結合,從實驗結果上看,結果要好于以前的方法。我們認為深度學習的探索不會停止,會有越來越多新的網絡模型產生,也會有越來越多的深度學習的技術應用于微表情識別。
我們將繼續探索基于深度學習的微表情識別的方法及技術手段。卷積神經網絡在圖像識別上取得了很好的成績,但筆者也將卷積神經網絡應用于微表情上,效果并不好,可能是因為微表情在圖像上變化比較細微,卷積神經網絡不容易捕捉到特征,但如果考慮了一個視頻時間序列的特性,也許會有比較好的結果,對此還有待進一步研究。隨著技術的進步,相信微表情識別效果會越來越好,并最終能夠應用于我們的生活中。
參考文獻(References):
[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-
srevealed. com,2003.
[2] Ekman P. Darwin, deception, and facial expression[J].
Annals of the New York Academy of Sciences,2003.1000(1):205-221
[3] Ekman P. Lie catching and microexpressions[J]. The
philosophy of deception,2009:118-133
[4] Ekman P, O'Sullivan M. From flawed self-assessment to
blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686
[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp
texture analysis[J]. Proc. FCTA,2013: 14-19
[6] Mateos G G. Refining face tracking with integral projections
[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368
[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P
E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234
[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved
spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041
[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].
Neural computation,1997.9(8):1735-1780
[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving
neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223
[11] Zhao G, Pietikainen M. Dynamic texture recognition
using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).
[12] Wang Y, See J, Phan R C W, et al. Lbp with six
intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537
[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal
contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612
P鍵詞關鍵詞:視網膜;PCNN;血管分割;MATLAB;GUIDE
DOIDOI:10.11907/rjdk.161883
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2016)008-0068-03
0 引言
眼睛是人體接受外界信息最主要的器官,約75%左右的信息來源于視覺信息。因此,眼睛健康與否對人的學習、生活和工作的影響非常大。而眼底則是這個器官的重要組成部分,主要包括視網膜、脈絡膜、黃斑和視盤等。眼底視網膜中的血管是人體內唯一可以非創傷的方式直接觀察到的較深層微血管,其顏色、亮度、位置分布、形狀以及曲率等變化可以直接反映出疾病對血管網絡形態結構的影響,是心腦血管疾病對血管微循環檢查的重要部位。因此,視網膜圖像中血管網絡的檢測與分割對心腦血管疾病的診斷及治療具有重要意義[1]。
由于該方法計算公式復雜,涉及參數較多,且目前主要使用編寫腳本程序的方式進行視網膜眼底圖像中的血管分割,各個參數的調整都要在腳本程序中進行,非常復雜,不便于可視化地觀察實驗結果變化。因此,設計開發一款界面友好、操作簡單的視網膜血管分割系統是非常必要的。
MATLAB是一款由Mathworks公司推出的數學軟件,它在數值分析、矩陣運算、數值擬合以及圖形繪制等方面均有極其強大的功能,已被廣泛應用于數字圖像處理、信號處理和系統仿真等各個領域。同時,MATLAB 軟件具有界面友好、操作簡單的圖形可視化界面設計工具,其集成圖形用戶界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜單、對話框、按鈕和文本等各種控件[2]。用戶通過對控件進行布局,編寫控件的回調函數即可實現GUI 與用戶之間的交互,操作十分方便。
本系統在對視網膜眼底圖像中的血管進行預處理并運用脈沖耦合神經網絡(Pulse Coupled Neural Network,PCNN)迭代原理分割的基礎上,利用MATLAB 的圖形用戶界面開發環境(GUIDE)實現了視網膜血管分割系統。該系統為醫學圖像研究提供了一種有效的視網膜血管分割方法,也為醫學圖像處理提供了一個操作方便的實驗平臺。
1 研究方法
首先是對視網膜眼底圖像中的血管進行預處理,然后利用PCNN方法對視網膜圖像中的血管進行分割。
1.1 視網膜血管圖像預處理
所處理的視網膜圖像為眼底視網膜RGB彩色圖像,通過將RGB 彩色圖像分解成紅、綠、藍三通道單色圖像可以發現,綠色通道的視網膜圖像中血管和背景對比度最高, 而紅、藍色通道的單色圖像中噪聲較多、對比度較低, 因此采用綠色通道的視網膜圖像進行處理。
由于視網膜眼底圖像是由專門的醫學設備采集的,血管周圍區域難免會對后續處理產生干擾,因此需要對視網膜圖像進行有效區域的選取。將RGB圖像進行二值化處理,使其歸一化到[0,1]之間,再依次應用形態學中的開運算、閉運算和腐蝕操作,生成二值掩膜圖像。
由于血管直徑大小不一、背景干擾以及成像時光照不均等因素影響,使得血管與背景的對比度較低。為獲得理想的分割效果,要對眼底圖像進行預處理,以增強血管和背景的對比度。本系統主要采用對比度受限制的自適應直方圖均衡化(CLAHE)[3]與二維高斯匹配濾波[4]方法對視網膜血管進行對比度的增強。
直方圖均衡化(HE)的基本思想是通過圖像的灰度分布直方圖確定一條映射曲線,用來對圖像進行灰度變換,以達到提高圖像對比度的目的。然而HE是對圖像全局進行調整的方法,不能有效提高局部對比度。為了提高圖像的局部對比度,有研究者提出自適應直方圖均衡化(AHE)方法,將圖像分成若干子塊,對子塊進行HE處理。但是AHE 對局部對比度提高過大,將導致圖像失真。為了解決這個問題,必須對局部對比度進行限制,這便是CLAHE方法。CLAHE處理后的圖像既能體現不同位置灰度分布之間的差異,又能使全局灰度較為協調。
二維高斯匹配濾波的原理主要是根據血管曲率較小且寬度漸進改變這一特點,將血管近似分段為等寬度的線段,然后用高斯曲線模擬其橫截面的灰度輪廓。由于血管方向具有任意性,因此需要旋轉高斯曲線來匹配不同方向的血管。每30°旋轉一次,得到從0°~180°的6個匹配濾波器,再分別與經過CLAHE處理后的圖像進行卷積,選擇其中最大的卷積值作為增強圖像的像素值。
最后,將經過CLAHE處理之后的圖像減去經過CLAHE、二維高斯匹配濾波后的圖像,即可得到最終的預處理結果。
1.2 基于PCNN的視網膜血管分割
脈沖耦合神經網絡 (PCNN ,Pulse Coupled Neutral Network)[5]是20世紀90年代形成和發展的與傳統人工神經網絡有著根本不同的新型神經網絡,其模型直接來源于高級哺乳動物的視覺神經系統,具有現實的生物學依據,在圖像處理與分析及計算機視覺領域中有著廣泛應用。它不僅能夠克服微小變化造成的影響,而且能夠較完整地保留圖像的區域信息。因此,使用PCNN進行視網膜血管圖像分割具有一定優勢。
本系統采用PCNN簡化模型對視網膜圖像血管自動分割,該模型不僅保持了原始模型的重要特性,而且減少了部分參數。用迭代公式可以描述為:
式中,Sij是外部刺激,即點(i,j)對應像素的灰度值,Fij是神經元的輸入項,Lij、Uij、Yij、Eij分別是神經元的耦合連接輸入、內部活動項、脈沖輸出和動態閾值。VL為連接輸入域的放大系數,β為神經元之間的連接強度系數,VE和αE分別為動態閾值的放大系數和衰減常數因子,W為連接加權系數矩陣。PCNN應用于眼底圖像處理時,其神經元數目與圖像像素數目一致,各神元與像素一一對應,像素的灰度值作為對應神經元的輸入Sij。當連接加權系數矩陣W所在鄰域內有相似灰度值像素時,若其中某個神經元點火產生脈沖輸出,會引起鄰域內相近灰度值像素對應的神經元點火,產生脈沖序列輸出,這些輸出脈沖序列構成的二值圖像Y即為輸出的分割圖像。
2 系統設計思路及方法
根據上述分割過程,將系統設計成兩大模塊,分別對應于兩個界面,主界面為視網膜圖像預處理模塊,子界面為視網膜血管分割模塊。通過使用MATLAB GUIDE中的控件進行布局和編寫相應的回調函數來實現各模塊功能。
利用MATLAB GUI實現視網膜血管分割系統的過程可以分為GUI 圖形界面布局和GUI 程序實現兩部分[6]。對于界面布局,首先要考慮窗口大小、控件位置以及界面所要實現的功能及各控件需要完成的任務。完成控件的布局之后,接著應對控件屬性進行設置,通過在相應的控件上雙擊鼠標左鍵,打開屬性查看器,設置該控件屬性。最后需要對各個控件進行回調函數的編寫,這是界面設計的關鍵一步,直接影響界面各個功能的實現。
3 系統功能實現
3.1 視網膜圖像預處理模塊
視網膜圖像預處理模塊包括選擇圖片、選擇RGB通道、CLAHE增強處理、二維高斯匹配濾波處理以及最終預處理結果5個子模塊,如圖1所示。
具體操作如下:界面初始化后自動加載一幅默認圖片,也可以由用戶選擇其它圖片;單擊“選擇圖片”按鈕,之后會彈出一個對話框,選擇要載入的圖片,可以看到圖片顯示在界面的左上角,文件名顯示在圖片正下方;然后選擇彩色通道,默認為綠色通道,選擇的通道圖像顯示在右邊區域左上角。如果勾選 “生成掩膜”選項,則后面的運行結果均會顯示出單擊“生成掩膜”之后的圖像,默認狀態為未勾選;接下來需要進行CLAHE處理,以增強圖像對比度。在這里,主要是對adapthisteq函數中的參數進行設置;最后單擊“運行”按鈕,結果顯示在右邊區域的右上角。在進行CLAHE處理之后,需要進行二維高斯匹配濾波處理,主要是對濾波核個數、血管半徑及血管段長度進行設置,以進一步增強血管與背景的對比度;然后單擊“運行”按鈕,結果顯示在右邊區域的左下角;單擊“最終預處理結果”按鈕,結果顯示在右邊區域的右下角。
3.2 視網膜血管分割模塊
視網膜血管圖像分割模塊主要是根據PCNN算法迭代原理,調節PCNN各個參數,對視網膜血管圖像進行分割,如圖2所示。
具體操作如下:單擊主界面中的“PCNN分割”按鈕,即可進入視網膜血管分割模塊的界面;接著選擇所需PCNN模型和核,并設置核的半徑大小。若選擇“原始模型”,則需要設置PCNN的6個參數,若選擇“改進模型”,則只需設置PCNN的4個參數;之后設置迭代次數和beta的值,單擊“運行”按鈕,在彈出的對話框中,選擇一幅迭代圖片,將自動生成分割結果;對于分割后的結果,單擊“保存”按鈕,可以保存圖片;最后單擊“返回”按鈕,可以返回主界面。
4 結語
基于MATLAB 軟件在圖形繪制、數值運算及可視化界面開發等方面的優勢,在對視網膜眼底圖像中的血管預處理并運用PCNN算法迭代原理進行分割的基礎上,通過MATLAB GUI 設計完成了視網膜血管分割系統,可以實現視網膜血管圖像的增強處理,進而利用脈沖耦合神經網絡方法對視網膜血管圖像進行分割。本系統提供了一種有效的視網膜血管分割方法,在醫學圖像研究方面具有一定參考價值。同時,系統具有界面友好、操作簡單等特點,為醫學圖像處理提供了一個操作方便的實驗平臺。
參考文獻:
[1] 姚暢,陳后金,李居朋. 基于過渡區提取的視網膜血管分割方法[J].電子學報,2008,36(5):974-978.
[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序設計[J]. 電腦知識與技術,2009,27(5):7767-7768.
[3] 陳萌夢,熊興良,張琰,等. 1種視網膜眼底圖像增強的新方法[J]. 重慶醫科大學學報,2014,39(8):1087-1090.
[4] 姚暢,陳后金. 一種新的視網膜血管網絡自動分割方法[J].光電子?激光,2009,20(2):274-278.
本文作者:工作單位:安徽埃夫特智能裝備有限公司
從控制系統設計角度來說,可以采用辯證法內外因基本原理來分析影響重載機器人控制品質的因素,首先,如果系統存在動力學耦合、柔性等非線性因素,僅僅采用傳統的線性控制很難獲得良好的控制品質,底層伺服回路的控制缺陷是影響機器人控制品質的內因。第二,如果運動規劃環節處理不當,傳輸給底層運動控制回路的運動指令不合理,即存在位置不連續,速度不連續,加速度躍變等情況,對系統會產生嚴重的沖擊,即便底層伺服控制設計再優秀,同樣也會嚴重影響系統控制品質,這就是所謂的外因。下面就從內外因角度對目前在機器人運動規劃和底層伺服控制方面的相關進展進行綜述。機器人運動規劃方法運動規劃與軌跡規劃是指根據一定規則和邊界條件產生一些離散的運動指令作為機器人伺服回路的輸入指令。運動規劃的輸入是工作空間中若干預設點或其他運動學和動力學的約束條件;運動規劃的輸出為一組離散的位置、速度和加速度序列。運動規劃算法設計過程中主要需要考慮以下三個問題:(1)規劃空間的選取:通常情況下,機器人軌跡規劃是在全局操作空間內進行的,因為在全局操作空間內,對運動過程的軌跡規劃、避障及幾何約束描述更為直觀。然而在一些情況下,通過運動學逆解,運動規劃會轉換到關節空間內完成。在關節空間內進行運動規劃優點如下:a.關節空間內規劃可以避免機構運動奇異點及自由度冗余所帶來種種問題[1-4];b.機器人系統控制量是各軸電機驅動力矩,用于調節各軸驅動力矩的軸伺服算法設計通常情況也是在關節空間內的,因此更容易將兩者結合起來進行統一考慮[5,6];c.關節空間運動規劃可以避免全局操作空間運動規劃帶來的每一個指令更新周期內進行運動規劃和運動學正逆計算帶來的計算量,因為如果指令更新周期較短,將會對CPU產生較大的計算負荷。(2)基礎函數光滑性保證:至少需要位置指令C2和速度指令C1連續,從而保證加速度信號連續。不充分光滑的運動指令會由于機械系統柔性激起諧振,這點對高速重載工業機器人更為明顯。在產生諧振的同時,軌跡跟蹤誤差會大幅度增加,諧振和沖擊也會加速機器人驅動部件的磨損甚至損壞[7]。針對這一問題,相關學者引入高次多項式或以高次多項式為基礎的樣條函數進行軌跡規劃,其中Boryga利用多項式多根的特性,分別采用5次、7次和9次多項式對加速度進行規劃,表達式中僅含有一個獨立參數,通過運動約束條件,最終確定參數值,并比較了各自性能[8]。Gasparetto采用五次B樣條作為規劃基礎函數,并將整個運動過程中加速度平方的積分作為目標函數進行優化,以確保運動指令足夠光滑[9]。劉松國基于B樣條曲線,在關節空間內提出了一種考慮運動約束的運動規劃算法,將運動學約束轉化為樣條曲線控制頂點約束,可保證角度、角速度和角加速度連續,起始點和終止點角速度和角加速度可以任意配置[10]。陳偉華則在Cartesian空間內分別采用三次均勻B樣條,三次非均勻B樣條,三次非均勻有理B樣條進行運動規劃[11]。(3)運動規劃中最優化問題:目前常用的目標函數主要為運行時間、運行能耗和加速度。其中關于運行時間最優的問題,較為經典是Kang和Mckay提出的考慮系統動力學模型以及電機驅動力矩上限的時間最優運動規劃算法,然而該算法加速度不連續,因此對于機器人來說力矩指令也是不連續的,即加速度為無窮大,對于真實的電驅伺服系統來說,這是無法實現的,會對系統產生較大沖擊,大幅度降低系統的跟蹤精度,對機械本體使用壽命也會產生影響[12]。針對上述問題Constantinescu提出了解決方法,在考慮動力學特性的基礎上,增加對力矩和加速度的約束,并采用可變容差法對優化問題進行求解[13]。除了以時間為優化目標外,其他指標同樣被引入最優運動規劃模型中。Martin采用B函數,以能耗最少為優化目標,并將該問題轉化為離散參數的優化問題,針對數值病態問題,提出了具有遞推格式的計算表達式[14]。Saramago則在考慮能耗最優的同時,將執行時間作為優化目標之一,構成多目標優化函數,最終的優化結果取決于兩個目標的權重系數,且優化結果對于權重系數選擇較為敏感[15]。Korayem則在考慮機器人負載能力,關節驅動力矩上限和彈性變形基礎上,同時以在整個運行過程中的位置波動,速度波動和能耗為目標,給出了一種最優運動規劃方法[6],然而該方法在求解時,收斂域較小,收斂性較差,計算量較大。
考慮部件柔性的機器人控制算法機器人系統剛度是影響動態性能指標重要因素。一般情況下,電氣部分的系統剛度要遠遠大于機械部分。雖然重載工業機器人相對于輕型臂來說,其部件剛度已顯著增大,但對整體質量的要求不會像輕型臂那么高,而柔性環節仍然不可忽略,原因有以下兩點:(1)在重載情況下,如果要確保機器人具有足夠的剛度,必然會增加機器人部件質量。同時要達到高速高加速度要求,對驅動元件功率就會有很高的要求,實際中往往是不可實現(受電機的功率和成本限制)。(2)即使驅動元件功率能夠達到要求,機械本體質量加大會導致等效負載與電機慣量比很大,這樣就對關節剛度有較高的要求,而機器人關節剛度是有上限的(主要由減速器剛度決定)。因此這種情況下不管是開鏈串聯機構還是閉鏈機構都會體現出明顯的關節柔性[16,17],在重載搬運機器人中十分明顯。針對柔性部件帶來的系統控制復雜性問題,傳統的線性控制將難以滿足控制要求[17-19],目前主要采用非線性控制方法,可以分成以下幾大類:(1)基于奇異攝動理論的模型降階與復合控制首先針對于柔性關節控制問題,美國伊利諾伊大學香檳分校著名控制論學者MarkW.Spong教授于1987年正式提出和建立柔性關節的模型和奇異攝動降階方法。對于柔性關節的控制策略絕大多數都是在Spong模型基礎上發展起來的。由于模型的階數高,無法直接用于控制系統設計,針對這個問題,相關學者對系統模型進行了降階。Spong首先將奇異攝動理論引入了柔性關節控制,將系統分成了慢速系統和邊界層系統[20],該方法為后續的研究奠定了基礎。Wilson等人對柔性關節降階后所得的慢速系統采用了PD控制律,將快速邊界層系統近似為二階系統,對其阻尼進行控制,使其快速穩定[21]。針對慢速系統中的未建模非線性誤差,Amjadi采用模糊控制完成了對非線性環節的學習[22]。彭濟華在對邊界層系統提供足夠阻尼的同時,將神經網絡引入慢速系統控制,有效的克服了參數未知和不確定性問題。連桿柔性會導致系統動力學方程階數較高,Siciliano和Book將奇異攝動方法引入柔性連桿動力學方程的降階,其基本思想與將奇異攝動引入柔性關節系統動力學方程一致,都將柔性變形產生的振動視為暫態的快速系統,將名義剛體運動視為準靜態的慢速系統,然后分別對兩個系統進行復合控制,并應用于單柔性連桿的控制中[23]。英國Sheffield大學A.S.Morris教授領導的課題組在柔性關節奇異攝動和復合控制方面開展了持續的研究。在2002年利用Lagrange方程和假設模態以及Spong關節模型建立柔性關節和柔性連桿的耦合模型,并對奇異攝動理論降階后的慢速和快速子系統分別采用計算力矩控制和二次型最優控制[24]。2003年在解決柔性關節機器人軌跡跟蹤控制時,針對慢速系統參數不確定問題引入RBF神經網絡代替原有的計算力矩控制[25].隨后2006年在文獻[24]所得算法和子系統模型的基礎上,針對整個系統穩定性和魯棒性要求,在邊界層采用Hinf控制,在慢速系統采用神經網絡算法,并給出了系統的穩定性分析[26]。隨著相關研究的開展,有些學者開始在奇異攝動理論與復合控制的基礎上作出相應改進。由于奇異攝動的數學復雜性和計算量問題,Spong和Ghorbel提出用積分流形代替奇異攝動[27]。針對奇異攝動模型需要關節高剛度假設,在關節柔度較大的情況下,劉業超等人提出一種剛度補償算法,拓展了奇異攝動理論的適用范圍[28]。(2)狀態反饋和自適應控制在采用奇異攝動理論進行分析時,常常要同時引入自適應控制律來完成對未知或不精確參數的處理,而采用積分流形的方式最大的缺點也在于參數的不確定性,同樣需要結合自適應控制律[29,30]。因此在考慮柔性環節的機器人高動態性能控制要求下,自適應控制律的引入具有一定的必要性。目前對于柔性關節機器人自適應控制主要思路如下:首先根據Spong模型,機器人系統階數為4,然后通過相應的降階方法獲得一個二階的剛體模型子系統,而目前的大多數柔性關節自適應控制律主要針對的便是二階的剛體子系統中參數不確定性。Spong等人提出了將自適應控制律引入柔性關節控制,其基于柔性關節動力學奇異攝動方程,對降階剛體模型采用了自適應控制律,主要采用的是經典的Slotine-Li自適應控制律[31],并通過與Cambridge大學Daniel之間互相糾正和修改,確立一套較為完善的基于奇異攝動模型的柔性關節自適應控制方法[32-34]。(3)輸入整形控制輸入整形最原始的思想來自于利用PosicastControl提出的時滯濾波器,其基本思想可以概括為在原有控制系統中引入一個前饋單元,包含一系列不同幅值和時滯的脈沖序列。將期望的系統輸入和脈沖序列進行卷積,產生一個整形的輸入來驅動系統。最原始的輸入整形方法要求系統是線性的,并且方法魯棒性較差,因此其使用受到限制。直到二十世紀九十年初由MIT的Signer博士大幅度提高該方法魯棒性,并正式將該方法命名為輸入整形法后[35],才逐漸為人們重視,并在柔性機器人和柔性結構控制方面取得了一系列不錯的控制效果[36-39]。輸入整形技術在處理柔性機器人控制時,可以統一考慮關節柔性和連桿柔性。對于柔性機器人的點對點控制問題,要求快速消除殘余振蕩,使機器人快速精確定位。
這類問題對于輸入整形控制來說是較容易實現的,但由于機器人柔性環節較多,呈現出多個系統模態,因此必須解決多模態輸入整形問題。相關學者對多模態系統的輸入整形進行了深入研究。多模態系統的輸入整形設計方法一般有:a)級聯法:為每個模態設計相應的濾波器,然后將所有模態的時滯濾波器進行級聯,組合成一個完整的濾波器,以抑制所有模態的振蕩;b)聯立方程法:直接根據系統的靈敏度曲線建立一系列的約束方程,通過求解方程組來得到濾波器。這兩種方法對系統的兩種模態誤差均有很好的魯棒性。級聯法設計簡單,且對高模態的不敏感性比聯立方程法要好;聯立方程法比較直接,濾波器包含的脈沖個數少,減少了運行時間。對于多模態輸入整形控制Singer博士提出了一種高效的輸入整形方法,其基本思想為:首先在靈敏度曲線上選擇一些滿足殘留振蕩最大幅值的頻段,在這些特定的頻帶中分別選擇一些采樣頻率,計算其殘留振蕩;然后將各頻率段的殘留振蕩與期望振蕩值的差平方后累加求和,構成目標函數,求取保證目標函數最小的輸入整形序列。將頻率選擇轉化為優化問題,對于多模態系統,則在每個模態處分別選擇頻率采樣點和不同的阻尼系數,再按上述方法求解[40]。SungsooRhim和WayneBook在2004年針對多模態振動問題提出了一種新的時延整形濾波器,并以控制對象柔性模態為變量的函數形式給出了要消除殘余振動所需最基本條件。同時指出當濾波器項數滿足基本條件時,濾波器的時延可以任意設定,消除任何給定范圍內的任意多個柔性振動模態產生的殘余振動,為輸入整形控制器實現自適應提供了理論基礎[41],同時針對原有輸入整形所通常處理的點對點控制問題進行了有益補充,M.C.Reynolds和P.H.Meckl等人將輸入整形應用于關節空間的軌跡控制,提出了一種時間和輸入能量最優的軌跡控制方法[42]。(4)不基于模型的軟計算智能控制針對含有柔性關節機器人動力學系統的復雜性和無法精確建模,神經網絡等智能計算方法更多地被引入用于對機器人動力學模型進行近似。Ge等人利用高斯徑向函數神經網絡完成柔性關節機器人系統的反饋線性化,仿真結果表明相比于傳統的基于模型的反饋線性化控制,采用該方法系統動態跟蹤性能較好,對于參數不確定性和動力學模型的變化魯棒性較強,但是整個算法所用的神經網絡由于所需節點較多,計算量較大,并且需要全狀態反饋,狀態反饋量獲取存在一定困難[43]。孫富春等人對于只具有關節傳感器的機器人系統在輸出反饋控制的基礎上引入神經網絡,用于逼近機器人模型,克服無法精確建模的非線性環節帶來的影響,從而提高機器人系統的動態跟蹤性能[44]。A.S.Morris針對整個柔性機器人動力學模型提出了相應的模糊控制器,并用GA算法對控制器參數進行了優化,之后在模糊控制器的基礎上,綜合了神經網絡的逼近功能對剛柔耦合運動進行了補償[45]。除采用神經網絡外,模糊控制也在柔性機器人控制中得以應用。具有代表性的研究成果有V.G.Moudgal設計了一種具有參數自學習能力的柔性連桿模糊控制器,對系統進行了穩定性分析,并與常規的模糊控制策略進行了實驗比較[46]。Lin和F.L.Lewis等人在利用奇異攝動方法基礎上引入模糊控制器,對所得的快速子系統和慢速子系統分別進行模糊控制[4748]。快速子系統的模糊控制器采用最優控制方法使柔性系統的振動快速消退,慢速子系統的模糊控制器完成名義軌跡的追蹤,并對單柔性梁進行了實驗研究。Trabia和Shi提出將關節轉角和末端振動變形分別設計模糊控制器進行控制,由于對每個子系統只有一個控制目標,所以模糊規則相對簡單,最后將兩個控制器的輸出進行合成,完成復合控制,其思想與奇異攝動方法下進行復合控制類似[49]。隨后又對該算法進行改進,同樣采用分布式結構,通過對輸出變量重要性進行評估,得出關節和末端點的速度量要比位置量更為重要,因此將模糊控制器分成兩部分,分別對速度和位置進行控制,并利用NelderandMeadSimplex搜索方法對隸屬度函數進行更新[50]。采用基于軟計算的智能控制方法相對于基于模型的控制方法具有很多優勢,特別是可以與傳統控制方法相結合,完成對傳統方法無法精確建模的非線性環節進行逼近,但是目前這些方法的研究絕大部分還處于仿真階段,或在較簡單的機器人(如單自由度或兩自由度機器人)進行相關實驗研究。其應用和工程實現受限的主要原因在于計算量大,但隨著處理器計算能力的提高,這些方法還有廣泛的應用前景。
關鍵詞:交通標志檢測;ITS;TSR;顏色檢測;形狀檢測
中圖分類號:TB
文獻標識碼:A
doi:10.19311/ki.16723198.2017.12.089
1引言
隨著經濟的發展,汽車出行在為人們帶來便利的同時也增加了安全事故的發生。智能交通系統ITS(Intelligent Transportation System)作為一種全新的汽車識別模式,能夠緩解交通事故的發生。具體表現在,汽車在行駛過程中,利用車載系統對交通標志進行識別,再反饋給駕駛員,為駕駛提供路況信息,使駕駛員能夠對路況做出準確的判斷,減少交通意外的發生。另一方面,對于無人駕駛和交通標志的識別,也l揮著重要的維護作用。
近幾十年來,交通標志檢測與識別受到了諸多學者的關注與研究,ITS在減少安全事故和緩解道路壓力方面發揮著重要作用,交通標志識別系統TSR(Traffic Sign Recognition)也應運而生。交通標志識別系統包括很多方面,交通標志檢測是其一個子方面,但其重視程度不言而喻,它的應用范圍很廣,如無人駕駛車輛和駕駛員輔助系統等,在行車過程中,為駕駛員提供實時路況檢測。雖然目前在交通標志檢測方面取得了一些突破性的進展和一些階段性的成果,但隨著道路環境的多樣化和不確定因素,使得檢測仍存在諸多困難。總的來說,交通標志檢測實用性強,關注度高,在任何時候熱度都不會消減,會引發更多的人去深入研究。
2交通標志檢測系統組成
交通標志檢測包括五部分:圖像采集,預處理,顏色分割,形狀檢測,精準定位。圖形的采集尤為重要,對于采集到傾斜的圖像,我們需要對其進行矯正處理。對于正常圖像,大多數情況我們需要對其做預處理,以消除光照等的影響,然后可以通過交通標志特有的顏色和形狀信息對其進行分割處理,以得到待選區域。再根據一些特定的算法對干擾區域進行剔除,從而得到目標區域。對于目前交通標志檢測的研究現狀,雖然取得了突破性的進展,但各種算法亦有優缺點,面對復雜多變的交通環境很難做出很好的檢測,所以有必要對交通標志的檢測進行更進一步的討論和研究。
3國內外研究現狀
3.1國外研究現狀
早在1987年日本就進行了交通標志的檢測與識別,采用了模板匹配的經典算法,其平均識別時間為0.5秒。發到國家也不甘落后,1993年美國針對“停車”的標志研究開發了ADIS系統,采用了顏色聚類的方法對目標進行檢測,然而AIDS存在一個明顯的缺陷,就是時間不穩定。為了滿通標志時間識別的精確性,1994年,戴姆勒-奔馳汽車公司與大學合作開發,最終,一個全新的系統誕生了,其速度之快令人嘆服,達到3.2s/幅,交通標志數據庫中,有40000多幅圖像,其識別準確率為98%。交通標志檢測與識別研究進入新千年。越來越多的科研工作者和科研機構加入到交通標志檢測與識別中去,使得檢測技術有了很大的進步。在2001年Winconsin大學的Liu和Ran基于HIS空間的顏色閾值分割法,結合神經網絡進行識別,經過實驗顯示該系統的準確率為95%。2005年Carethloy實驗室和Nick Barnes自動化研究所利用交通標志在圖形上的對稱性來確定交通標志的質心位置,其建立的交通標志識別系統的準確率為95%。在2009年Muhammad等人運用多個方法進行識別實驗得到最好的識別準確率為97%。2011年德國以德國交通標志數據庫(GTSRB)為基礎舉辦了交通標志識別大賽(IJCNN2011)。標志著交通標志檢測與識別受到了全世界的高度關注,這也促進了交通標志檢測與識別的研究進展。Ciresan等人在IJCNN2011大賽上采用深度卷積神經網絡(Deep Convolution Neural Network)識別算法得到了比人類識別平均率高的結果。2013年,對于交通標志檢測系統,Kim J.B將視覺顯著性模型運用到其中,使交通識別的準確性更高。
3.2國內研究現狀
與國外相比,在時間上,對于交通檢測系統,我國運用的稍微落后。在交通標志檢測研究方面,將顏色和形狀結合的相關檢測方法較為廣泛,在識別算法方面,國內一些學者也取得了顯著性的成果。在2000年郁梅提出了一種基于顏色的快速檢測方法。2004年,根據不變矩特征和BP神經網絡,王坤明等人對交通識別系統做了進一步的闡述。2008年,交通識別系統有了進一步的發展,以BP神經網絡為基礎,寧波大學朱雙東教授等人將交通標志的顏色區分成了五種最基本的顏色。2012年朱淑鑫在RGB和HIS空間上進行多閾值分割。2013年,“紅色位圖”方法被提出,其主要利用在邊緣信息的形狀檢測上,王剛毅希望通過這一方法來提高紅色圓形標志區域的檢測率。
4交通標志檢測算法現狀
我國的交通標志主要分為警告、禁止、指示三大類,交通標志顏色主要有紅色、藍色、黑色、黃色和白色五種基本顏色,交通標志的形狀有四大類,即三角形、矩陣、八邊形和圓形。目前針對道路交通標志檢測的算法主要是基于顏色的檢測、形狀的檢測以及顏色和形狀相結合的檢測,下面我們對常見的檢測方法進行簡單的概述。
4.1基于色的檢測方法
由于交通標志具有很明顯的顏色特征,所以很多文獻都對這一方法做了討論和研究。常見的顏色空間有RGB、HSI、Lab、Ycgcr、Ycbcr等。De La Escalear A等人運用RGB閾值的方法將顏色分類。但此方法受光照影響因素較大,為了減少光照等環境因素的影響,Ruta等人提出了RGB空間顏色增強的方法,這種方法可以快速將標志區域檢測出來。由于RGB空間亮度和色度的混合在一起的,后來研究者們運用了更符合人類對顏色的視覺理解的HIS、HSV空間。為了使交通標志的檢測精度更高,在HIS空間中設定閾值這個方法被提出了,事實上,一個交通標志可以由幾種顏色構成,因此,S.LafuenteCArroyo等人希望通過這種方法對于不同顏色的交通標志都能檢測出來。但HIS顏色空間聚類效果不好,因此,為了更好的對交通標志的顏色進行區分,選擇聚類效果好的顏色空間至關重要,在此基礎上,Jitendra N.Chourasia等人主張使用Ycbcr顏色區間。
4.2基于形狀的檢測方法
除了利用顏色對交通標志進行檢測之外,還可以利用交通標志的形狀,這也是其另一個重要的特點。最常用的檢測圓形和直線是Hough變換,事實證明,Kuo W J等人通過Hough變換,對交通標志進行檢測,效果顯著,但由于其計算量大的原因不適用于實時性監測。另一種形狀檢測法是基于拐角提取算法,Escalera等人提出拐角檢測算法,簡單來說,就是根據形狀的變化所產生的像素點判斷能否為拐點,來進行檢測,但是,其唯一的缺點是誤檢率也比較高。Rangarajan等人提出了一種最優拐角檢測方法,通過設計好的掩膜與圖像做卷積運算后將拐角檢測出來,魯棒性好。
4.3基于顏色和形狀的檢測方法
既然基于顏色和基于形狀的方法都不能得到很好的交通標志檢測,于是很多學者將這兩種方法結合起來,產生了綜合顏色和形狀的檢測方法。并也取得了一些顯著性的成果。M.Zadeh等人利用圖像處理的相關知識,先把圖像進行顏色分割,再運用形態學的相關方法提取區域邊緣,最后對待定區域進行跟蹤和幾何分析,從而提取得到目標檢測區域。但該方法對噪聲特別敏感。所以當圖像的噪聲很強時這種檢測方法的效果并不理想。
5交通標志檢測與識別難點
盡管近幾十年提出了很多新的檢測方法,但目前的研究成果還不能夠勝任復雜多變的現實場景。交通標志識別系統TSR設計到多個研究領域,包括圖像處理、人工智能、模式識別和機器學習等相關領域,因此,關于交通標志識別系統的研究任重而道遠,在未來,不管是自然場景下,還是復雜場景下,對于交通識別系統研究,都應重點關注。現階段交通標志檢測與識別主要面臨的困難和挑戰如下:
(1)環境對交通標志的影響。這主要表現在四季中風雨對交通標志的損壞,這在一定程度上會降低圖像的清晰度。交通標志長年暴露在外面,難免會出現變形、污損、褪色等情況,這對檢測也造成了困難。
(2)拍攝角度的影響。不同的拍攝角度對檢測具有比較大的影響,對傾斜的圖像我們需要對其做一個矯正處理。
(3)現場場景環境中有很多干擾物體,使得在分割的時候會把不是標志的物體也分割出來,對我們檢測帶來了一定程度上的干擾。
(4)交通標志類型復雜,種類多,目前所了解的就有130多種,包括警告標志、指示標志、禁令標志、指路標志等等,給檢測大大增加了難度。
(5)實時性改進的問題,由于汽車移動速度快,而且在移動過程中往往在一定程度上有抖動和變速等動作,捕捉到的圖像會產生變形模糊,處理時間過長會導致司機反應時間縮短。
(6)準確率有待進一步提升。準確率太低的話不但達不到駕駛輔助作用,反而會引起交通事故發生。
(7)沒有公用樣本數據。國內目前統一的評判標準和數據庫尚未建立起來。
(8)智能交通識別系統服務于大眾,因此需要考慮經濟成本問題。
綜合以上可知,由于在現實場景中以上問題的存在,所以在設計道路交通標志檢測與識別算法的時候必須有針對性的解決上訴問題。
6總結
總的來說,交通標志檢測與識別系統(TSR)的發展前景非常好,被廣泛運用于輔助駕駛系統、無人汽車駕駛和各種道路檢測標志的檢測修復等領域。本文主要對國內外的研究現狀做了一個回顧和分析,許多研究學者也做出了一些階段性的成果和進展,但由于自然環境下一些復雜多變的因素對檢測造成了困難和挑戰,因此TSR系統的研究還面臨許多難題有待解決。隨著人工智能和機器學習等算法的提升,我們堅信未來的道路交通標志檢測與識別會邁上一個新的臺階。
參考文獻
[1]徐華青,陳瑞南,林錦川等.道路交通標志檢測方法研究[J].福州大學學報,2010,(3):387392.
[2]常發亮,黃翠,劉成云等.基于高斯顏色模型和SVM的交通標志檢測[J].儀器儀表學報,2014,35(1):4349.
[3]Salichs M A.TRAFFIC SIGN DETECTION FOR DRIVER SUPPORT SYSTEMS[C].2001.
[4]Kehtarnavaz N,Griswold N C,Kang D S.Stop-sign recognition based on color/shape processing[J].Machine Vision and Applications,1993,6(4):206208.
[5]Priese L,Lakmann R,Rehrmann V.Ideogram identification in a realtime traffic sign recognition system[C].Intelligent Vehicles 95 Symposium. Proceedings of the.IEEE,1995:310314.
[6]Liu H,Ran B.Vision-Based Stop Sign Detection and Recognition System for Intelligent Vehicles[J].Transportation Research Record Journal of the Transportation Research Board,2001,1748(1):161166.
[7]Barnes N,Loy G,Shaw D,et al.Regular polygon detection[C].Tenth IEEE International Conference on Computer Vision.IEEE,2014:778785.
[8]Muhammad A S,Lavesson N,Davidsson P,et al.Analysis of Speed Sign Classification Algorithms Using Shape Based Segmentation of Binary Images[J].Lecture Notes in Computer Science,2009,5702:12201227.
[9]Kim J B.Detection of traffic signs based on eigen-color model and saliency model in driver assistance systems[J].International Journal of Automotive Technology,2013,14(3):429439.
[10]郁梅,郁伯康.基于彩色D像的指示標志檢測[J].計算機工程與應用,2000,36(4):169172.
[11]王坤明,許忠仁.基于不變矩和神經網絡的交通標志識別方法研究[J].計算機應用研究,2004,21(3):254255.
[12]朱雙東,蔣甜甜,劉蘭蘭.基于顏色規格化的交通標志識別[J].計算機應用與軟件,2008,25(1):220222.
[13]朱淑鑫.基于顏色特征的交通標志圖像分割研究[J].考試周刊,2012,(81):111112.
[14]Wang G,Ren G,Jiang L,et al.Hole-based traffic sign detection method for traffic signs with red rim[J].The Visual Computer,2014,30(5):539551.
[15]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
[16]Ruta A,Li Y,Liu X.Real-time traffic sign recognition from video by class-specific discriminative features[J].Pattern Recognition,2010,43(1):416430.
[17]Lafuente-Arroyo S,Salcedo-Sanz S,Maldonado-Basc,et al.A decision support system for the automatic management of keep-clear signs based on support vector machines and geographic information systems[J].2010,37(1):767773.
[18]Chourasia J N,Bajaj P.Centroid Based Detection Algorithm for Hybrid Traffic Sign Recognition System[C].International Conference on Emerging Trends in Engineering and Technology.IEEE,2010:96100.
[19]Kuo W J,Lin C C.Two-Stage Road Sign Detection and Recognition[C].IEEE International Conference on Multimedia and Expo.IEEE Xplore,2007:14271430.
[20]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
關鍵詞:載荷反求;正則化;虛擬減縮;迭代方法
中圖分類號:TP391.9 文獻標志碼:A
Load Identification of Virtual Iteration Based
on Tikhonov Regularization and Model Reduction
ZHANG Bangji,ZHOU Shouyu, XIE Qingxi,ZHANG Nong
(State Key Laboratory of Advanced Design and Manufacturing for Vehicle Body,Hunan University, Changsha 410082, China)
Abstract: The model reduction technique was applied to solve the dynamic response. In order to make the system show the actual responses of the expected signals, the iteration procedure was then used to modify the load signals based on Tikhonov regularization load identification. Furthermore, the accuracy of the load signals was identified. The comparison of the proposed method with the traditional Tikhonov method shows that the proposed method can retain a good anti-noise characteristic, and improve the precision of load identification. The accuracy of the load identification by the proposed method is much higher than that of the traditional method.
Key words:load identification; regularization; virtual reduction; iterative methods
工程振動問題備受關注,結構動態載荷的精確獲取可為工程結構的振動分析、疲勞分析等提供基礎,然而因經濟性或技術條件的限制,許多情況下載荷難以通過直接測量的方式獲取,如汽車車身所受的激振力、輪船行駛時受到的波浪式沖擊載荷等.因此利用載荷反求方法間接獲取激振載荷具有重要意義.
載荷反求是通過系統響應和振動特性來反求結構所受載荷,是動力學第二類反問題[1].國內外學者針對動態載荷反求的理論和技術研究做了很多工作[2-4].傳統的反求方法有時域法與頻域法兩大類[5],隨著計算機技術的發展,遺傳算法[6]、神經網絡[7]等新方法被應用于載荷反求領域.Kim等人[8]利用結構動力學關系構建載荷反求動力學方程,通過頻響函數求逆法進行載荷反求,用奇異值分解法(SVD)改善頻響函數求逆過程中的矩陣病態問題;Choi等人[9-10]運用最小二乘的Tikhonov正則化方法解決矩陣的病態問題,在提高載荷反求結果穩定性與抗干擾性方面效果良好,并對比分析了不同正則化參數選擇方法對載荷反求精度的影響.國內在正則化反求法方面做了很多研究[11-13],其中應用較廣的是Tikhonov正則化反求法.郭榮等[14]綜合運用Tikhonov正則化與奇異值分解的反求方法,有效提高了結構載荷反求精度.
然而Tikhonov等正則化反求法存在其自身的缺陷,由于該方法對反求載荷有平滑的作用,導致在響應測試噪聲水平較高,或者系統線性程度不高的情況下,在反求信號的峰值處將很難得到較好結果[12].對此,結合文獻[15]中室內試驗臺架驅動文件生成方法,提出新的載荷反求方法.其基本流程是,將Tikhonov正則化所反求的載荷重新激勵系統,將獲得的響應與真實期望響應對比,通過誤差反饋補償來逐步修正Tikhonov正則化反求法所得到的載荷信號,以提高在載荷峰值處的反求精度.考慮到在實際工程中,所研究的對象往往是復雜結構仿真模型,迭代中l繁的正向求解過程相當耗時,甚至導致反求過程難以實現.對此,本文結合模型減縮技術,對大型有限元結構進行降階處理,得到規模較小的等價模型,在保證響應計算精度的同時,極大縮短正問題的求解時間,提高計算效率.
1 虛擬迭代載荷反求原理
1.1 Tikhonov正則化理論
對于線性系統,在待反求載荷f(t)的作用下,系統的響應可以由單位脈沖響應函數與動態載荷的卷積分形式表示為:
y(x,t)=∫t0G(x,t-t)f(t)dt(1)
式中:y(x,t)為結構測點x處的響應,可以是位移、速度、加速度等;f(t)為載荷的時間歷程;G(x,t)是相應的載荷作用點到響應點的Green函數,即單位脈沖響應.
考慮零初始條件系統,可將式(1)中的卷積分在時域內進行n個等間隔時間點離散,可化為一組線性方程組:
1.2 迭代反求算法
線性時不變系統響應噪聲水平不高時,采用最優正則化參數的Tikhonov方法可較精確地反求激勵載荷,但是當系統響應噪聲水平較高時,即使是最優的正則化參數,也難以平衡解的逼近性與穩定性這對矛盾;且在工程實際中,系統的各個環節,如汽車的襯墊等連接部件,在一定程度上都存在非線性因素,導致反求難度增大.對此,采用迭代的方法,根據響應誤差反饋補償,逐步修正所求載荷信號,使其達到要求[16].
首先,對一個已知系統,其響應信號Yδ,由上述Tikhonov正則化方法反求,計算出初始載荷信號為:
1.3 減縮技術
載荷的迭代反求過程,需要反復計算仿真系統的動響應,仿真系統通常用有限元的方式表達.但對于有限元模型,通常網格越密仿真精度越高,但密集的網格會導致響應求解時間增長,尤其在反復迭代計算過程中,正問題的求解時間過長是影響迭代的重要因素.對此,采用模型減縮技術,對原始有限元模型進行降階等效,再對降階模型進行迭代響應計算,從而解決計算精度與計算效率之間的矛盾.本文采用的減縮方法是IRS[19]方法.
IRS 減縮方法是一種基于 Guyan靜力減縮法并考慮慣性力影響的改進方法.系統的運動方程可以表示為:
1.4 迭代收斂條件
上述Tikhonov迭代正則化算法可用流程框圖表示,如圖1所示.
2 數值算例
為了驗證上述迭代法對Tikhonov正則化反求結果的優化作用,以及模型減縮技術對迭代效率改善的正確性與有效性,下面給出幾種不同載荷形式的算例進行仿真對比分析.選用一塊帶約束的平板,在ABAQUS中建立如圖2所示的有限元模型,平板一邊兩端用螺栓夾緊固定,模型中平板的彈性模量為210 GPa,密度為7.85 g/cm3,厚度為4 mm,邊長為500 mm.
2.1 模型減縮應用及結果分析
為提高響應計算速度以及迭代效率,對該模型進行減縮降階,在確保模型精度不受影響的情況下,用近似的低階模型代替原來復雜的高階系統模型來進行迭代反求.對該有限元模型,質量矩陣和剛度矩陣通過ABAQUS被直接導出,在模型上選取包括激振點與拾振點在內共 176個節點,用IRS減縮法在 MATLAB 中對平板模型進行模型減縮,并用模態置信度(MAC值)分析減縮前后模型模態振型吻合程度,驗證該減縮模型的精度[20].
2.1.1 減縮前后振型對比
2.1.2 動響應計算效率分析
在載荷反求過程中往往需要反復多次求取系統響應,因此動響應計算效率是衡量反求實際效果的重要標準.分別對算例原模型、IRS減縮模型求動態響應,比較相同時間歷程的動態響應所消耗實際CPU時間,結果如圖4所示.
由此可見,相比于原模型,IRS減縮模型大大減少了動響應計算時間,因此,模型減縮很大程度上提高了計算效率,所需計算響應時間歷程越長,效果越明顯.在本文數十次迭代計算動態響應過程中,IRS模型減縮技術的應用將極大地提高迭代計算響應效率.
2.2 載荷反求對比分析
在板面節點308#施加垂直于板面的單位載荷,選取響應節點62#垂直板面方向速度作為響應(如圖2所示).首先計算載荷點到響應節點對應的Green函數;再以不同形式載荷下的響應,進行載荷反求;最后對仿真得到的響應數據加入一定水平的隨機噪聲來模擬測試誤差.此時帶噪聲的速度響應可用下式來表示:
式中:Y(t)為仿真得到的速度響應;std(Y(t))為速度響應Y(t)的標準差;lnoise為噪聲水平的百分數;rand(-1,1)是區間-1,1的隨機數[12].
在速度響應中加入15%的模擬噪聲,首先用傳統的Tikhonov正則化方法進行載荷反求,以L曲線法確定最優正則化參數,得到待求載荷,計算反求精度;再以此反求載荷,作為初始激勵載荷,用上述虛擬迭代方法修正載荷信號,進行反求優化,以達到精度要求;最后對比優化前后載荷反求精度.
選用不同頻率、不同幅值周期正弦、正弦掃頻(10~100 Hz)、三角波以及隨機激勵等形式的激振力激振進行載荷反求,反求結果如圖5-圖9所示.
由圖5-圖9可以看出,對不同形式的激勵,在一定噪聲水平情況下,傳統的L曲線法確定最優參數的Tikhonov正則化方法能夠很好地抑制噪聲對反求結果的干擾,具有很強的穩健性.但在載荷峰值處,反求誤差較大,反求整體精度受影響,這主要是由于正則化方法對反求載荷有平滑的作用,使得該方法在載荷峰值難以得到準確的反求結果.Tikhonov正則化方法對這幾種載荷反求的加權誤差為8.0%左右.而本文提出的迭代Tikhonov正則化方法不僅能夠繼承傳統正則化方法反求結果穩健性的優點,同時還可以改善其在載荷峰值處反求結果,提高反求精度,反求結果加權誤差最低可降至2.0%.迭代Tikhonov正則化方法無論對確定信號還是隨機載荷激勵都有很好的反求精度,且對如圖9所示中的高頻載荷段迭代反求也有很高的精度.
3 結 論
本文在傳統Tikhonov正則化反求方法的基礎上,提出了一種新的迭代改進方案.結合有限元算例和模型減縮技術,分別采用傳統Tikhonov方法和本文迭代方法對三角、正弦以及隨機載荷等激勵進行載荷反求.結果表明:
1)本文提出的基于Tikhonov正則化迭代反求方法不僅能夠繼承傳統Tikhonov正則化反求法有效抑制噪聲的特點,同時還可以提高其在峰值載荷處的反求精度,整體反求精度高;
2)應用模型減縮技術可以提高動響應求解效率,有助于載荷反求迭代過程的開展,最終又快又好的求得激勵載荷.
參考文獻
[1] MARCHUK G I. Methods of numerical mathematics[M]. Berlin: Springer-Verlag, 1975: 16-18.
[2] O興盛,劉杰,丁飛,等.基于矩陣攝動的隨機結構動態載荷識別技術[J].機械工程學報,2014, 50(13):148-156.
SUN Xingcheng, LIU Jie, DING Fei, et al. Identification method of dynamic loads for stochastic structures based on matrix perturbation theory[J]. Journal of Mechanical Engineering, 2014, 50(13): 148-156.(In Chinese)
[3] 彭凡,馬慶鎮,肖健,等.整體平動自由結構載荷時域識別技術研究[J].振動與沖擊,2016, 35(6):91-95.
PENG Fan, MA Qingzhen, XIAO Jian, et al. Load identification technique in time domain for free structures with overall translation[J]. Journal of Vibration and Shock, 2016, 35(6): 91-95.(In Chinese)
[4] SANCHEZ J, BENAROYA H. Review of force reconstruction techniques[J]. Journal of Sound and Vibration, 2014, 333(14): 2999-3018.
[5] 胡寅寅,率志君,李玩幽,等.設備載荷識別與激勵源特性的研究現狀[J].噪聲與振動控制,2011(4):1-5.
HU Yinyin, LV Zhijun, LI Wanyou, et al. Status QUO of study on machine,s load identification technique[J]. Noise and Vibration Control, 2011(4): 1-5.(In Chinese)
[6] 劉杰,許燦,李凡,等.基于λ-PDF 和一次二階矩的不確定性反求方法[J].機械工程學報,2015, 51(20):135-143.
LIU Jie, XU Can, LI Fan, et al. Uncertain inverse method based on λ-PDF and first order second moment[J]. Journal of Mechanical Engineering, 2015, 51(20): 135-143.(In Chinese)
[7] 莫旭輝,韓旭,鐘志華.基于漸近神經網絡的汽車前輪定位參數反求[J].湖南大學學報:自然科學版,2008, 35(6):18-22.
MO Xuhui, HAN Xu, ZHONG Zhihua. Identification of front wheel alignment based on the progressive neutral NETW ORK method[J]. Journal of Hunan University:Natural Sciences, 2008, 35(6): 18-22.(In Chinese)
[8] KIM Y C, NELSON P A. Optimal regularisation for acoustic source reconstruction by inverse methods[J]. Journal of Sound and Vibration, 2004, 275(3): 463-487.
[9] CHOI H G, THITE A N, THOMPSON D J. Comparison of methods for parameter selection in Tikhonov regularization with application to inverse force determination[J]. Journal of Sound and Vibration, 2007, 304(3/5): 894-917.
[10]CHOI H G, THITE A N, THOMPSON D J. A threshold for the use of Tikhonov regularization in inverse force determination[J]. Applied Acoustics, 2006, 67(7): 700-719.
[11]張磊,曹越云.總體最小二乘正則化算法的載荷識別[J].振動與沖擊,2014, 33(9):159-164.
ZHANG Lei, CAO Yueyun. Load identification using CG-TLS regulariztion algorithm[J]. Journal of Vibration and Shock, 2014, 33(9): 159-164.(In Chinese)
[12]韓旭,劉杰.時域內多源動態載荷的一種計算反求技術[J].力學學報,2009, 41(4):595-602.
HAN Xu, LIU Jie. A computational reverse technique for multi source dynamic loads in time domain[J]. ACTA Mechanica, 2009, 41(4): 595-602.(In Chinese)
[13]常曉通,閻云聚.基于Green函數和正則化的動態載荷識別方法[J].振動、測試與診斷,2014, 34(1):124-129.
CHANG Xiaotong, YAN Yunju. Dynamic load identification method based on Green function and regularization[J]. Journal of Vibration,Measurement & Diagnosis, 2014, 34(1): 124-129.(In Chinese)
[14]郭s,房懷慶.基于Tikhonov正則化及奇異值分解的載荷識別方法[J].振動與沖擊,2014, 33(6):53-58.
GUO Rong, FANG Huaiqing. Novel load identification method based on the combination of Tikhonov regularization and singular value decomposition[J]. Journal of Vibration and Shock, 2014, 33(6): 53-58.(In Chinese)
[15]HAY N C, ROBERTS D E. Road simulators: the iterative algorithm for drive file creation[C]//2006 SAE World Congress.Detroit, Michigan, 2006: 2006-2011.
[16]陳棟華,靳曉雄,周f.汽車室內道路模擬試驗系統控制算法的研究[J].噪聲與振動控制,2006(1):31-35.
CHEN Donghua, JIN Xiaoxiong, ZHOU Hong. Study on contorl algoirthm for vehicle road simulation test system[J]. Noise and Vibration Control, 2006(1): 31-35.(In Chinese)
[17]杜永昌.車輛道路模擬試驗迭代算法研究[J].農業機械學報,2002, 33(2):5-7.
DU Yongchang. Research on iteration algorithm used for vehicle road simulation[J]. Transactions of the Chinese Society of Agricultural Machinery, 2002, 33(2): 5-7.(In Chinese)
[18]汪斌,過學迅,李孟良.基于迭代學習控制的道路模擬算法[J].汽車工程,2010, 32(8):686-689.
WANG Bin, GUO Xuexun, LI Mengliang. Road simulation algorithn based on iterative leaming control[J]. Automotive Engineering, 2010, 32(8): 686-689.(In Chinese)
[19]O'CALLAHAN J C. A procedure for an improved reduced system (IRS) model[C]//Proceedings of the 7th International Modal Analysis.Las Vegas: Union College Press, 1989: 17-21.
獨立分量分析(ICA)是統計信號處理近年來的一項發展。顧名思義,這是一種分解技術,其特點是把信號分解成若干相互獨立的成分。主分量分析(PCA)和奇異值分解(SVD)是人們較熟悉的分解信號的線性代數方法,ICA與它們的主要不同之處表現在:
(1)后者只要求分解出來的各分量互相正交(不相關),但并不要求它們互相獨立。用統計信號處理的語言來表達,即:后者只考慮二階統計特性,而前者則要更全面考慮其概率密度函數的統計獨立性。
(2)后者按能量大小排序來考慮被分解分量的重要性。這樣的分解雖然在數據壓縮和去除弱噪聲方面有其優點,但分解結果往往缺乏明確的生理意義。前者雖然分解出的分量其能量大小存在不確定性,但當測量值確實是由若干獨立信源混合而成時,分解結果往往具有更好的生理解釋。由于測得的生理信號往往是若干獨立成分的加權迭加(例如,誘發腦電總是被自發腦電所淹沒,而且常伴隨有心電、眼動、頭皮肌電等干擾),此ICA是一項值得注意的分解方法。
此外,神經生理研究認為,人類對認知、感知信息的前期處理有“去冗余”的特點。ICA在這方面也表現出類似特性,因為互相獨立的分量之間互信息是最少的。ICA是伴隨著盲信號處理,特別是盲信源分離發展起來。其研究熱潮方興未艾,也正在引起生物醫學工程界的注意,IEEETransBME正在組織出版以它為重點的專輯。就國際范圍看,以下幾個研究單位目前工作比較領先:(1)美國加州大學生物系計算神經生物學實驗室,(2)日本Riken腦科學研究所腦信息研究室,(3)芬蘭赫爾辛基工業大學計算機及信息科學實驗室,目前發表有關文獻較多的刊物有IEEETrans的SP和NN以及NeuralComputation等。本文目的是對ICA的原理、算法及應用作一簡述,以引起國內同行對它的關注。將側重于概念說明,而不追求數學上的嚴謹性。
2原理
2.1問題的提法,s-(n)是一組互相獨立的信源,A是混合矩陣,x-(n)是觀察記錄,即x-(n)=As-(n)。問題的任務是:在A陣未知且對s-(n)除獨立性外無其它先驗知識的情況下,求解混矩陣B,使得處理結果y-(n)=Bx-(n)中各分量盡可能互相獨立,且逼近s(n)。容易理解,解答不是唯一的,它至少受以下條件的限制:(1)比例不定性:s-(n)中某一分量大K倍時,只要使相應的A陣系數減小K倍,x-(n)便保持不變。
因此,求解時往往把s-(n)假設成具有單位協方差陣,即s-中各分量均值為零,方差為1,且互相獨立。(2)排序不定性:y-與s-中各分量排序可以不同。因為只要對調B陣中任意兩行,y-中相應元素的位置也便對調。(3)s-(n)中至多只能有一個高斯型信源:這是因為高斯信源的線性組合仍是高斯型的,因此混合后便無法再區別。(4)信源數目N只能小于或等于觀測通道數M。N>M情況目前尚未解決。以下討論設M=N。因此,y-(n)只是在上述條件下對s-(n)的逼近。換名話說,任務的實質是優化問題,它包括兩個主要方面:優化判據(目標函數)和尋優算法。
2.2目標函數
這一領域的研究者已經從不同角度提出了多種判據。其中以互信息極小判據(MinimizationofMutualInformation,簡記MMI)和信息或熵極大判據(Informax或MaximizationofEntropy,簡記ME)應用最廣。由于最基本的獨立性判據應由概率密度函數(probabilitydensityfunction,簡記pdf)引出,而工作時pdf一般是未知的,估計它又比較困難,因此通常采用一些途徑繞過這一困難。
常用的方法有兩類:①把pdf作級數展開,從而把對pdf的估計轉化為對高階統計量的估計;②在圖1的輸出端引入非線性環節來建立優化判據。后一作法實際上隱含地引入了高階統計量。(1)互信息極小判據:統計獨立性的最基本判據如下:令p(y-)是y-的聯合概率密度函數,pi(yi)是y-中各分量的邊際概率密度函數。當且僅當y-中各分量獨立時有:p(y-)=∏Ni=1pi(yi)因此用p(y-)與∏i=1pi(yi)間的Kullback-Leibler散度作為獨立程度的定量度量:I(y-)=KL[p(y-),∏Ni=1pi(yi)]=∫p(y-)log[p(y-)∏Ni=1pi(yi)]dy-(1)顯然,I(y-)0,當且僅當各分量獨立時I(y-)=0。因此,互信息極小判據的直接形式是:在y-=Bx-條件下尋找B,使(1)式的I(y-)極小為了使判據實際可用,需要把I(y-)中有關的pdf展成級數。
由于在協方差相等的概率分布中高斯分布的熵值最大,因此展開時常用同協方差的高斯分布作為參考標準。例如,采用Gram-Charlier展開時有:P(yi)PG(yi)=1+13!k2yih3(y-i)+14!k4yih4(yi)+…式中PG(yi)是與P(yi)具有同樣方差(σ2=1)和均值(μ=0)的高斯分布。k3yi、k4yi是yi的三、四階累計量(cumulant),hn(yi)是n階Hermit多項式。此外還有許多其他展開辦法,如Edgeworth展開,利用負熵(Negentropy)等。不論采用何種展開方式,經推導后總可把式(1)近似改成k3、k4的函數:I(y)=F(k3y-,k4y-,B)(1)’F(·)的具體形式多種多樣,視推導時的假設而異。
這樣就得到互信息判據的實用近似形式:在y-=Bx-條件下尋找B,使式(1)的I(y-)極小(2)Infomax判據:這一判據的特點是在輸出端逐分量地引入一個合適的非線性環節把yi轉成ri(如圖2)。可以證明,如果gi(·)取為對應信源的累積分布函數cdf(它也就是概率密度函數的積分),則使r-=(r1…rN)T的熵極大等效于使I(y-)極小,因此也可達使y-中各分量獨立的要求。從而得到Infomax判據:在選定適當gi(·)后,尋找B使熵H(r-)極大需要指出的是,雖然理論上gi(·)應取為各信源的cdf,但實踐證明此要求并不很嚴格,有些取值在0~1之間的單調升函數也可以被采用,如sigmoid函數、tanh(·)等。估計H(r-)固然也涉及pdf,但由于其作用已通過gi(·)引入,所以可以不必再作級數展開而直接用自適應選代尋優步驟求解。文獻中還提出了一些其他判據,如極大似然、非線性PCA等,但它們本質上都可統一在信息論的框架下,所以不再一一列舉[1]。
3處理算法優化算法
可大致分為兩類,即批處理與自適應處理。
3.1批處理批處理比較成熟的方法有兩類。較早提出的是成對旋轉法[2],其特點是把優化過程分解成兩步。先把x-(n)經W陣加以“球化”得z-(n),使z-(n)T=IN,即:各分量不相關且方差為1,然后再尋找合適的正交歸一陣U達到使y-各分量獨立的目的。前一步類似于PCA,后一步則可利用Givens旋轉,根據目標函數,將z-中各分量兩兩成對反復旋轉直到收斂。這種方法計算量較大。1999年,Gadoso提出幾種方法對它作了進一步改進[3],其中包括:Maxkurt法、JADE法、SHIBBS法等,限于篇幅,本文不再敘述。近年來,提出的另一類方法是所謂“固定點”法(FixedPointMethod)[4,5],其思路雖來源于自適應處理,但最終算法屬于批處理。
簡單地說,通過隨機梯度法調節B陣來達到優化目標時,有:B(k+1)=B(k)+ΔB(k)ΔB(k)=-μεkB(k)式中k是選代序號,εk是瞬時目標函數。當到達穩態時必有[E是總集均值算子]:E[ΔB(k)]=0(2)如果ΔB(k)與B(k)有關,就可由(2)式解出B的穩態值。不過由于(2)式總是非線性方程,因此求解時仍需要采用數值方法(如牛頓法、共軛梯度法等)迭代求解。實踐證明,不論是收斂速度還是計算量,此法均優于前一種方法,而且它還可以根據需要逐次提取最關心的yi,因此是一類值得注意的方法。
3.2結合神經網絡的自適應處理結合神經網絡的自適應處理算法的框圖。1994年Cichocki提出的調節算法是:B(k+1)=B(k)+ΔB(k)ΔB(k)=μk[I-Ψ(y-k)ΦT(y-k)]B(k)式中Ψ、Φ都是N維矢量,其各元素都是單調升的非線性函數:Ψ(yk)=sgnyk·y2k,ΦTy-k=3tanh(10yk)所得結果雖令人鼓舞,但是方法是經驗性的。其后學者們從理論上沿著這一方向作了更深入的討論,并發展出多種算法。概括地說,主要發展有以下幾點:
(1)引入自然梯度(或相對梯度)。按照最陡下降的隨機梯度法推導出的系數調節公式往往具有如下一般形式:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]式中的Ψ(y-k)視具體算法而異。Infomax法中Ψ(·)由所選用的g(·)決定;MMI法中則與yk的三、四階矩有關。B-T(k)是矩陣求逆再轉置,它的計算量很大。Amari[7]在1998年提出將最陡下降梯度改為“自然梯度”,兩者間關系是:[自然梯度]=[最陡下降梯度]·BT(k)B(k)于是有:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]BT(k)B(k)=μk[I-Ψ(y-k)y-Tk]B(k)由于此式避免了矩陣求逆,因此計算量明顯降低且收斂加快。目前,這一作法已被普遍接受。
(2)引入自然梯度后,采用不同的優化判據得出的調節公式雖各有千秋,但大致都可表示為如下的“串行更新”形式:B(k+1)=B(k)+ΔB(k)=[I+H(y-k)]B(k)只是H(y-k)的具體形式各不相同。串行矩陣更新的算法還具有一些理論上值得注意的性質,如均勻特性(uniformproperty)和等變性(equivariant)等[8,9]。
(3)四階累計量k4>0的超高斯信號和k4<0的欠高斯信號,其處理過程應當予以區別。采用同一算法效果往往不好。目前的辦法多是在調節公式中引入一個開關。根據估計得k4的符號來切換不同算法,如擴展的Infomax法就是一例[10]。此法的系數調節公式是:ΔB(k)=μk[I-Ktanh(y-k)·y-Tk-y-ky-Tk]B(k)其中K是對角陣,其對角元素之值為+1或-1,視該信號分量k4>0或<0而定。為了實時應用,估計K4也可采用遞歸算法。總之,自適應算法是目前采用較廣的方法。
4應用舉例
4.1仿真計算為檢驗經ICA算法分解信源的能力,左圖是一組源信號,它們對系統來說是未知的。這一組信號經混合后的觀察信號作為(中圖所示)ICA算法的輸入,分解后的結果如右圖所示。可以看到,除了波形的次序、極性和波幅發生變化之外,源信號的波形被很好地分解出來。一般情況下,臨床腦電信號中既有超高斯成分(如誘發電位),也有亞高斯成分(如肌電和工頻干擾)。為了檢驗擴展Infomax算法處理這類情況的能力,我們又用此法進行了如圖6所示仿真實驗。左圖第一行是一段自發腦電信號,第二行是仿真的視覺誘發電位,第三行是肌電干擾。混合后的信號(圖中第二列所示)經ICA分解得到如右圖所示的結果。這一結果表明擴展ICA算法在同時存在超高斯和亞高斯信號的情況下,仍然能夠很好地實現盲分解。但應指出:這一仿真結果并不說明通過ICA分解就能直接得到視覺誘發電位,因為還沒有涉及頭皮上的多導數據。
4.2實驗VEP分析(1)多導腦電觀察中VEP的增強:需要強調,把多導腦電作ICA分解后直接取出其中與VEP有關的成分,得到的并不是頭皮電極處的VEP分量,因為它們只是分解出來的信源,而這些信源的位置并不在頭皮上,為了得到電極處測量值中的VEP成分,需按下述步驟處理:用訓練得的W陣直接對頭皮上取得的多導腦電數據進行ICA分解,得到各獨立分量組成的矩恥y=Bx(見圖7a);再根據各分量的波形特征及產生時段,選擇與VEP有關的一部分分量(例如在前300ms中具有較大幅度的分量),并將其余分量置0,得到新的獨立分量矩陣y’;再反變換回頭皮各電極處得x’=B-1-y’。這樣才能得到去除噪聲和干擾后各電極處的VEP。
采用這樣的方法可顯著地減少提取VEP所需要的累加次數。左圖是經3次累加所得VEP,中圖是經50次累加所得結果,右圖則是用左圖經圖7中ICA處理后提取的VEP。比較中、右兩圖,兩者波形趨勢基本相同,但后者比前者其主要峰、谷顯然更清楚,而累加次數由50減到3。(2)ICA分量的空間模式:把某一個ICA分量的瞬時值經B-1逆推回頭皮各電極處得x-’后,就可以按斷層圖的插補方法得到該時該分量在頭皮上的空間分布模式。這個空間分布模式也可以用更簡單辦法得到:只要把逆矩陣B-1中相應于某ICA分量的列中各元素的值賦與頭皮各電極處,再作斷層圖插值,就可以表現該ICA分量在任意時刻的空間分布模式。也就是:x’i(t)=b’ijy’j(t),i=1~N式中b’ij是B-1的第i行第j列元素。
可見ICA分量y’j(t)在頭皮各電極處的對應值等于用逆陣B-1第j列各元素來對y’j(t)加權。因此,列矢量b’j=[b’1,…,b’Nj]可以用來統一地表現任意時刻y’j的空間模式。
5總結與展望
本文粗略介紹了ICA的原理、算法和應用,可以看到ICA確是一個值得注意的研究方向,但其理論體系尚未完整,實際采用的處理方法多少還帶有經驗性。例如為什么對非線性特性gi的要求不甚嚴格就沒有明確解釋;又如算法的穩定性、收斂性在實踐中是經常遇到的問題。從應用方面看也還有許多待開發的領域,例如如何應用于生理信號的模式識別與系統建模等。從生物醫學信號分析的角度看,還有一些亟待深入的問題。例如:
(1)在以上分析中混合陣A被假設為恒定。這對靜態的圖像分析或固定信源是合理的;但在生理實際中,等效信源一般在空間并不固定,因而混合陣A應視為時變的,而且傳導過程中還會引入容積導體的卷積及遲作用。這可能是實際生理信號分解結果不夠理想的原因之一。
(2)一般公認,生理信號的非平穩性較強,而以上分析并沒有考慮信號的非平穩性。