前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的基于神經網絡的手勢識別主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:計算機視覺 手勢識別 OpenCV 靜態手勢識別
中圖分類號:TP3 文獻標識碼:A 文章編號:1672-3791(2014)03(c)-0048-02
計算機從問世以來就在逐步改善我們的生活。隨著計算機在各個領域使用的普及化,人機交互技術正在此時引起了世界各國專家們極大的興趣,并對其開始進行深入的研究。近些年來,對于符合人際交流習慣的新型人機交互技術的研究變的相當的活躍。而這些研究中主要包含了人的臉部識別、面部表情變化的識別、唇讀、凝視與頭部運動的跟蹤以及手勢識別等方面。而手勢識別則因為更加符合人與人之間的交流習慣,從而成為了一種以人為交互的中心的新型的人機交互技術。因此,手勢識別技術已經成為人機交互領域的一大研究熱點,本文主要研究基于視覺的靜態手勢識別技術。
1 手勢識別技術的分類
近些年,手勢技術已經出現了幾種比較完善的理論體系,通過不同的手勢輸入設備可以將手勢的識別主要分為基于視覺的手勢識別和基于數據的手勢識別這兩種技術。
1.1 基于數據手套的手勢識別
作為一種交互設備的數據手套,它在虛擬現實中應用廣泛,有只利用幾個傳感器來測量手勢中手指的彎曲度的簡單的數據手套,也有用多個傳感器來測量手勢中的多個信息的復雜的數據手套。基于數據手套的手勢識別技術是利用數據手套和位置跟蹤器測量手勢在空間運動中的軌跡和時序信息。在手勢識別的過程中,被識別人佩戴數據手套后建立3D手勢模型,系統可以通過所佩戴數據手套上的多個傳感器來采集動態手勢的運動信息,應用一系列識別算法,達到識別的效果。
1.2 基于視覺的手勢識別
基于視覺的手勢識別技術是通過攝像頭來采集手勢,這里的攝像頭可以是單個或者多個。之后對所采集到的手勢進行相應的特征提取后對特征進行識別,從而達到識別手勢的目的。相比前者,基于視覺的手勢識別技術的優勢在于手勢采集設備比較便宜,同時基于視覺的手勢識別技術能夠使人以更自然的方法與機器進行交互。缺點是這種技術實時性較差,受外界因素的影響較大,例如背景、光照等。
2 手勢識別技術在人機交互中的應用
手勢識別作為典型的人機交互技術,主要有以下幾個方面的應用。
(1)主要用于虛擬環境上的交互。如:虛擬的裝配、虛擬的制造、產品設計等等。虛擬的裝配主要是通過手的動作來控制零件的裝配工作,并且還可以通過語音與手勢之間的合成來定義零件之間的裝配關系,同時還可以將手勢識別用在復雜的設計信息輸入上。
(2)主要用于手語的識別。對于聾啞人來說,手語是他們的語言,也是他們依賴的對象,而手語則是由手型、動作、表情、姿勢等方面所構成的一套手語交流的體系,它主要是依賴視覺與動作的交流。當手勢識別與手語相互結合之后,機器就能看懂聾啞人的語言,故而,形成一套人與機器的手語翻譯系統,這樣就很好地便于聾啞人的交流。
(3)用于機械手的抓取。機械手的自然抓取一直是機器人研究領域的難點。手勢識別,尤其是對于基于數據手套的手勢識別技術的研究對克服這個問題有重要的意義,是手勢識別的重要應用領域之一。
3 手勢識別技術的主要識別方法
目前,無論是在基于數據手套的手勢識別還是基于視覺的手勢識別技術都有很多的分類識別算法,常用的主要有模板匹配法、神經網絡法、隱馬爾科夫模型法(HMM)和支持向量機法等等。
3.1 神經網絡方法
神經網絡作為一種被廣泛應用的工具,在靜態手勢識別中也起到很大的作用。神經網絡是一種大規模并行處理網絡。由許多具有非線性映射能力的神經元組成,神經元之間通過權相連。神經網絡作為一種靜態手勢識別技術,具有自組織和自學習能力,能有效抗噪聲、同時具有很強的容錯性和魯棒性。經過多年發展,人工神經網絡已經具有很多模型,例如模糊神經網絡和BP神經網絡。目前應用比較廣泛的是以反向傳播學習算法為基礎的多層神經網絡,簡稱為BP神經網絡。
3.2 隱馬爾可夫模型(HMM)方法
對于動態的手勢,可以理解成一個連續區間內的手勢信號。而對于分析區間內的信號,通常采取HMM方法進行模型化。HMM是在馬兒可夫鏈的基礎之上發展起來的。由于實際問題比馬兒可夫鏈模型所描述的更為復雜,觀察到的事件并不是與狀態一一對應的,而是通過一組概率分布相聯系,這樣的模型就稱為HMM。它是一個雙重隨機過程:一是馬兒可夫鏈,這是基本隨機過程,它描述狀態的轉移;另一個隨機過程描述狀態和觀察值之間的統計對應關系。這樣,站在觀察者的角度,只能看到觀察值,不像鏈馬兒可夫模型中的觀察值和狀態一一對應,因此,不能直接看到狀態,而是通過一個隨機過程去感知狀態的存在及其特性。因而稱之為“隱”馬兒可夫模型,即HMM。 然而正是由于HMM拓撲結構的一般性,導致這種模型在分析動態手勢信號時過于復雜,使HMM訓練和識別計算量過大,尤其是在連續的HMM中,由于需要計算大量的狀態概率密度,需要估計的參數個數較多,使得訓練及識別的速度相對較慢,因而以往手勢識別系統所采用一般為離散HMM。
3.3 模板匹配方法
這是一種最簡單的識別技術,其核心的思想就是將輸入的原始數據與預先存儲的模板進行匹配,通過測量兩個模板之間的相似度來完成識別任務。最常用的匹配方法有加權歐氏距離法,相關系數法以及對數距離法。目前,這種方法廣泛用于靜態手勢識別,具有計算簡單、速度快的特點。
4 本文研究工作
4.1 本報告的研究內容
本手勢識別系統的工作原理:在已經獲取的手勢照片中,每個手勢選取4張圖片作為模板,提取三個特征值,作為貝葉斯分類器的訓練樣本,訓練完成后,用同樣的方法提取讀入圖片的三個特征值,用貝葉斯分類器對其分類進行預測,從而得到識別結果
系統可以實時的對本文預定義的六個手勢進行識別,六個手勢按照手指數分別定義為0,1,2,3,4,5。系統由三個模塊所組成,分別為圖像預處理、特征提取以及手勢的分類識別。
(1)手勢圖像預處理:減少圖片的像素值后通過膚色檢測檢測手所在區域,將圖像二值化,用邊緣檢測方法提取手勢的邊緣圖像。
(2)手勢圖像特征提取:在得到手勢的邊緣圖像以及輪廓矩陣之后,按照本文所采用的手勢特征,對手勢進行特征提取,生成手勢的特征向量。
(3)手勢的分類識別:本文采用訓練過的貝葉斯分類器計算后驗概率,選擇最大的后驗概率的類作為該手勢所屬的類別,即得出系統的識別結果。
4.2 圖像處理與特征提取
4.2.1 圖像預處理和膚色區域提取
對讀入的圖像先進行預處理,將圖片的像素減少以增加運行速度。膚色區域的提取算法原理如下:膚色在YCbCr空間里的Cb、Cr分量聚集成一個橢圓形狀,KL變換就是將坐標軸按照訓練膚色樣本的分布方差經過旋轉平移成一組新的正交坐標軸,然后再這新的坐標系中構建橢圓膚色檢測模型,在本系統中就是把圖像的Y、Cb、Cr三個通道分開,然后用指針分別對這三個通道的每一個像素進行處理。
4.2.2 手勢圖像特征提取
本系統主要提取了手勢的三個特征,提取方法如下:
(1)手勢圖像內手所占面積與手區域外接矩形面積的比值,提取方法為對圖像內的像素點進行掃描,得到最靠近圖片四周的白色像素點,經過這幾個像素點做圖片邊長的平行線得到該矩形并計算面積,手勢面積是計算提取膚色之后的圖片中白色像素點的數量來獲得。
(2)手區域外接矩形的寬與長的比值,矩形的長與寬的獲得方法如上。
(3)手指數量,用一根水平線對進行過邊緣提取的圖片進行從上到下的掃面,求出出現在該水平線上白色像素點的最大值,記為ymax,手指數量即為ymax/2。
4.2.3 貝葉斯分類器訓練和識別
本程序中對bayes分類器使用步驟如下:
(1)樣本的選擇。
對每個手勢選取較有代表性的四張圖片,對其三個特征進行提取,并作為訓練樣本對貝葉斯分類器進行訓練。
(2)手勢的識別。
用訓練好的貝葉斯分類器對輸入圖片處理后得到的特征向量進行分類,得到其所屬的類別。
5 實驗結果及總結
5.1 實驗結果
對獲得的130張手勢照片中,識別正確的照片的張數為94,占總數的72.3%,對與算法比較簡陋的程序來說識別率還是令人滿意的。
5.2 程序可改進的技術途徑
(1)手勢區域的提取。
本程序采用膚色檢測來識別手勢區域,實際使用中效果不佳,任何類膚色區域都將被識別成手勢區域,故檢測程序時,采用的是深色背景的手勢圖片,以減少背景被檢測為手勢區域的可能。可見單純的膚色檢測并不能很好的檢測手勢區域,尤其是復雜背景下的手勢區域,在膚色檢測的前提下,另外可以通過提取手勢圖像的灰度圖的直方圖,確定閾值來對圖像進行二值化,二者結合使用必定回避單純使用膚色檢測的準確度有所提高。
(2)分類器的設計。
本程序采用的是opencv內置的貝葉斯分類器,而且也只是用了三個特征值,如果要進行優化,可以增加有效地特征值數量,來提高識別的準確度。
(3)特征值的提取。
在手勢區域較好的識別的情況下,面積比和寬長比的獲得較為簡單。手指數量的提取在實際操作中的效果并不如人意,因為實際檢測中,猶豫膚色檢測本身的缺陷,導致提取出來的手勢區域存在缺陷,進而導致手指數量的不準確提取。
參考文獻
[1] 戴丹.基于圖像的靜態手勢識別及在服務機器人的應用[D].浙江大學本科生畢業論文,2007.
關鍵詞:RGB-D;手分割;手勢
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2015)09-0191-02
Abstract: The paper first analyses the several technical difficulties in hand segmentation and the features that can be used as in this process, then introduces the ideas of existing d hand segmentation algorithm. At last it introduces deep learning technology and concludes the research direction of hand segmentation in further.
Key words: RGB-D; hand segmentation; gesture
手勢是一種無中間媒介的,非常人性化的人機交互方式。手勢識別已經成為人機交互領域的重要內容和研究熱點。基于視覺的手勢識別技術,通常由手勢分割、手勢建模、手勢形狀特征提取、手勢識別等幾個步驟組成。其中,手勢分割就是從視覺傳感器獲取數據中,將感興趣的有意義區域,即手區域分割出來。這是基于視覺的手勢識別過程中非常關鍵的第一個步驟。準確和快速的分割為后續步驟提供一個良好的基礎,可以極大地提升手勢識別系統的識別效果以及實時性能。
基于視覺的手勢識別系統最初是利用攝像頭作為傳感器。一個或兩個攝像頭組成的視覺系統獲取手勢圖像數據,手勢分割采用圖像處理方法,這些算法通常非常復雜,需要大量的計算資源。Kinect是微軟推出的一款2.5維傳感設備,它比傳統攝像頭獲取場景的2D圖像數據更進一步,同時也可以獲取一定范圍內的物體到傳感器的距離,即深度信息。更豐富的數據信息為更加快速有效的手勢分割提供了可能。
本文首先分析了手勢分割存在的技術難點及進行手勢分割過程中可能使用的特征,然后分析比較了現有手勢分割算法的基本思想和特點,最后介紹了深度學習技術并總結了手勢分割未來的研究方向。
1 手勢分割的技術難點
手勢分割的難點主要源于兩個方面,一是手勢的環境因素復雜性。手勢可以出現在任何一種復雜的環境背景中,顏色、亮度不同光照條件對手形成不同的高光和陰影、背景物體與膚色接近,移動的背景或手勢,手勢遮擋等。二是人類的手勢動作在空間上有很大的靈活性,這導致手的外形特征復雜多變。這些都給手勢準確分割帶來了困難
在任何條件下,人類的識別系統都能夠較為準確的認出感興趣的區域,人類在處理復雜的手勢時,使用了大量的關于手勢特征的先驗知識。但是人類視覺識別系統機理還有待進一步研究,目前還沒有一個可以指導改進手勢分割方法的統一的理論。
2 手勢分割的特征[1]
基于Kinect傳感器的手分割問題,可以看作是對RGB-D圖像中的手像素或非手像素標記問題。這里,我們將RGB圖像和對應的深度圖像數據定義為:
Data= {data(i,j) ={color,depth} i, j | i = 1,...,n, j = 1,...,m, depth ∈ R, color∈Color Space}。
其中,color為位置(i,j)對應的顏色信息,按照某種顏色空間定義,depth為該位置的深度信息,
進行手分割時,必須對Data加以處理,提煉特征。通過調查以往的研究文獻,總結出以下特征:
1) 人體的拓撲結構:和人體某一局部圖像相比,人們更容易從人體的整體圖像中確定手的位置。這是因為人類所具有的人體的整體拓撲結構知識。這個知識只提供給手部區域的大致方位。
2) 距手心距離:通過手的形態學知識,人類可以推斷當距離手心距離小于某個值,肯定屬于手部區域,如果大于某個值,肯定不屬于手部區域;
3) 膚色和深度:雖然膚色易受到人種,光照等的影響,手部區域在深度圖像或者彩色圖像上雖然其整體上有可能并不均勻一致,但是其在較小的局部范圍內應當保持一定的連續性,而非手部區域的邊界像素與相鄰背景區域像素具有較大的變化;
在進行手區域判斷的時候,人類往往不是僅基于某種單一特征,而是多種特征的融合的決策。每個特征在決策過程中起到不同的作用,對一個手的不同位置起到的效用有可能也不一樣。
3 手勢分割算法
手勢的分割實際上包括兩個步驟:首先是手定位,這是指從RGB-D圖像中確定手是否出現,并且確定手所在區域;在此基礎上進行第二個步驟,即去除背景的干擾,將手區域從RGB-D圖像中分離出來,該過程稱為手分割。通常情況下,兩個步驟同時進行。傳統的基于視覺的手勢分割方法主要有基于輪廓的手勢分割方法、基于運動的手勢分割方法、基于膚色的手勢分割方法等。
基于輪廓的手勢分割方法[2]利用手的拓撲結構特征來對手進行分割。但是該方法面臨兩個技術問題:一是,人的手勢是靈活多變的,手部旋轉或彎曲使得很難確定手部的初始輪廓;二是手勢的形狀存在深度凹陷區域,傳統的輪廓方法無法收斂。這些因素極大地影響了輪廓的準確性,進而影響到手勢分割的準確性。
膚色是手勢最為明顯的特征之一,基于膚色的手勢分割方法[3]建立膚色模型,通過膚色和背景在膚色模型的差異來實現手勢分割。但是,該方法不能很好解決實際應用中的手勢復雜背景環境問題。實際環境中,膚色會受到光源亮度和位置變化、有色光源的色彩偏移等條件的影響。此外,手部反轉彎曲形變使得光源角度和陰影也會發生變化。這些因素使得整個手部區域的膚色可能并不一致,這導致無法建立一個具有較高準確度的膚色模型。
基于運動的分割方法[4]主要分為是幀差法和背景差分法。幀差法對視頻中的連續幀圖像進行差分運算,消除由于運動而產生的背景影響,從而提取精確的運動目標輪廓信息。背景差分法首先對背景圖像建模,然后通過圖像序列中的當前幀和背景參考模型比較來檢測運動物體,其性能依賴于所使用的背景建模技術。已有的研究表明,運動中的光影變化和背景的動態變化會影響到分割結果準確性。
在獲取場景的2D圖像數據的基礎上,Kinect也同時獲取一定范圍內的物體到傳感器的距離,即深度信息。更豐富的數據信息為更加快速有效的手勢分割提供了可能。研究者利用RGB-D數據進行手勢分割時,可以只深度圖像或者融合RGB和深度信息。前者瞄準快速算法,后者目標是一個精確系統,下面進行簡要介紹:
文獻[5,6]將手分割看成一個深度聚類問題,基本思想是在深度圖像中,手部區域與背景區域分的深度值不同。通過分析人的形體數據確定一個深度閾值,該閾值對應的像素區域就是手區域。利用預定義閾值和k-means聚類算法進行手檢測。手指的位置通過手輪廓的凸包分析定位。這種方法在進行手勢識別時,限定手必須處于距離Kinect傳感器最近的位置,單一使用深度信息,忽略了RGB信息,手勢分割的準確性受到影響;
微軟提供的kinect SDK,利用機器學習算法提供了骨骼數據流,可以對人體骨骼關鍵點進行定位。文獻[7]利用了骨骼信息中的手的位置信息。以此為基礎,采用形態學分析設定RGB-D中,手的三個軸方向上閾值,該閾值范圍內的區域被看成是手區域。然后利用OPEN VC中的腐蝕(cvErode)、找到邊界(cvFindContours)等相關函數手的輪廓。因為采用閾值方式,手勢分割的準確性受到環境因素影響較大,且該方法建立在骨骼算法和OPEN VC圖像處理算法基礎之上,手勢分割的實時性受到影響。
文獻[8]采用了特征模型和神經網絡相結合的方法。首先建立手勢的膚色模型,背景模型和深度模型,然后三個模型的兩兩重疊率作為神經網絡的輸入,三層神經網絡的構建基于兩點假設,一是每一個模型對于最終的像素分割結果都具有大于0的可信度貢獻,二是,沒有一個模型是絕對可靠的,每個像素的確定至少取決于兩個模型的結果。
文獻[9]采用了形態學分析的方法。在深度圖中尋找管狀或指形狀作為手掌和手指的候選對象。基于手掌和手指位置上是相連的這一形態學常識,進而檢測候選對象的空間位置以確定手部區域;
文獻[10]建立了一個標準人類手在不同深度層的大小的查找表。利用kinect SDK提供的骨骼數據中的手的位置信息,確定手的深度,以此從查找表中找到對應手的大小,進而大概確定手區域。文獻[11]將手檢測問題看成是一個手像素或非手像素標記問題。算法集成彩色和深度信息進行手區域檢測。皮膚檢測算子對RGB圖像進行處理,聚類算子對深度圖像進行處理,二者的交集就是最終的手部區域。
4 深度學習技術
在已有的手勢分割方法中,良好的特征表達,對最終算法的準確性起了非常關鍵的作用。上述方法中,特征的設計靠人工選取完成。通常來說,手工選取和設計特征是一件非常費力方法,需要專業的知識和大量時間進行調節。
深度學習是一種新的機器學習方法,其目標是建立、模擬人腦進行分析學習的神經網絡,通過非監督學習,實現自動的學習特征。深度學習構建具有很多(5層、6層,甚至10多)隱層的機器學習模型,通過海量數據訓練,使得原樣本空間逐層變換到一個新特征空間,來學習更有用的特征。這類似于人類從原始信號,做低級抽象,逐漸向高級抽象迭代。最終的分類或預測在高級抽象層進行,從而提高了準確性。大數據學習的特征比人工規則構造特征更能夠刻畫數據的豐富內在信息。
5 總結
手勢分割是基于視覺的手勢識別過程中非常關鍵的第一個步驟,將極大地影響到手勢識別系統的識別效果以及實時性能。準確和快速的分割是手勢識別的基礎,目前還不存在任何一種方法在所有應用系統和背景條件下都能取得良好的分割效果。深度學習技術為手勢分割問題提供了一種新的解決思路,其更加接近于人類視覺系統機理。可以將手勢識別過程看成是一個從海量的手勢數據中深度學習過程,無需手勢特征的先驗知識,通過學習產生對于手勢檢測分割具有指導意義的特征,在此基礎上進行手勢分割將會取得較為理想的結果。
參考文獻:
[1] 蔣美云,郭雷. 基于特征算子的RGB-D圖像手分割算法[J].計算機與數字工程,2014(11):2168-2172.
[2] Tofighi, Ghassem, S. Amirhassan Monadjemi, and Nasser Ghasem-Aghaee. Rapid hand posture recognition using Adaptive Histogram Template of Skin and hand edge contour[C].//In Machine Vision and Image Processing (MVIP), 2010:1-5.
[3] Julien L, Francois B. Visual Tracking of Bare Fingers for Interactive Surface[C].//Proceedings of the 17th Annual ACM Symposium on UIST, Santa Fe, NM, USA: ACM,2004:119-122.
[4] Kakumanu, Praveen, Sokratis Makrogiannis, and Nikolaos Bourbakis.A survey of skin-color modeling and detection methods[J].Pattern recognition.2007,40(3):1106-1122.
[5] R. Tara, P. Santosa, and T. Adji, Hand segmentation from depth image using anthropometric approach in natural interface development[J].International Journal of Scientific & Engineering Research,2012,3(5):1-4.
[6] U. Lee and J. Tanaka, Hand controller: Image manipulation interface using ?ngertips and palm tracking with Kinect depth data[C].//in Proc. Asia Paci?c Conf. Comput. Human Interact,2012:705-706.
[7] Maisto, Marco, Massimo Panella, Luca Liparulo, and Andrea Proietti. An Accurate Algorithm for the Identification of Fingertips Using an RGB-D Camera[J]. Emerging and Selected Topics in Circuits and Systems, IEEE Journal on,2013,3(2):272-283.
[8] Zhang, Xin, Zhichao Ye, Lianwen Jin, Ziyong Feng, and Shaojie Xu. A New Writing Experience: Finger Writing in the Air Using a Kinect Sensor[J]. MultiMedia, IEEE. 2013,20(4):85-93.
[9] G. Hackenberg, R. McCall, and W. Broll, Lightweight palm and ?nger tracking for real-time 3-D gesture control [C], in Proc. IEEE Conf. Virtual Reality,2011:19-26.
關鍵詞:人工智能 機器學習 機器人情感獲得 發展綜述
中圖分類號:TP18 文獻標識碼:A 文章編號:1003-9082 (2017) 04-0234-01
引言
人類自從工業革命結束之后,就已然開始了對人工智能的探索,究其本質,實際上就是對人的思維進行模仿,以此代替人類工作。人工智能的探索最早可以追溯到圖靈時期,那時圖靈就希望未來的智能系統能夠像人一樣思考。在20世紀五十年代,人工智能被首次確定為一個新興的學科,并吸引了大批的學者投入到該領域的研究當中。經過長時間的探索和嘗試,人工智能的許多重要基本理論已經形成,如模式識別、特征表示與推理、機器學習的相關理論和算法等等。進入二十一世紀以來,隨著深度學習與卷積神經網絡的發展,人工智能再一次成為研究熱點。人工智能技術與基因過程、納米科學并列為二十一世紀的三大尖端技術, 并且人工智能涉及的學科多,社會應用廣泛,對其原理和本質的理解也更為復雜。 一、人工智能的發展歷程
回顧人工智能的產生與發展過程 ,可以將其分為:初期形成階段,綜合發展階段和應用階段。
1.初期形成階段
人工智能這一思想最早的提出是基于對人腦神經元模型的抽象。其早期工作被認為是由美國的神經學家和控制論學者 Warren McCulloch與Walter Pitts共同完成的。在1951年,兩名普林斯頓大學的研究生制造出了第一臺人工神經元計算機。而其真正作為一個新的概念被提出是在1956年舉行的達茅斯會議上。由麥卡錫提議并正式采用了“人工智能”(Artificial Intelligence)礱枋穌庖謊芯咳綰斡沒器來模擬人類智能的新興學科。1969年的國際人工智能聯合會議標志著人工智能得到了國際的認可。至此,人工智能這一概念初步形成,也逐漸吸引了從事數學、生物、計算機、神經科學等相關學科的學者參與該領域的研究。
2.綜合發展階段
1.7 7年, 費根鮑姆在第五屆國際人工智能聯合會議上正式提出了“知識工程”這一概念。而后其對應的專家系統得到發展,許多智能系統紛紛被推出,并應用到了人類生活的方方面面。20世紀80年代以來,專家系統逐步向多技術、多方法的綜合集成與多學科、多領域的綜合應用型發展。大型專家系統開發采用了多種人工智能語言、多種知識表示方法、多種推理機制和多種控制策略相結合的方式, 并開始運用各種專家系統外殼、專家系統開發工具和專家系統開發環境等等。在專家系統的發展過程中,人工智能得到了較為系統和全面的綜合發展,并能夠在一些具體的任務中接近甚至超過人類專家的水平。
3.應用階段
進入二十一世紀以后,由于深度人工神經網絡的提出,并在圖像分類與識別的任務上遠遠超過了傳統的方法,人工智能掀起了前所未有的。2006年,由加拿大多倫多大學的Geoffery Hinton及其學生在《Science》雜志上發表文章,其中首次提到了深度學習這一思想,實現對數據的分級表達,降低了經典神經網絡的訓練難度。并隨后提出了如深度卷積神經網絡(Convolutional Neural Network, CNN),以及區域卷積神經網絡(Region-based Convolutional Neural Network, R-CNN),等等新的網絡訓練結構,使得訓練和測試的效率得到大幅提升,識別準確率也顯著提高。
二、人工智能核心技術
人工智能由于其涉及的領域較多,內容復雜,因此在不同的應用場景涉及到許多核心技術,這其中如專家系統、機器學習、模式識別、人工神經網絡等是最重要也是發展較為完善的幾個核心技術。
1.專家系統
專家系統是一類具有專門知識和經驗的計算機智能程序系統,通過對人類專家的問題求解能力建模,采用人工智能中的知識表示和知識推理技術來模擬通常由專家才能解決的復雜問題,達到具有與專家同等解決問題能力的水平。對專家系統的研究,是人工智能中開展得較為全面、系統且已經取得廣泛應用的技術。許多成熟而先進的專家系統已經被應用在如醫療診斷、地質勘測、文化教育等方面。
2.機器學習
機器學習是一個讓計算機在非精確編程下進行活動的科學,也就是機器自己獲取知識。起初,機器學習被大量應用在圖像識別等學習任務中,后來,機器學習不再限于識別字符、圖像中的某個目標,而是將其應用到機器人、基因數據的分析甚至是金融市場的預測中。在機器學習的發展過程中,先后誕生了如凸優化、核方法、支持向量機、Boosting算法等等一系列經典的機器學習方法和理論。機器學習也是人工智能研究中最為重要的核心方向。
3.模式識別
模式識別是研究如何使機器具有感知能力 ,主要研究圖像和語音等的識別。其經典算法包括如k-means,主成分分析(PCA),貝葉斯分類器等等。在日常生活各方面以及軍事上都有廣大的用途。近年來迅速發展起來應用模糊數學模式、人工神經網絡模式的方法逐漸取代傳統的基于統計學習的識別方法。圖形識別方面例如識別各種印刷體和某些手寫體文字,識別指紋、癌細胞等技術已經進入實際應用。語音識別主要研究各種語音信號的分類,和自然語言理解等等。模式識別技術是人工智能的一大應用領域,其非常熱門的如人臉識別、手勢識別等等對人們的生活有著十分直接的影響。
4.人工神經網絡
人工神經網絡是在研究人腦的結構中得到啟發, 試圖用大量的處理單元模仿人腦神經系統工程結構和工作機理。而近年來發展的深度卷積神經網絡(Convolutional neural networks, CNNs)具有更復雜的網絡結構,與經典的機器學習算法相比在大數據的訓練下有著更強的特征學習和表達能力。含有多個隱含層的神經網絡能夠對輸入原始數據有更抽象喝更本質的表述,從而有利于解決特征可視化以及分類問題。另外,通過實現“逐層初始化”這一方法,實現對輸入數據的分級表達,可以有效降低神經網絡的訓練難度。目前的神經網絡在圖像識別任務中取得了十分明顯的進展,基于CNN的圖像識別技術也一直是學術界與工業界一致追捧的熱點。
三、機器人情感獲得
1.智能C器人現狀
目前智能機器人的研究還主要基于智能控制技術,通過預先定義好的機器人行動規則,編程實現復雜的自動控制,完成機器人的移動過程。而人類進行動作、行為的學習主要是通過模仿及與環境的交互。從這個意義上說,目前智能機器人還不具有類腦的多模態感知及基于感知信息的類腦自主決策能力。在運動機制方面,目前幾乎所有的智能機器人都不具備類人的外周神經系統,其靈活性和自適應性與人類運動系統還具有較大差距。
2.機器人情感獲得的可能性
人腦是在與外界永不停息的交互中,在高度發達的神經系統的處理下獲得情感。智能機器人在不斷的機器學習和大數據處理中,中樞處理系統不斷地自我更新、升級,便具備了獲得情感的可能性及幾率。不斷地更新、升級的過程類似于生物的進化歷程,也就是說,智能機器人有充分的可能性獲得與人類同等豐富的情感世界。
3.機器人獲得情感的利弊
機器人獲得情感在理論可行的情況下,伴之而來的利弊則眾說紛紜。一方面,擁有豐富情感世界的機器人可以帶來更多人性化的服務,人機合作也可進行地更加深入,可以為人類帶來更為逼真的體驗和享受。人類或可與智能機器人攜手共創一個和諧世界。但是另一方面,在機器人獲得情感時,機器人是否能徹底貫徹人類命令及協議的擔憂也迎面而來。
4.規避機器人情感獲得的風險
規避智能機器人獲得情感的風險應預備強制措施。首先要設計完備的智能機器人情感協議,將威脅泯滅于未然。其次,應控制智能機器人的能源獲得,以限制其自主活動的能力,杜絕其建立獨立體系的可能。最后,要掌控核心武器,必要時強行停止運行、回收、甚至銷毀智能機器人。
三、總結
本文梳理了人工智能的發展歷程與核心技術,可以毋庸置疑地說,人工智能具有極其廣闊的應用前景,但也伴隨著極大的風險。回顧其發展歷程,我們有理由充分相信,在未來人工智能的技術會不斷完善,難題會被攻克。作為世界上最熱門的領域之一,在合理有效規避其風險的同時,獲得情感的智能機器人會造福人類,并極大地幫助人們的社會生活。
參考文獻
[1]韓曄彤.人工智能技術發展及應用研究綜述[J].電子制作,2016,(12):95.
[2]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計算機學報,2016,(01):212-222.
[3]張越.人工智能綜述:讓機器像人類一樣思考
【關鍵詞】視頻跟蹤 手部識別
1 引言
計算機從誕生至今,其輸入設備從最初的機電開關,逐漸發展為打孔紙帶、磁帶,再到今天的鍵盤、鼠標和游戲手柄,向計算機輸入數據的效率越來越高,但方法的本質并未改變,都要將自然信息通過機械式方式輸入計算機。這些方式都是基于2D的圖形界面,將用戶的操作限制于特定的外部設備上,無法實現自然而隨意的人機交互。長時間使用,會使用戶感到疲憊,導致用戶體驗下降。
對于用戶來說,人的語音、手勢等可以說是最為自然、最為方便的交流手段,同時手勢在3D環境中意義明確、方向精確,是極好的人機交互手段。許多大型互聯網公司與游戲公司早就對此進行了探索。微軟,索尼,任天堂等公司有著自己研發的外部設備,如游戲手套和傳感器等,以此來捕捉并記錄手部的運動軌跡,實現特定的操作乃至體感游戲。但這類外部設備的缺陷也是很明顯的:這類設備一般為機械傳感器式或光纖傳感器式,帶有傳感器、機械部件甚至用來與主機連接的電纜等,沉重、累贅、不靈活;且通常價格昂貴、極易損壞,用戶體驗不佳;更重要的是限制于特定平臺,不具備通用性,普及度不高。
若能實現基于計算機視覺技術的手勢識別及操作系統,不僅可以將我們的雙手從特定外部設備上解放出來,使操作更加輕松、隨意,還能獲得更好的人機交互體驗,推動“虛擬現實”的研究。目前已經有了大量的跟蹤算法和相關設別,如微軟的Kinect攝像頭及最新的Hololens頭盔已經能達到很好的效果,但都較為復雜。因此本文研究一種簡單通用的基于計算機視覺的手部跟蹤算法。
2 手部區域提取
2.1 樣本采集
為了保證研究的順利進行,首先需要采集手部樣本圖片。為保證實驗結果的準確性,樣本圖片數量最好在100張以上,并記錄不同姿態,其中男性樣本和女性樣本的數量保持相等。
2.2 膚色信息分析
膚色信息近似為皮膚的顏色信息,物體表面的顏色即表面色是因光照而呈現的顏色[6]。我們采用RGB顏色模型對手部表面膚色進行分析,發現膚色處于某個范圍之內。方法如下:手動提取樣本圖像中的手部,對其進行RGB顏色分量統計,得到各分量直方圖。由于各分量直方圖上手部體現為一個近似波峰,所以可取波峰的半峰全寬(Full Width at Half Maxium)作為手部的膚色閾值。
根據膚色閾值提取手部,設HandSkin表示膚色閾值范圍,RGB(m, n)表示點(m, n)處的顏色信息,而bw(m, n)代表該點是否是手部,則:
2.3 模式識別
通過膚色信息初步提取手部后,可能會有孤立的局部點集出現。為此,統計所有互相連接的點集,提取點集對應的幾何特征,建立規則來選取符合手部的點集。
幾何特征一般包括面積、周長、重心等。而手部可以分為手掌和手指部分,手掌形狀近似于橢圓,手指為細長的柱體,因此整個手部的周長面積比會與其他物體有所區分,所以根據周長面積比將手部從背景中提取出來:
面積:指物體區域包含的像素數,用符號s表示。
周長:物體輪廓線上像素間距離之和,用符號c表示。在進行周長計算時,需根據像素間的連接方式,分別計算距離。像素間距離可分為并列連接像素與傾斜連接像素。并列有上下左右四個方向,像素間距離為1;傾斜方向有左上、左下、右上、右下,其像素間距離等于單位正方體的對角線長度。本文中先獲取二值圖像的邊緣信息,再使用8向鏈碼求周長。
周長面積比:用r表示,r = c/s。
求得所有樣本的面積周長比后,通過統計建立規則,并排除異常數據。設h表示點集,hand表示手部,handrule表示手部點集所必需滿足的規則,noise表示噪聲,s.t.表示滿足,則最終的手部點集為:
3 手部跟蹤
基于計算機視覺的手部跟蹤算法具體步驟:
步驟1:第一幀圖像預處理。根據上文所述方法進行第一幀的初始化。通過膚色信息和面積周長比特征提取出第一幀圖像中的手。為了方便描述手的運動軌跡,用幾何圖形來近似表示手部區域,本文選用包圍手部區域的最小橢圓來表示手部,該橢圓的中心O1表示手部中心點。
步驟2:依次掃描視頻的每一幀。對于第n幀,由于相鄰幀的時間相隔較短,手部不會有太大位移。根據上一幀手部區域的位置,設置該幀的掃描范圍。通過第2章方法,得出當前幀手部的中心點On。不斷重復算法直至視頻結束。
步驟3:描繪運動軌跡。從視頻最后一幀的中心點On開始,逆序依次連接On與On-1,直至視頻第一幀的中心點O1,得到完整的手部運動軌跡。
4 結論
本文所提出的以手部膚色信息為基礎的手部跟蹤算法,工程實現上較為簡答,算法效率高,經試驗測試,能夠較為準確地再現手部運動軌跡。同時,該種方法也具有缺點,在手部快速移動或做復雜運動時,算法所描繪的運動軌跡可能會出現斷裂,且該算法對光照敏感,在過強或過弱光照條件下,算法的準確性都會受到影響。今后的工作將繼續完善本算法,將嘗試以HSI顏色模型進行分析,考慮引入手部紋理與邊緣信息,減弱算法的光照敏感性,采用專家系統、智能優化、神經網絡、特征降維等高級技術。
參考文獻
[1]俞烈彬,孟凡文.武器裝備系統中的人機交互新技術[J].電子世界,2013(12): 164-165.
[2]孟艷麗,郭建.二語演講中手勢功能的實證分析[J].河南科技大學學報(社會科學版),2014,32(3):62-67.
[3]劉晉鋼,劉衛斌,劉晉霞.Kinect與Unity3D數據整合技術在體感游戲中的應用研究[J].電腦開發與應用,2014, 27(11):7-14.
[4]張蓬,王曉沖,陳建義.多自由度機械臂的虛擬現實仿真實現[J].機械設計與制造,2015(01):128-134.
[5]閆慶森,李臨生,徐曉峰,等.視頻跟蹤算法研究綜述[J].計算機科學,2013, 40(6A):204-209.
[6]奚吉,趙曉鈴,張煜東.改進的沃爾什濾波的圖像插值算法[J].計算機工程, 2010,36(22):211-213.
[7]張煜東,吳樂南,王水花.專家系統發展綜述[J].計算機工程與應用,2010, 46(19):43-47.
[8]王水花,張煜東,吉根林.群智能算法的理論及應用綜述[J].南京師范大學學報(工程技術版),2014,14(4):31-38.
[9]張煜東,吳樂南,韋耿.神經網絡泛化增強技術研究[J].科學技術與工程,2009(17):4997-5002.
[10]張煜東,霍元鎧,吳樂南,等.降維技術與方法綜述[J].四川兵工學報,2010, 31(10):1-7.
作者簡介
羅偉,男,江西省景德鎮市人。現供職于南京師范大學計算機科學與技術學院。研究方向為手勢跟蹤。
通訊作者
張煜東,男,江蘇省南京市人。博士學位。現為南京師范大學計算機科學與技術學院教授。研究方向為圖像處理。
作者單位
摘 要:為了以更直觀的方式控制仿人機械手,提高仿人機械手的操作性能,該文設計和實現了基于數據手套的遙操作多指靈巧手控制系統。提出了數據手套通過計算機系統和MSP430單片機對多自由度多指靈巧手進行實時控制的方案。該方案通過多指靈巧手與數據手套的結合提高了該系統的控制精度與交互性。該文將從設計方案的各個模塊和實驗結果說明基于數據手套的遙操作多指靈巧手控制系統的先進性和實用性。
關鍵詞:數據手套 多指靈巧手 MSP430 遙操作
中圖分類號:TP24 文獻標識碼:A 文章編號:1674-098X(2016)03(a)-0001-03
隨著機器人應用領域的不斷擴展,機器人作業的任務和環境的復雜性不斷地增加,仿人機械手作為機器人末端操作器,具有多自由度、多指協調、靈活性強的特點,因此,能滿足更靈巧以及精細的任務的要求。仿人機械手是一個復雜的機器人系統,若采用傳統的操作者向控制器輸入指令的控制模式,很難實現實時性和較好的交互性。而采用數據手套作為輸入,不僅能靈活的控制仿人機械手,而且具有自然、直觀、實時性強的優點,是提高仿人機械手操作性能和作業水平的有效途徑[6]。
目前,在國外,有使用數據手套作為輸入設備,對機械手抓取操作控制等的研究,也有對手勢識別的研究[5]。在國內,也有學者對相關方面的研究。該文采用的控制模式是操作者使用數據手套通過MSP430單片機系統實時控制機器人,操作者通過改變數據手套的姿態對機械手做出相應的調整。與傳統控制方法中操作者通過輸入運動指令的間接控制相比,這種直接的控制方法更加符合人類的操作習慣,它的操作簡單、高效,大大提高了交互性。
1 系統框架
該系統主要由數據手套、多指靈巧機械手、MSP430單片機3個部分組成[9],并在單片機和多指靈巧手上使用了一組無線模塊用來傳輸控制信號,從而在一定距離內實現了對機械手的遙操作。操作者通過改變數據手套的姿態,MSP430單片機可對得到的數據進行處理,轉換成相應的PWM波信號通過無線傳輸的方式控制機械手手指舵機轉動,從而實現對手套姿態的跟蹤[7]。
2 原理與設計
多指靈巧機械手有如下幾個方面[1]。
2.1 機械手結構
該文所使用的靈巧手是在參考人手骨骼特點的基礎上設計的一種具有適應性的欠驅動機構。整個機械手由手掌、手指以及各個手指的驅動傳動機構和回復機構組成,具多個自由度,能完成人手的簡單抓握。考慮到與人手外觀的相似性,采用了五指的形式。其中拇指具有與人手拇指相同的機構,其余四指各具有3個轉動自由度,根關節不具有擺動自由度(圖1、圖2)。
2.2 控制機構設計
該機械手采用航模中的舵機作為動力,結合單片機組成的控制系統,通過對5個手指的分別控制,實現對靈巧手進行多自由度控制。舵機主要由以下幾個部分組成:舵盤、減速齒輪組、位置反饋比例電位器、直流電機、控制電路板組成。控制電路板接受來自控制端口的控制信號,控制電機轉動,電機帶動一系列齒輪組,減速后傳動至輸出軸。舵機的輸出軸和位置反饋比例電位器是相連的,輸出軸轉動的同時,帶動位置反饋比例電位器,轉換為一比例電壓反饋到控制電路板,然后控制電路板根據所在位置決定電機的轉動方向和速度,達到目標后停止。
3 實驗與分析
該文設計的基于數據手套的遙操作多指靈巧手,擁有能完整完成人手復雜動作的能力。已經從數據手套發送數據和機械手能夠完整完成人的動作兩個方面進行驗證。
3.1 驗證手套發送數據
由于數據手套是由5個應變片、一個微控制器組成的,它向外輸出TTL信號,所以,在完成供電準備之后,使用CP2102模塊轉對其信號進行轉換。
可以看到數據成0xFF,Data1,Data2,Data3,Data4,Data5,0xF0形式,每一組數據由0xFF開始,以0xF0結尾,中間每一個Data都代表了手指的彎曲程度(如圖3)。
通過觀察可以發現,隨著手指彎曲得到的數據也會改變,我們彎曲的這種程度可以讓數據從0x38變化到0x4A左右。
3.2 系統功能驗證
為了驗證該文所述系統的功能,我們按照上文所述進行實際搭建并完成了相應控制程序的編寫。實驗結果表明,該文所述的基于數據手套的遙操作機械手系統可以較好地實現多指靈巧機械手對操作者手部動作的實時準確跟蹤,并具有在一定范圍內的遙操作功能。
單個手指動作控制如圖4所示。
4 結語
該文設計實現了一種基于數據手套的多指靈巧手,可以實現人手實時操控機械手的功能,并且我們所設計的機械手的手指彎曲極限程度接近人手,模仿精度較高,可以夾起一些很輕的物體。并且由于無線傳輸模塊的加入,可以實現在一定范圍內的遙操作功能,提高了機械手的實用性。與傳統的機械手控制系統相比,本系統具有體積小、可進行遠距離操作、操作簡單直觀的優點,具有較為廣泛的應用前景,在未來還有較大的發展潛力。
參考文獻
[1] 王超群.繩驅動五指靈巧手的設計[J].上海電機學院報,2012(5):301-305.
[2] 韋婷,肖南峰.基于數據手套的仿人機械手控制系統[J]. 計算機工程與設計,2009,30(7):1707-1711.
[3] 張建鵬,劉世前,敬忠良.基于MSP430的舵機控制系統設計[J].微電機,2010,43(1):46-49.
[4] B.Merritt and M.Raju,“PWM DC Motor Control Using Timer A of the MSP430,”Texas Instruments,Dec,2000.
[5] 李東潔,李君祥,張越,等.基于PSO改進的BP神經網絡數據手套手勢識別[J].電機與控制學報,2014(8):87-93.
[6] 張俊杰,李世其,熊友軍.基于數據手套的機械手控制技術應用[J].計算機應用研究,2006(7):170-171.
[7] 劉杰,張玉茹,劉博.人手到靈巧手的運動映射實現[J].機器人,2003(5):444-447.