前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的如何學習計算機視覺主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:計算機視覺;研討式教學;小組探討;課前回顧
作者簡介:陳芳林(1983-),男,湖南株洲人,國防科學技術大學機電工程與自動化學院,講師;周宗潭(1969-),男,河南洛陽人,國防科學技術大學機電工程與自動化學院,教授。(湖南 長沙 410073)
中圖分類號:G643.2 文獻標識碼:A 文章編號:1007-0079(2013)26-0065-02
進入21世紀,創新型人才的培養成為各國政府和高等教育界關注的一個焦點。世界各國研究型大學的共同特點是在研究生教育階段致力于培養富有創新意識和創新能力的高級人才。[1]研討式教學是培養研究生創新精神、科研能力的有效途徑,教師講解與學生探討兩部分相結合是研討式教學采用的主要模式。[2]將課程分成兩部分之后,教師講解的時間就必須壓縮,教師一方面需要思考如何在較短的時間內完成課程的講解,同時還需要考慮課程講解要與學生探討部分緊密結合。因此,如何上好研討式教學教師講解這部分課,越來越受高等院校的重視。本文針對筆者教授工科研究生課程“計算機視覺”的實踐與經驗,闡述了筆者對于如何上好研討式教學教師講解這部分課的個人體會。總結為兩點:第一,首先要充分做好課程準備;第二,上課環節采取回顧—案例—小結的講解方式。下面從課程準備、課前回顧、課程講解、課后小結四個方面分別闡述(如圖1所示)。
一、“計算機視覺”課程準備
要上好一門研討式教學的課程,一定要結合該門課程的特點,量身定制課程內容,進行精心準備。本節先介紹“計算機視覺”課程的特點,然后結合該門課程的特點,介紹筆者對于“計算機視覺”的課程準備。
1.“計算機視覺”課程特點
“計算機視覺”是“數字圖像處理”和“模式識別”等課程的后續課程。該課程重點在于圖像或者圖像序列的分析理解。課程知識在機器人導航、偵查、測繪、測量、精密加工和目標跟蹤等多個領域都有廣泛的應用。[3]近年來基于視覺信息的控制反饋也開始受到廣泛關注。國內高校一般都為研究生開設了此門課程。
計算機視覺技術應用廣泛、算法原理涉及面廣:涉及到概率與數理統計、信號與系統、圖像等基礎知識。“計算機視覺”是一門重要的控制類、電子類及計算機類專業研究生的選修課程,它內容廣泛、綜合性強,研討能力的培養顯得非常關鍵。
2.課程準備
首先,結合“計算機視覺”課程內容廣泛、技術日益更新和豐富的特點,將課程36學時分為12次課,每次課為3小時,每堂課教師講解一個專題。這種設計,一方面可以更廣地涉及計算機視覺的各個領域;另一方面以專題的形式來講解,可以將學生帶入到該專題,介紹基本背景、理論、知識和方法,讓學生有一個初步的了解,方便課后學生對感興趣的專題進一步深入挖掘與研究。
其次,在課程開始之前,教師仔細統籌,安排好每次課的專題,這樣既方便學生一開始對整個課程有一個整體的了解,也方便學生選擇課堂研討的題目與內容。根據12個專題,將各個專題講解的內容與課件在開課之前準備好,這樣有利于把握各個專題之間的前后承接關系。例如,“區域”與“分割”是既有區分又有聯系的兩個專題,在課程開始之前,將課件準備好,就有利于宏觀把握,在“區域”專題提到的分割算法,就不需要在“分割”專題再次重復,而在“分割”專題可以結合前面“區域”專題進行互相補充,以幫助學生融會貫通。
最后,在每個專題上課之前,再對課件進行精雕細琢,主要是對內容分好層次,對方法進行分類,力圖在較短的時間內,讓學生對該專題有較全面的認識。例如,在講解圖像分割時,由于圖像分割方法非常多,可以將分割方法分為若干個大類,每個大類只講1~2個方法。這樣既可以盡可能涉及更廣的領域,又可以提高講解的效率。
二、“計算機視覺”課前回顧
課前回顧是指每堂課的前面一小段時間用來回顧上一堂課的內容。雖然課前回顧時間非常短,一般為3~8分鐘,但是課前回顧是課堂教學中的一個重要環節。課前回顧可以幫助學生加強將要學習的內容與已學過內容之間的聯系。通過課前回顧,學生可以回憶前續課程所講解的概念、理論、算法的步驟等內容,有助于解決新問題或者理解新知識。
課前回顧最重要的是既要復習前續課程的內容,又要注意將前續內容與當前內容聯系起來。由于講解時間有限,要使研討式教學的教師講解部分效率高,教師幫助學生回憶上堂課的概念、模型、算法等內容,就變得非常重要。如果不做課前回顧,那么當講到某處新知識時,往往需要停下來,將前續課程再講一遍,否則學生無法理解新的知識,這樣就降低了教學的效率。
課前回顧的時間,一般以3~8分鐘為宜。課前回顧的形式可以多樣化,如講解課后作業、回顧概念、提問等。筆者認為應根據當天課程與前續課程的關系,采取合適的方式。各種方式結合使用,提高課前回顧的效率。
三、“計算機視覺”課程講解——案例教學
案例教學已經成功地應用于數學、計算機科學等領域的教學。通過案例,學生可以很快地掌握相應的概念、算法的步驟等,從而提高教師講解部分的效率。[4]例如,在講解馬爾科夫隨機場時,筆者通過案例式教學,將馬爾科夫隨機場用一個生活中的例子來向學生解釋。首先,將馬爾科夫隨機場分解成兩個重要的概念,分別是隨機場與馬爾科夫性,然后將它們對應到例子中,幫助學生理解。
隨機場包含兩個要素:位置(site)和相空間(phase space)。當給每一個“位置”中按照某種分布隨機賦予“相空間”的一個值之后,其全體就叫做隨機場(如圖2(a))。[5]這個概念非常抽象,難以理解。筆者應用案例式教學,拿莊稼地來打比方。“位置”好比是一畝畝農田,“相空間”好比是種的各種莊稼。給不同的地種上不同的莊稼,就好比給隨機場的每個“位置”,賦予“相空間”里不同的值。所以,可以形象地理解隨機場就是在哪塊地里種什么莊稼的布局(如圖2(b))。
馬爾科夫性指的是一個隨機變量序列按時間先后順序依次排開時,第N+1時刻的分布特性,與N時刻以前的隨機變量的取值無關。為了更直觀地理解馬爾科夫性,筆者仍然拿莊稼地打比方,如果任何一塊地里種的莊稼的種類僅僅與它鄰近的地里種的莊稼的種類有關,與其他地方的莊稼的種類無關,這種性質就是馬爾科夫性。
符合上述兩個特征,那么這些地里種的莊稼的集合,就是一個馬爾科夫隨機場。通過案例式教學,筆者發現可以加深加快學生對課程內容的理解,提高教師講解環節的效率。
四、課后小結
課后小結指的是一堂課將要結束時,教師對本堂課進行一個簡短的總結。許多成功的教師都會在其教學中堅持課后小結這個環節,給學生一個總體的印象,以幫助學生消化本次課程的內容。
研討式教學教師講解部分的課后小結與普通教學方式應有所區別。筆者認為這主要是因為通過課后小結可以將本次課程所講內容與學生的研討環節結合起來,而不僅僅是對內容進行簡單的總結。
為了達到課后小結使本次課程內容與學生探討環節建立聯系的目的,筆者在教學中常采用如下方式:首先,像普通教學方式一樣,總結本次課程內容;然后,在此基礎上,拋出若干問題,這些問題,不需要學生馬上解答,而是留給學生課后思考,提供他們選擇研討主題的素材;最后,介紹其他在本次課程中沒有涉及到的前沿知識、方法與理論,拓寬學生的視野,從而增加學生選擇探討主題的覆蓋面。
通過應用這種方式,筆者發現學生的思維更開闊,在探討環節,學生往往可以選擇一些比較新穎的主題(例如視頻中不動點的檢測等),而不僅僅局限于教師所講內容,從而提高了研討式教學的效果。
五、結論
在“計算機視覺”課程中引入研討式教學,通過總體設計規劃好整門課程內容,課堂講解注意采用回顧—案例—小結的方式,筆者對如何上好研討式教學教師講解這部分課進行了個人經驗的總結。通過本次教學改革,筆者體會到如果要提高教學效果,一定要注意教師講解與學生探討兩個環節的緊密結合。
參考文獻:
[1]侯婉瑩.我國研究型大學本科生科研研究[D].濟南:山東大學,
2009.
[2]張晴,李騰,韋艷,等.研討式教學模式的理論研究[J].中國科技縱橫,2011,(10).
[3]D.H .巴拉德.計算機視覺[M].北京:科學出版社,1987.
【關鍵詞】計算機視覺;數字色彩;感性認知
一、色彩的視覺生理機制與計算機色彩設置的關系
眼睛是人類的視覺器官,視覺系統就像一架攝相機,具有較完善的光學系統及各種使眼球轉動并調節光學裝置的肌肉組織。光線透過眼的折光系統到達視網膜,并在視網膜中形成物像,同時興奮視網膜的感光細胞,然后,信息沿視神經傳導到大腦皮質的視覺中樞產生視覺。實現閱讀的第一反應區域處于大腦后方的枕葉皮層(視覺皮層),人類的視覺系統自動對視覺輸入構建結構,并在神經系統層面上感知形狀、圖形、物體。
視覺能夠感受到物體細節,通常稱為視覺視敏度,也就是對所觀察的實物細節或圖像細節的辨別能力,具體量化起來就是能分辨出平面上的兩個點的能力。人眼的分辨能力是有限的,在一定距離、一定對比度和一定亮度的條件下,人眼只能區分出小到一定程度的點,如果點更小,就無法看清。以光學色彩為基礎的計算機顯示器,熒屏上的數字色彩是由許多紅、綠、藍紫三原光小色點構成,以不同比例的混合得出自然界的各種顏色。在各種顏色的反射光快速地先后刺激或同時刺激人眼過程中,顯示器色光點過于細小,超出人眼能夠分辨的視敏度,待傳到人眼中識別時,視覺不能識別全部微妙變化的色彩波段,視覺對相似的色彩歸納在一起,光在人眼中留下的印象在視覺中混合,將信息傳入大腦皮層,印象由人的視覺器官完成視覺混合。色彩混合后明度是被混合色的平均明度,混合效果近看色彩豐富,遠看色調統一。
電腦顯示器工作時的正常顯示狀態是根據人的視覺明視而設計的,開機工作狀態下,感知顯示圖像的始終是視錐細胞。視覺明視中感受相當光照水平和顏色刺激的視錐細胞中含有感紅色素、感綠色素和感藍色素,三類視椎細胞分別對紅綠藍色(RGB)光敏感。這意味著,人類的色覺與計算機顯示器類似,人們感知世界的視覺狀態基本處于視覺明視,通過紅綠藍色像素探測形成多種顏色,使人在視覺明視中感知到真實的色彩。
二、計算機視覺色彩感知中的敏感源
在適當的條件下,視覺對光的強度具有敏感性。眼睛對暗適應越久,對光的反應越敏感。視覺對光強度(明度)感受存在一段適合閾值。強度閾值內可以讀取色彩,而在強度的閾值以外,人眼只能看出光亮卻看不出顏色,明度過高分辨不出顏色。計算機顯示亮度的設置是參考視覺感受亮度的共性閾值而設計的,適合閾值范圍內,視覺可以讀取計算機顯示器中色彩。
視覺對光波長的敏感性不同于對光強度的敏感性。視網膜的不同部位對色調的敏感性是不同的。視網膜中央凹能分辨各種顏色,從中央凹到邊緣部分,對顏色的辨別能力逐漸減弱,先喪失紅、綠色的感受性,最后黃、藍色的感受性也喪失,成了全色盲。在整個光譜上,人眼能分辨出大約150種不同的顏色(光波),但人對光波(顏色)的辨別感受能力因不同波長而不一樣。
在視覺感知計算機色彩過程中色彩認知心理的共性經驗可以產生敏感源。色彩認知心理來源于生活共性經驗的理性“歸納”。視覺生理機制的共同特征使色彩視覺感知存在基本相同的生理基礎。色彩的直接心理效應來自色彩的物理光刺激對人的生理發生的直接影響,視覺生理及視覺心理等方面的共性特征使人們在色彩視覺意象存在相似的感受。視覺感知過程中,以往的認知結構對現有的認知過程的影響,生活經驗影響人的認知心理變化過程,心理之間的相互聯系、相互制約,使人類認知過程相近的模式。著名的認知心理學家布魯納認為,在人們認知的過程中,必須考慮到通過視覺感官對客觀聯系的色彩信息進行組織,結合視覺經驗感知新的客觀事物,用歸納方法能找出事物的共性,“感知”出相互聯系的客觀事物中相近的東西。
色彩心理共性源于“經驗色”。人類可以通過本能的眼睛或是肢體觸探物質本身的微妙變化感知生活,不斷產生認知“經驗”。在歷史和風俗的影響下,色彩所蘊藏的深層意義來至生活經歷的聯想,視覺色彩通過聯想鏈來理解傳播信息。在生活實踐中,不同的色彩刺激結合識別色彩的習慣與經驗,形成明顯的情緒感,產生不同的情緒反射,使人既能感覺積極興奮,也能使人消沉或感傷,其影響最明顯的是色相。純度的關系也很大,高純度色有興奮感,低純度色有沉靜感。明度也可以表現情緒,暖色系中高明度、高純度的色彩呈興奮感,低明度、低純度的色彩呈沉靜感。利用色彩視覺心理經驗有利于完成認知任務,對于實際生活具有很強的指導性,這些“經驗”向我們明確地肯定了色彩對人心理的影響具有共性。
色彩心理共性源于人們學習和推理。在認知過程中人類情感普遍交流的同時產生相互認同,不斷找到與周圍的環境現象結合的個人經驗。知識學習積累物質的色彩、材料、形狀、物理的空間、運動與時間等認知共性,這些共通的經驗,可以在大量事實研究中歸納出一些自然規律,詮釋事物,形成可以指導和影響社會發展的觀點。
三、計算機數字色彩設計
人們在各自分隔的世界里共同生活,色彩視覺感知受人的經歷、記憶力、看法和視覺靈敏度等各種因素的影響,但相近的生活習性,相似的生活經驗,使人們會采用相近的方式理解色彩。感性色彩的科學設計可以滿足計算機視覺的準確性,提高網絡平臺交互速度,促進經濟,滿足視覺風尚,幫助高效實現計算機交互。人類共通的視覺經驗,產生感知色彩的一般規律,可以歸納出以下計算機數字色彩設計法則。
(1)經驗影響感知,應用色彩隱藏的寓意引導,盡可能與圖像結合表達。例如,每人看云和水滴會聯想熟知的圖形,看火會聯想到紅橙色的激動與熱辣。人們能快速識別圖像,而且觸發相關信息回憶。使用經驗圖標,一般人們不需要學習,就能識別所提示的意思。
(2)看到和選擇比回憶和輸入要容易。為用戶提供色彩鮮明的選項,在顏色之外使用其它提示,讓它們從中選擇,而不是強迫用戶回憶選項再告訴電腦。
(3)使用縮略圖緊湊地描繪全尺寸的圖像。縮略圖能讓人一次性看很多選項,熟悉的圖形內容會引起注意,方便選擇。使用獨特的色彩,用飽和度、亮度及色相區分內容。
(4)避免使用色盲人無法區分的顏色(例如,色盲人可以識別白色和不同深淺的綠色地圖)。
(5)將強烈的對抗色分開(強烈的對抗色使人產生難受的閃爍感)。
(6)利用色彩引導邊界視力,提供低分辨的線索,引導眼球運動。對視覺選擇性感知,邊界視野中的暗色和靜止物體經常不被注意到,邊界視線中物體的運動通常會被察覺。例如,出錯提示在點擊電腦按鍵位置1-2厘米邊界視力以外,出錯提示將不被看到。
(7)物體之間的相對距離會影響人們感知它們是否及如何組織在一起。(互相靠近物體看起來為一組)。例如,計算機圖形設計,拉近距離或分組框和分割線隔開,減少用戶視覺凌亂。相似物體視覺歸屬于一組,色彩中的類似色可以歸屬成一組。
(8)視覺傾向于感知連續的形式而不是離散的碎片。例如,形間斷,但色彩相同,視覺自動連續成完整圖形。例如,計算機音量滑動條范圍的色彩連續,滑動條手柄連續整體感知(灰色地、紅色條)。
(9)人們傾向于分解復雜的場景來降低復雜度,視覺自動組織并解析數據,簡化數據。例如,圖計算機圖形中應用此原理,平面色彩顯示三維物體和復雜的二維圖形解析為三維場景(假空間錯視)。
近年來,計算機視覺在安防領域的應用正備受關注,身份識別是核心問題。人臉識別是一種基于臉部特征信息進行身份識別的技術,人臉檢測是其中的基礎和關鍵部分。介紹了四種不同的人臉檢測技術,分析了相關的算法和理論,概述了各自的優缺點。最后,討論了人臉檢測技術今后的研究方向及發展趨勢。
【關鍵詞】計算機視覺 身份識別 人臉檢測
1 人臉檢測問題綜述
在國土安全和社會安全問題日益突顯的背景下,世界各國家都對安防領域進行不遺余力地投入。隨著計算機視覺技術的不斷發展,基于生物特征識別的身份識別技術受到人們的廣泛關注,在未來一段時間內生物識別技術將成為信息產業的一次革命。其中人臉識別技術作為一種極具潛力的生物識別方式,以其識別速度快,主動性強,性價比高等顯著的技術優勢,在各個領域都體現出了巨大的商業價值和社會價值。
人臉檢測是人臉識別的前提和關鍵,一般采用相機實時采集含有人臉的圖像或視頻流,并自動在圖像中對人臉進行檢測和跟蹤。人臉的自動檢測是一項頗有難度的工作,主要體現在:(1)不同族群年齡等問題導致人臉的差異性。(2)人臉上的胡須等附屬物對檢測造成的干擾。(3)人體姿態變化和遮擋物存在對檢測的影響。(4)環境和硬件條件對圖像采集效果的影響。針對這些問題,國內外著名高校和科研機構進行了很多相關的研究,致力于解決在復雜背景下如何準確高效地進行人臉檢測的問題。
2 實現人臉檢測的相關技術
根據近年來計算機視覺領域人臉檢測問題的研究進展,本文在這里進行總結性綜述,目前人臉檢測的方法可以分為基于知識和統計兩類,有以下四種常用的檢測算法。
2.1 模板匹配
模板匹配可以分成固定模板和變形模板。固定模板指的是根據先驗數據歸納出一個統一的模板,然后根據一個能量函數確定被檢測區域中和模板相關程度較高的位置,即人臉位置。由于不同人物之間臉部的差異性很大,加上環境等因素的影響,此方法并不具有很強的實用性。變形模板原理上和固定模板的操作方式相同,不過變形模板自身的參數模型在一定范圍內具有可變性,因此檢測的動態范圍更大,檢測效果相對較好一些。
2.2 樣本學習
由于人臉的復雜性,顯式描述十分困難,因此基于統計模式的檢測方法受到了人們的廣泛關注。此方法將人臉看做一種模式,通過對大量樣本圖像的機器學習完成分類器的構造,利用分類器實現對人臉的檢測判別,在這里問題被轉化為模式識別中的二分類的形式。
首先,需要建立一個樣本空間,其中包括“人臉”和“非人臉”的正負兩種樣本,對樣本圖片歸一化處理后,順序展開后進行主分量分解,在大量樣本形成的高維矩陣中計算其特征值和特征向量,然后采用一定的學習機制在特征空間中建立分類,以此可得到用來檢測樣本圖片是否為人臉的正負判別規則式,二者為互斥關系。此檢測方法具有較高的準確度,但是需要大量的正負樣本圖片,MIT等一些高校和研究機構建立了開放的人臉庫。
2.3 人工神經網絡
人工神經網絡(ANN )是將模式的統計特性包含在ANN的結構和參數中,對于人臉這類復雜的、難以顯式描述的抽象型模式,這一檢測方法具有其自身特別的優勢。
神經網絡方法本質上也是基于樣本學習,首先使用經過預處理的“人臉”樣本以及采用“自舉”方法收集分類器錯分的樣本作為正負樣本訓練各個ANN,然后根據結果進一步對分類器進行修正,構造多層感知器(MLP)網絡作為分類器對人臉進行檢測。人工神經網絡是并行分布式系統,采用了與傳統人工智能和信息處理技術不同的原理,模擬大腦神經網絡處理、記憶信息的方式進行目標檢測。神經網絡模型克服了傳統的基于算數邏輯符號的人工智能在處理直覺、非結構化信息方面的缺陷,具有自適應、自組織和實時學習的特點,應用在人臉檢測問題中性能表現突出。
2.4 基于隱馬爾可夫模型
隱馬爾可夫模型(HMM)是一種雙重隨機過程,一種是有限狀態的馬爾可夫鏈,另一種是序列的觀察值。由于只能通過觀察值得到馬爾可夫鏈的狀態,因此稱之為隱馬爾可夫模型。對于人臉而言,可以把它分為前額、眼睛、鼻子、嘴巴、下巴五個部分來檢測。根據這五個區域位置順序不變性,可以分別用相應的觀察向量序列檢測每一個部分,使用一個包含五個狀態的一維連續HMM來表示人臉。接著對各塊進行KL變換,提取每塊一些最大的特征向量作為觀察值對HMM進行訓練。此后,還提出了一種嵌入式隱馬爾可夫模型,該方法除了將人臉劃分為五塊外,還在每塊中從左至右嵌入了一個HMM。接著進行二維DCT變換,把變換后得到的系數作為訓練值。
3 結束語
人臉檢測是個發展很快的研究方向,人臉檢測技術的發展趨勢是利用多特征,多種分類方式進行啟發式知識與統計學習方法的結合,未來對人臉檢測的研究將會更注重其實時的應用,這就對檢測算法的效率提出了更高的要求。另外,可以消除光照對人臉成像影響的紅外人臉識別技術,加入相互對比機制的包含正臉、側臉三維信息的人臉三維模型重建檢測技術也正在研究當中。隨著技術的不斷進步和市場逐漸的規范化,人臉檢測識別技術會越來越多地應用于社會的各個領域,在促進社會發展的同時方便人們的生活。
參考文獻
[1]許燕,王維蘭.基于視覺運動人臉檢測技術的研究[J].計算機仿真, 2014(1):434-437.
[2]孫寧,鄒采榮,趙力.人臉檢測綜述[J].電路與系統學報,2006,11(6):101-108.
作者簡介
姚坤(1990-),男,現為聊城大學物理科學與信息工程學院碩士研究生,主要研究方向為機器視覺。
(大連東軟信息學院電子工程系,遼寧大連116023)
摘要:智能科學與技術概論課程是智能科學與技術專業重要的必修基礎課,對整個專業課程體系有概括性的引導作用,對學生深入學習后續課程有很大幫助。文章從智能科學與技術概論課程的教學實際出發,提出該課程的整體課程規劃,并根據學生的學習情況驗證其適用性。
關鍵詞 :智能科學;專業基礎必修課;課程規劃
基金項目:2012年遼寧省普通高等學校本科工程人才培養模式改革試點項目(G2201249)。
第一作者簡介:林寶尉,男,講師,研究方向為計算機視覺、模式識別,linbaowei@neusoft.edu.cn。
0 引言
智能科學與技術概論課程是智能科學與技術專業的必修基礎課。學生通過學習基礎課,能夠了解整個專業的知識構成、體系結構以及發展方向,便于將來學習必修專業課,包括模式識別、人工智能、智能機器人等課程。在這個過程中,如何讓學生順利地過渡到更高層次的專業課學習中,如何提高其學習興趣,如何幫助學生深入了解各門專業課之間的層次關系,都是該專業設置過程中需要考慮的問題。智能科學與技術概論的規劃起到了承上啟下的作用。雖然專業導引課也從全局對該專業的情況進行了介紹,但其內容以學生職業引導、興趣培養為主,對專業課程的設置并無過多展開。因此,智能科學與技術概論課程的設置十分必要。
1 課程規劃設置
1.1 能力指標
課程將學生的能力體系分為5個部分:技術知識與推理能力、開發式思維與創新、個人職業能力、態度與習慣、時間構思設計實現和社會貢獻,與其對應的二級、三級及詳細指標見表1。每個能力指標平均對應4個學時,共32個學時。
1.2 講授方式
(1)精講多練。通過講解智能科學的相關內容并結合相關實驗,讓學生掌握智能科學的基礎知識,提高其學習興趣,為后續課程的學習打下良好基礎。
(2)以項目為導向組織教學,通過案例教學,將構思、設計、實施和運行引入教學過程中。
(3)鼓勵學生自主學習,加強基本職業能力的訓練。教學過程中注意互動和引導,運用講授教學、練習教學、實驗教學、案例教學等多種教學方法完成教學任務。
(4)教學實施過程中,提供豐富的教學資源,如多媒體課件、案例、網絡資源、優秀學生作品和外文技術資料等。
(5)對學生進行多方面考核與評價。結合課程實施過程,從知識掌握、能力水平、態度表現等方面,對學生進行全方位的考核。
1.3 講授內容
該課程講授內容分為3個單元,具體內容如下。
單元一:智能科學導論,主要涉及智能科學與技術的目標界定、學科分類、涉及范圍、學科定位、人類認知以及學科簡史等知識點。該單元將在2個學時中完成,并要求學生課外學習2個學時。
單元二:學科基礎理論知識,主要涉及機器系統、視覺感知、高級語言編程等知識點。該單元主要介紹支撐學科的相關課程,并在實踐課中使用高級語言編寫簡單系統。該單元共10個課時,其中包括4個實踐課時。
單元三:專業課介紹,主要涉及數字圖像處理介紹、模式識別介紹、計算機視覺介紹、智能機器人介紹等相關必修專業課的入門介紹,并在每次課程結束后配合實踐編程、工具使用、機器人搭建等實踐環節提高學生的學習興趣,使其全面認識后續專業學習。該單元共20個學時,其中包括12個實踐課時。
1.4 實驗設置
實驗課程共16個學時,包括4次實驗,詳細內容如下。
實驗一:數字圖像處理實驗。使用課程中講授的Matlab語言,實現數字圖像的傅里葉變換、邊緣檢測功能。該實驗共4個課時,配合單元一以及單元二的部分知識點,使學生基本掌握Matlab編程語言,并理解數字圖像處理的基本知識。
實驗二:模式識別機器學習實驗。該實驗利用高級程序語言,實現數據的SVM算法以及KMeans算法,讓學生理解模式識別以及機器學習等知識。該實驗共4個學時。
實驗三:計算機視覺實驗。使用圖像拼接、3D場景重建等相關專業工具,實現二維圖片的3D重現。該實驗共4個學時。
實驗四:機器人實驗。學生在機器人實驗室,實際動手組裝博創模塊化機器人,并編程實現機器人運動調試。該實驗共4個學時,實驗地點為模塊化機器人實驗室。
1.5 結課考試
在教學的各個環節,教師從出勤情況、日常表現、作業、實驗、結課項目及結課報告的完成情況對學生進行全方位的考核,其中結課項目、調查報告及實驗作業占最終成績的90%。結課項目為小組項目,4個學生為一個小組完成系統的設計、編寫、調試等步驟,并組織5名教師對每個小組進行答辯考核。
2 問題及改進
學校于2012年申請創辦智能科學與技術專業。該專業培養學生掌握計算機基礎、電子電路、控制方法、智能信息處理與識別等基本知識,使其具備信息處理、自動控制、人工智能系統開發等基本能力。智能科學與技術概論課程在大二下學期開設,共32學時,其中理論教學16學時,實踐教學16學時。通過理論教學和實踐教學,學生了解了智能科學的基礎理論知識,掌握該專業核心專業課的關系,認識相關后續課程,并能夠使用簡單的算法和工具,為日后深入學習專業課打下良好基礎。
2.1 教材選擇
由于本專業辦學時間較短,沒有足夠的針對智能科學與技術概論的教材可供選擇。現階段使用較多的教材為《智能科學與技術導論》以及《智能科學》。《智能科學與技術導論》是鐘義信主編、北京郵電大學出版社出版的、適合智能專業大一新生使用的專業教材,對整個專業有詳細的介紹,適合作為新生的專業導引課程,安排16個學時較為合適,并不適于我校智能科學與技術概論課程的要求。《智能科學》是史忠植主編、清華大學出版社出版的專業教材,該教材對整個智能專業的重要內容都有涉及,系統地介紹了智能科學的概念和方法,吸收了腦科學、認知科學、人工智能、數理邏輯、社會思維學、系統理論、科學方法論和哲學等方面的研究成果,適合高年級學生使用,安排64個學時較為合適,也不適于我校情況。
鑒于上述原因,我們設計該課程時,前半部分理論知識介紹使用了《智能科學與技術導論》,后半部分專業課程介紹使用自制課件。經過2輪的教學實踐以后,我們將根據教材使用情況編寫自用的講義教材。
2.2 內容設計
該課程內容會介紹智能專業的重要專業課,但要在32學時內完成所有專業課程的介紹,并保證該課程內容不與專業導引課以及智能信息處理導引課沖突,難度很大,因此選擇最合適的講授內容,對于該課程的授課效果非常重要。
在授課過程中我們發現,學生對簡單的數字圖像處理、計算機視覺的流行應用以及動手要求強的機器人課程興趣較大,但對數學推導要求較高的模式識別、機器學習等課程接受程度較低。該課程的教學目的是讓學生了解相關課程的意義、歷史、發展等知識,所以,建議加大實驗動手課程的課時比例,讓學生多使用相關知識、算法和應用,盡量避開復雜的數學推導。
2.3 資源配置
學校的智能科學與技術專業創建于電子工程系,依托電子系的軟硬件實驗室,培養學生的軟硬件知識儲備,提高學生的實際動手能力。其中,軟件算法將配合嵌入式設備進行硬件集成,并指導學生設計具有智能算法應用的硬件設備。教學過程中將使用校實驗室中的模式識別嵌入式開發板、博創模塊化機器人平臺以及Turtlebot智能機器人平臺。該課程在實際講授時,理論課以及算法相關實驗在大班進行,硬件實踐課程在小班進行,能取得較好的授課效果。
3 實施效果
在該課程設計內容的指導下,智能科學與技術概論已經完成了2輪的課程教學,并在課程結束后組織學生填寫調查問卷。題目分兩類,第一類包括課程目標是否清晰、該課程能否提起學生對該專業課的學習興趣、該課程的實驗設計能否有效提高學生的動手能力,以及該課程的內容相關設計是否優秀。統計結果如圖1所示。除極個別學生外,大多數學生都選擇了符合以及完全符合,說明該課程設計可以滿足教學要求。第二類問題總結學生在課程中獲取的知識能力,包括編程調試、理論知識應用、信息獲取、技術文檔寫作、自主學習、分析問題、解決問題等,為多選題。從圖2可以看出,學生對各項能力的認可率均超過50%,其中信息獲取、分析問題等能力的認可率接近80%,說明該課程設計基本滿足教學目標。
4 結語
智能科學與技術概論對智能專業學生的深入學習起到了重要的引導作用。我們根據自身的實際情況出發,設計出適合該專業學生的課程設計安排。經過兩輪的實施效果證明,該課程的設計方式比較適合學生。隨著課程的持續,我們將不斷解決存在的問題,并編寫適合我校學生使用的教材。
參考文獻:
[1]鐘義信,智能科學技術導論[M].北京:北京郵電大學出版社,2007.
[2] Edward FC,Johan M,Soren O.重新認識工程教育:國際CDIO培養模式與方法[M].顧佩華,沈民奮,陸小華,譯.北京:高等教育出版社,2009.
微軟的游戲操控設備 Kinect 有一句廣告語:You are the controller(你就是遙控器)。通過 Kinect,普通人不需要使用任何手柄、搖桿、鼠標或者其他遙控器就能操控游戲,這讓 Kinect 遠遠超越了普通家用游戲機的段位。事實是,人們也沒有把它僅僅當成游戲機,無數黑客對其進行破解,開發出一系列創新發明,有模擬光劍道具,也有自動跟著垃圾跑的垃圾桶,甚至英國一所大學正在基于它研發一種技術幫助中風患者恢復健康。
新的人機交互方式讓計算機能讀懂人所傳遞的命令。現在,眼睛是人們開發的下一個目標。去年底丹麥公司 Senseye 了一個視頻,視頻里,一個人捧著平板電腦在玩“切水果”的游戲——不過,他沒有動一根手指,而是完全用眼神控制。后來,這家由四個丹麥博士生創立的公司改名為“The Eye Tribe”,他們開發的眼控技術能通過智能手機或者平板電腦的前置攝像頭獲取圖像,利用計算機視覺算法進行分析。軟件能定位眼睛的位置,估計你正在看屏幕的什么地方,甚至精確到非常小的圖標。這項眼控技術能夠取代手指,控制平板電腦或手機。據國外媒體報道,他們已經開始與手機制造商和運營商進行合作,希望明年能將正式產品推向市場。
除了用眼神控制手機,用眼睛操控的概念筆記本、眼控相機等產品也已面世。以眼神的移動軌跡為基礎進行的人機交互方式,是繼 Kinect 之后人機交互界面的又一次革命。
眼睛上的實驗
17 世紀初,人們就開始研究眼睛的運動。1879 年,法國人路易斯·艾米·賈維爾觀察到,人們的眼睛在閱讀文字時,并非像之前猜想的是平滑地一行行掃射,而是每隔幾個字就會有短暫的視覺停留。
于是人們很好奇:閱讀時,眼睛會停留在哪些字上?停留多長時間?
為了研究這個問題,埃德蒙·休伊做出世界上第一個眼睛追蹤器:一個有洞的隱形眼鏡,和一個會根據眼睛活動擺動指針的鋁制指示器相連。但這個追蹤器因為要和眼球接觸,對眼睛的干擾比較大。另一個芝加哥的家伙托馬斯·巴斯維爾轉換了思路,做出了一個非接觸式的追蹤器,他利用光束照射眼睛,通過在電影膠片上記錄眼睛反射的光記錄眼睛的活動軌跡。他用這個裝置研究人們閱讀和觀看圖片的行為習慣。
到了 1980 年,眼睛追蹤器被用來研究和人機交互有關的問題;比如,研究人員很好奇用戶如何在電腦菜單中搜索命令。最近幾年,人們越來越多運用眼部追蹤器研究用戶如何和不同的計算機界面互動,結果往往能改變界面的設計。其他的研究包括用戶如何對待下拉菜單,他們通常將注意力集中在網站的什么位置,開發人員就會知道該在哪里設計廣告位。
隨著眼控技術的發展,和人類對視覺生理及心理的了解,基于人類視覺系統(Human Vision System, 簡稱“HVS”)的凝視繪制技術也逐漸成為圖形學的研究熱點。這種技術通過略去不為用戶感知的畫面區域的圖像細節來提高圖像的繪制和顯示效率。
在研究中,人們普遍達成的共識是,“注意力”和眼睛看在哪并不統一,前者總是比眼睛要領先大約 100-250 微秒;也就是說,人的注意力轉移到新的位置 100-250 微秒后,眼睛才會跟隨其后。
在技術上,眼控技術已經相當成熟,在工業控制、機器人學和臨床醫學領域都有應用,只是還沒有應用到消費領域。它是基于角膜反射原理,通過光在用戶眼睛角膜上形成高亮度反射點作為參考點,當眼球轉動注視屏幕上不同位置時,由于眼球近似為球體,光斑不動,瞳孔相對光斑發生偏移,利用瞳孔中心和光斑的位置關系就能確定視線方向。目前運用最廣泛的設計是以視頻為基礎的眼睛追蹤器。一個設想鏡頭聚焦在一只或一雙眼睛上,在觀眾受到某種刺激時記錄它們的變動。眼控技術的核心是算法,如何讓系統迅速準確地“學習”人眼睛的各種行為,這是個挑戰。
EyePhone 應該翻譯成“眼機”或者“目機”?似乎都不太好聽。在大觸屏手機廣泛流行之前,有人就開始研究如何用眼睛控制手機了。
美國達特茅斯學院(Dartmouth College)就有一支眼控手機的研發團隊,他們試圖創造一套眼睛追蹤系統,開發以眼睛來控制手機的操作方法。
讓眼睛追蹤系統運用到操作系統里,重要的是設計一套能夠實現的軟件。首先,你需要校準這個系統,在室內室外不同光線下盯著同一張圖片看,讓軟件學習、識別你的眼睛在不同光照條件下的運動。他們在諾基亞 N810 上做了試驗,設計出一個初始“眼菜單”,屏幕被分為9格,分別對應郵件、接電話、拍照片、日歷、短信等不同功能。當一個人盯著某一塊區域看時,某一個功能區域就被激活高亮顯示,一眨眼,這個功能就被激活。
根據《麻省理工科技評論》雜志 2010 年的報道,眼控式手機的技術研發已經數年。進行這項技術開發的主要目的,是希望能讓手部殘疾的人克服無法使用電話的障礙。
在這項研究中,整個系統技術含量最高的部分就是自動校正系統,它需要算法優化,提高光學采集精度,實現視線跟蹤,適應外部環境光強度變化,判別眼睛睜、閉狀態等。帶領“EyePhone”研發團隊的安德魯·坎貝爾(Andrew Campbel)教授認為,眼控式手機解放了雙手,不僅僅是殘疾人,每個人都能享受到它帶來的極大便利。但靠眼神操作手機,比在桌上的電腦執行眼控指令更困難,因為使用者和手機都是行動中的物體,而周圍環境也是變幻莫測,如何演算和辨識使用者在不同的狀態下所傳達的眼神收發訊號,是最難解決的問題。
在 2011 年的 Cebit 展上,聯想和瑞典眼控技術公司 Tobbi 聯合了一款概念筆記本,特制的長方形感應器能夠追逐眼球的移動軌跡,記錄數據,電腦處理器把這些數據轉化為鼠標控制,整個系統并不會讓眼控的過程感覺十分刻意,也不會像傳統的眼控系統一樣過于敏感或是過于駑鈍。
Tobii 公司成立于 2001 年,是一家專門研發眼動追蹤和眼動控制技術的公司。除了桌面眼動電腦,他們也在研發一款具備眼控界面的 windows 平板電腦 C12,用戶可以轉動眼珠來移動 C12 上的鼠標指針,而眨眼則代表點擊。機器里設置了一個校準界面,允許多個用戶定義眼控指令。
1研究方向
到2007年底,每秒鐘能進行1000萬億次浮點運算的超級計算機將要問世,這是計算機科學家的最新杰作!但是,即便是如此強大的超級計算機,目前還無法實現人腦能夠輕而易舉完成的許多感知信息處理任務。例如,在混雜的車站里辨認熟人面孔、在熱鬧的晚宴里同朋友自由交談、在國際會議上嫻熟地用外語與各國同行討論研究成果,等。因此,為了建立計算機與人更加友好、自然的用戶界面,我們必須創建新的智能計算理論與方法。我們認為將計算機科學與腦科學相結合,研究仿腦計算理論與模型將是通向這一終極目標的一條理想之路。“上海交通大學-微軟智能計算及智能系統實驗室”的主要研究目標就是為了突破傳統數字計算機在智能信息處理的瓶頸,聯合實驗室匯集了上海交通大學計算機科學與工程系、自動化系和電子工程系的相關領域的10余名教授、副教授,擬在下列方向開展合作研究:
仿腦計算理論與模型
超并列機器學習理論與算法
基于人類視覺信息處理的計算機視覺理論與方法
腦-計算機接口技術
機器人技術
多媒體信息獲取技術
無縫媒體通訊技術
這里需要強調的是,微軟亞洲研究院湯曉鷗博士為聯合實驗室研究方向的確定和研究課題的篩選作出了重要貢獻。湯曉鷗博士在聯合實驗室成立之初,就來上海交通大學為我們作了一場精彩的學術報告,不僅介紹了微軟亞洲研究院在計算機視覺領域最新的研究成果,而且為我們的學生詳細介紹了如何腳踏實地、一步一步地開展高水平的科學研究,使同學們受益匪淺。自聯合實驗室成立以來,微軟亞洲研究院的多名國際知名專家來上海交通大學講學,他們是“深藍項目”之父許峰雄博士、系統結構專家張崢博士和自然語言處理專家周明博士。
2006年度微軟亞洲研究院資助了聯合實驗室在機器學習、機器人和多媒體通信三個方向的研究課題,具體內容如表1所示。
2研究成果
聯合實驗室成立一年多來,取得了多項創新性的研究成果,已在國內外學術刊物和會議上30余篇。由于篇幅限制,下面僅對部分成果作簡要介紹。
(1) 超并列機器學習理論與算法
上海交通大學計算機科學與工程系呂寶糧教授在仿腦計算、機器學習和腦-計算機接口等方向與微軟亞洲研究院系統結構組、文本組和圖像組有著密切的合作與交流,他們共同致力于研究大規模分布式超并列機器學習理論與算法,并將其研究成果應用于人臉識別、自然語言處理、生物信息學和腦-計算機接口等領域。在此期間共同進行博士和碩士研究生以及本科生的培養,聯合發表學術論文。與微軟研究院的文本組、圖像組和機器學習組定期交流和選派學生實習。通過雙方真誠的合作,智能信息處理方向已有2名博士生和5名碩士順利通過答辯。目前上海交通大學有1名博士后、3名博士生、5名碩士生和4名ACM班的本科三年級學生投入到合作研究課題中,來自微軟亞洲研究院的1名優秀青年員工在機器學習方向作為博士生進行聯合培養。
(2) 無縫媒體通訊技術
上海交通大學電子工程系熊紅凱副教授在無縫媒體通信方向,與微軟亞洲研究院網絡多媒體IM組已經進行了多年的合作研究,他們共同致力于無縫媒體通信的良好遠景,主要研究視頻信號多元化智能處理與傳輸,工作包括可伸縮視頻編碼、分布式視頻編碼、網絡編碼,等。微軟研究院IM組吳楓等研究人員與他們在此期間共同進行博士和碩士研究生的培養,支持他們參與國際技術標準MPEG-21和JVT的制訂,聯合提交技術提案和發表學術論文。
通過合作研究,媒體通信方向已有2名博士生、3名碩士生順利畢業;目前上海交通大學在此方向有2名博士生、4名碩士生投入到合作課題中;微軟亞洲研究院有2名優秀員工在媒體通信方向作為博士生進行聯合培養,實現一體化技術合作。合作研究的積累,使得該團隊獲得了2005年和2006年度國家自然科學基金面上和重點項目的相關課題資助。另外,2007年獲得了國家“十一五”863計劃專題。
(3) 移動機器人的視覺定位技術
服務機器人是一個新興的快速發展的研究領域。服務機器人的首要問題是其必須在執行任務中應付復雜的環境。復雜環境中的目標定位技術成為其中一項挑戰性課題。
項目組提出了一種新的單目攝像頭實時定位算法,可以實時計算攝像頭的三維運動軌跡。該算法基于視覺路標,集成了目標識別、特征跟蹤和3D定位算法。其核心思想是:識別場景中的視覺路標,并主動跟蹤匹配特征點,計算攝像機的3D運動軌跡。為了提高算法實時性,相對耗時的目標識別模塊只在初始化時尋找和識別路標,接著跟蹤算子跟蹤匹配特征點,轉入實時跟蹤過程,同時輸出3D軌跡。
實驗表明,結合目標識別、跟蹤和3D定位,本文算法可以主動發現和實時跟蹤感興趣目標,對于普通PC和USB攝像頭,能以30幀/s跟蹤運動目標。3D定位也有較好的精度,準確跟蹤時,定位誤差一般在5cm之內。此外由于每幀都單獨計算位姿,因此不存在累積誤差,目標丟失后也能快速被識別和跟蹤。
3人才培養
聯合實驗室成立伊始,雙方就將人才培養作為合作的重中之重,經過雙方的共同努力和友好合作,在一年多的時間里,已經實施了下列三個具有特色人才培養項目。
(1) 博士生聯合培養項目
上海交通大學與微軟亞洲研究院的博士生聯合培養項目是實驗室在人才培養方面的合作亮點。該項目主要包含兩方面的內容,一方面上海交通大學聘用微軟亞洲研究院的資深研究員為上海交通大學博士生導師并與上海交通大學的教授一起聯合指導博士研究生;另一方面微軟亞洲研究院選派具有碩士學位的優秀員工到上海交通大學攻讀博士學位。目前有六位微軟研究員被聘為上海交通大學客座教授,其中沈向洋博士、洪小文博士、張崢博士、宋歌平博士和湯曉鷗博士為博士生導師。2006年4月微軟亞洲研究院選送了六位優秀青年員工來上海交通大學攻讀博士學位,這些博士生首先在上海交通大學完成學位課程的學習,之后他們將在上海交通大學導師的指導下在微軟亞洲研究院進行博士學位論文的研究工作。這六名博士生的導師分別是上海交通大學計算機科學與工程系的張申生教授、俞勇教授和呂寶糧教授;電子工程系的張文軍教授和孫軍教授。博士生聯合培養項目的實施,既是微軟亞洲研究院對優秀青年員工繼續發展的支持和鼓勵,同時通過雙方深入的交流,將微軟亞洲研究院的研究理念和企業需求帶到上海交通大學,為雙方的共同發展作出了貢獻。
(2) 卡內基?梅隆大學聯合人才培養項目
微軟亞洲研究院聯手上海交通大學和美國卡內基?梅隆大學聯合培養高素質人才。根據“卡內基?梅隆大學-上海交通大學-微軟亞洲研究院”三方達成的協議,上海交通大學、卡內基?梅隆大學每年將互換5名優秀本科學生進行為期一學期的學習,在兩校學習之后,這些學生將到微軟亞洲研究院進行為期三個月的實習,其間他們將參與實際項目的研發工作。這一“產學研”跨國合作的模式,將為中國培養高素質的“IT國際人”提供一種有效的便捷渠道。到目前為止,上海交通大學電子信息與電氣工程學院經過嚴格挑選,已選派了十多位優秀的本科生去卡內基?梅隆大學電子與計算機工程系學習,這些學生分別來自計算機科學與工程系、自動化系和電子工程系。卡內基?梅隆大學也已選派了多名交換生來上海交通大學和微軟亞洲研究院學習和實習。經過三方的聯合培養,不僅拓寬了學生的視野,而且進一步提升了學生的綜合素質。在參加該項目的學生中,有的同學已在本領域高水平的國際雜志和會議上發表了多篇學術論文。此外隨著三方合作的進一步深入和上海交通大學國際化辦學的進一步深化,將會使上海交通大學更多的本科生同學有機會親密接觸世界知名學府和研究院。
隨著移動終端的興起,數據的產生已經成了一種非常廉價并且隨時隨地都可完成的技術。而移動互聯網的發展又促進了數據的產生、流動和集中。現實生活中我們可以非常輕松地刷新微博感受周圍世界的變化,也可以通過手機的拍照功能在網上分享我們生活中的精彩時刻。我們發現,與我們現實世界相對應的數字化世界正在急劇地膨脹,新的信息隨時隨地都在產生,在這種背景下很多科學家們認為我們正在迎來一個新的時代,“大數據”時代。在“大數據”時代,如何為每個人快速找到他們需要的信息是計算機科學家們所面臨的嚴峻挑戰。他們必須利用機器學習技術,讓計算機程序自動為人們搜尋具備潛在價值的信息。然而在過去幾十年里,龐大的數據量成了機器學習技術面臨的又一重大問題。目前這一領域面臨著一個巨大的挑戰,那就是機器學習的可擴展性問題,即如何面對海量的數據提出高效的學習算法。本書是關于這一主題的第一本專著。
本書圍繞并行計算和分布式計算介紹了機器學習算法的擴展問題。全書共21章。在第1章引言介紹之后,又分4個部分,其中第1部分討論了擴展機器學習的相關架構,含第2-5章:2.MapReduce及其在組合決策樹學習中大規模并行的應用;3.介紹了利用DryadLINQ進行大規模機器學習;4.介紹了IBM并行學習工具庫;5.介紹了機器學習算法中的均勻細粒度數據并行計算。第2部分介紹了監督和非監督學習,含第6-13章:6.基于不完全Cholesky分解的并行支持向量機PSVM;7.利用硬件加速的大規模并行支持向量機;8.利用自舉決策樹進行大規模排序學習;9.變換回歸算法;10.因子圖中的并行信任擴散方法;11.在潛在變量模型中的并行吉布斯采樣;12.使用MapReduce和MPI進行大規模譜聚類;13.基于信息論的并行聚類方法。第3部分其他的學習模式,含第14-17章:14.并行在線學習;15.介紹了基于圖的并行半監督學習;16.介紹了基于關聯矩陣分解的分布式轉移學習;17.大規模并行特征選擇。第4部分相關應用,含第18-21章:18.利用GPU在計算機視覺中進行大規模學習;19.基于大規模FPGA的卷積網絡學習;20.在多核系統上對樹結構數據進行挖掘;21.自動語音識別的可擴展并行化方法。
本書是可擴展機器學習領域難得的專著,本書第一編著者Ron Bekkerman目前是LinkedIn的高級研究人員,第二編著者Mikhail Bileno目前是微軟機器學習研究組的成員,而第三編著者John Lanford則是雅虎公司的科學家。另外值得注意的是本書每一章的作者既有來自斯坦福、耶魯、卡內基梅隆等著名高校的教授,也有來自雅虎、谷歌、 IBM 、惠普、微軟等工業界研究院的資深研究人員。對于目前國內如火如荼的“大數據”研究來說,相信本書會為廣大研究生和科研人員提供不可替代的第一線經驗。
【關鍵詞】視覺測量 數字圖像處理 開放性實驗
【中圖分類號】G642 【文獻標識碼】A 【文章編號】1006-9682(2012)10-0001-03
一、引 言
數字圖像處理作為一門學科大約形成于20世紀60年代初期,并首次在航空航天領域取得了成功應用。數字圖像處理技術的發展除了與計算機技術、信息技術的快速發展密切相關以外,還得益于其在航空航天、工業、生物醫學、軍事、通信工程、商務、環境、林業等諸多領域的廣泛應用,正是這些應用需求,促進了數字圖像處理技術的深入研究和快速發展。“數字圖像處理”課程是隨著計算機和信息技術發展應運而生的一門新興課程,已成為信息類專業本科生的重要專業課。通過該課程的學習,要求學生掌握數字圖像處理的基本概念和原理,能夠對圖像進行各種處理,如圖像增強、圖像運算、圖像編碼、邊緣檢測等,為圖像通信、模式識別、計算機視覺以及其他交叉學科等工程領域的應用奠定基礎。
“數字圖像處理”課程的理論教學很抽象,僅僅通過理論教學學生很難掌握數字圖像處理的基本原理。如果把數字圖像處理的廣泛應用引入課堂理論教學,將具體知識點與其在實踐中的使用相結合,同時為學生提供邊學邊實踐的機會,不僅可以提高學生的學習興趣,加深對抽象理論知識的理解,增強其動手實踐的能力,還可以拓展學生的視野,與目前學科前沿技術相銜接。
二、視覺測量技術
在現代三維測量新技術中,視覺測量是由計算機視覺、圖像處理、模式識別等多學科交叉結合而形成的科學。圖1所示,視覺測量是一種非接觸性測量手段,以數字圖像作為信息載體,對被測目標進行成像,通過提取多個像面的二維像點信息,標定相機內、外參數,并重建、優化被測目標的三維信息,實現測量。視覺測量基于嚴謹的理論和現代的硬軟件設施,可以達到相當高的精度和可靠性,便于對大型工件、設備的尺寸、位置、三維輪廓等進行高精度測量,而且移動方便,可快速靈活地構建適于不同測量對象的系統,進行現場測量。目前,視覺測量技術已經廣泛應用于建筑工程、航空航天、汽車制造、生物醫學、考古等各個領域。[1~5]因此,視覺測量技術正在深入工業生產和社會生活的各個領域,研究和應用新的基于光學、數字圖像和視覺信息融合的三維測量方法,既具有重要的理論意義,又具有重大的實用價值,應用前景非常廣闊。
根據視覺測量的基本原理,利用數字圖像處理技術獲取的二維信息是視覺測量中相機標定、三維重建等環節的基礎,對于系統的測量精度、穩定性等方面具有決定性的影響,是視覺測量領域的關鍵技術。在長期的數字圖像處理課程教學以及視覺測量研究工作中發現,可以將視覺測量中關于數字圖像處理的應用內容引入課堂教學中,與具體理論知識相結合,加深學生對于課程理論的理解,使其接觸到科學研究的前沿內容。此外,通過設置開放性實驗等環節,引導有興趣和能力的學生進行實踐能力的培養,使學到的知識“活”起來。
三、視覺測量與數字圖像處理課程的融合
為了改善數字圖像處理課程的教學效果,提高教學效率,將視覺測量技術與數字圖像處理課程相融合,本文主要在教學方法和教學手段改革、視覺測量需求與理論知識點結合、實踐動手能力提高等方面進行了研究。
1.教學方法和教學手段改革
為了貫徹學生是教育主體的教育思路,使學生學會學習,并充分激發學生的創新能力和素質培養,促進學生個性的發展,同時有利于師生彼此促進共同進步的原則,針對數字圖像處理課程的特點,采取了以下措施:
(1)重視數字圖像處理課程的基礎理論教學。數字圖像處理內容豐富,應用靈活廣泛,但學生在掌握某些具體應用技術時感到理解困難。因此,在實際教學上,首先需要注重相關的基礎理論教學。[6]例如,數字圖像的本質是數字信號,所以在課程前期階段,專門有針對性地復習和講解了信號分析與處理方面的基本理論,包括數字信號處理的常用方法、離散傅里葉變換和快速傅里葉變換、離散余弦變換等,這些理論在數字圖像處理課程中有具體應用。這不僅有利于對數字圖像處理內容的掌握,也可以反過來加深對相關理論的理解。另一方面注意授課內容的精選,內容不在于多,而在于少而精,突出重點,使學生在有限學時內有最大的收獲。例如,在頻域空間進行圖像增強時,不能將頻域空間的所有方法都對學生講授,而是突出講解了關于頻域空間與時域空間處理之間的關系,針對頻域圖像平滑介紹一種低頻濾波器,分析其原理和特點。這樣不僅節省了教學時間,而且重點突出,同時也引導學生查閱其他相關方法,讓他們自己去動腦思考,提高其思維能力。
(2)完善和改革課堂教學方法。在課堂教學過程中,我們始終重視啟發式教學,遵循“提出問題”、“啟發式思考”、“解決問題”的教學過程,使用“問題教學法”引導學生去思考、分析問題,激發學生學習的積極性,提高教學效果。課堂開始時,根據授課內容,提前向學生拋出相關問題,在講課過程中則圍繞該問題講解課程內容,最后提出問題的解決方法。例如,在講解“直方圖均衡化圖像增強技術”一節內容時,首先向學生展示了兩幅曝光不足和曝光過量的圖片,并且為了提高學生的學習興趣,認識數字圖像處理的實際應用,圖片取自于視覺測量、航空交會對接定位等領域的實際圖片,向學生提問,“如果實際應用中,由于環境光的影響,拍攝到了這樣的圖片,應該怎么辦?”課堂講解過程中,隨著直方圖、直方圖增強技術的理論、直方圖均衡化方法等內容的展開,使學生逐漸理解并掌握直方圖均衡化方法,最后,給學生演示了直方圖均衡化方法的實現,并看到了利用該方法對圖片增強前后的圖片效果。這種啟發引導式的課堂教學方法,取得了良好的效果。
(3)傳統和現代化教學手段相結合。隨著計算機、通信技術應用的迅速普及,國內高校的課堂教學已普遍采用了多媒體技術,利用計算機、投影儀、幻燈機等現代化教學設備,結合計算機輔助教學(CAI)展示教學內容。這些現代化技術的確為課堂帶來了很多豐富多彩的教學手段。數字圖像處理是以圖像為處理對象,其輸出的形式主要以圖像和圖形為主,該課程也十分適宜將教學內容制成課件,采用多媒體計算機開展現代化教學。借助多媒體,使學生較直觀地看到各種圖像的處理需求、處理過程、處理效果等,這是普通教材和參考資料所無法比擬的。因此,我們針對課堂教學需求,進行了多媒體課程教學資源建設,如教學大綱、教學日歷、授課教案和課件等通過多媒體平成,便于講課,同時也便于學生課后的復習。例如,將視覺測量原理、過程等,通過多媒體課件的形式演示出來,相比較口頭介紹等方法具有更加直觀的效果。除了多媒體教學手段,傳統的板書式教學作為補充手段也在數字圖像處理課程中得到應用,主要用在課堂教學內容框架展示、理論推導等方面。
2.視覺測量與理論知識點結合
為了提高算法對于目標特征的識別效果,視覺測量通常采用圓形或方形特征點(圖2),在獲取的圖像中對特征的成像位置進行識別和精確定位。視覺測量對于圖像處理的要求主要包括圖像預處理、特征粗定位、特征精定位等內容,對應數字圖像處理課程中的圖像增強、邊緣檢測、特征識別、幾何運算等知識點。[7]
圖2 視覺測量常用特征點
(1)圖像預處理。圖像預處理的主要方法包括彩色圖像灰度化、圖像增強等,為此,在講解彩色圖像內容時,介紹了RGB、HSI等彩色模型以及不同彩色模型之間的轉換,并引出如何將彩色信息轉換成灰度信息。通過分析彩色表示模型,建立了彩色到灰度圖像的轉換。
向學生展示常用視覺測量圖像效果的基礎上,為了減少圖像噪聲的影響、提高圖像識別效果,提出改善圖像質量的目標,需要進行圖像增強。結合圖像增強中常用的直方圖增強技術、空域和頻域圖像增強方法在視覺測量圖像處理中的實際應用,給學生展示直觀的處理效果,加深對圖像增強方法的理解。
(2)特征點粗定位。數字圖像處理的邊緣檢測是該課程比較重要的一部分內容,邊緣檢測中包含了多種方法,便于學生對不同邊緣檢測算法的作用效果有直觀印象,將各種算法應用于視覺測量圖像征點的邊緣檢測,并有針對性地選擇相應參數,使學生不僅學習了各種邊緣檢測算法的使用,也看到了算法的特點。
根據視覺成像的特點,圓形特征點成像后一般為橢圓,所以,利用邊緣檢測得到的邊緣像點數據,講解用邊緣點進行指定特征識別的方法,如基于Hough變換的特征檢測方法。為了引導學生思考,采用啟發式講課方法,講解了Hough變換檢測直線的方法,引出如何用Hough變換檢測像面上的圓或橢圓,并鼓勵有能力的學生實現相應算法。
(3)特征點精定位。特征點精定位的目的是在實現特征點粗定位的基礎上,對圓形特征點中心在像面上的精確坐標進行定位。精確定位主要設計到數字圖像處理中的點運算,但需要考慮采用的具體定位算法,如灰度重心法、加權灰度重心法、橢圓擬合法等。引導學生通過文獻資料查找和實現相關定位算法,并且與國際領先的專業軟件進行定位精度對比。通過比較,可以使學生發現不同算法之間的區別,并分析不同的原因。進一步,引導學生嘗試對定位算法做一定的改進,這種改進,不需要從算法根本上做出很大的創新,只是從某一方面進行微小的變化,使其能夠適合特定的應用需求。例如,如果對視覺測量像面上特征點定位采用加權灰度重心法時,通過調整加權系數,得到不用的效果,從而分析加權系數對于定位精度的影響,并據此得出適用于該需求的結論。
四、開放性實驗
長期以來,“數字圖像處理”課程教學主要采用課堂理論教學,教學內容也多為經典的內容,很難反映課程內容的時代特征。實驗教學是高等教育的重要組成部分,是抽象思維與形象思維、傳授知識與訓練技能相結合的過程,在人才培養中具有課堂理論教學環節不可替代的作用,對培養理工科大學生的創造性是不可缺少的。雖然目前大多數課程都設置了實踐環節,但也普遍存在著很多問題,[8]例如,實驗課成績占課程成績比例小,學生對實驗的重視度不夠,存在著抄襲他人實驗結果和報告的現象;實驗模式單一,實驗內容陳舊、呆板,多為驗證性實驗,缺乏創新性和挑戰性,學生完全處于被動狀態,最終導致實驗不認真,敷衍了事,所學的知識和操作技術遺忘快;不能保證每個學生都有充分的時間和機會做實驗,個別學生逐漸養成依賴心理,最終只有一部分學生得到了鍛煉;理論課與實驗課教學老師分離,造成理論和實踐環節脫節等。
針對目前“數字圖像處理”課程實驗的現狀,根據視覺測量像面特征點定位需求,開設相關開放性實驗項目“視覺測量特征點提取定位實驗”,實驗要求學生結合數字圖像處理課程知識理論,對視覺測量采集的數字圖像進行處理,提取相關特征點。針對視覺測量中常用的特征點(圓形、方形)進行自動檢測,并實現高精度定位,主要實驗內容包括:圖像預處理、特征點粗定位、特征點精定位、算法設計與實現、實驗結果分析等。
教師在開放性實驗項目中承擔的角色主要是方案設計和實施過程中的指導、監督,對方案的具體實現方法不做限制性要求,主要由學生結合課堂教學內容以及查閱文獻資料來設計并完成。為了提高項目完成的效率,教師可以通過適當的引導為學生指出主要方向。
對于單個學生來說,這樣的實驗項目有些困難,“團隊合作”也是新時期對科技人才素質的要求,所以可以通過建立項目小組的方式開展實驗。小組成員將實驗內容進行分工,每人負責不同的部分,通過相互合作、幫助,完成整個實驗項目。通過這種形式,也在某種程度上鍛煉了學生的團隊合作意識和合作方法。
五、結束語
通過將視覺測量領域研究成果引入“數字圖像處理”課程,并在教學方法、教學手段、教學內容、開放性實踐等方面的改革和嘗試,逐步做到科學研究成果與課堂理論教學的有機結合,不僅豐富了課程的教學內容,提高了學生的學習興趣,加深了對理論知識的理解,而且使學生接觸到科學研究的前沿領域,開拓了視野,對創新能力的培養鍛煉等方面也具有重要意義。
參考文獻
1 E.M. Mikhail, J.S. Bethel. Introduction to Modern Photogramme
-try[M]. New York: John Wiley & Sons,2001
2 胡安文、季錚、盛慶紅.基于近景數字視覺測量的飛機表面模型重建[J].地理空間信息,2004(6):23~25
3 Nicola D’Apuzzo. Overview of 3D surface digitization technologi-es in Europe[C]. Three-Dimensional Image Capture and Applications VI, Proc. of SPIE-IS&T Electronic Imaging, San Jose (CA),2006
4 劉常杰、邾繼貴、葉聲華.汽車白車身機器視覺檢測系統[J].汽車工程,2000(6):373~376
5 彭三城、孫星明、劉國華.三維人體自動測量技術綜述[J].計算機應用研究,2005(4):1~5
6 Wang Jun, Dong Mingli, Liang Bo. A fast target location method for the photogrammetry system[C].Proc. of SPIE-ISMCM, Beijing,2011
CBIR圖像特征相似性度量相關反饋
1基于內容的圖像檢索的算法設計
1.1圖像的預處理
圖像預處理的目的是為了便于圖像特征的提取及相似性度量的計算以便提高圖像的檢索效率。預處理是對原始圖像集進行一系列處理以產生圖像描述特征庫的過程,主要包括:尺度統一、格式轉換、灰度處理等。
1.2圖像特征的提取
特征提取是庫生成的核心,負責提取圖像的視覺特征包括顏色、形狀、紋理、空間位置關系等特征,圖像特征的提取應準確而且快速,提取的特征能有效的表征該圖像或者說有區分圖像的能力。
1.2.1顏色特征提取
顏色特征是圖像的基本特征之一,顏色特征也是圖像檢索中應用最廣泛的視覺特征,顏色特征的提取也相對容易,通過計算每中顏色的像素的個數并建立顏色直方圖來實現。顏色直方圖反映圖像顏色分布的統計特征,是研究圖像顏色的常用手段。直方圖是顯示圖像中每一灰度級像素個數的函數。
1.2.2紋理特征提取
根據二維傅立葉變換的分離特性:,根據上面的分離形式,可通過兩次運用一維傅立葉變換來實現二維傅立葉變換。
頻譜:
頻譜是圖像的重要特征,反映圖像的灰度分布,如果圖像中目標形狀或排列呈現某種方向性,那么具有較高值的頻譜也呈現出與圖像目標方向正交的方向性分布。
1.2.3形狀特征提取
通過對邊界特征的描述來獲取圖像的形狀參數,圖像的邊界一般是指周圍圖像灰度強度有反差變化的那些像素的集合。
1.2.4相似性度量
采用歐幾里得距離作為圖像特征向量之間的相似性度量方法,進行相似度匹配。
1.2.5相關反饋
由于計算機視覺對色彩特征的表示、相似度定義和人對色彩的感知存在著一定差距以及高層語義概念同低層特征之間的差距,基于圖像內容檢索的結果總不是很理想,為了把用戶模型嵌入到圖像檢索系統,最近幾年在基于內容的圖像檢索領域引入了相關反饋機制。
相關反饋的目的是從用戶與查詢系統的實際交互過程中進行學習,發現并捕捉用戶的實際查詢意圖,并以此修正系統的查詢策略,從而得到與用戶實際需求盡可能相吻合的查詢結果。
基于內容檢索中的相關反饋技術大致分為參數調整方法、聚類分析方法、概率學習方法和神經網絡方法。
2實驗結果
作者用delphi實現了上面算法的特征分解、特征提取、相似形度量和相關反饋算法。從150幅圖像中進行搜索,返回了20幅圖象。圖象數據庫中包含了花、樹、蝴蝶和貓。
查詢對象是包含一只貓,返回實驗結果如圖1:
返回的20圖像中有7幅含有貓。
用戶從圖像檢索的界面選“是”和“否”對圖像的結果進行反饋,系統根據用戶的選擇會自動調整檢索的特征表示權重值,從而進行第二次的檢索。第二次的檢索返回的20圖像中含有貓的圖像增加到12幅,大大提高了檢索效率。
3結束語
隨著圖像數據庫的增加,基于內容的圖像檢索顯的尤為重要,提取哪圖像些特征,如何提取特征以進行高效、準確的檢索是基于內容的圖像檢索技術中的核心問題。采用傅立葉變換提取圖像的紋理特征、邊界矩來檢測圖像邊界,再而引入相關反饋算法,原型系統基本實現了高速、有效的圖像檢索,在以后的研究中還會嘗試選擇不同的相關反饋檢索算法,更進一步提高系統的檢索效率。
參考文獻:
[1]董衛軍,周明全,耿國華,黎曉.基于內容的圖像檢索技術研究[J].計算機工程,2005,(10).