前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的生物信息學基本概念主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:大數據;生物信息學;教學探索
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2015)29-0210-02
一、引言
生物信息學是由生物學與數學、計算科學交叉形成的前沿學科,主要通過研發并應用計算機技術及數學與統計方法,對海量生物數據進行管理、整合、分析、建模,從而解決重要的生物學問題,闡明新的生物學規律,獲得傳統生物學手段無法獲得的創新發現。生物信息學是當今生命科學和自然科學的重大前沿領域之一,是多學科之間的交叉領域。因此,做好生物信息學教學工作對提高生物信息學研究水平具有重要的理論和實踐意義。
隨著高通量測序數據的大量出現,生命科學已經進入到大數據時代,生物信息學研究的重點將轉移到組學的研究上。相應地,生物信息學教學的重點也要從單個基因的分析轉向多個基因甚至在組學水平的分析。在生物大數據背景下,對生物信息學專業的人才需求也將越來越大。本文結合生物大數據的特點和教學經驗,談談目前生物信息學教學中存在的問題,并針對這些問題提出自己的建議和方法。
二、生物大數據的特點
“大數據”一詞最初起源于互聯網和IT行業,它具有數據量大、數據多樣化、高速、有價值等特點。生物大數據不僅帶有“大數據”的特點,而且具有生物數據自身的特性,具體表現在:
1.數據量大:全球每年生物數據總量已經達到EB量級,完整的人體基因組有約30億個堿基對,個體化基因組差異達6百萬堿基。同時由于高通量測序成本的下降,目前大量的生物物種得以全基因組范圍的基因組從頭測序、重測序以及轉錄組測序,積累了大量的生物數據。
2.數據種類多:由于測序儀器種類繁多,產生的測序數據格式也各不相同。除高通量測序產生的基因組和轉錄組數據外,另外還有蛋白組、代謝組、表型組、相互作用組的序列數據和結構數據。
3.數據增速快:這主要體現在數據的急劇增長速度上,幾乎每一周都有關于某一物種的全基因組或者轉錄組測序的信息。尤其是隨著新一代測序技術的發展,更大數量級的基因組數據產出日漸增加――每臺高通量的測序儀每天可產生約100GB的數據。
4.數據價值高:隨著生物信息學的發展,越來越多有價值的信息可從生物數據中挖掘出來,這些價值不僅體現在生物科研領域,而且已應用于農業和醫學等領域。
三、大數據背景下生物信息學教學中存在的問題
經過多年的發展,生物信息學教學雖然有了一定的提高和改善,但還存在一些問題,主要表現在:
(一)課程設置不合理
生物信息學是由生物學與數學、計算科學交叉形成的前沿學科,對生物背景的學生來說,需要掌握計算機和數學特別是統計學方面的知識和技能。但由于受課程設置的影響,很多學校只把C語言作為計算機的必修課,而沒有在大一或者大二年級開設概率論和數理統計,并且生物統計學等課程也只是在大三或者大四才作為選修課或者限定選修課來開設的,造成部分開課專業學生的數理基礎比較薄弱,因此在后續學習中存在一定的困難。
(二)教材內容不夠全面
由于生物信息學發展日新月異,各種分析生物大數據的算法、方法和軟件層出不窮,并且其更新換代是非常快的,而國內外相關教材的內容不夠全面,并且其更新速度較慢,不能緊跟生物信息學的最新發展,造成教師在授課時要綜合多本生物信息學教材的內容,不利于學生對生物信息學內容的全面掌握,從而制約了生物信息學教學的發展。
(三)教師的教學方法單一
生物信息學課程目前雖然在很多院校已經開設,但由于該學科對教師的授課水平和學生的學習能力要求較高,目前多數學校對于生物信息學的授課方式還是以教師講授為主的填鴨式教學方式。隨著大數據時代的到來,傳統的教學方式和方法遠不能滿足生物信息學教學的需要。
四、生物大數據背景下生物信息學教學的建議和方法
為了適應大數據背景下生物信息學的教學形勢,針對目前教學中存在的問題,作者結合自己的教學實踐,建議從以下5個方面改進和提高生物信息學教學。
(一)合理設置基礎課,強化基礎理論
生物信息學是一門交叉性很強的學科,以復雜而強大的理論體系作為支撐,所涉及的內容包括計算機編程、信息檢索以及數據庫技術等。為了讓學生學好生物信息學這門課程,各院校可以合理設置生物信息學的專業基礎課,將生物信息學課程定位在大三或者大四年級學生,在大一、大二年級做好高等數學、數據庫原理以及Perl語言等與之相關課程的教學工作,這些學生在掌握了一些與生物信息學相關的基礎理論知識后,其對生物信息學的學習能力和理解能力才會有較大的提高。此外,學校要鼓勵學生了解國內外有關大數據和生物信息學技術的發展趨勢,并推薦有代表性且通俗易懂的文章和書籍,以強化學生的基礎理論體系,為生物信息學的學習提供必要的知識儲備
(二)培養大數據意識,加強對大數據分析的科學素養
生命科學研究已經進入到大數據時代,生物大數據的挖掘已經在農林科學、醫學等領域產生巨大的效益,所以我們要培養學生樹立大數據思維意識,全面認識生物大數據帶來的機遇和挑戰。生物信息學以生物數據為對象展開分析,它同時具備具體性和抽象性的特點。具體性是指以數據為對象挖掘出的生物學知識是客觀存在的,其對生物學規律的解釋性較強;抽象性是針對生物信息學中的理論和方法而言的,一般要求學生具有一定的生物信息學專業基礎。在進行生物信息學教學時,要激發學生的學習興趣,逐漸培養學生的大數據意識,規范學生對大數據分析的基本方法。可以通過實例,讓學生參與到具體的生物信息學分析中去,以便理解生物信息學數據分析的基本操作流程,并在業余時間開展生物大數據在農業和醫藥行業成功應用的案例調查,以便激發學生利用生物信息學手段分析大數據的熱情。
(三)優化教材內容,精心安排教學內容
鑒于目前生物信息學發展速度快,而國內外相關教材的更新速度較慢,所以要求在生物信息學教材的選取方面要下大力氣,并且在授課時整合各個教材的優點。一般在生物信息學授課中整合以下三本書的內容:David W. Mount編寫的《Bioinformatics Sequence and Genome Analysis》、李霞主編的《生物信息學》以及陳銘編寫的《生物信息學》。
在教學過程中,為了使學生在有限的課堂教學時間內掌握生物信息學課程的主要內容,首先要優化課程教學體系,統籌安排教學內容,在生物信息授課中要抓住以下兩條主線:序列―結構―功能―進化;基因組―轉錄組―蛋白組―相互作用組―代謝組,多組學貫穿。同時針對不同專業的特點與人才培養目標要求,合理分配各章節的教學課時,做到突出與專業密切相關的內容重點精講。如在生物技術專業中,增加課時講授分子藥物設計章節,不僅要讓學生了解生物信息學與分子藥物設計的關系,而且要讓學生掌握計算機輔助藥物設計的理論方法以及軟件操作。因此,以生物信息學教學內容的兩條主線為依托,緊密圍繞各專業的培養目標,做到理論聯系實際,構建的教學體系和教學內容既能讓學生掌握學科的知識理論體系,又有利于培養學生理解、分析、運用學科知識解決實際問題的能力。
(四)合理選用教學方法,提高教學效果
實踐表明,不同的教學內容采用不同的教學方法授課可以收到良好的教學效果。為實現生物信息學課堂教學目標,完成相應的教學任務,教師要根據每堂課的教學內容,采用合適的教學方法,調動學生學習的積極性和主動性,提高課堂教學效果。可以從解決問題的角度出發進行理論教學。在理論課教學中,如果仍沿用傳統的灌輸式教學模式,肯定達不到預期的教學效果。課堂教學還可以根據需要,適時融入案例教學、問卷調查、多媒體展示、影片教學等方法,提高實際教學效果,培養學生的綜合素質和創新思考能力。
上機實習注重發揮學生的主觀能動性。生物信息學是一門實踐性很強的課程,上機實習是教學的重要環節,它不但能夠幫助學生更好地理解理論課所學知識,而且能夠提高學生運用生物信息學的理論和方法解決實際問題的能力,對培養學生獨立思考能力、觀察能力、動手能力起著重要作用,更是培養學生創新能力的重要途徑。
(五)理論和實踐相結合,注重考核的靈活化
生物信息學是一門融合了多個學科的實踐性很強的課程,對應的考核方式應該與其他專業課程有所區別,其最終的成績不應該只以理論課考試的成績為準。理論知識的考核注重學生對生物信息學基本概念、分析流程和主要分析算法的掌握情況,主要以試卷考核的方式為主,采用統一考核方式和評判標準。對于上機技能的考核,主要強調的是學生對不同類型數據進行分析時應掌握的相關軟件使用技能的考查,也應納入到學生的成績考核中,我們認為理論考試占70分、實習成績占30分是一個好的評價方式。
五、結束語
大數據背景下對生物信息學的教學提出了新的更高的要求。本文針對《生物信息學》教學中存在的問題,結合自己的教學經歷對改進生物信息學教學和方法進行了一些探討。本文認為要做好大數據時代的生物信息學教學,要從強化基礎理論、培養大數據意識、精心設計教學內容、創新教學方法和改革考核評價體系等五個方面來開展和抓好生物信息學教學。
參考文獻:
關鍵詞: 離散數學 簡介 應用
1.離散數學的簡介
離散數學是現代數學的一個重要分支,是計算機類專業的重要課程。它以研究離散量的結構及相互間的關系為主要目標,研究對象一般是有限個或可數個元素,因此離散數學可以充分描述計算機學科離散性的特點。它是傳統的邏輯學、集合論(包括函數)、數論基礎、算法設計、組合分析、離散概率、關系理論、圖論與樹、抽象代數、布爾代數,計算模型(語言與自動機)等匯集起來的一門綜合學科。該課程主要介紹離散數學的各個分支的基本概念、基本理論和基本方法。這些概念、理論及方法大量地應用于數字電路、編譯原理、數據結構、操作系統、數據庫系統、算法的分析與設計、人工智能、計算機網絡等專業課程中;同時,該課程提供的訓練有益于學生概括抽象能力、邏輯思維能力、歸納構造能力的提高,有利于學生嚴謹、完整、規范的科學態度的培養。
2.離散數學在其他學科的應用
2.1數理邏輯在人工智能中的應用
人工智能是計算機學科一個非常重要的方向。離散數學在人工智能中的應用,主要是數理邏輯部分在人工智能中的應用,包括命題邏輯和謂詞邏輯。命題邏輯就是研究以命題為單位進行前提與結論之間的推理,而謂詞邏輯就是研究句子內在的聯系。人工智能共有兩個流派:連接主義流派和符號主義流派。在符號主義流派里,他們認為現實世界的各種事物可以用符號的形式表示出來,其中最主要的就是人類的自然語言可以用符號進行表示。語言的符號化就是數理邏輯研究的基本內容,計算機智能化的前提就是將人類的語言符號化成機器可以識別的符號,這樣計算機才能進行推理,才能具有智能。由此可見,數理邏輯中重要的思想、方法及內容貫穿人工智能的整個學科。
2.2圖論在數據結構中的應用
離散數學在數據結構中的應用,主要是圖論部分在數據結構中的應用,其中樹在圖論中占著重要的地位。樹是一種非線性數據結構,在現實生活中可以用樹來表示某一家族的家譜或某公司的組織結構,也可以用它來表示計算機中文件的組織結構,樹中二叉樹在計算機科學中有著重要的應用。二叉樹中三種遍歷方法:前序遍歷法、中序遍歷法和后序遍歷法,均與離散數學中的圖論有密不可分的關系。
2.3離散數學在生物信息學中的應用
生物信息學是現代計算機科學一個嶄新的分支,是計算機科學與生物學相結合的產物。目前,美國有一個國家實驗室Sandia國家實驗室,主要進行組合編碼理論和密碼學的研究,該機構在美國和國際學術界有很高的地位。另外,由于DNA是離散數學中的序列結構,美國科學院院士,近代離散數學的奠基人Rota教授預言,生物學中的組合問題將成為離散數學的一個前沿領域。而且IBM公司將成立一個生物信息學研究中心。在1994年,美國計算機科學家阿德勒曼公布了DNA計算機的理論,并成功地運用DNA計算機解決了一個有向哈密爾頓路徑問題,這一成果迅速在國際產生了巨大反響,同時引起了國內學者的關注。DNA計算機的基本思想是:以DNA堿基序列作為信息編碼的載體,利用現代分子生物學技術,在試管內控制酶作用下的DNA序列反應,作為實現運算的過程;這樣,以反應前DNA序列作為輸入的數據,反應后的DNA序列作為運算的結果,DNA計算機幾乎能夠解決所有的NP完全問題。
2.4離散數學在門電路設計中的應用
在數字電路中,離散數學的應用主要體現在數理邏輯部分的使用。在數字電路中,廣于使用的邏輯代數即為布爾代數。邏輯代數中的邏輯運算與、或、非、異或與離散數學中的合取,析取、否定、異或(排斥或)相對應。數字電路的學習重點在于掌握電路設計技術,在設計門電路時,要求設計者根據給出的具體邏輯問題,求出實現這一邏輯功能的邏輯電路。
總之,離散數學無處不在,它的主要應用就是在各種復雜關系中找出最優的方案。離散數學完全可以看成是一門量化的關系學,一門量化了的運籌學,一門量化了的管理學。現在我國每一所大學的計算機專業都開設離散數學課程,正是由于離散數學在計算機科學中的重要應用,因此可以說沒有離散數學就沒有計算機理論,也就沒有計算機科學。所以應努力學習離散數學,推動離散數學的研究,使它在計算機中有著更廣泛的應用。
參考文獻:
[1]朱家義,苗國義,等.基于知識關系的離散數學教學內容設計[J].計算機教育,2010(18):98-100.
[2]方世昌.離散數學.西安電子科技大學出版社,1985.
[3]陳敏,李澤軍.離散數學在計算機學科中的應用[J].電腦知識與技術,2009,5(1):251-252.
關鍵詞:生物統計學;教學效果;課堂效率
中圖分類號 G642.0 文獻標識碼 A 文章編號 1007-7731(2017)06-0182-02
Study on Improving Teaching Efficience on Biology Statistics
Fang Ming et al.
(College of Life Science and Technology,Heilongjiang August First Land Reclamation University,Daqing 163319,China)
Abstract:Biology statistics is an fundamental professional classes in life and technology college and very important status in agricultural practice.However,current teaching methods existed many problems.Therefore,the article reformed three aspects of theory and practice and test so as to improve class efficiency and teaching effects.
Key words:Biology statistics;Teaching effects;Teaching efficience
生物y計學是高等院校農學、動物科學以及生命科學專業的必修課程之一,生命科學的快速發展、大量數據的涌現使得生物統計學重要性日益凸顯,但是在課堂教學實踐上存在嚴重問題,筆者在課堂實踐中感受到,傳統的“滿堂灌”授課方式在生物統計學中教學效果不好,因此,本文針對生物統計學課程目前存在的問題,從課程基本理論、實驗、考核方式等方面進行改進和完善,優化教學方法,改革教學方式,提高教學質量和教學效果。
1 改善教學方法,提高課堂學習效率
1.1 完善課程資料,豐富課堂活動 學習“生物統計學”課程需要具備一定的高等數學、線性代數、概率與數理統計知識,對于農業大學普通本科生來說,由于在大一階段學得不夠詳細深入,學起來難度較大。教師在黑板上寫滿數學大公式,枯燥乏味,學生數學基礎差,聽不懂課,缺乏課堂互動,久而久之,教師授課缺乏動力,形成惡性循環。因此教師需要在授課風格、內容、學習方法等多方面做必要的調整[1]。首先要激發學生的學習興趣,強調本門課程在生產和科研中的地位和作用,使學生意識到課程的重要性,激發學生的求知熱情;其次教師需要重視課件的質量。課件要求生動、形象的展示教學內容,需要突出教學重點,在教學方法、版書設計等方面精心設計,精心準備上課資源,包括PPT、論文、Word和Excel、SPSS 等。要讓課件的內容富有新鮮感,將知識性與趣味性結合起來。講解內容需要具有詳細的操作步驟,能夠促進學生理解和操作。
1.2 推薦簡單實用統計軟件,簡化繁冗程序 目前統計學上國際通用的軟件包主要有SAS、SPSS等,功能強大;但針對農科院校的本科生而言,難以理解,而且是英文界面,結合多年教學經驗,圍繞教學目標逐步展開學習。研究者向學生推薦EXCEL,它基本能滿足本科教學的需要,操作簡便,建議在教學中推薦使用。
1.3 教學手段和方式方法的多樣化 在課程講授中要根據不同的教學內容采用不同的教學方式和方法。對于統計學基本理論,以講授為主,講清楚基本概念,說明其意義及應用條件。對于統計分析方法,引導學生運用數理統計原理探究問題和方法,培養學生的統計思維能力[2]。對于以文字敘述為主且容易理解的內容,指導學生自學,組織課堂討論,以學生為主體,可以使學生的自學能力、思維能力增強,培養學生總結歸納和表達的能力。在授課過程中更多地創造機會讓學生參與教學過程,老師多提出問題,讓學生與教師多進行良性互動,可以使學生的文字及口頭表達能力得到全面提高。每次授課結束后,布置一定量的課后習題,督促學生及時復習所學知識,從而對所學內容得到鞏固和提高[3]。
2 優化實驗內容,注重培養學生操作能力
生物統計學實驗教學主要是培養學生綜合運用基本理論和方法解決實際問題的能力。通過理論課上的講授和練習后,學生基本全能掌握所學內容,但練習的內容與實踐相脫節,所以實驗課的內容以綜合性、設計性實驗為主,充分發揮學生的主觀能動性和綜合分析及解決問題的能力。實驗課前,教師將要求學生熟悉實驗內容[4]。上課時,學生根據內容上機操作學習,要求學生書寫操作步驟,教師現場進行答疑,課后教師認真批閱電子版的實驗報告后,再將學生的問題、成績及評語反饋給學生。若實驗中學生出現共性問題,教師則先將問題給學生講解清楚再進行下節課的學習。通過師生之間的不斷交流,教師可以及時掌握學生學習情況,有利于教師不斷調整教學方法及進度以達到更好的教學效果。由此可見,通過各種相關的教材、網絡、學院科研成果等方面的積累,收集大量的案例數據,建立富有學科特色的案例素材庫,將實驗內容與專業實驗相結合,促進科研成果向教學資源的轉化,豐富生物統計學的實驗內容。教學內容的增加,開闊了學生視野,很多學生通過查閱文獻,根據實驗室條件,選定因素、水平可以獨立設計試驗和進行數據處理[5]。
3 改革考試方式
考試能夠直接反饋教學效果,《生物統計學》的教學內容主要包括理論知識和綜合應用兩大部分,考試主要圍繞理論知識和實際操作能力兩個方面展開[6]。準確反映學生對于《生物統計學》的掌握程度。將理論知識與實際應用的比例應調整為5∶5,平時成績與期末成績的比例調整為3∶7或4∶6,降低考試的偶然誤差。增加命題的多樣化,重點考察學生基本知識的掌握程度及解決實際問題的能力,通過考察軟件操作等方式來測試學生對統計知識的運用能力。
由此可見,本研究針對生物統計學課程實踐性、應用性強的特點和目前教學中存在的問題,采取了理論教學與實驗教學緊密結合、強化軟件應用教學、制作多媒體課件輔助教學、改革考核方式以及建設開放式數量分析實驗室等多種措施,增強了學生學習生物統計學的興趣,進一步培養了學生運用生物統計方法分析和解決問題的能力,取得了較好的教學效果。在今后的生物統計學實驗教學中,教師需要與時俱進,根據教學和科研需要,不斷更新教學內容,采用先進的教學模式、教學方法和考核手段,使學生積極、快樂地學到知識,培養了學生邏輯思維能力、語言表達能力和自學能力,同時提高學生發現問題、解決問題的能力。
參考文獻
[1]呂敏芝,林樹茂,何蘭花,等.生物統計學教學改革實踐與體會[J].中山大學學報論從,2007,27(4).
[2]葉子弘,崔海峰,陳 春,等.生物統計學課程“能力素質培訓計劃”的構建及分析[J].安徽農業科學,2011,39(10):6268-6269.
[3]張強,張建平.生物統計學實驗教學的探索與實踐[J].實驗室科學,2012,15(6).
[4]丁雪梅,張曉君,譚智敏,等.生物統計學實驗教學改革的探索與實踐[J].黑龍江畜牧獸醫,2014.
[5]朱香萍,李楨,張庭榮.信息時代《生物統計學》教學的探索與實踐[J].農業網絡信息,2008(2).
關鍵詞:基于內容圖像檢索;相關反饋;主動學習;樣本選擇
中圖法分類號:TP391 文獻標識號:A 文章編號:2095-2163(2013)04-
Research on Reference Feedback based on Active Learning
WU Weining, LIU Yang, GUO Maozu*, WANG Chunyu, LIU Xiaoyan
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001)
Abstract: Reference feedback is a common technique in the field of information retrieval. Recently, it has been widely applied in the task of content-based image retrieval (CBIR) in order to overcome the gap between low features and high semantic concepts by utilizing the user-computer interaction. This paper combines the active learning into reference feedback technique. The goal is to choose the most informative images in the unlabeled pool as returned images by using the active learning, and then reduces the feedback times. On the COREL database and VOC database, the paper evaluates the proposed method. The experimental results indentify that the reference feedback based on active learning can effectively enhance the performance of CBIR system.
Keywords: Content-based Image Retrieval; Reference Feedback; Active Learning; Sampling Strategy
0 引言
相對文本而言,圖像包含的內容則要豐富得多。由于互聯網的發展,web上的圖片數量正日趨龐大,圖像包含的語義信息亦千差萬別,另外具有相同語義信息的圖像數量頁在與日俱增。因此,作為信息檢索中一個重要分支,基于內容的圖像檢索(CBIR)已成為關注熱點。
CBIR方法是以一幅圖像作為單位,通過使用圖像領域的前沿技術,提取圖像的視覺特征,例如:顏色,紋理等。當用戶查找圖像時,搜索引擎根據用戶所提供的圖像視覺特征,尋找與之相似的圖像。這一做法避免了TBIR策略存在的問題,可直接對圖像進行操作。但是,由于圖像處理技術的局限性,單純提取圖像底層特征很難完整描述圖像包含語義信息,并且,圖像所屬的不同領域,所包含的視覺對象之間具有的空間信息等,也會對圖像的語義信息產生很大的影響。為了使搜索引擎能夠根據用戶提供的高層語義概念返回與用戶選擇圖像語義最為接近的圖像,相關反饋技術則提供了一種良好的實現途徑。該技術是使得檢索系統可根據算法選擇少部分圖像返回給用戶,用戶對這些圖像給出標記信息,學習系統再從這些標記圖像中進行知識學習,并利用這些新知識提供新的檢索結果。
根據相關反饋過程的特點,主動學習技術可以有效地用于該過程。具體做法是通過采樣算法選擇對檢索系統最有利的部分樣例作為反饋圖像,并將這些圖像提交給用戶進行標記。使用主動學習技術選擇反饋圖像的目的是減少提升檢索系統性能所需要的反饋圖像數量,同時也一并減少用戶的工作量和提交反饋圖像標記的次數。根據這一目的,本文提出一種基于主動學習算法的相關反饋技術,利用主動學習技術從大量無標注待檢索圖像中選擇信息含量最大的圖像,將這些圖像作為反饋圖像,提交用戶進行標注,由此而減少用戶標記反饋圖像的次數和數量,并提高CBIR系統的性能。本文主要工作和貢獻概述如下:根據CBIR圖像系統中給出的目標圖像,學習一個直推向量機模型[1](Transductive Support Vector, TSVM);使用該模型對圖像庫中的所有待檢索圖像與目標圖像的相似程度進行預測;根據預測結果計算圖像對應的信息熵值,選擇信息熵的絕對值最小的一組圖像作為反饋圖像,提交用戶獲取標記信息;將標注后的圖像用于進一步學習直推向量機模型,上述訓練過程迭代進行,直至達到用戶滿意的檢索效果為止。結合提出的算法過程,本文在Visual Studio 2005平臺開發和實現了這一圖像檢索系統,并在COREL圖像庫上對系統性能進行了實驗驗證,實驗結果證明了系統的有效性。
1 相關工作
基于內容的圖像檢索(CBIR)方法可以被視作機器學習領域中的分類問題,即根據所給出的待檢索圖像,學習一個分類模型,利用該模型將圖像庫中的圖像劃分為目標圖像和非目標圖像。在檢索過程中,一個首要的問題是如何克服圖像的底層特征與高層語義概念之間的語義鴻溝。為了解決這一問題,相關反饋技術通過向用戶提交查詢的方式,讓用戶提供一部分圖像的語義信息,根據反饋圖像中的語義信息,提升系統檢索的準確度。另外,隨著用戶提交反饋次數的增加,學習系統逐步將反饋的圖像添加到學習系統的訓練集中,并使用增量學習的方式,學習用戶提供的語義知識。值得注意的是,使用相關反饋技術的CBIR系統的學習方式與主動學習算法具有很大的相似性,因此,利用主動學習算法設計相關反饋,提升CBIR系統的精度,這一做法越發受到研究人員的廣泛重視,成為研究熱點。
目前,已有一些研究人員致力于將主動學習算法應用于相關反饋技術中,并取得了良好的實際效果。這些做法可以分為兩大類。第一類是委員會投票方法[2,3],此類做法的特點是在同一個圖像集上同時學習多個分類模型,并使用這些模型對同一個無標注圖像的類別進行投票,選擇分類模型差異程度最大的圖像作為反饋圖像;第二類是基于不確定度的反饋方法[1],這類做法的特點是使用當前分類模型對無標注圖像的類別進行預測,并根據分類模型的預測結果計算分類模型對圖像的置信度,再選擇當前分類模型最不確定的圖像交由用戶進行反饋。
首先,訓練集已知的情況下,Platt提出一種貪心算法[4],根據無標記樣例對應的未來期望誤差,從無標記樣例集合中選擇訓練樣例,目的是通過選擇未來期望誤差最小的樣例,逐步搜索主動學習算法的全局最優解。但是,這一做法的缺點是,為了計算每個無標記樣例的未來期望誤差,需要分別計算該樣例被添加正類標記和負類標記后對分類模型的影響,即多次重新訓練分類模型。如果無標記樣例數量巨大,這一做法的計算消耗很大,因此,很難滿足檢索系統的要求。近年來,支持向量機模型以其在小樣本學習問題上的卓越性能受到了廣泛關注。針對該支持向量機模型的啟發式主動學習算法也隨之得到了更多的研究與使用,例如:Schohn提出了一種啟發式的SVM主動學習算法,通過核空間將圖像的底層特征維度無限放大,獲得了一個特征維度數目遠遠高于樣本數量的稀疏空間,而主動學習的做法是選擇包含盡可能多的維度信息的樣例作為包含信息含量最高的樣例。事實證明,這種方法不但可以獲得近似于貪心算法的結果,而且運行效率更高[5]。在該類做法中,包含維度信息最多的樣例主要集中在距離支持向量機的分類超平面較近的位置,因此,這一主動學習算法主要選擇距離分類界面最近的樣例作為反饋樣例。與Schohn的做法不同的是,Zhou提出了SSAIR算法[6]。該算法通過利用半監督學習中的co-training算法,結合主動學習中的co-testing模式,使用co-training中訓練得到的兩個分類模型對測試樣本進行投票分類,最終,采用兩個分類模型產生分歧的樣本作為供用戶反饋的備選樣本。與其它用于該領域的主動學習算法不同的是,這一做法改變了傳統反饋圖像集由用戶在前次檢索中系統認定的與待查詢圖像最相關的那些圖像來構成的定則,而是通過分類模型的投票來選擇反饋圖像集,盡最大可能改進檢索系統的性能。
以上兩類做法中,第一類方法需要同時學習多個模型,計算量和時間消耗較大,為了滿足圖像檢索系統的實時性要求,本文選擇第二類方法選擇反饋圖像。事實上,Schohn和Zhou提出的主動學習算法的共同特點是,認為分類模型最不確定或者置信度最低的樣例是無標記圖像中信息含量最大的樣例,在具體做法中則表現為多個分類模型彼此間分歧最大或者距離分類超平面最近的樣例,選擇這些樣例進行標記,可最大限度提高分類模型的性能。與這些方法不同的是,本文提出一種最大信息熵的主動學習算法,在所有無標注樣例中,選擇樣例對應的信息熵值最大的樣例點作為信息含量最大的樣例,并以此作為反饋樣例。算法的目的是在有限的檢索時間條件下,更加有效衡量樣例的信息含量,由此提高檢索系統的性能。
2 基于主動學習的相關反饋算法
2.1信息熵最大化采樣策略
本節詳細介紹了信息熵最大化這一采樣策略,為了方便理解,首先給出問題的基本概念。因為基于相關反饋技術的圖像檢索系統是一個迭代的學習過程,這里假定在第輪迭代中,訓練集表示為,其中,分別表示訓練樣例及其對應的標記信息。因為圖像檢索可看作是將待檢索圖像劃分為正類和負類的過程,故有。本文使用TSVM作為分類模型,則在當前迭代步中,TSVM算法學習的分類超平面為:
這里,和分別表示訓練樣本和無標記樣本在核空間的距離,是偏差項。對于任意一個無標記樣本,不考慮相同的歸一化系數,該樣本與分類超平面之間的距離是:
鑒于TSVM模型僅能提供無標記樣本與分類界面之間的距離,而無法提供樣本與對應的類別標記之間的精確概率輸出,為此,本文在這里使用了sigmoid函數,通過擬合的方法獲得樣本對應類別標記的后驗概率值,即:
其中,參數和使用Platt[7]中的優化算法,迭代求解得到。根據無標記樣本對應的后驗概率值,無標記樣本對應的信息熵值可以通過下式計算:
根據計算得到的信息熵值,選擇信息熵值最大的樣本,作為本輪迭代中最適合加入到訓練集中的無標記樣本,,即:
2.2 基于主動學習的相關反饋過程
信息熵是信息論中反映樣本信息含量的指標之一,鑒于此,信息熵也經常在機器學習算法中作為樣本信息含量的度量標準。值得注意的是,在公式(5)中,分類模型對無標注樣本的預測概率越接近于0.5,無標注樣本對應的信息熵值越大,該樣本的不確定程度也就越大。在這一點上,信息熵最大化采樣策略與基于不確定程度的采樣策略的目標是一致的。在圖像檢索的相關反饋過程中,本文使用信息熵最大化采樣策略,由待檢索圖像中選擇反饋圖像,提交用戶做出標記,將標記后的樣本用于分類模型的訓練過程,這個過程迭代進行,直至用戶滿意為止。下面,給出了基于主動學習的相關反饋的算法過程。
算法:基于主動學習的相關反饋算法
輸入:標記圖像集,無標記圖像集,反饋圖像數量
輸出:檢索結果
BeginFor
(1)在標記圖像集上學習TSVM分類模型,獲得公式(1)中的分類超平面;
(2)根據分類超平面,使用公式(2)計算每一個無標記樣本與該分類界面之間的距離;
(3)通過公式(3)中的sigmoid函數擬合,獲得無標記樣本對應的后驗概率值;
(4)使用公式(4)逐個計算無標記樣本的信息熵值;
(5)選擇信息熵值最大的個無標記樣本作為反饋圖像,提交給用戶進行標記;
(6),;
(7)如果用戶對當前檢索結果滿意,則結束,否則返回步驟1,。
EndFor
在上面的反饋過程中,每輪迭代中,檢索系統返回信息熵最大的一組樣本提交給用戶標注,該做法可以減少迭代次數,在用戶可接受的范圍內,盡可能多地提供標注樣本用于訓練。
3 實驗結果與分析
3.1數據庫及實驗設計
本實驗使用COREL圖像庫中的3類圖像作為待檢索圖像,每類圖像包含100幅圖像,這3個圖像類別分別是鷹,魚和馬。本文分別提取每一幅圖像的特征組成樣本集合,使用TSVM作為分類模型,用于從CBIR系統中獲得檢索結果。在每一組實驗中,首先,從待檢索圖像中隨機抽取一幅圖像作為目標圖像,訓練TSVM模型;根據該模型的預測結果,計算每一幅圖像的信息熵值,并選擇信息熵最大的五幅圖像作為反饋圖像();提交用戶標記后,將反饋圖像和標記用于訓練TSVM模型,同時給出檢索結果;該過程循環進行,直至達到結束標準為止。本文使用查全率(precision)作為圖像檢索結果的評價標準,其中,檢索系統劃分的相關圖像數量是100幅,召回圖像數量是20幅。
3.2實驗結果
在表1和表2中,本文給出了反饋次數為5次,并使用不同的圖像底層特征條件下,在不同語義類別上,CBIR系統的檢索結果。從實驗結果可以看出,使用最大墑作為樣本信息含量的度量標準,基于主動學習的相關反饋技術在圖像檢索系統中取得了良好的檢索結果。隨著反饋次數的增加,CBIR系統的檢索結果得到逐步提高。同時,表1和表2的對比還可以發現,顏色稀疏和相關圖組成的混合特征獲得了比SIFT特征更好的檢索結果,這是因為前者的維度高于后者,提供了更多的圖像底層語義信息,由此而提高了檢索效果。
表1 顏色稀疏和相關圖的混合特征條件下,不同反饋次數時,CBIR系統檢索精度
Tab. 1. Using sparse color and related features, different feedback times, the precision of CBIR system
初始值
反饋1次
反饋2次
反饋3次
反饋4次
反饋5次
鷹
0.71
0.724
0.73
0.628
0.732
0.75
馬
0.502
0.522
0.428
0.526
0.522
0.604
魚
0.494
0.538
0.504
0.536
0.572
0.468
表2 SIFT特征條件下,不同反饋次數時,CBIR系統檢索精度
Tab.2 Using SIFT features, different feedback times, the precision of CBIR system
初始值
反饋1次
反饋2次
反饋3次
反饋4次
反饋5次
鷹
0.5
0.756
0.39
0.71
0.774
0.622
馬
0.44
0.376
0.406
0.406
0.472
0.424
魚
0.25
0.314
0.22
0.358
0.23
0.334
在圖1和圖2中,本文給出了使用基于主動學習的相關反饋技術在CBIR系統中的檢索結果。除了使用COREL圖像庫作為檢索圖像庫之外,本文還增加了VOC圖像庫(包含20類,共計5 011幅圖像)作為檢索圖像庫,對所提出方法進行實驗驗證。從圖1和圖2中可以看出,基于主動學習的相關反饋技術可以有效提升CBIR系統的檢索性能。
(a) Car類別
初始檢索結果
使用相關反饋技術后的檢索結果
(b) Aeroplane類別
初始檢索結果
使用相關反饋技術后的檢索結果
圖1 VOC圖像庫上,使用基于主動學習相關反饋技術的圖像檢索結果
Fig.1 The retrieval results on VOC database by using feedback techniques based on active learning algorithm
(a) Eagle類別
初始檢索結果
使用相關反饋技術后檢索結果
初始檢索結果
使用相關反饋技術后檢索結果
圖2 COREL圖像庫上,使用基于主動學習相關反饋技術的檢索結果。
Fig.2 The retrieval results on COREL database by using feedback techniques based on active learning algorithm
4 結束語
本文利用了主動學習算法在選擇訓練樣本方面,相對于隨機選擇方法的優勢,提出了一種基于主動學習的相關反饋技術。在所提出的技術中,算法利用了分類模型最不確定的樣本可以提供更多反饋信息的特點,使用信息熵作為樣本信息含量的度量標準,選擇每輪迭代過程中,信息熵值最大的樣本作為反饋樣本,達到了增量學習,提升檢索系統性能的目的。本文使用COREL圖像庫和VOC圖像庫,對所提出方法的性能進行驗證,實驗結果證明所提出方法的有效性。
參考文獻
[1] CHEN J X. Active learning for transductive support vector machines with applications to text classification[J]. 計算機科學. 2004, 31: 242-244.
[2] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[C]//Proceedings of 15th International Conference on Machine Learning. Madison. WI, 1998: 1-9.
[3] SEUNG H, OPPER M, SOMPOLINSKY M. Query by committee[C]//Proceedings of 5th ACM Workshop on Computational Learning Theory. Pittsburgh, PA, 1992: 287-294.
[4] PLATT J. Fast training of support vector machins using sequential minimal optimization. advances in kernel methods: support vector learning[M]. Cambridge: MIT Press, 1998: 42-65.
[5] SCHOHN G, GOHN D. Less is more: active learning with support vector machine[C]// Proceedings of 17th International Conference of Machine Learning. Stanford, CA, 2000: 204-211.
[6] ZHOU Z H, CHEN K J, JIANG Y. Exploiting unlabeled data in content-based image retrieval[C]//Proceedings of the 15th European Conference on Machine Learning. Pisa, Italy: LNAI 3021, 2004: 525-536.
[7] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in Large Margin Classifiers[M]. Cambridge: MIT Press, 1999: 61-74.
基金項目:國家自然科學基金(61171185,61271346,60932008);高等學校博士學科點專項科研基金(20112302110040)
作者簡介:吳偉寧(1983-).女,黑龍江寧安人,博士研究生.研究方向:機器學習,圖像檢索;
劉揚(1976-).男,吉林懷德人,博士,副教授.研究方向:機器學習,計算機視覺;
郭茂祖(1966-).男,山東夏津人,博士后,教授,博導.研究方向:計算生物學與生物信息學,機器學習與圖像理解;
王春宇(1979-).男,遼寧寬甸人,博士研究生,講師.研究方向:生物信息學,并行計算;
【關鍵詞】 中醫藥治療學
[摘要] 中醫藥的突出特點和生命力就在于其療效,即根據中醫基本理論應用方藥的治療效果。中醫藥規范化治療方案的研究必須體現中醫基本理論,遵循現代醫學臨床試驗設計方法以及利用現代醫學關于疾病診斷和療效判斷的標準,應將中醫證候相關信息(包括癥狀、舌象和脈象)納入臨床試驗的檢查項目之中,開展兩次或多次的臨床試驗,利用多元統計分析方法,對比分析有效和無效人群的特點,尋求與中醫藥治療方案有效結局相關的主觀癥狀、舌象和脈象,從而找到該治療方案的最佳適應癥,形成規范的治療方案。
[關鍵詞] 中醫藥治療學; 規范; 臨床方案
Methodological thoughts about research of standardized clinical protocols of traditional Chinese medicine
ABSTRACT The treatment of traditional Chinese medicine (TCM) has been proved effective in clinical practice for thousands of years. To standardize the clinical protocols of TCM is absolutely necessary for enhancing the research quality of TCM and expanding the international influence of TCM. The standardization research on clinical protocols of TCM should be based on the basic theory of TCM and in the light of good clinical practice (GCP) principles. The clinical criteria for both diagnosis and efficacy evaluation of disease are also needed. To include all symptoms, tongue manifestations and pulse presentations into case report form, and to compare the differences in these clinical parameters between effective and noneffective cases by multivariate analysis may be helpful to find more specific indications for therapeutic protocol of TCM. Furthermore, It is suggested that two or more clinical trials on one therapeutic protocol are needed to identify its accurate indications.
KEY WORDS therapeutics (TCM); benchmarking; clinical protocols
雖然中醫藥治療疾病具有確切的療效,但許多人在描述其療效時都會感到一些困惑:中醫藥治療效果雖好,但國際公認的現代醫學語言及方法卻難以對其進行準確的描述。因此,中醫藥知識的廣泛傳播與普及便難以展開,而知識的有效傳遞是知識發展的重要途徑。中醫藥的突出特點和生命力就在于其療效,即根據中醫基本理論應用方藥的治療效果。因此,運用現代醫學語言描述中醫藥治療方案的有效性及積極開展中醫藥的對外傳播是中醫藥國際化的重要內容,其中首先就是進行中醫藥規范化治療方案的研究。
1 中醫藥規范化治療方案研究應遵循的基本原則
1.1 充分運用中醫基本理論 由于中醫藥的療效是在中醫基本理論指導下獲得的,因此中醫藥規范化治療方案的研究一定要體現中醫基礎理論的思想。
1.2 充分遵循現代醫學的臨床試驗管理規范 中醫藥規范化治療方案的研究應當體現臨床試驗管理規范(good clinical practice, GCP)的原則。合理的臨床試驗設計是說明一種藥物或一種治療方案有效性的前提,因此中醫藥規范化治療方案的研究同樣應遵循這些原則。
1.3 充分利用現代醫學疾病診斷和療效判斷的標準 將現代醫學有關疾病診斷和療效判斷的標準運用于中醫藥規范化治療方案的研究中,將有利于中醫藥知識的對外傳播。
2 中醫藥規范化治療方案研究的思路與方法
如果疾病診斷標準、療效評價指標、臨床試驗設計原則都是固定的話,那么一種治療藥物或者治療方案的療效也是基本不變的。中醫藥規范化治療方案的臨床療效評價如果完全遵照現代醫學臨床試驗設計原則,那么其療效也應是固定的,不可能有很大的差異。我們難以改變疾病診斷標準、療效評價指標和臨床試驗設計原則,我們也無意去研究這些內容。要提高中醫藥治療方案的有效性,就必須在臨床試驗中充分運用中醫基礎理論和基本概念,進行具有中醫藥理論特點的規范化治療方案研究,尋求該治療方案的適合人群及其更確切的治療適應癥,才可能進一步提高該治療方案的療效[1]。
2.1 將癥狀、舌象和脈象納入中醫藥規范化治療方案研究,體現中醫基本思想 中醫四診信息中除了舌、脈象及聞的客觀信息之外,大多數是依據問診而得到的主觀癥狀信息,他們在中醫證候分類中起著決定性的作用。現代醫學對癥狀、舌象和脈象在疾病發生發展過程中作用的認識還很不夠。多數情況下,與病變部位不相關的一些癥狀被認為是病理變化的主觀反應,是從屬于客觀病理變化的反應,或者說是治療效果的從屬反應。例如,肝炎患者有無腰痛或出汗等癥狀并不影響疾病分類學的診斷和治療;肝炎患者在治療后是否出現排便情況的改變亦不影響治療方案的調整。中醫始終非常重視臨床主觀癥狀、舌象和脈象在疾病個體化中的作用,同時也是中醫辨證論治的基礎[2]。
有研究表明,一定的癥狀組合(包含全身癥狀、消化道癥狀等)有助于提高慢性胃炎患者幽門螺桿菌(Helicobacter pylori, HP)的判別率,而不恰當的組合則可降低HP感染的判別率,由此提示癥狀與疾病診斷指標之間存在一定的聯系[3]。另一組研究結果表明,慢性胃炎患者非疾病診斷相關癥狀組合與胃黏膜CD4、CD8細胞浸潤之間存在一定的相關性,提示非疾病診斷相關信息與疾病病理相關信息之間可能存在某種內在的聯系[4]。由此可見,癥狀、舌象、脈象與疾病診斷指標之間存在一定的相關性。在臨床試驗設計中,應根據中醫基本理論和基本原理,將相關癥狀、舌象和脈象納入檢查項目之中,是探索中醫癥狀、舌象、脈象與該治療方案之間關系的重要因素。
2.2 開展兩次或多次臨床試驗以找到中醫藥治療方案的最佳適應癥 任何一種治療方案,無論是中藥還是西藥,其治療結果往往是部分有效或部分無效。目前對于有效或無效的評價標準大多是根據疾病診斷標準中所含指標的改善程度來進行判斷的。這種以疾病理論為基礎的治療學往往強調有效率,而不強調有效與無效之間是否存在某種必然的聯系,因此也不可能從這種關系中找出一種調整治療方案、提高療效的途徑和方法。中醫藥治療尤其強調辨證治療,強調同一種疾病其治療的有效與無效之間必定存在一定的區別。這種可能的必然聯系和區別應從同一種疾病所表現出來的多種不同反應加以考慮,主要包括臨床癥狀、舌象和脈象,特別是那些看起來與疾病無必然聯系的全身性癥狀或與疾病相關但性質不同的癥狀。依據一種治療方案有效或無效的結果,對比分析兩者之間非疾病診斷相關臨床表現的異同規律,從中發現與這種治療方案密切相關的非疾病診斷相關臨床表現。如此可將作為中醫證候分類依據的癥狀、舌象和脈象納入療效評價和治療方案的選擇依據之中,從而在疾病治療相關適應癥中增加中醫癥狀、舌象和脈象因素,發揮中醫基本理論在治療疾病中的指導作用[5]。
在臨床試驗設計過程中,應根據中醫基本理論,在檢查項目中納入中醫主觀癥狀、舌象和脈象,進行治療方案適應癥的探索。同時,應開展兩次或兩次以上的臨床試驗。第一次臨床試驗主要是對中醫證候信息(包括癥狀、舌象和脈象)的優選試驗,在全面收集患者證候信息與療效評價指標的基礎上,通過數據分析獲得該治療方案理想的適應癥。第二次臨床試驗主要是對適應癥進行的驗證試驗,針對第一次臨床試驗所獲得的適應癥開展驗證工作,目的是客觀評價該治療方案適應癥的可靠性;同時,對收集的證候信息與療效評價指標數據繼續進行分析,逐步完善該治療方案的適應癥,為下一次的臨床試驗提供可靠數據。
2.3 采用多元統計分析方法對比分析有效與無效人群癥狀、舌象和脈象的特點,尋求與中醫藥治療方案有效性相關的癥狀、舌象和脈象 隨著數據分析技術的進步,可以運用數據庫、生物信息學、復雜系統分析、數據挖掘及多元統計分析等方法分析臨床試驗數據,以期探索中醫藥治療方案的最佳適應癥[6]。對中醫癥狀和舌、脈象的聚類分析可以采用主因子法、典型相關分析以及標準典型相關分析等多種方法,估計因子載荷,用回歸法估計旋轉后各公因子得分,以評價中醫主觀癥狀、舌象和脈象對療效的貢獻率。應用回歸分析法對中醫癥狀、舌象和脈象以及從臨床試驗中所得到的因子在療效評價中的作用進行分析,可以找出與該治療方案相關的癥狀、舌象、脈象或因子。
在對類風濕性關節炎所做的臨床試驗中,18項主觀癥狀通過因子分析得到4個公因子,分別較好地反映了關節局部病情以及中醫寒證、虛證、熱證的癥狀;中、西藥治療對反映關節病情公因子的影響一致,均具有改善作用,但中藥治療對虛證癥狀公因子的改善優于西藥。這說明因子分析法能夠對中醫辨證過程中重要因素的主觀癥狀進行分類研究,對公因子與療效之間關系的探索能更好地顯示中藥療效的特點[7]。對類風濕性關節炎的研究表明,關節疼痛和關節壓痛與中藥治療效果呈正相關,夜尿多則呈負相關;關節壓痛和口渴與西藥治療效果呈正相關,眩暈則呈負相關;根據主觀癥狀與療效的回歸分析結果,對原始數據進行再次分析,表明將主觀癥狀納入適應癥后,中、西藥治療效果均有提高,說明某些主觀癥狀與中、西藥治療的療效之間存在一定的相關性[8]。因此,有必要加強癥狀對療效影響的研究,將癥狀納入藥物治療的適應證。
隨著中醫藥規范化治療方案研究的深入,疾病診斷依據中將會納入更多的中醫癥狀、舌象和脈象信息,治療疾病時也會因為獲得了更合適的適應癥從而取得更理想的治療效果;同時,中醫證候分類方法和理論也將作為現代生物醫學的主要內容,并隨著科學技術的進步不斷完善。
[參考文獻]
1 呂愛平. 中藥現代化發展新要求――應重視中藥適應癥和中藥藥效評價的研究. 首都醫藥, 2003, 10(3): 2730.
2 呂愛平, 李 捎, 王永炎. 從主觀癥狀的客觀規律探索中醫證候分類的科學基礎. 中醫雜志, 2005, 46(1): 46.
3 Li S, Lu AP, Zhang L, et al. AntiHelicobacter pylori immunoglobulin G (IgG) and IgA antibody responses and the value of clinical presentations in diagnosis of H. pylori infection in patients with precancerous lesions. World J Gastroenterol, 2003, 9(4): 755758.
4 Lu AP, Zhang SS, Zha QL, et al. Correlation between the CD4, CD8 cell infiltration in gastric mucosa, Helicobacter pylori infection and symptoms in patients with chronic gastritis. World J Gastroenterol, 2005, 11(16): 24862490.
5 呂愛平, 陳可冀. 疾病的證候分類研究思路. 中國中西醫結合雜志, 2005, 25(9): 843845.
6 查青林, 林色奇, 呂愛平. 多元統計分析在中醫證候研究中的應用探析. 江西中醫學院學報, 2004, 16(6): 7980.
關鍵詞:split read; 映射; 高通量測序; 生物信息學
中圖分類號:TP391 文獻標識碼:A文章編號:2095-2163(2013)06-0030-03
0引言
人類基因組計劃的完成為人類基因組的研究提供了一套參考基因組序列,大大地簡化了人類個體基因組的序列研究,因為不同人類個體基因組序列之間有著極高的相似性,現在的研究主要專注于個體基因組序列與參考基因組序列的差異,這大大地簡化了研究的過程。而高通量測序技術的不斷發展,則為人類基因組研究提供了有力數據支持。為了利用高通量測序數據,需要將上億的測序短序列(read)映射到參考基因組序列上,這些read當中大部分可以以連續序列的形式被映射,但是仍有一部分read由于個體基因組序列與參考基因組序列的差異,會在映射中包含一段空位,這樣的read稱為split read,其映射相比于第一類read是更為困難的。Split read的映射往往可以顯示個體基因組中變異區域的序列信息,對研究更快速、準確的split read映射方法有著重要的意義。
1基本概念
1.1高通量測序數據
高通量測序是一種測序DNA序列的技術。在測序過程中,將完整的樣本DNA序列打碎,從中篩選出滿足特定長度(通常為數百bp)的片段,然后在每個片段的一端或兩端各讀取一段長度為數十至數百bp的序列。這些讀取出的序列長度通常遠遠小于被測樣本DNA序列的長度,但是高通量測序技術可以同時讀取大量這樣的短序列,使得短序列總長度達到樣本DNA長度的數倍至數十倍,從而使獲得樣本DNA序列成為可能。
1.2Read與split read
在高通量測序中,從打碎的DN段上讀取出來的短序列稱為read。Read是被測DNA序列的一個短片段,單個的read序列長度遠遠短于被測DNA序列的長度,但是通過將大量read映射到參考基因組序列的方式,就可以獲得被測DNA的序列內容,如圖1所示。測序時所讀取的read是一段連續的序列,但是由于DNA結構變異的存在,一些read在映射結果中不再保持連續的形式,而是包含了空位,這樣的read稱為split read。
1.3雙末端測序
在高通量測序過程中,從打碎的DN段的兩端讀取序列的方法稱為雙末端測序。雙末端測序中獲得的讀取自同一片段的一對read稱為一個read pair。理論上,如果被測DNA序列與參考基因組序列完全相同,read pair被映射到參考基因組之后,其中的兩個read之間的距離與被測時DN段的長度應當是相同的。但是由于被測DNA與參考基因組序列存在差異,特別是由于結構變異的存在,read pair映射后其一對read之間的距離會與被測的DN段長度產生明顯的差異。
2Deletion對附近read 與read pair映射所造成的影響Deletion是一種常見的結構變異形式,表現為被測DNA序列相比參考基因組序列缺失了部分序列。由于這種變異的存在,其附近的read與read pair在映射過程中會發生異常,如圖2所示。從圖2中可以看出,由于deletion的存在(黑色短線段),跨過deletion的read pair(左)在映射后兩個read之間的距離要長于被測時兩個read之間的距離,這個距離的差異恰好是deletion的長度。而跨過deletion邊界的read(右)在映射時則會包含與deletion長度相同的一段空位,形成split read。
3利用read pair映射分析指導split read映射的方法目前的read映射方法出于運行效率的考慮,都會限制映射結果中所允許的空位數量與長度[1-3]。有一些利用雙末端測序數據特性而特別為split read映射所設計的映射方法,利用read pair中一個映射較好的read作為基點,在臨近的一段區間為另一個映射效果不好或者無法連續映射的read進行允許較多空位的映射[4]。這樣的方法存在著映射效果與搜索空間相關,映射難度大,效率低等問題,如圖3所示。
為了改進這些不足,本文提出一種利用deletion附近的read pair的映射結果來指導split read映射的方法。從圖2中可以看出,受到deletion影響的read pair,雖然其一對read之間的映射距離發生了異常,但兩個read的映射位置距離deletion的邊界并不遠。通過將這樣存在映射異常的read pair按照映射位置與每對read之間的距離進行聚類,可以大致獲得deletion邊界的位置。由于split read的映射實際上只需要deletion邊界處的一小段序列,而與deletion序列本身無關,因此可以每個聚類結果中的兩處deletion邊界位置為基點,各選擇一段固定長度的序列作為參考序列進行split read映射,選擇序列的長度只要確保可以包含deletion的分界點即可(圖4上半部分)。通過這樣的方式,split read的映射將不再與deletion本身的長度相關,因為參與split read映射的參考序列只是deletion邊界處固定長度的兩段序列的組合,其選取與deletion本身的長度無關。
接下來,需要將每個聚類結果附近映射效果較差或無法映射的read提取出來,這些read可能是受到了每個聚類結果所對應的deletion的影響而無法實現良好的映射,因其是候選的split read。將這些read向組合的參考序列映射需要一種序列映射算法,本文提出一種Needleman-Wunsh算法[5, 6]的變種算法來完成split read映射。變種算法同樣是一種動態規劃算法,其遞歸表達式為:
其中:
db是由兩段參考基因組序列組成的橫向序列,段序列的長度分別為m1和m2。qr是由read序列構成的縱向序列,長度為l。M(i,j)是當qr[i]和db[j]對齊時單元(i,j)的打分;Iqr(i,j)是qr[i]和一個空位對齊時單元(i,j)的打分;Idb(i,j)是db[j]和一個空位對齊時單元(i,j)的打分。gapopen是開始一段新空位的罰分;gapext是擴展一個空位的罰分。w(a,b)是一個打分函數,當a和b相同時打正分,反之打負分。jumpqr是matrix2中額外計算的罰分,是從matrix2中單元向matrix1中單元進行跳躍的罰分。jmax是matrix2中單元跳躍目標單元的橫坐標,對于matrix2中的單元(i,j)來說,其跳躍的目標單元坐標為(i-1,jmax)。
變種算法與原算法的最大區別在于,序列比對的打分矩陣被劃分為了兩個部分,分別對應著deletion兩個邊界附近所選擇出的參考序列(圖4下半部分中Part 1與Part 2)。在第一部分中,全部的比對分數計算與原算法相同,在第二部分中,為每個單元計算分值時會多考慮一項,即來源于第一部分矩陣上一行中具有最高分值的單元(圖4下半部分中NW-MAX單元)的打分。這個分值的計算相當于將第一部分矩陣中的部分序列比對結果與第二部分矩陣中的部分序列比對結果相連接,相連接的兩個單元所在的位置就是這個映射所對應的一段連續空位的邊界點。變種算法對于這種連接給出一個固定的罰分,這個罰分與兩個單元的橫向距離無關。在原算法中,這樣的單元之間的“跳躍”是不允許的,相同的映射在原算法中需要依靠相鄰單元的連續計算來完成(圖4下半部分中虛線箭頭所示),由于原算法中引入空位 需要罰分,因此split read的映射結果的最終分值將會受到引入的空位數量的影響,引入的空位越多,分值越低。這可能導致split read的映射結果由于引入的空位過多而導致分值過低,最終被舍棄。
4實驗結果與分析
本文將所提出的算法進行程序實現,稱為PRISM。通過將人類基因組中deletion注釋加入到參考基因組1號染色體序列中的方式構造了一條模擬基因組序列,并使用模擬測序軟件[7]對該模擬基因組序列進行模擬測序生成一套模擬數據集。在該模擬數據集上,本文將所提出的split read映射方法與一種已有的方法Pindel進行了比較。首先是運行速度上的比較,結果如表1所示。由于在取得候選split read時的標準不同,兩種方法作為輸入的read數量不同,但是從結果上可以看出,PRISM的輸入規模略高于Pindel,而運行時間卻遠遠短于Pindel,這證實了PRISM利用read pair分析結果來指導split read映射的方法可以大幅地提高split read映射的效率。第二項比較是split read映射效果的比較,具體結果如圖5所示,可以看出PRISM在正確映射split read的能力上也要優于Pindel。
5結束語
本文提出了一種新的split read映射方法,這種方法利用split read附近的read pair映射結果分析來指導split read的映射,以達到縮小映射過程中搜索空間,提高映射效率與準確性的目的。在模擬數據實驗中,通過與已有的方法進行對比,證實了本文所提出的方法在運行效率、與split read映射結果上都具有優勢。
參考文獻:
[1]LI H, DURBIN R. Fast and accurate short read alignment with Burrows-Wheeler transform [J]. Bioinformatics, 2009, 25(14): 1754-1760.
[2]LANGMEAD B, SALZBERG S L. Fast gapped-read alignment with Bowtie 2 [J]. Nature methods, 2012, 9(4): 357-359.
[3]LANGMEAD B, TRAPNELL C, POP M, et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome [J]. Genome biology, 2009, 10(3): R25.
[4]YE K, SCHULZ M H, LONG Q, et al. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads [J]. Bioinformatics, 2009, 25(21): 2865-2871.
[5]DU Z H, LIN F. Improvement of the needleman-wunsch algorithm [J]. Lect Notes Artif Int, 2004, 3066:792-797.