公務員期刊網 精選范文 神經網絡文本分類范文

    神經網絡文本分類精選(九篇)

    前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經網絡文本分類主題范文,僅供參考,歡迎閱讀并收藏。

    神經網絡文本分類

    第1篇:神經網絡文本分類范文

    關鍵詞:卷積神經網絡;語言模型;分析

    1 卷積神經網絡語言模型

    CNN語言模型基本結構包括輸入層、卷積層、池化層及后續的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數據重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結構,因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設置。在這種設置下,僅需要考慮濾波器的高度既可以實現不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經網絡的濾波器尺寸一般都是指濾波器的高度。

    然后,將卷積層輸出的特征映射輸入池化層,通過池化函數為特征映射進行降維并且減少了待估計參數規模。一般的,CNN池化操作采用1-max池化函數。該函數能夠將輸入的特征映射統一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關系。

    最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設置為0。另外還可以選擇增加l2范數約束,l2范數約束是指當它超過該值時,將向量的l2范數縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數包括濾波器的權重向量,激活函數中的偏置項以及softmax函數的權重向量。

    2 卷積神經網絡語言模型應用分析

    CNN語言模型已經廣泛應用于諸如文本分類,關系挖掘以及個性化推薦等NLP任務,下面將對這些應用進行具體的介紹與分析。

    2.1 CNN在文本分類中的應用分析

    kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規模的參數,并采用靜態通道的CNN實現了效果很優異的句子分類方法。通過對輸入向量的調整,進一步提高了性能實現了包括情感極性分析以及話題分類的任務。在其基礎上為輸入的詞嵌入設計了兩種通道,一種是靜態通道,另一種是動態通道。在卷積層每一個濾波器都通過靜態與動態兩種通道進行計算,然后將計算結果進行拼接。在池化層采用dropout正則化策略,并對權值向量進行l2約束。最后將該算法應用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數據集。MR數據集為電影評論數據集,內容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數據集為斯坦福情感樹庫是MR數據集的擴展,但該數據集已經劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數據集為主觀性數據集,其分類任務是將句子分為主觀句與客觀句兩類。TREC數據集為問題數據集,其分類任務是將所有問題分為六類,例如關于數字、人物或位置等信息的問題。CR數據集為評論數據集,包括客戶對MP3、照相機等數碼產品的評論,其分類任務是將其分為積極評價與消極評價兩類。MPQA數據集是意見極性檢測任務數據集。通過實驗證明,該方法在這幾個典型數據集上都能取得非常優異的效果。

    2.2 CNN在關系挖掘中的應用分析

    Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結構為搜索查詢和Web文檔學習低維語義向量表示。為了在網絡查詢或網絡文本中捕捉上下文結構,通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應用非線性變換來提取高級語義信息以生成用于全文字符串的連續向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠將輸入的詞序列轉變為letter-trigram表示向量。在卷積層通過上下文特征窗口發現相鄰單詞的位置特征,并變現為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。

    2.3 CNN在個性化推薦中的應用分析

    Weston等人提出了一種能夠利用標簽(hashtag)有監督的學習網絡帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數據文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務本身能取得好的效果外,學習到的特征對于其它的文本表示任務也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現的標簽通過評分函數對任何給定的主題標簽進行排序。

    其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數據集采用了兩個大規模語料集,均來自流行的社交網絡文本并帶有標簽。第一個數據集稱作people數據集,包括搜集自社交網絡的2億1000萬條文本,共含有55億單詞。第二個數據集被稱作pages,包括3530萬條社交網絡文本,共含有16億單詞,內容包括企業、名人、品牌或產品。

    3 結束語

    卷積神經網絡應用于語言模型已經取得了非常大的發展,對于自然語言處理中的各項任務均取得了優異的結果。本文通過對幾項典型工作的分析,探討了不同卷積神經網絡模型結構在不同任務中的表現。通過綜合分析可以得出以下結論。首先,CNN的輸入采用原始數據訓練的向量表示一般效果會優于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設置;最后,為了優化結果可以采用dropout正則化處理。

    第2篇:神經網絡文本分類范文

    關鍵詞:主題模型;特征表達;多示例多標記學習;場景分類;文本分類

    中圖分類號: TP181

    文獻標志碼:A

    Multiinstance multilabel learning method based on topic model

    YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2

    1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China

    2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China

    Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.

    英文關鍵詞Key words:

    topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization

    0引言

    傳統的監督學習問題通常定義為單示例單標記學習問題,一個對象用一個示例來表示,同時關聯一個標記。定義X為示例空間,Y為標記集合。單示例單標記學習的目的是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:xy,其中:xi∈X是一個示例,yi∈Y是示例xi的一個標記。在機器學習技術[1]日益成熟的條件下,傳統的單示例單標記學習方法已經取得了很大的成功。

    然而,在現實世界中,一個對象通常是多義性的復雜對象,如果仍用傳統的單示例單標記學習方法,不但不能很好地表達出對象豐富的內容信息,而且不能得到對象準確的語義標記集合,因此對于這種多義性對象,可以采用多標記學習方法來處理。在多標記學習[2]方法下,一個對象用一個示例來表示,但是關聯多個標記。多標記學習的目的是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:x2y,其中:xi∈X是一個示例,yiY是示例xi的一個標記集合{(yi1,yi2,…,yili)},li是標記集合yi中標記的個數。雖然多標記學習已經取得了很大的成就,但是只用一個示例來表示多義性對象不能有效地表達出多義性對象的復雜內容。

    事實上,在多標記學習中,一個標記對應著對象不同的區域,如果能夠對一個確定的區域(不是一個整體的對象)和一個特定的標記直接建立對應的模型,將會有效地減少噪聲對分類準確性的影響,因此可以采用多示例學習的方法來表示多義性對象的復雜內容。多示例學習[3]的任務是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:2xy,其中:xiX是一個包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的個數,yi∈Y是包xi上的一個標記。然而,多示例學習主要用于單標記問題,對于多標記問題需要分解為多個單標記問題進行處理。

    為了克服多標記學習和多示例學習方法的缺點,將二者結合起來形成一種多示例多標記學習方法[4],來處理帶有復雜內容的多義性對象將會更加合理和有效。多示例多標記學習的目的是從一個給定的數據集{(xi,yi)|1≤i≤N}中學習一個函數f:2x2y,其中,xiX是一個包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的個數,yiY是包xi的一個標記集合{(yi1,yi2,…,yili)},li是標記集合Yi中標記的個數。

    近年來,多示例多標記學習已經取得了很大的進展,同時也面臨著三個主要的難題。首先,由于圖像分割技術[5]的限制,很難劃分出具有完整語義標記的示例;其次,在劃分示例后,傳統的做法是提取示例的底層特征,然后建立特征向量和語義標記之間的映射模型,由于特征提取[5]和機器學習技術[1]的限制,如何自動提取示例的高層特征及建立映射模型也是一個難點;最后,由于標記之間復雜的相關性[6],如何建立能夠捕獲標記之間相關性的模型[7]也是一個難點,同時文獻[8]指出了大數據問題也是多示例多標記學習面臨的一個新問題。如果能夠克服這些主要難題,可以建立一個完美的多示例多標記模型,該模型可以直接學習示例和標記之間的映射關系,同時可以捕獲到標記之間的相關性。

    1相關研究

    1.1多示例學習

    多示例學習中,一個樣本被看成是一個包含多個示例的包,當需要對一個包進行標記的時候,如果包中至少有一個示例具有對應的標記含義,則將這個包標記為正包,否則標記為負包。雖然多示例學習框架被限制在單標記問題上,但是多示例學習方法已經取得了很多研究成果,針對不同的問題提出了不同的多示例學習方法,此外多示例學習還可以用于圖像檢索。

    1.2多標記學習

    對于多義性對象,可以采用多標記學習的方法來處理。文獻[6]對多標記學習作了一個全面的綜述報告;文獻[9]提出了一種基于神經網絡的多標記學習方法。從現有的多標記算法可以看出,可以采用兩個策略來處理多標記學習問題:一是將多標記問題分解為多個單標記問題。但是在很多情況下標記之間是有相關性的,例如天空和海洋可能會同時出現在同一個場景中,如果仍然用這個策略來處理多標記學習問題,將會丟失這種對提升多分類性能很有幫助的信息。二是直接對示例和標記集合之間建立模型。在一些復雜的模型中,不但可以直接建立示例和標記集合的對應關系,同時也可以得到標記之間的一些相關性。

    1.3多示例多標記學習

    對于多示例多標記學習,文獻[4]中對多示例多標記學習作了一個全面的介紹,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先將多示例多標記問題轉化為多示例問題,然后再采用MIBOOST[10]來處理多示例問題;MIMLSVM算法首先將多示例多標記學習問題轉化為多標記問題,然后采用MLSVM[11]算法來處理多標記問題。傳統的監督學習方法、多示例學習方法和多標記學習方法都可以通過分解策略從多示例多標記學習中得到,但是采用這種分解策略會丟失很多蘊藏在訓練樣本中的信息,同時也不能考慮到標記之間存在關聯性的問題。后來,文獻[12]提出了一種直接學習示例和標記之間映射關系的MIMLRBF算法;文獻[7]提出了一種聯合多示例和多標記的新穎算法,該算法不但可以直接對示例集合和標記集合之間進行建模,同時還可以捕獲到標記之間的關聯性;文獻[8]則提出了一種針對大數據問題的快速多示例多標記算法。然而,上述文獻中提到的方法都沒有考慮如何來更好地表示對象的特征這一因素。針對這一問題,本文考慮將特征學習模型融入多示例多標記學習中,以學習到一個更好的特征表達方式,從根源上提升分類算法的準確性。概率潛在語義分析模型可以學習到樣本中潛在的主題這一高層特征,本文結合這一特性提出一種新的多示例多標記學習方法PLSANNMIML,以解決多示多標記學習中如何更好地表示對象特征這一問題。

    2PLSANNMIML方法

    2.1概率潛在語義分析

    Hofmann[13]首次提出用概率潛在語義模型對文本進行建模的方法。當用概率潛在語義分析模型處理圖像數據時,可以把圖像看成是文檔,用概率潛在語義分析模型對圖像進行建模來發現圖像潛在的主題分布。

    假設D={d1,d2,…,di}代表一個圖像數據集,W={w1,w2,…,wj}代表一個視覺詞匯表,這種用概率潛在語義分析模型對圖像進行建模的模型是一個發現共現矩陣隱變量的模型,而該共現矩陣的值由nij=(wj,di)組成,其中nij=(wj,di)是一個視覺詞wj出現在圖像di中的數量。設Z={z1,z2,…,zk}代表沒有觀測到的潛在主題變量, P(di)代表觀測到一張具體圖像的概率, P(zk|di)代表一張特定圖像在潛在主題空間下的概率分布, P(wj|zk)代表一個視覺詞出現在一個確定主題變量下的條件概率。這種生成模型可以用如下步驟表示:

    1)以一定的概率P(di)選擇一張圖像di;

    2)以一定的概率P(zk|di)選擇一個主題zk;

    3)以一定的概率P(wj|zk)生成一個詞wj。

    經過上面的過程,當得到一個觀測點(wj,di)時,潛在的主題變量zk被忽略,產生下面的聯合概率模型:

    L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

    (1)

    在遵循似然原則的條件下,采用期望最大化算法[12]最大化似然函數的對數,從而得到P(wj|zk)和P(zk|di),似然函數的對數表現形式如式(2)所示:

    L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

    (2)

    2.2神經網絡

    神經網絡[14]由于其在信息處理中具有非線性的自適應能力,已經在人工智能領域中取得了廣泛的應用。算法通過具有三層結構的前向神經網絡模型[15]來得到樣本的標記集合,每層由不同的神經元組成,第一層叫輸入層,中間層叫隱藏層,最后一層叫輸出層。在每一層中的每個神經元都連接著下一層的所有神經元,但在同一層中的神經之間是沒有連接的,當信息從一層傳到下一層時,前層中的每個神經元都會有一個激活函數對信息進行變換,該函數選擇的是S型的激活函數,其定義是:f(x)=1-ex1+ex。在訓練神經網絡時,采用的是反向傳播學習算法[15]來學習神經網絡中神經元的權值。

    2.3PLSANNMIML方法

    算法主要包括訓練和測試兩個階段,流程如圖1所示。

    2.3.1訓練階段

    訓練過程包括兩個步驟:首先通過概率潛在語義分析模型從所有的訓練樣本中學習到每個樣本的特定主題分布P(zk|di)和每個主題的特定詞分布P(wj|zk),每個樣本就可以用P(zk|di)來表示;其次再用每個樣本的特定主題分布來訓練神經網絡,具體細節如下所示:

    式(3)描述的是神經網絡在樣本xi上的誤差函數。訓練過程中算法采用概率潛在語義分析模型將xi轉化為主題向量zk。假定標記空間Y有Q個標記,神經網絡具有與主題向量zk維數相同的輸入和Q個輸出,其中Q個輸出對應著Q個標記,向量w是在神經網絡中需要學習的權值向量。

    Ei(w)=∑Qq(ciq-diq)2

    (3)

    其中:ciq是訓練時樣本xi在第q個類上的實際輸出;而diq是樣本xi在第q個類上的目標輸出,如果q∈yi則diq的值為1,否則其值為-1。通過結合誤差反向傳播策略[14],采用隨機梯度下降法來最小化式(3)中的誤差函數,其過程如下:

    假定xji是單元j的第i個輸入, wji是關聯輸入xji的權值大小,netj=∑iwjixji是單元j的網絡輸出,oj=f(netj)是單元j的實際輸出,tj是單元j的目標輸出,根據隨機梯度下降算法可以得到每個權值的更新公式如下:

    wji=wji-ηEiwji

    (4)

    其中η是學習速率的大小。計算式Eiwji的值時,分兩種情況討論:

    當j是輸出層的單元時,推導出式(5):

    Eiwji=-(tj-oj)oj(1-oj)

    (5)

    當j是隱藏層的單元時,推導出式(6):

    Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj

    (6)

    其中S是單元j的輸出所能連接到的單元的集合。

    2.3.2測試階段

    給定一個測試樣本pX,算法首先利用在訓練階段得到的每個主題的特定詞分布P(wj|zk)來學習到測試樣本的特定主題分布P(zk|dt),然后將學習到的主題分布輸入到已經訓練好的神經網絡,神經網絡將會有Q個輸出,采用文獻[9]介紹的方法選擇閾值,通過選擇合適的閾值,得到標記的相關集合。

    3實驗結果與分析

    3.1實驗步驟

    根據選擇的模型,算法涉及到三個需要確定的參數變量,分別是詞的數量、主題的數量和神經網絡中隱層神經元的數量,分別用Words、Topics、Neurons來表示。由于這三個參數對算法的性能有很重要的作用,因此首先需要確定這三個參數的最優值。在確定參數的最優值時,采用漢明損失(Hamming loss)和1錯誤率(oneerror)這兩個評價指標來評估參數對算法性能的影響。確定算法的最優參數后,算法對現實世界中的兩種多示例多標記學習任務進行實驗,并與現有的多示例多標記算法MIMLBOOST和MIMLSVM進行比較。

    實驗涉及到兩個數據集,每個數據集都有2000個樣本。實驗時先把每個數據集劃分為三部分:1000個樣本的訓練集合、500個樣本的驗證集和500個樣本的測試集。

    其中500個樣本的驗證集用于確定算法的最優參數。當確定算法的最優參數后,再將1000個樣本的訓練集和500個樣本的驗證集合并形成一個1500個樣本的訓練集,最終每個數據集對應著一個1500個樣本的訓練集和一個500個樣本的測試集。表1是對實驗中所用數據集的具體描述。

    【答:文本數據集每個包劃分出的示例都不相同,一個平均值表示的是一次實驗時每個包的示例的平均數,表格中平均數有個范圍是對數據集進行不同的劃分,進行多次實驗時的一個平均值范圍,所以是3.56±2.71,也與后面表中的實驗數據一致。上面場景數據集,每幅圖片都劃分成9個示例,所以平均數不變,也可以寫成9.00±0.00;

    3.1.1場景數據集

    實驗使用的場景數據集包含2000幅自然場景圖像,整個數據集包含的類標記有沙漠、山、海洋、日落、樹。數據集中每幅圖像的標記都是人工標記的,數據集中超過22%的圖像具有多個標記,平均每幅圖像的標記數量是1.24±0.44。對圖像劃分示例后,通過提取每個示例的顏色和紋理特征將其中的每個示例表示為一個18維的向量,并用這個特征向量代表這個示例。

    3.1.2文本數據集

    實驗使用的文本數據集又名為Reuters21578數據集。實驗時先對這個數據集進行預處理,形成一個具有2000個文檔的數據集。整個文檔數據集包含7個類標記,大約15%的文檔具有多個標記,平均每個文檔的標記數量是1.15±044。當進行示例劃分時,采用滑動窗口的技術[16]來形成文檔的示例,每個示例對應著一個被大小為50的滑動窗口所覆蓋的文本段,最后采用基于詞頻[17]的詞袋模型表示方法來表示生成的示例。

    3.2實驗結果

    圖2是采用部分場景數據集作為實驗數據,觀測不同參數值配置對算法性能的影響。圖2(a)~(f)中參數變量的取值范圍為[3,21],并且參數變量取整數值;

    算法中,學習速率η的值設置為0.1。通過改變參數的配置,采用漢明損失和1錯誤率來評估參數對算法性能影響,進行了多組實驗來確定算法的最優參數值。

    實驗開始時,如圖2(a)和(b)中顯示,先確定Neurons和Topics這兩個參數的值,其值設置為Neurons=3,Topics=3,Words的變化范圍為[3,21]。從圖2(a)和(b)中可以看到,當Words取值為7時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。

    在圖2(c)和(d)中,參數Neurons的值與圖2(a)和(b)中的值相同,但是Words的值設置為7,Topics的變化范圍為[3,21]。從圖2(c)和(d)中可以看出,當Topics取值為9時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。

    在圖2(e)和(f)中,根據前面的實驗結果,參數Words的值設置為7,Topics的值設置為9,Neurons變化范圍為[3,21]。從圖2(e)和(f)中可以看出,當Neurons取值為9時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。確定算法的最優參數值后,算法對現實世界中的兩種多示例多標記學習任務進行實驗,并和MIMLBOOST和MIMLSVM進行比較,采用文獻[12]中提到的五種多標記學習評價指標來評估算法的性能。表2和表3分別是各個算法在場景數據集和文本數據集上進行實驗的結果,同時表4還給出了各個算法在這兩個數據集進行實驗時所需要的時間。在表2和表3中,表示數值越小算法性能越好,而表示數值越大算法性能越好。

    從表2、3中的數據可以看出,對于表中的所有評價指標,PLSANNMIML算法在場景數據集和文本數據集上具有更好的性能。

    從表4中可以看出,PLSANNMIML方法在時間上也具有更好的性能,在訓練和測試階段,算法需要的時間都比MIMLSVM算法稍微少些,而且遠遠要少于MIMLBOOST算法所需要的時間。從所有的實驗結果可以看出,PLSANNMIML方法在現實世界中的兩種多示例多標記學習任務中具有更優越的性能。

    4結語

    現有的大部分多示例多標記學習算法都沒有考慮怎么樣更好地表示對象的特征這一因素,因此提出了一種結合概率潛在語義分析和神經網絡的多示例多標記學習方法。概率潛在語義分析模型可以學習到樣本中的潛在語義這一高層特征,而神經網絡在多標記問題中具有良好的分類性能。對現實世界中的兩種多示例多標記學習任務進行實驗表明,PLSANNMIML算法對其他的多示例多標記學習算法而言具有很強的競爭力,解決了在多示例多標記學習算法中怎么更好地表示對象的特征這一問題;同時也存在著不足之處,算法依然采用的是分解策略來處理多示例多標記學習問題,同時還忽略了標記之間的相關性。下一步將在融入特性學習模型的基礎上尋找其他策略來處理多示例多標記問題,同時也要考慮標記之間的相關性。

    參考文獻:

    [1]

    BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.

    [2]

    ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

    [3]

    ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.

    [4]

    ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

    [5]

    PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 數字圖像處理[M].鄧魯華,張延恒,譯. 北京:機械工業出版社,2005:345-398.)

    [6]

    LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亞琦,張燦龍,等.多標記學習研究綜述[J].計算機應用研究,2014,31(6):1601-1605.)

    [7]

    ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.

    [8]

    HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.

    [9]

    ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.

    [10]

    XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.

    [11]

    BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.

    [12]

    ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.

    [13]

    HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.

    [14]

    SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.

    [15]

    HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神經網絡原理[M].葉世偉,史忠植,譯.2版.北京:機械工業出版社,2004:109-176.)

    [16]

    SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.

    第3篇:神經網絡文本分類范文

    整澆樓蓋主梁的不動鉸支分析

    錨桿靜壓樁在地基加固中的應用

    多層砌體結構內廊圈梁設計

    淺談地震區框架柱軸壓比限值

    洛陽某主干道石灰土穩定層裂縫分析與對策

    淺談市政施工用電的保護系統

    輥壓機粉磨技術在水泥廠的應用

    居住區水暖管網管理系統的一種實現方法

    DSS的系統分析和設計方法初探

    模糊控制分區方法研究

    核子秤的一種特殊使用方法

    HDL技術簡介與應用

    無窮小的階在計算中的應用

    傅立葉級數展開CAI課件的設計與實現

    高校選修課成績管理系統的研制

    海螺模式的啟示

    談直觀教學在《機械設計基礎》課中的運用

    城市特色文化研究

    淺談多媒體CAI課件制作工具

    自蔓延高溫合成機理研究方法的分析

    商品混凝土澆筑杯口基礎方案的探討

    粗糙集和神經網絡在文本分類中的應用研究

    數據通信模擬實驗系統的設計與實現

    逆向工程技術在模型制作中的應用

    雙轉子軸系五主軸軸承試驗機主體結構設計與計算

    關于水泥機立窯除塵技術的探討

    基于P2P構架的大型異構網絡管理模型研究

    沖擊電流計特性研究實驗中對偏轉線圈運動狀態的數學分析

    一種新的拉曼散射——表面增強拉曼散射

    基于WinCe的PLC通訊系統的設計

    洛陽市技術創新能力問題分析及戰略研究

    企業內部審計的現狀和對策

    高分子材料應用技術專業教改的思路與實踐

    我校電子商務專業教學研究初探

    對“測試技術基礎”教學的探討

    新建本科院校體育教學模式初探

    淺析網絡會計軟件的隱患

    元認知型學習策略在外語寫作教學中的應用

    論大學英語分級教學模式對學生自主學習習慣的影響

    連續梁抗剪性能與裂縫分析

    中天山特長隧道施工GPS控制網的建立及橫向貫通誤差預計分析

    微分求積法求解功能梯度材料梁的彎曲問題

    一種裝置點火單元可靠性評估方法研究

    基于S7-200的AS-i網絡設計與數據傳輸

    基于GA-BP算法的水電機組故障診斷模型

    基于MSP430單片機的小功率鋰電池組保護器設計

    GIS管理系統中圖形對象實體點選的處理方法

    一種簡單有效的碰撞檢測算法的實現

    基于CLucene的WORD文檔全文檢索系統研究與開發

    第4篇:神經網絡文本分類范文

    關鍵詞: 云計算;數據挖掘;分布式

    中圖分類號:TP393.08 文獻標識碼:A 文章編號:1671-7597(2012)0220104-01

    0 引言

    信息技術的出現導致各種格式(如記錄、文檔、圖像、聲音、航空數據等)的海量數據存儲在數據倉庫中,如何從海量的數據中找到有價值的信息是當前的一個熱點,對人類社會具有非常重要的社會價值和經濟利益,數據挖掘就是實現這一功能的技術。數據挖掘從早期的單獨算法對單系統、單機器進行對向量數據的挖掘,到與數據庫相結合,支持多個算法的挖掘,以及和預測模型相集成,支持Web數據、半結構化的數據的網絡化計算,發展到了分布式數據挖掘。分布式數據挖掘(Distributed Data Mining,DDM)作為一種成熟的挖掘技術已被廣泛應用到各個領域,是數據挖掘領域的熱點之一?!胺植肌钡暮x包括數據的分布和計算的分布兩層含義。在分布式計算環境中,用戶、數據、計算硬件、數據挖掘軟件均可能在地域上分散。分布式數據挖掘旨在解決分散的同構和異構數據庫的挖掘問題;同時,數據的分布性帶來處理的并行性,則可能解決海量數據挖掘的可伸縮性(Scalability)瓶頸[1]。

    隨著科學技術的飛速發展,人類社會信息正以每18個月產生的數量等于過去幾千年的總和的速度不斷增加[1]。尤其是隨著物聯網產業的迅猛發展,越來越多的應用終端被接入網絡,隨之帶來的龐大的數據量極大的增加了人們從海量數據中發現有用知識的難度。物聯網產生的數據具有數量大,高度分散的特點,傳統的分布式數據挖掘已經無法解決現有數據處理瓶頸問題[2]。作為新興商業計算模型的云計算,為分布式數據挖掘提供了許多新的解決思路和方案。云計算是數據管理技術發展的必然趨勢,能對分布在大量計算機上存儲的資源池上進行操作,使基于云計算平臺的應用能根據需要獲取所需的存儲空間,軟件服務和計算能力。目前,IT巨頭正在相繼開發云計算平臺、云計算終端和服務器。

    1 數據挖掘算法分類

    數據挖掘算法有很多,從不同的視角,數據挖掘技算法可以有根據發現知識的種類分類、根據挖掘的數據庫的種類分類和根據采用的技術分類的幾種常見分類標準[3]。

    1)根據發現的知識種類,數據挖掘算法有:關聯規則發現、分類或預測模型知識發現、數據總結、數據聚類、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等多種算法。

    2)根據挖掘的數據庫的種類,數據挖掘有基于各種數據庫的挖掘算法:關系型、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、交易型、多媒體數據庫、異質數據庫、遺留數據庫等,已經基于數據倉庫、基于Web的挖掘算法等。

    3)根據挖掘方法采用的技術,可分為:統計分析、機器學習方法、模式識別、面向數據庫或數據倉庫的技術、可視化技術和神經網絡等挖掘算法。其中,常用的統計方法可細分為回歸分析、判別分析、聚類分析(系統聚類、動態聚類等)、探索性分析等。機器學習方法可細分為:歸納學習方法(決策樹、規則歸納等)、基于范例學習、遺傳算法等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。

    基于云計算分布式數據挖掘算法是在這些數據挖掘算法的基礎上,采用云計算平臺實現的數據挖掘算法,也可以采用這樣的分類標準進行分類。然而,由于有各式各樣的數據存在,每一種挖掘算法都應用到具體的數據類型上,對數據類型的要求是有限制的,一種算法不可能會適應所有數據類型的挖掘應用。因此,在考慮不同數據類型的挖掘和具體的應用時,如何選擇合適的挖掘算法是非常重要的。當然,在實際應用中,往往結合多方面的因素,考慮算法的優缺點,采用多種算法實現有效的挖掘。

    2 不同數據類型對應的挖掘算法

    隨著信息量的劇增,數據的種類也不斷增多。從粗粒度來看,數據挖掘常應用到如下幾種數據形式:文本型(Textual)、關系型(Relational)、

    事務型(Transactional)、面向對象型(Objected-Oriented)、主動型(Active)、空間型(Spatial)、時間型(Temporal)、多媒體(Multi-Media)、異質(Heterogeneous)數據庫和遺留(Legacy)系統等。從挖掘的數據特性出發,專家和相關研究人員將數據挖掘歸為如下幾種技術:[4,5]

    1)分類。分類算法適用于以元組構成的關系型數據形式,關系型中的一個數據屬性可以看作分類輸出的目標屬性,其他屬性作為分類算法數據模式(輸入)。這類算法的主要目的是對訓練的數據集進行挖掘,以發現另外的數據為目標得出數據分類的原理,這個原理可以用于后加入數據的分類。如果預測的變量是離散的,這類問題成為分類;如果預測的變量是連續的,這類問題成為回歸。基于云計算常用的分布式挖掘算法實現關系型數據的挖掘主要有基于K-最鄰近方法的分類算法、云計算環境下樸素貝葉斯文本分類算法、基于神經網絡、基于范例的推理、決策樹和徑向基函數等分類算法。

    2)聚類分析。聚類分析和分類算法相似適用于關系型數據的挖掘。聚類是在事先不規定分組規則的情況下,將數據按照其自身特征劃分成不同的群組進行挖掘,以期從潛在的數據中發現新的、有意義的數據分布模式。聚類方法主要有劃分聚類、層次聚類、基于密度的聚類、基于網格的聚類和基于模型的聚類。云計算聚類算法常用的有基于云計算的并行k均值聚類算法等。

    3)關聯規則。關聯規則適用于事務型、交易型和關系型數據,但對關系型數據要求按事務分組。最適合處理的變量類型是布爾型和數值型。布爾型關聯規則處理的值都是離散的、種類化的,而數值型關聯規則可以和多維關聯或多層關聯規則結合起來。關聯規則挖掘主要是發現大量數據中項集之間有趣的關聯或相關聯系,關聯規則研究有助于發現交易數據庫中不同商品(項)之間的聯系以應用于商品貨架布局、貨存安排以及根據購買模式對用戶進行分類。云計算環境下的常用關聯規則分布式挖掘算法有:Apriori算法,已經出現了多種對Apriori算法改進的版本。

    4)基于模式的相似性查找。該算法適用于于文本型和時間型數據,進行文本相似性搜索和時間相似性。時間序列數據是一類重要的復雜數據對象,對時間序列數據庫進行挖掘能發現時間序列中所蘊涵的知識,數據挖掘技術在時間序列中的主要應用有規則發現、周期模式挖掘、相似性搜索和序列模式發現等方面。文本數據是最常見的一種數據,基于文本相似型的挖掘可以實現文本雷同度與相似性的研究。常用的算法有基于云模型的時間序列分段聚合近似方法、基于模糊聚類的文本挖掘算法、基于云計算的ARMA算法和基于離散傅立葉變換的時間序列相似性查找算法等。

    5)時間序列或趨勢發現和分析。該技術主要用于時間型數據,通過對不同時間點以前時間數據值的變化,發現或預測未來可能的變化和趨勢,如股票的預測就是這種一個好的時間序列趨勢析例子。常用的算法有神經網絡算法、支持向量機算法等。

    此外,除了上面提到的常用數據類型的挖掘,對空間數據的挖掘多采用空間聚類分析和空間OLAP等方法;對多媒體數據的挖掘多采用基于規則的決策樹分類算法;對于應用在智能終端上的普適數據多采用機器學習和統計的挖掘算法。

    3 結束語

    本文首先介紹了云計算和分布式數據挖掘的相關知識,隨著Internet的普及和數據的海量增加,二者相結合能解決分布式數據挖掘的瓶頸問題,是今后的一個發展方向。本文重點針對不同的數據類型采用的基于云計算的分布式挖掘算法進行了對比,為基于云平臺的分布式數據挖掘系統的開發提供了支持。云計算為海量和復雜數據對象的數據挖掘提供了基礎設施,為網絡環境下面向大眾的數據挖掘服務帶來了機遇。

    參考文獻:

    [1]張誠、郭毅,專訪中國科學院計算技術研究所-何清博士,數字通信,2011,3:5-7.

    [2]陳磊、王鵬、董靜宜、任超,基于云計算架構的分布式數據挖掘研究,成都信息工程學院學報,2010,12:777-579.

    [3]邵峰晶、于忠清著,數據挖掘原理與算法,北京:水利水電出版社,2003.08.

    第5篇:神經網絡文本分類范文

    關鍵詞:文本自動分類技術,分詞,特征提取,向量映射,機器學習

    1. 引言

    文本自動分類最初是應信息檢索(Information Retrieval)系統的要求出現的。文本自動分類系統的目的就是對文本集進行有序組織,把相似的、相關的文本組織在一起。它作為知識的組織工具,為信息檢索提供了更高效的搜索策略和更準確的查詢結果?,F有文本自動分類技術主要有基于知識庫(專家系統)方法和歸納學習方法(基于詞典的方法)。目前比較常用的是基于詞典的方法,即通過已知類別的訓練集構造出一個分類函數或分類模型(分類器),并利用此分類模型將未知的文檔映射到給定的類別空間。本文根據中文文本分類所要用到的算法和技術,給出了一個可行的中文文本分類系統的基本構架,并給出了詳細的系統設計方案。其中文本分類的關鍵是如何構造分類函數(也稱為分類器),將未知文本與給定的類別模板進行匹配。目前有許多種分類器的構造方法,如統計方法、機器學習方法、神經網絡方法等。其中基于關鍵詞匹配的機器學習算法是網頁文本自動分類的主流。機器學習算法主要有Naive Bayes算法、KNN(k-近鄰算法)、SVM(支持向量機)等。本系統在文本處理的過程中,將采用SVM分類算法,將文本映射到向量空間進行表示。

    2. 系統設計目標

    (1)本系統的主要目的是實現一個面向中文的文本分類系統。主要處理兩類事務:

    對樣本數據進行學習,生成分類器的內部表示。在這個事務的處理過程中,系統要協調分詞模塊對訓練樣本進行預處理,生成規范的文本表示。接著要協調特征提取模塊提取適當數量的特征生成基礎詞典。然后調用向量映射模塊將文本表示為向量,最后提供給支持向量機進行學習。

        利用生成好的分類器對未知測試文本進行分類。在這個事務的處理過程中,系統要打開上一個事物生成的中間數據——基礎詞典,協調向量映射模塊利用詞典把文本表示成向量,然后用分類器對文本進行分類。

    (2)對應系統的兩類事物,系統的輸入也分為兩類:

    訓練文本集:已經由人工分好類的一系列中文文本的集合,每類文本賦予一個分類標簽。這些文本可以是原始文本數據,也可以是經過預處理后,只剩下詞干的預處理格式。

        測試文本集:待分類的一系列中文文本的集合,這類文本可以沒有分類標簽,也可以有分類標簽。如果沒有分類標簽則用系統進行分類。如果有分類標簽則可用來驗證系統分類的準確度。

    (3)系統的中間數據。通過前面對系統兩類事務流程的描述,可以看到有如下數據輸出:

    基礎詞典。這個數據集是向量空間模型中基礎維的表示。它包含了系統用來將文本表示為向量時選取的特征詞根。同時它也存儲了特征詞根在訓練文本中的基本統計數據:詞根出現的文檔數目;詞根在每類中出現的文檔數目。

    訓練文本的向量表示。這個數據集是訓練文本用基礎詞典在向量空間模型下映射的向量表示。它可以被支持向量機讀取并學習。

    分類器模型。這個數據集是支持向量機學習后生成的分類器。它包含了能將文本進行分類的源數據。

           分類標簽。這個數據集是系統對測試文本集分類后的分類標簽。

    3.系統設計思想

    在一個中文文本分類系統的實現過程中,有分詞、特征提取、向量表示和機器學習四個主要步驟。在每個步驟中多存在著許多不同的策略和實現方案。在本系統的實現過程中,希望能夠兼容不同的策略,并提供一定的方案由用戶進行擴展。

    出于對上面要求的考慮,主要采用Bridge(橋梁模式)和Listenner(監聽器模式)。

    在流程耦合度低處,使用Bridge模式(如圖1),為每個步驟提供一個抽象化(Abstraction)角色,同時提供不同實現和不同策略實現化(Implementor)角色。通過這個模式的應用做到了對不同策略的兼容和提供可擴展性的接口。

                                                        圖1:Bridge模式

    在流程耦合度較高處,使用監聽器模式,將特定步驟抽象成監聽器,進而將步驟獨立出來。再通過監聽器的不同實現完成不同策略的異構。

    4.總體設計

    本系統由分詞模塊、特征提取、向量映射模塊,SVM學習模塊和SVM分類模塊五部分組成??傮w框架設計如圖2:

                                                            圖2:系統總體設計圖

    本系統主要流程就是對數據的加工處理,每個模塊都有自己的輸入和輸出,各模塊間相互獨立,以各自的輸入、輸出數據進行鏈接。流程1為分類系統的訓練過程,流程2為分類系統的分類過程。詞條字典、訓練文檔向量表示、測試向量文檔表示是流程中間數據,SVM分類器和分類標簽是最終數據輸出結果。

    5.各模塊功能描述

    分詞模塊:對中文文本進行分詞

    輸入輸出:模塊輸入為中文文本,輸出為文本分詞表。

    特征提取模塊:對給出文本建立向量空間模型,并進行特征提取和維度壓縮,生成字典

    輸入輸出:模塊輸入為分詞表,輸出為詞條字典。

    向量映射模塊:按照詞條字典把中文文本映射為向量表示形式。

    輸入輸出:模塊輸入為文本分詞列表和詞條字典,輸出為文檔向量表示。

    SVM學習模塊:用SVM對向量和字典進行學習,生成學習模型。

    輸入輸出:模塊輸入向量表示的文本訓練集,輸出為訓練SVM分類器。

    SVM分類模塊:用SVM學習模塊的訓練得分類器對測試文本進行分類。

    輸入輸出:模塊輸入為SVM分類器和測試文本的向量表示,輸出為分類標簽。

    6.結束語

    中文文本的自動分類是中文信息處理領域中的重要研究課題。本文對中文文本分類技術做了初步的探討,給出一個基于中文文本自動分類系統分析。首先,分析系統的輸入、輸出以及中間過程,從而明確系統的設計目標。接著進一步解析系統內部的組織結構,形成統一的設計思想。最后,結合這些分析給出一個系統的框架的設計。按照該系統的設計思想和進一步的詳細設計可以搭建一個相對系統化、功能較為全面、具有較高效率的中文文本自動分類系統平臺。由于整個系統涵蓋的范圍較大,設計到的技術細節多,在很多實現細節上采用了比較簡單的方法,以便于整個系統的順利實現。今后在很多方面還需要繼續進行深入的研究,以提高整個文本自動分類過程的識別準確率。

       本文作者創新點:對中文文本自動分類系統進行分析給出一個系統框架設計,按系統設計思想和進一步的詳細設計可搭建相對較高效率的中文文本自動分類系統平臺。

    作者對本文版權全權負責,無抄襲

    第6篇:神經網絡文本分類范文

    關鍵詞:圖書館;亂架檢測;圖像分割;字符識別;深度學習

    中圖分類號:TB

    文獻標識碼:A

    doi:10.19311/ki.16723198.2016.25.087

    1概述

    利用現代智能處理技術特別是用計算機代替人們自動的去處理大量的圖像信息,能夠解決人類器官的分辨能力容易受到環境、情緒、疲勞等因素的影響,從而部分代替人工勞動,大大提高生產效率。近年來,將傳統的工作進行數字化和自動化加工逐漸成為圖書館行業越來越重視的工作內容之一。但是目前的圖書館數字化工作仍存在眾多沒有解決的問題。

    圖書亂架的整理工作是圖書館日常維護工作的一個重要組成部分。由于書籍眾多,當出現不同種類的圖書放置在一起時,工作人員很難人工將錯誤放置的圖書進行正確地歸類,即使能夠做到,也會花費很長的時間和大量的精力,導致人力資源的浪費。

    2006年,深度學習(Deep Learning)開始在學術界和工業界引領發展前沿,其中深度學習認為:1)多隱層的人工神經網絡學習得到的特征對數據有更本質的刻畫,有利于分類和檢測;2)深度神經網絡在訓練上的難度,可以通過“逐層預訓練”來有效克服。基于深度學習的圖像視覺識別技術已經在許多行業中得到了應用,如檢驗零件的質量;識別工件及物體的形狀和排列形態等。

    本文結合圖書館日常管理中遇到的圖書亂架這一實際問題,以書脊視覺圖像為切入點,引入深度學習中的SoftMax回歸,設計出一種包括單冊圖像分割、字符識別、語義特征提取以及歸類判別等環節的圖書亂架檢測算法,其有效性已在實驗中得到較好的驗證。

    2書脊圖像的定位分割

    由于獲取的圖像有可能會出現模糊,因此需要對圖像進行預處理。將拍攝的書脊圖像近似看成平穩過程,使用Wiener濾波器進行幅度相位去模糊。Wiener濾波器的基本原理是將原始圖像f和對原始圖像的估計f^看作隨機變量,按照使f和對估計值f^之間的均方誤差達到最小的準則進行圖像復原。

    然后使用Canny算子進行邊緣檢測,并進行縱向和橫向的直線跟蹤,對兩條直線之間的區域進行判斷,如果是書脊區域,就進行分割,然后定位第二本書,直到處理完整幅圖像。

    圖1(a)為利用Canny算子進行邊緣檢測出來的結果,得到了所有書籍的邊緣;圖1(b)是對書籍進行分割定位的結果,把定位到的目標用直線標出,以供后續處理。

    3書脊圖像的字符識別

    由于漢字的類別較大、結構復雜和類似字多,造成漢字的識別難度比較大。傳統的僅用一種特征來識別漢字的方法已不能滿足漢字識別的要求。因此,本文采用了二次識別的方法對漢字字符進行識別,第一次分類利用漢字的筆畫穿過數目特征,第二次是對那些首次仍不能區別開的漢字利用漢字四角的能量值密度特征進行區分。

    本文的漢字特征選擇了筆畫穿過數目和能量值密度這兩個特征。筆畫穿過數目是指對漢字圖像的水平、垂直兩個方向進行掃描,然后統計這兩個方向上掃描線出國漢字筆畫的次數即得到漢字的筆畫直方圖,得到筆畫穿過次數的特征向量。

    在進行漢字特征匹配時,首先對待識別的漢字筆畫穿過數目特征進行提取,記該特征為C。識別時,首先計算待識別漢字與標準庫中漢字的距離d,d定義為待識別漢字的筆畫穿過數目矩陣C與標準庫中漢字的筆畫穿過數目矩陣B的對應值差值的絕對值之和,其表達式為

    d=∑ni=1∑mj=1cij-bij

    式中cij為矩陣C中的元素,bij表示矩陣B中的元素。

    給定一個閾值σ,若距離dσ,則該字不能被識別,否則把該字放入二級識別隊列中,如果二級隊列中只有一個字,就判別這個字為要識別的字,若二級隊列中不只一個漢字,則要對二級識別隊列中的漢字進行二級識別。

    在二級識別里用能量值密度作為特征,提取這些漢字的能量值密度。設一閾值為ε,計算待識別漢字的能量值密度矩陣和標準庫漢字的能量值密度矩陣中對應值的絕對值之和,差值最小的漢字判別為要識別的漢字。

    4語義特征提取

    利用識別出來的字符,對其進行語義特征的提取,以判斷書籍屬于哪一類。首先通過在原始文本語義空間提取文本的局部分布信息,構造拉普拉斯矩陣和局部密度矩陣,然后通過奇異值分解SVD和廣義特征值分解GEVD求解特征變換矩陣,最后實現文本數據的降維空間聚類。

    給定m個文本數據的原始特征語義空間描述X=(x1,x2,…,xm)T,這里xi為文本i的特征向量描述,包含文本類別信息相關的關鍵詞、主題詞以及文本中出現的高頻詞等描述信息,并且xi中的每一個特征元素記錄了這些詞條的重要程度和出現的頻度。

    對X按列進行基于歐幾里得距離的kNN近鄰算法獲取點向量xi的k個鄰近點N(xi),并采用高斯核將鄰接點向量的歐幾里得距離轉化為相似度:

    sij=exp(-xi-xj2),xj∈N(xi)

    得到文本集X的相似矩陣S,該矩陣為對稱矩陣。通過矩陣S構造對角矩陣D,其中dii=∑jsij,令L=D-S,為譜圖數據的拉普拉斯矩陣,為對稱矩陣。利用局部密度矩陣D求取文本向量均值=∑ixidii∑idii,并將文本歸一化i=xi-,對歸一化的進行奇異值分解,降低文本的語義維度,簡化數據描述。并通過非監督判別分析得到降維文本語義空間,即判別語義特征提取,獲取分類判別能力最強的前l個語義特征。

    在特征提取后的降維空間采用k-means聚類,進行文本分類,即語義特征的提取。

    5書籍亂架放置的判別

    進行了語義特征提取之后,為了檢測書籍的亂架放置。因此,需要將提取到的語義特征進行分類。為了盡可能準確地進行分類,采用深度學習的方法進行模型的訓練。其中訓練過程分為兩個階段:貪心的逐層預訓練和整個模型的全局微調。

    在逐層訓練預階段,每次只訓練模型的一層,然后將當前層的輸出作為下一層的輸入,進行下一層的訓練,直到預訓練完所有的層。

    在模型的全局微調階段,由于亂架放置的書籍的種類可能是多個,所以采用softmax回歸多類分類器。Softmax回歸多分類器是logistic回歸模型在多分類問題上的推廣,在多分類問題中,類標簽y可以取兩個以上的值。假設共有k個類別,則softmax regression的系統方程為

    hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)

    其中,x(i)為第i個輸入樣本,θ為系統參數,p為樣本取特定類別時的概率。

    此時,系統的損失函數方程為:

    J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)

    其中,1?是一個指示性函數,即當大括號中的值為真時,該函數的結果就為1,否則其結果為0。θ為代價最小化時所需要滿足的系統參數。實際實現時,首先使用具有先驗歸屬標記的書籍信息樣本按照以上方式對書籍歸屬學習器進行訓練,得到訓練好的歸屬規則學習器。將提取的書籍信息輸入到歸屬規則學習器,學習器輸出到歸屬規則庫進行書籍類別的判別,將判別出來的結果輸入到亂架判決器,進行亂架檢測,如果檢測出來有書籍分錯類,則會輸出亂架警報。

    6實驗結果與分析

    利用書脊檢測出來的結果,進行字符檢測并對檢測出來的字符進行語義識別,判斷某一本書是不是放錯了類別,如果放錯,則框出放錯的書籍并發出警報。

    圖2(a)中都是科技類的書籍,并沒有其他類的書籍,所以輸入的這張圖片并不會輸出亂架報警;圖2(b)中除了科技類的書籍之外,還有一本建筑類的書籍混雜其中,所以系統會把這本書檢測出來并用交叉直線醒目地標示出來。

    中除了科技類的書籍之外,還有一本美術類的書籍混雜其中,所以系統會把這本書檢測出來并用直線標示出來。

    圖2和圖3只是筆者為了演示系統的運行效果而給出的個例圖示,限于篇幅所限不能窮盡所有曾經檢測處理過的案例。筆者曾經對科技類、哲學類和藝術類為主體的大容量樣本集的亂架圖像進行了分析,每個樣本集的分析耗約為300~320秒,大大高于人工檢測的速度。亂架檢測實驗的樣本集實驗結果列于表1之中。

    7結論

    在圖書館系統中利用機器視覺的方法進行書籍定位和檢測是視覺研究的一個重要方向。本文給出了一種綜合運用相關視覺圖像技術對亂架圖書進行自動檢測的系統設計。實驗表明,該方法可通過程序設計完全有計算機自動實現,平均檢出率超過90%,速度快穩定性好,處理時間大大小于人工檢測時間,并且能夠在很大程度上降低圖書管理員的勞動強度,有助于提高大型圖書館的架上書籍整理效率。

    參考文獻

    [1]李因易.圖像處理技術在圖書館藏書清點中的應用研究[D].貴陽:貴州大學,2006.

    [2]方建軍,杜明芳,龐睿.基于小波分析和概率Hough變換的書脊視覺識別[J].計算機工程與科學,2014,(36):126131.

    [3]何耘嫻.印刷體文檔圖像的中文字符識別[D].秦皇島:燕山大學,2011.

    [4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.

    [5]戴臻.內容文本分類中的語義特征提取算法研究[D].長沙:中南大學,2010.

    [6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.

    [7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.

    [8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.

    第7篇:神經網絡文本分類范文

    關鍵詞:短文本挖掘;新聞事件挖掘

    中圖分類號:TP274+.2文獻標識碼:A文章編號:1007-9599 (2010) 06-0000-01

    Text Mining of News

    Zhang Jing

    (Tangshan Normal University,Studies Affairs Office,Tangshan063000,China)

    Abstract: With the massive popularity of the Internet,causing a large amount of text data accumulated,much of it is a short text data.How to find information from the mass of information flow theme of unexpected events,and track information about emergencies,text mining technology is especially important.This article describes the text mining text mining in the application of information,analysis the research of mining news events.

    Keywords:Short text mining;News mining

    一、引言

    近年來,隨著互連網的飛速發展和信息傳播手段的不斷進步,造成了大量的文本數據累積,其中很大一部分是短文本數據。這些數據中有很大一部分是只包含50―100個詞的短文本數據,如文章摘要、電子郵件、圖片標題、產品描述等。網頁上的大部分信息都是短文本信息。文本挖掘技術對于從這些海量短文中自動獲取知識具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應用,分析了新聞事件挖掘的研究現狀。

    二、文本挖掘概念

    文本挖掘是采用計算語言學的原理對文本信息進行抽取的研究和實踐文本挖掘可以對文檔集合的內容進行總結、分類、聚類、關聯分析以及趨勢預測等。Web文本挖掘和通常的平面文本挖掘有類似之處,但是文檔中的標記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。

    三、文本挖掘在新聞文本挖掘中的應用

    “新聞的處理,是一種對事實的選擇、安排、解釋等意義化過程”,作為文字傳播的一種特殊形態,新聞在語言表達上有著較為明顯的個性特征,如篇章短小精干、表達客觀公正、語言準確簡潔等。新聞專題是指圍繞某一個突發的新聞事件或某一個廣泛受關注的問題提供詳細、深入的資料。這樣的專題信息目的明確、信息豐富,讓人一目了然地清楚整個新聞事件的前因后果和來龍去脈,能夠較好地滿足讀者的需要。但通常情況下,這些新聞專題都是經過專業人員加工處理的,即人工歸納到一起。新聞事件挖掘的目的是,是借鑒文本挖掘技術、文本分類和聚類技術,實現對新聞資料的自動組織、生成專題,以滿足網絡用戶檢索新聞信息的需要。專題的生成涉及到新聞事件的探測以及對新聞事件的跟蹤。

    四、新聞事件挖掘的研究現狀

    目前對于新聞事件的挖掘主要包括以下幾類問題:

    (一)主題發現與跟蹤(Topic Detection and Tracking,TDT)

    主題發現與跟蹤旨在開發一系列基于事件的信息組織技術,以實現對新聞媒體信息流中新話題的自動識別以及對已知話題的動態跟蹤。該研究作為一項1997年開始的公開測評而成為自然語言處理的一項研究熱點。TDT包括五項子任務,即:主題分割、話題跟蹤、新事件發現和報道關聯發現。

    主題分割主要采用相同詞語數目和詞語密度的方法,其優點在于簡潔性和高效性,不受領域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對TextTiling算法中的參數進行優化,使得同一主題內的段落之間的總差異應盡可能地小,而不同主題間的總差異應盡可能地大。也有研究采用遺傳算法來直接尋找主題的最優劃分。駱衛華提出了基于分治多層聚類的話題發現算法,其核心思想是把全部數據分割成具有一定相關性的分組,對各個分組分別進行聚類,得到各個分組內部的話題(微類),然后對所有的微類在進行聚類,得到最終的話題。

    (二)熱點趨勢檢測(Emerging Trend Detection,ETD)

    熱點趨勢檢測用來自動識別熱點主題,從而識別主題趨勢的變化。熱點趨勢檢測主要包括三個部分:主題結構的識別,主題出現的檢測和主題特征分析??偨Y了目前研究的ETD系統和商業的ETD系統,其使用方法大多數以關鍵詞的詞頻分析為基礎,形成相關主題的發展趨勢。例如,采用關鍵詞項詞頻分析的方法,尋找芯片封裝領域內的技術發展規律。對于這類問題需要優化關鍵詞的選擇,看哪一個或者哪一些關鍵詞與該主題上的關系最為密切。也有的研究使用序列模式挖掘來識別短語,生成短語的歷史圖,使用形狀查詢來識別指定趨勢的短語。

    (三)事件預測規則的發現

    該問題主要采用文本挖掘技術,同傳統的人工智能方法相結合,對于時序文檔集的關聯規則的進行挖掘,提供相應事件發生的預測規則。

    很多研究根據互聯網上的新聞稿來生成股票價格指數的規則。Wuthrich使用專家的先驗知識,通過對過去的新聞中出現的關鍵詞組的權重和對應的值產生可能性的規則,再利用這些規則對當天的新聞進行股票指數的預測。將關鍵詞組轉換成權重,采用基于規則、最近鄰和神經網絡的方法。Feldman等人使用多種分布模型對路透社的2萬多篇新聞進行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。而Mittermayer則自動對新聞稿進行預處理,將它們分成不同的新聞類型,其每一類都對股票價格升降有特定的影響,從而得到對應的交易指導規則。

    五、結論

    文本挖掘是挖掘的核心技術,將其文本聚類與分類等技術應用到新聞主題的檢測與跟蹤中,能自動在線檢測內容不斷更新的網絡新聞主題,提高了處理的速度,能及時提取更多有價值的信息給用戶,這是一個具有十分重要意義的課題,這項研究還需要進一步的深入。短文本挖掘技術是文本挖掘中的一個新興的方向,針對于短文本特點的方法有待于人們的進一步研究。

    參考文獻:

    [1]鐘彬彬,劉遠超,徐志明.基于GA的文本子主題切分中的參數優化研究[J].計算機工程與應用,2005,21:97-99

    第8篇:神經網絡文本分類范文

    關鍵詞:數據挖掘原理與算法;實例;教學探索

    0.引言

    隨著經濟、科技和信息技術的飛速發展,特別是網絡技術的發展,數據的產生和存儲能力有了很大程度的提高。數據挖掘的出現,為人們提供了一條解決“數據豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設了數據挖掘課程。課程的基礎理論部分一般包括數據預處理、關聯規則、分類、聚類、時間序列挖掘、Web挖掘等內容。該課程使學生學會分析研究數據挖掘中數據預處理、常用算法、結果的可視化等技術,并培養學生的數據抽象能力,幫助學生形成科學思維和專業素養,使他們畢業后在就業上有更多的選擇。

    筆者將探討基于實例教學的數據挖掘課程的教學內容安排,強調淡化學科背景,加強算法的應用性訓練,將實際的例子貫穿于教學中,并重新組織授課內容、安排實踐環節,教會學生學以致用。

    1.教學現狀分析

    1.1課程本質

    數據挖掘原理與算法涉及的學科領域很寬泛。其最終目的是在數據中挖掘出可供人們利用的知識和信息,因此數據挖掘技術要從數據庫技術、統計學、機器學習、神經網絡、知識系統、信息檢索、高性能計算和可視化等領域汲取營養。另外,每個學科都在進行著日新月異的發展變化,數據挖掘技術遇到的挑戰也為相關學科領域的深入研究提供了新的契機。由于課程難度較大,很多高校把這門課程作為研究生的專業課程,也有院校將此課作為本科生高年級選修課開設腳。但是本科生開設這門課程的普通院校較少,我們能借鑒的教學經驗有限。

    1.2數據挖掘課程教學環節的弊端

    ①某些學校對本科生開設的數據挖掘課程,其教學過程對理論的探討過多,與應用存在距離,沒有體現出這門課程面向應用的特質,缺少對學生工程能力的訓練,存在學生在學了這門課程后不知道能干什么的現象。

    ②教學形式呆板單一。傳統的教師講、學生聽的教學模式,很難引起學生的探究興趣,不利于發揮他們自身的能動性和創新動機。

    2.選擇恰當實例貫穿數據挖掘課程的教學過程

    煙臺大學計算機學院所開設的數據挖掘課程在教學上安排了6章內容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產信息調查的房產客戶關系管理系統;第2個是用于煙臺大學督評中心評教文本分類的中文文本數據挖掘系統;第3個是用于國家葡萄酒檢測中心的數據分析的葡萄酒成分數據挖掘系統。

    2.1房產客戶關系管理系統

    在講述房產客戶關系管理系統時內容涵蓋緒論、知識發現過程和關聯規則3章,重點講授內容包括:

    (1)數據倉庫。住房管理數據倉庫中的數據是按主題組織的,可從歷史觀點提供信息。數據挖掘技術能按知識工程的方法完成高層次需求,可以發現蘊藏在數據內部的知識模式。挖掘后形成的知識表示模式可為企業決策提供支持。

    (2)通過對客戶信息進行分析,闡述關聯規則的參數:support、confidence、expected confidence,并簡單介紹關聯規則中的多維、多層次等拓展知識。

    (3)關聯規則挖掘。①講授關聯規則挖掘的Apriori算法;②講述布爾關聯規則的概念,對處理后形成的交易數據庫進行布爾關聯規則挖掘,將問題轉化為尋找以決策屬性為結果的規則;③將關聯規則挖掘應用于客戶關系管理的最終目的是努力將潛在客戶轉變為現實客戶,將滿意客戶轉變為忠誠的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。

    (4)設minsup=10%,minconf=70%。在統計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯網和電視。經試驗統計后得到以下有關知識:①滿足age>50 AND職業=“工人”的客戶占所統計總人數的9.7%;其中滿足age>50 AND職業=“工人”AND渠道=“TV”的客戶占92%。②符合學歷=“大?!盇ND職業=“工人”的客戶占所統計總人數的24.8%,其中滿足學歷=“大?!盇ND職業=“工人”AND渠道=“newspaper”的客戶占82%。③被統計人群中滿足income=“5000-9000”AND職業=“教師、醫生、公務員”的客戶占所統計總人數的32.7%;其中滿足income=“4000-6000”AND職業=“教師、醫生、公務員”AND渠道=“雜志”的客戶占83%。④被統計人群中滿足學歷=“本科”AND income≥“10000”的客戶占所統計總人數的占11.6%;其中符合學歷=“本科”ANDincome≥“8000”AND職業=“公司經理”AND渠道=“雜志”的客戶占86.5%。

    (5)教師要分析Apriori算法的瓶頸和改進,介紹Close算法和FP-樹算法,并且要求學生們掌握這3種經典算法。

    2.2中文文本數據挖掘系統

    中文文本數據挖掘系統圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據煙臺大學教學督評中心提供的學生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結合教材,重點講授了以下內容:

    1)特征選擇。

    ①介紹有監督、無監督和半監督的特征選擇方法。②介紹使用分詞軟件后,統計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結果的影響留取特征詞。

    部分數據示例如下:用特征選擇的方法對重要的屬性進行抽取,略去對分類影響不大的屬性,達到降維的目的,把特征選擇作為預處理。我們選用517條主觀評價作為訓練樣本,其中233條留言是一般評價,采用以下3種方式進行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準確性的影響如表1所示。

    2)分類。

    在介紹常用的分類基礎知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術,講授了支持向量機(SVM)適用于文本分類的原因。布置給學生的任務是用爬蟲獲取網評,作傾向性分析。

    評教文本分類統計后的結論是:將降維技術和支持向量機算法結合在評教模型的建立過程中,研究討論的主要內容有:①各個指標取不同值對分類的影響,這些指標主要集中在特征抽取和選擇、保留詞性和降維維數等幾方面;②對分詞后的文本進行特征選擇,篩去了詞頻數小于4的文本;③降維至30維,并適當設置SVM中的可變參數,找到合適的訓練一測試樣本的比例,最后綜合出一個現有條件下的最佳分類模型。

    2.3葡萄酒成份數據挖掘系統

    葡萄酒成份數據挖掘系統介紹數值數據的預處理和聚類2章內容。對葡萄酒成份的分析是根據所提供的酒中各成份的含量數據,采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內容:

    1)數值數據的預處理。

    ①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數據的離散化技術,如等深、等寬、聚類技術;③講授本例中使用的m一估值計算對數值屬,1生的離散化技術;④講述本例中如何避免0值出現及去噪聲技術。

    葡萄酒中各成份的含量數據如表2所示。

    2)聚類。

    在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術)之后,講解了:①本課題使用的層次聚類算法。在測試結果時通過測試樣本和分類樣本的不同比例,對結果進行了對比。②講述了用樸素貝葉斯分類計數對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結論差異。利用樸素的貝葉斯分類器可以完成預測目標,根據訓練樣本建立分類器,對待測樣本進行預測,準確率可達到90%以上。③引導學生思考對問題的處理可以聯合使用各種算法,并分析各種算法對結果的影響,從而找出解決問題的最佳方案。

    2.4利用已知算法和實例講授Web挖掘技術

    因特網規模龐大、結構復雜、動態變化性大,蘊含大量的信息。將Web上豐富的信息轉變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導學生在一些購物網站中下載對商品評論的中文文本,抽取特征詞,進行傾向性分析,使學生熟悉支持向量機的分類方法,分詞軟件的使用及文本挖掘的整個過程。

    3.結語

    文章在前期制定應用型本科生數據挖掘課程教學大綱的基礎上,針對數據挖掘課程內容多學科交叉的特點,在教學中提出淡化學科背景,注重算法應用與實踐,以客戶關系管理、葡萄酒數據分析、中文評教文本分類等實例作為授課內容主線,讓實例教學始終圍繞著典型的算法和前沿知識展開的教學方式。在今后的教學工作中,我們還應該不斷站在學科發展的前列,經常更新實例,使其更好地融入教學,將教與學有機統一,取得更好的教學效果。因此我們還有大量的工作需要探索研究。

    參考文獻:

    [1]宋成,李晉宏,項目驅動的數據挖掘教學模式探討[J],中國電力教育,2011(27):116-177.

    [2]劉云霞,統計學專業本科生開設“數據挖掘”課程的探討[J],吉林工程技術師范學院學報,2010(6),20-22.

    [3]徐金寶,對應用型本科生開設數據挖掘課程的嘗試[J],計算機教育,2007(7):27-29.

    [4]高園園,呂慶文,數據挖掘課程的教學思考[J],醫學信息,2009,22(11):23-24.

    第9篇:神經網絡文本分類范文

    關鍵詞:數據挖掘;無監督學習;有監督學習;半監督學習;遷移學習

    中圖分類號:TP274文獻標識碼:A文章編號:1007-9599 (2010) 06-0000-07

    Summarization of Data Mining Learning Method

    Xu Rui

    (Guizhou Mobile Corp. Guiyang550004,China)

    Abstract: As a new domain of information technology,data mining takes full advantages of database,statistical analysis and artificial intelligence,etc.It is quit important to be familiar with data mining for decision-makers,since it is a new direction of enterprise informationization.In this article,the author summarized some common learning method of data mining,especially the new domain:transfer learning.Finally,the article briefly described difference among these learning methods.

    Keywords:Data mining;Unsupervised learning;Supervised learning;Semi-supervised learning;Transfer learning

    企業信息化建設經歷了辦公自動化,信息管理系統,企業資源計劃三個階段,隨著企業數據的快速增長,科學決策的廣泛應用,數據挖掘和商業智能成為企業信息化建設的新的突破點。數據挖掘綜合統計學、人工智能、數據庫技術等多學科知識,從海量的數據中迅速發掘有價值的信息。作為一個新興領域,數據挖掘的研究與應用發展迅速,但數據挖掘并不為企業決策者充分認識。本文將從學習的角度,重點介紹數據挖掘領域常見的算法。

    一、引言

    數據挖掘算法依據其任務特點,常被分為四類:預測建模、聚類分析、關聯分析以及異常檢測。另一方面,依據算法所適應的問題類型來分,又可以分為無監督學習(Unsupervised Learning)、有監督學習(Supervised Learning)、半監督學習(Semi-supervised Learning)以及遷移學習(Transfer Learning)。比如針對網頁的挖掘,普通用戶關注返回結果與自己需求的相關性以及結果展現的可理解性,會更加希望網絡搜索引擎進一步將相關的結果根據不同的類別分成不同的組(無監督學習);搜索引擎工程師期望借助由專家進行類別標記的網頁,建立準確的引擎,對網頁進行分類(有監督學習);為有效提高搜索結果的準確性,搜索引擎通常還會根據用戶的搜索習慣或者交互式的反饋,對結果進行篩選(半監督學習);而篩選的結果有時還會用來提供給其他具有類似習慣的用戶(遷移學習)。

    二、無監督學習

    聚類分析通常又被叫做無監督學習。無監督學習可以理解為學習過程中只使用到了訓練樣本的原始屬性,而未涉及到訓練樣本的類別屬性。比如電信行業根據客戶消費信息的相似性,將客戶歸為不同的類別組,并對不同的類別組設計有區別的營銷策略和增值服務,在公司內部編制不同的財務成本計算方法。在這一過程中使用的數據都是各營業廳收集的原始數據,得出的結論主要基于對原始數據的相似性歸類的結果,在這一歸類過程中不輔以任何人為的諸如添加類別標簽等指導。

    無監督學習方法,或者說聚類算法,通過研究描述數據的屬性在不同數據間的相似性,將數據劃分為若干有意義的組或者是簇。無監督學習通常要達到兩個目標:1.簇內數據盡可能相似;2.簇間數據盡可能相異。為此,無監督學習方法的設計要關注兩個關鍵點:(1)如何評價數據之間的相似性或者相異性;(2)以及如何同時滿足所要達到的兩個目標。

    (一)相似性度量標準

    假設用于無監督學習的數據表示形式為X={X1,X2,…},其中X表示用于學習的樣本集。對于每個樣本Xi,又可以表示為一組屬性的集合Xi={xi1,xi2,…,xik},其中k表示描述每個樣本的屬性數量(或者說維度)。相似度(或相異度)的評價即是設計一個樣本之間的距離評價函數d(Xi,Xj)。

    對于區間標度類數據,通常可以用明氏距離(式2-1)、歐式距離(式2-1中p為2)、曼哈頓距離(式2-1中p為1)。

    (2-1)

    對于只有0和1兩種狀態的二元變量,可以根據兩個變量Xi,Xj共同出現時0、1取值的異同,建立距離函數。若令q表示Xi,Xj都取值為1的次數;t表示兩者都取值為0的次數;r表示Xi取值為1,Xj取值為0的次數;s表示Xi取值為0,Xj取值為1的次數。則兩者的距離函數可以設計為如式2-2,計算兩個函數的不匹配率。

    (2-2)

    但是二元變量常常是非對稱的,意思是人們常常關注與取值為1的情況,而其他情況表示為0。比如疾病診斷中,常常把患者疾病檢測呈陽性標記為1,而結果呈陰性標記為0。這是Xi,Xj都取值為0的情況(負匹配)被認為不重要的,而只關注兩者同時為1的情況(正匹配)。這種情況下通常用Jaccard系數來表示兩者的距離函數,如式2-3。

    (2-3)

    多元變量是二元變量的推廣,區別在于可以取得多個狀態值。因此,相似地,多元變量的距離函數也通常采用兩個對象之間的不匹配率來計算,即Xi、Xj屬性取值不相同狀態占全部屬性的數目。如果多個狀態值之間有序,比如說比賽的排名次序,狀態的先后次序也是在設計距離函數是非常重要的。這種情況下通常,先將各個取值映射到[0.0,1.0]的區間內,一種簡單的方法就是將[0.0,1.0]劃分為M-1個區間,M為取值的總數目;然后根據每一個排序后的屬性到0.0的區間大小來度量。映射到[0.0,1.0]區間后,可以采用先前介紹的距離函數來進行評價。

    由于一個樣本的屬性常常會包含多種變量類型,可能是區間標度的或者二元、多元的,甚至是非對稱的。一種常見的處理方法是將各個屬性首先進行歸一化處理,將每個屬性的取值映射到[0.0,1.0]的區間。比如,區間標量變量,距離函數通過除以最大區間差(屬性最大取值減去屬性最小取值)來實現映射。對于全部歸一化的屬性集合,樣本利用式2-4的方法進行計算。其中,Iij(k)是指示函數,若xik或xjk缺失,或者非對稱二元變量情況下取值同為0,則Iij(k)取值為0;否則取值為1。

    (2-4)

    文本挖掘中,由于文檔對象較為復雜,切以向量形式表示,依靠傳統的距離度量計算方式不能獲得較好的效果。一種常見的方法是利用描述相似性的余弦度量來建立距離函數,如式2-5。其中XiT表示Xi的轉置,||X||表示X的歐幾里德范數。

    (2-5)

    (二)學習策略

    常見的聚類算法可以劃分為如下幾類:

    1.劃分方法(partitioning methods):劃分方法將給定的N個對象構建出數據的k(k≤N)個劃分,要求(1)每個劃分至少包含一個對象且(2)每個對象屬于且只屬于某一組。但是在模糊劃分技術,第二點唯一性要求可以放寬。

    常見的劃分方法為K均值(k-means)算法。算法的基本方法是首先初始化K個點作為初始的質心,然后迭代式地將每個點指派到距其最近的質心,形成K個簇,并計算出新的簇的質心;迭代過程持續到質心不再發生變化。

    2.層次方法(hierarchical methods):層次方法創建給定數據對象集的層次分解,利用自頂向下或者自底向上的策略不斷的建立簇之間的樹狀關系。

    以自底向上策略為例,首先將全部個體點作為獨立的簇,然后迭代式的合并最接近的兩個簇,并更新簇之間的關系矩陣;迭代過程持續到數據最終合并為一個簇。

    3.基于密度的方法(density-based methods):基于密度方法設計的核心思想是鄰域中密度較大的點聚集在一起。這種方法可以有效的發現任意形狀的簇,而不僅僅是球狀的簇。

    DBSCAN是一種常見的基于密度的方法。算法核心思想是通過檢查每個樣本點半徑不超過ε的鄰域來搜索簇,并利用密度可達關系將密度較大的臨近的簇合并起來。如果一個點的ε的鄰域中包含大于某個閾值的樣本數,則將此樣本作為這個簇的核心對象,而鄰域內的所有點對核心對象來說都是“直接密度可達”的;將直接密度可達的樣本鏈接起來,則說這些點都是密度可達;通過合并密度可達的核心對象所代表的簇,算法最終可以尋找出任意形狀的簇,并剔除噪聲點。

    三、有監督學習

    有監督學習‎常被認為是分類的另外一種說法(也有學者認為只是分類過程的第一步),這是因為建立分類模型時,總是要求用來學習的樣本具有完整的類別標簽,來指導(或者說監督)整個學習過程。通常來說,完整的分類過程由兩步組成:(1)對于有類別標簽數據的學習,以及(2)對未知類別標簽數據的預測。根據對訓練集的使用方式,有監督學習一般分為兩大類:模板匹配法和判別函數法。判別函數法依據判別函數的不同,又可以進一步分為概率統計分類法、線性分類法和非線性分類法。

    (一)模版匹配法

    將待分類的樣本和標準模板進行比較,看與哪個模版匹配程度更相似,從而確定待分類樣本的類別,這就是模版匹配的主要思想。比如K近鄰算法,算法的思想為:對于一個待分類的樣本,首先計算它與訓練集中所有樣本的距離,并以距離從小到大的順序選出從空間上最靠近待分類樣本的K個訓練樣本,最后依據這K個樣本中出現頻率最高的類別作為該待分類樣本的類別。再比如,在模式識別應用中,經常會在后臺數據庫中保存一定量的模版,通過尋找與待分類樣本差異最小的模版,來確定待分類樣本的類別。模版匹配法思想較為簡單,實現起來非常容易,特別是K近鄰算法,經常應用于在線算法(要求算法效率非常高)的分類算法部分。但是模版匹配算法有一個明顯的缺點就是當存儲的訓練模版非常大時,算法的存儲和計算將成為算法提高效率的瓶頸。

    (二)概率統計分類法

    基于概率統計的方法主要指基于Bayes決策理論的分類算法。算法的核心思想就是依據Bayes后驗概率公式,計算出待分類樣本屬于每一種類別的可能性,并找出最有可能的類別判為待分類樣本的預測類別。

    任何決策都有誤判的情況,Bayes決策也不例外,如何做出最合理的判決,常常與具體問題結合。其中最具有代表性的是基于最小錯誤率的Bayes決策以及基于最小風險的Bayes決策。本節將首先介紹Bayes決策理論。

    1.Bayes決策理論。

    Bayes理論基于樣本中每個類別的先驗概率P(Ci)以及每個類的條件概率密度P(X|Ci)的統計,利用Bayes公式(式2-6)計算待分類樣本分屬各類別的概率(后驗概率),依據X屬于哪個類別具有最高的概率,就把X劃分到哪個類。

    (2-6)

    公式中,先驗概率P(X)針對某個類別出現的概率而言,可以通過統計訓練集中每個類別所占比例計算;類條件概率密度P(X|Ci)是指在某類別空間中,出現特征向量X的概率,具體應用中一般假設P(X|Ci)服從正態分布,亦即滿足式2-7,其中u為均值向量; 的協方差矩陣。

    (2-7)

    2.最小錯誤率的Bayes決策。

    由Bayes公式可以看出,后驗概率的大小只于先驗概率和類條件概率密度的乘積P(X|Ci)P(Ci)有關。對于每次分類,總錯誤率為當X劃分為某一類時,出錯的可能性的總和。

    對于兩類問題,若P(X|+)P(+)>P(X|-)P(-),亦即P(+|X)>P(-|X),可以知道,將X分為“+”類的總錯誤率(1-P(X|+)P(+))將小于將X分為“-”類的總出錯率(1-P(X|-)P(-))。對于多類的問題,依據同樣的道理,可以證明將X分為使P(Ci|X)最高的類別,可以保證決策具有最小的錯誤率。

    3.最小風險的Bayes決策。

    現實生活中,不一定總錯誤率越小就代表決策越好,比如藥廠判別藥品質量,若將正常藥品判別為劣質藥品,造成的損失遠小過將劣質藥品判為正常藥品的代價。此時需要對每種錯誤賦予一個風險權值,用以評價做出某種決策風險的大小。

    對于某一觀測值X,當將其分為Ci類時,總風險可以表示為:

    (2-8)

    式中,λij表示待分類樣本X實際屬于Cj但將其錯誤分為Ci所帶來的損失。對于X,當計算出每個類別的風險函數后,選擇具有最小風險的類別作為X的分類類別。

    相對于最小錯誤率的Bayes決策,最小風險的Bayes決策具有更廣泛的適應面,但是風險權值λij的制定相對較為復雜,需要根據具體問題,權衡各種損失的大小。

    4.基于概率統計分類法的其他問題。

    在實際應用中,類條件概率密度P(X|Ci)并不一定確切知道,潛在的值必須從可用的數據中估計。有時可能知道概率密度的類型(如高斯分布,t分布等),但不知道具體參數,此時一般采取最大似然估計或者最大后驗概率來估計;另一方面有時可能知道一些估計的參數,比如均值和方差,但是卻不知道具體的分布類型,此時可以采取最大熵估計或者采用著名的EM算法(期望最大算法)來估計類條件概率密度。

    (三)線性分類法

    Bayes決策分類有其不足的地方,其分類過程依賴于統計,因此更多適應于有統計知識的場合,也就是說服從一定分布的分類問題,但是現實中還有很多問題并不能滿足這個要求,分類問題的研究進而轉向如何采用非統計的方法來進行分類。

    任何一個樣本點都可以表示成特征空間的一個點,任何不相同的兩個點之間都有一定距離,如果能夠找到一個面(線性或者非線性)將屬于不同類別的樣本隔開,則表示這個面的函數就可以作為分類的依據。這就是幾何分類法的思想,可以簡單理解為利用幾何方法把特征空間分解為不同類別的子空間。有時為了更好的找劃分空間的函數,常常會利用映射、投影等方法對特征空間進行轉化。

    依據劃分子空間的面是否為平面,即決策函數是否為線性,可以將幾何分類方法分為兩類:線性分類法以及非線性分類法。

    線性分類就是通過一個或者多個超平面,將特征空間按類別劃分為獨立子空間。用來表示超平面的決策函數可以表示為g(X)=WTX+W0,其中W表示權值向量,W0被稱為偏置(bias)。從圖像上來理解,g(X)表示圖2-1中的斜線。對于g(X)>0的點,即圖中斜線右邊的點,被劃分為正類;相反地,途中斜線左邊的點,被劃分為負類。

    從系統實現角度來看,一個線性分類器可以表示成一個具有d個輸入單元,每個單元與結果具有連接權值的一個模型(圖2-2)。每個輸入特征向量乘以相應的權值,并輸出這些乘積的累加和。利用一個Sigmoid函數(圖中的output unit函數),將結果映射到{0,1}或者{-1,1}。

    1.線性判別函數的形式。

    對于二類問題,直接用g(X)=WTX+w0形成劃分平面,平面兩側各屬于一類,如圖2-1中的例子。

    對于多類別問題,情況比較復雜,通常有以下兩種策略。

    假設擁有d個類別的問題:

    (1)如果對于任何一個類別Ci,利用g(X)=WTX+w0能夠區分屬于Ci以及不屬于Ci的樣本,此時分類的函數就是由每個類別的判別函數組成。此時分類函數總共有d個。若待分類樣本滿足gi(X)>0,則將其分到Ci類。若同時有多個類別使得X滿足gi(X)>0,則選取具有最大函數值的類別作為X的類別。

    (2)如果任兩個類別Ci、Cj,可以通過gij(X)=WijTX+wij0區分開,則此時分類函數總共有d(d-1)/2個。對于任意的Cj,若待分類樣本滿足gij(X)>0恒成立,則將其劃分為Ci類。

    2.線性判別函數系數的確定。

    線性判別函數設計的關鍵問題是權值的確定,也即使判別函數系數的確定。依據一定的評價準則,線性判別函數不斷修正權值的大小,從而達到滿足評價準則的系數值。

    最常見的確定線性判別函數的算法包括感知器算法、最小二乘法(LSM)以及支持向量機。

    (1)感知器算法:感知器算法的原理是每次依據分錯的樣本(用Y(W)表示),依據式2-8,不斷的調整權值。感知器算法實際上就是單層神經網絡,通過訓練樣本的不斷指導,不斷的修正自己的權值。實際上分錯的樣本越少,則g(X)距離真實的判別邊界越近。

    (2-9)

    (2)最小二乘法:在某些情況下,盡管線性分類器不是最優的,但其效率和簡單常常可以彌補這些問題。因此需要利用最優化的數學方法,計算較優的性能。最小二乘法正是最優化算法在線性分類器中的應用。利用最小二乘的結論公式:W=(XTX)-1XTy,利用矩陣計算的方法解出相應的權值,并使得訓練集樣本距離超平面的均方和最小。

    (3)支持向量機:感知器算法可能會收斂到不同的解,但對于要求嚴格的問題中,一個給兩測類別留了更多可自由活動的空間的決策函數顯然產生錯誤的危險更小。支持向量機理論提供了求出這樣平面的方法,通過解決優化問題:

    (2-10)

    使得超平面兩側擁有最大的間隔。其中滿足|WTX+w0|=1的向量叫做支持向量。

    (四)非線性分類法

    線性分類器具有簡單、直觀的特點,但是在現實生活中會經常遇到線性不可分的情況,比如最著名的異或(XOR)布爾函數,就無法用一個平面將兩各類別分開。最常見的非線性分類的方法有神經網絡、多項式分類器以及決策樹分類器。

    1.神經網絡。

    一個簡單的神經網絡由三部分組成:輸入層(input)、隱含層(hidden)以及輸出層(output),如圖2-3。

    作為一個可以適應復雜問題的啟發式的統計模式識別技術,神經網絡具有強大的功能,戈爾莫戈羅夫證明只要給出足夠數量的隱含層的神經單元、適當的非線性函數以及權值,任何判決都可以利用三層神經網絡來實現。一個常見的神經網絡的算法就是利用反向傳播算法。限于篇幅,這里只介紹算法的核心思想。

    反向傳播算法的基本思想主要分為三步:

    第一步,初始化所有權值。

    第二步,前向計算:從輸入層開始,從前往后地依次計算每個神經元的輸出,計算方式為帶限界的加權和。

    第三步,后向計算與權值修正:依據輸出的結果,從輸出曾開始從后往前地依次計算出來權值修正的大小,并對全部權值進行修正。

    反向傳播算法可以對空間進行較為復雜的劃分,并且可以充分利用并行的高性能計算來完成分類的工作。但是人工神經網絡需要較大的訓練集來保證結果的正確性。

    2.多項式分類器。

    對于一個多項式分類器,其核心思想就是進行樣本空間的轉化,將其轉化為線性分類器問題。比如針對XOR問題,原特征空間可以表示為X=[x1,x2],若引入新的特征空間,令X’=[x1,x2,x1x2]=[y1,y2,y3],則完成了從二維空間到三維空間的轉化。而對于新的空間,可以建立超平面g(x)=y1+y2-2y3-1/4正確區分兩個類別。

    然而多項式分類器適用于低維空間的非線性分類問題,對于維度較大的問題,由于產生的新特征空間將過于龐大,增加了計算的復雜性。

    3.決策樹。

    決策樹算法的核心思想就是利用一系列的查詢來逐步地確定類別,圖2-4展現了一個判斷水果類型的決策樹。

    建立一棵決策樹的過程可以看作是從不同的屬性空間,層次性的分開各個類別的數據。建立的過程如下:

    (1)首先,選擇一個屬性,對訓練集進行劃分。

    (2)其次,對劃分的每一個子訓練集,判斷是否滿足停止準則,比如限制樹的高度,確定根結點的純度等。

    (3)最后,如果有子訓練集不滿足停止條件,算法將對該子訓練集重復這三個步驟,直到所有的訓練子集都滿足。

    決策樹使用比較簡單,進行規則的匹配和查詢就可以了,而且結果非常直觀。但是對于算法實現的細節,比如停止準則的確定,進行劃分的特征的選擇等會影響分類的結果。限于篇幅,這里就不一一介紹。

    四、半監督學習

    區別于有監督學習要求訓練集具有完整的類別標簽,半監督學習只需要小部分訓練樣本具有類別標簽,甚至可以通過向外部的指示器(Oracle)交互式地獲得部分樣本的標簽。

    同時區別于無監督學習,不要求訓練集具有類別標簽,只是通過研究樣本屬性之間的相似度進行學習,半監督學習通常依靠部分有標簽的樣本進行指導,還可以有效地提高聚類的效果。

    通常半監督學習被認為是分類問題的特殊形式,因為半監督學習多關注與如何有效地利用無類別標簽數據來提高分類器的性能。但是半監督學習的研究仍然涉及到聚類、回歸等方面。

    最常見的半監督學習方法是產生式模型方法(Generative Models),通常來說數據的分布可以描述為P(X,y)=P(X|y)P(y),該方法假設P(X|y)服從特定的混合分布模型(比如高斯混合分布模型)。通過大量的無標簽樣本,確定組成該混合模型的各個組成部分的參數,利用有標簽樣本的信息,來進一步確定樣本的分布。針對產生式模型的研究,在理論方面集中在以下兩個方面:

    1.混合模型可識別性研究:給定某一參數向量,能否可以確定唯一的多分布混合的方式??梢灾赖氖歉咚狗植嫉幕旌夏P褪强勺R別的;與此同時,文獻‎[11]證明Bernoulli混合模型是不可識別的;文獻‎[12]在混合模型可識別性方面做了進一步的研究。

    2.模型正確性研究:如果對于模型的假設是正確的,可以證明,通過充分學習無標簽的樣本有助于提升分類的精度;但是如果模型估計錯誤,無標簽樣本不會對模型精度帶來提升,甚至導致精度下降。通常會利用組合算法或者樣本降權‎的策略來減少模型選擇錯誤帶來的風險。在應用方面,常見的方法包括利用EM算法辨別混合組件、利用聚類算法劃分樣本空間并利用有標簽的數據標記各子空間的標簽;應用領域主要包括文本分類、文字對齊、人臉識別等。

    自主訓練方法(Self-training)是半監督學習最早的研究方向之一。該方法使用一個有監督學習算法從一小批有標簽樣本開始學習,迭代地給無標簽樣本賦予標簽,并加入到訓練樣本中來。這種思想最早可以追溯到1965年。由于是一種包裹式算法,算法的性能更多依賴于所選擇的有監督學習算法的性能。自主學習方法被用于多種自然語言處理任務中,比如語義歧義的識別甚至是情感識別;同時Rosenberg等人還將自主學習應用到圖像對象識別系統中。

    協同訓練(Co-training)最初是Blum和Mitchel針對諸如網頁分類等具有兩個充分冗余的視圖的半監督學習問題提出來的半監督學習算法。最初假設樣本包含兩個充分冗余的視圖,由于這一要求在實際應用中往往無法滿足,Nigam和Ghani在文獻‎[24]中通過實驗證明,在屬性集充分大時,可以隨機把屬性集劃分為兩個視圖,同樣可以取得不錯的效果。由于充分大屬性集要求過于嚴格,隨機劃分屬性集的效果不是非常穩定,因此,許多研究者試圖尋找不需要充分冗余視圖的協同算法。Goldman和Zhou在文獻‎[25]的研究建立在噪聲學習理論和統計技術之上,利用不同決策樹分類器劃分樣本空間為若干等價類。每個分類器不斷從樣例空間的等價類內找出最置信的一批樣本給予標簽,提交給另一個分類器作為訓練樣本。他們在文獻‎[3]中進行了擴展,使該算法可以使用多個不同類型分類器。為了進一步放松約束條件,周志華等人提出了Tri-training算法。該算法首先使用重復取樣的方法訓練三個分類器,然后不斷的利用其中兩個分類器,共同選出高置信的無標簽的樣本進行標記,來更新第三個模型。對比Goldman的方法,Tri-training算法顯著減少了大量耗時的統計測試技術。為進一步減少噪聲的影響,李明等人又在Tri-training的基礎上提出了Co-forest方法,可以更好地發揮協同學習的作用。

    直推式支持向量機(Transductive Support Vector Machines,TSVM)又被叫做半監督支持向量機(Semi-Supervised Support Vector Machines,S3VM)目的是利用支持向量機技術,將決策邊界建立在遠離高密度區的空間區域,來建立P(X)與決策邊界的聯系。由于尋找準確的直推式支持向量機的解是NP難問題,許多算法都主要用于發掘近似解。其他類似的避免高密度區域進行判別的算法還包括基于高斯過程的方法(如文獻‎[18]),以及基于信息論的方法(如文獻‎[19])。

    基于圖的半監督方法(Graph-based semi-supervised methods)通常將數據集描述為一張圖,圖中的結點為數據集中的樣本(有標簽或者無標簽的),結點之間的連線通常定義為樣本之間的相似度。圖方法通常利用矩陣理論或者圖算法,來尋找平滑的函數能夠最大程度上匹配有標簽樣本的分布。圖的半監督學習算法的關鍵在于建圖、以及損失函數的確定。

    除了半監督分類算法,其他半監督算法還包括譜聚類(Spectral Clustering),半監督聚類(Semi-supervised Clustering)‎,半監督回歸(Semi-supervised Regression),主動學習(Active Learning),多示例學習(Multi-Instance Learning)等。

    五、遷移學習

    與半監督學習類似的,遷移學習的提出也是針對訓練樣本不足的分類情況。但是半監督學習依靠具有獨立同分布的訓練樣本和待分類樣本,而遷移學習則通過借助其他領域的訓練樣本來建立分類器,為本領域的待分類樣本進行類別標簽預測。

    傳統的學習方法通常依賴各自領域的訓練樣本,建立本領域的知識模型來進行領域內的學習任務,如圖2-5(a)。但是遷移學習的訓練樣本來自其他領域(比如有類別標簽樣本較為豐富的領域),通過該領域樣本的學習,抽取出來相關的知識用于本領域的分類任務,如圖2-5(b)。但是與傳統學習方式相同的是,遷移學習的目標也是分類的經驗風險最小化,只是優化經驗風險時會利用到源領域的知識。

    遷移學習依賴于源領域的知識和目標領域知識分布相似,如果兩者的分布不一致,往往會引起分類性能的下降,這種現象叫做負遷移。負遷移成為使用遷移學習的最大風險,為了保證遷移學習的效果,如何降低負遷移成為遷移學習關注的一個領域。

    依據有類別標簽的樣本存在的學習領域,文獻‎[8]將遷移學習領域分為兩類:歸納式遷移學習(Inductive Transfer Learning)和直推式遷移學習(Transductive Transfer Learning)。

    (一)歸納式遷移學習

    歸納式遷移學習的假設為目標領域包含有部分的帶有類別標簽的樣本。因此該領域的研究重點在于如何遷移其他領域的知識,以更好的利用目標領域中帶有類別標簽的樣本。依據遷移的手段可以分為:

    1.樣本遷移:歸納式遷移學習的樣本遷移方法假設目標領域和源領域使用相同的特征空間和標簽集合,通過調整權值和重采樣技術,實現源領域部分樣本的重用。因此,此方式的核心思想是利用目標領域內的帶有類別標簽的樣本指導從源領域進行采樣,使得訓練樣本在分布上與目標領域近似。

    以Tradaboost‎[9]為例,訓練的數據來自于源領域和目標領域,每次訓練結束對訓練結果進行評價。對于目標領域,類似于Adaboost方法提升被分錯的樣本的權值;而對源領域,則降低被分錯樣本的權值。下一輪訓練則利用調整后的樣本權值進行重采樣。最后依據分類的置信度輸出判定的類別標簽。

    2.代表特征遷移:歸納式遷移學習的代表特征遷移方式假設源領域和目標領域由于任務的相關性,會共享某些特征。該方法的核心思想為通過空間映射方法(比如特征選擇,特征變換,核空間等)提升目標領域和源領域在特征領域的相似性,同時增強樣本的類別可區分性。利用優化技術,使得目標領域映射、源領域映射、參數矩陣三個角度都達到優化。

    3.模型遷移:歸納式遷移學習的模型遷移方式假設由于各個領域之間的任務具有一定相關性,在一定程度上可以共享相互之間模型的參數。學習算法通過改變各個領域學習目標函數,使得各目標函數在形式上類似,甚至具有相同的重要參數,這時通過共享相同模型參數,實現目標領域的學習的優化。

    4.關系知識遷移:歸納式遷移學習的關系知識遷移方法假設目標領域和源領域在樣本關系方面具有相似性。該方法首先學習源領域的關系知識,比如學生和導師以及文章三者關系;其次,建立源領域相關對象與目標領域相關對象之間映射關系,比如源領域的學生、導師和文章分別對應目標領域的演員、導演和電影;最后,將從源領域的關系知識直接或者經過變換遷移到目標領域。

    該種方法具有一定的針對性,一般用于具有樣本相關性的模型中,通過遷移關系知識,提升目標領域的關系模型建立的效率和性能。

    (二)直推式遷移學習

    直推式遷移學習的假設為目標領域中不包含任何具有類別標簽的樣本。類似與歸納式遷移學習,直推式遷移學習也包含樣本空間和特征空間兩個研究的角度。

    1.樣本遷移:由于目標領域不包含帶有類別標簽的樣本,因此樣本遷移方法是依據源領域和目標領域在分布上的差異,給源領域的樣本賦予不同的權值,盡可能接近目標領域的分布。特別地,一些基于采樣的直推式遷移學習方法假設目標領域和源領域具有相同的后驗概率,通過重采樣方法生成新的訓練集。

    2.代表特征遷移:直推式遷移學習中的代表特征遷移方法依然假設目標領域和源領域具有相同的后驗概率。該方法的核心思想是通過找到一組特征能夠減少目標領域和源領域之間的距離。

    直推式的代表特征遷移往往只是針對特定的問題。比如具有相同詞典的文本挖掘,文本的屬性向量相同或者類似,并以詞典分布作為依據,通過協同聚類方式遷移類別標簽。

    (三)遷移學習相關問題

    依據文獻‎[8],依據目標領域是否具有帶有類別標簽的樣本,遷移學習可以分為歸納式遷移學習(Inductive Transfer Learning)和直推式遷移學習(Transductive Transfer Learning)兩個方向。而根據源領域是否具有類別標簽樣本,以及目標領域和源領域學習任務的相似性,遷移學習還涉及到以下幾類學習問題:

    自助學習(Self-taught Learning):該問題假設目標領域和源屬于不同的分布,而且類別標簽集也不相同;特別地,源領域有類別標簽的樣本較少。該方法通過找出共同的屬性集合,來實現目標領域的學習。比如圖像識別里面,各個識別任務可能不一樣,例如識別動物和識別風景。但通過聚類發現識別動物時依據對象邊緣的特征,可以有效地區分不同的動物;將該特征可以遷移到對不同風景的識別中。因此自助學習常常使用協同聚類方法找出可以遷移的特征基。

    其他相關的研究方向還有:多任務學習(Multi-task Learning)、無監督遷移學習(Unsupervised Transfer Learning)、領域自適應學習(Domain Adaptation)以及樣本選擇偏差/方差遷移(Sample Selection Bias/Covariance Shift)等。在此不一一介紹。相關領域關系如圖2-6所示。

    六、總結

    本章從學習角度介紹了數據挖掘領域常見的四類算法。有監督學習和無監督學習是數據挖掘傳統的學習方法,依據樣本是否使用了外在的類別標簽作為指導,分別應用于不同的任務場景。由于現實生活中有類別標簽的數據往往較少或者獲取難度較大,近年來提出了包括半監督學習以及遷移學習等方法,利用無類別標簽樣本或者類似學習任務來提升有監督學習的效果和性能。

    有監督學習、半監督學習、遷移學習主要的目的是為了提高分類任務的性能,圖2-7通過犀牛和大象的圖片分類任務來形象的區分了三者的核心思想。有監督學習,如圖2-7(a),通過學習具有類別標簽的大象和犀牛的圖片建立學習模型;半監督學習,如圖2-7(b),利用具有類別標簽的兩中動物的圖片以及不具備類別標簽的兩種動物的圖片建立學習模型;遷移學習,如圖2-7(c),通過學習羊與馬的圖片,建立源領域模型,并遷移到目標領域大象和犀牛的學習問題中。

    參考文獻:

    [1]Chapelle O,SchÄolkopf B,Zien A. Semi-Supervised Learning.MIT Press,Cambridge.MA,2006

    [2]Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models.in Seventh IEEE Workshop on Applications of Computer Vision,2005

    [3]Zhou Y,Goldman S.Democratic co-learning.in Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 2004),2004

    [4]Bennett K,Demiriz A. Semi-supervised support vector machines.Advances in Neural Information Processing Systems,1999

    [5]Zhu X.Semi-supervised learning with graphs.Ph.D.thesis.Carnegie Mellon University,2005

    [6]Zhou Z,Xu J.On the relation between multi-instance learning and semi-supervised learning.in Proceedings of the 24th International Conference on Machine Learning,2007

    [7]Duda R,Hart P,Stock D.模式分類(原書第二版).李宏東,姚天翔

    [8]Pan J and Yang Q. A Survey on Transfer puter Sciences Technical Report HKUST-CS08-08,2008

    [9]Dai W,Yang Q,Xue G,and Yu Y.Boosting for transfer learning.In Proceedings of the 24th International Conference on Machine Learning,2007

    [10]Raina R,Battle A,Lee H,etc.Self-taught Learning:Transfer Learning from Unlabeled Data.Proceedings of the 24th International Conference on Machine Learning,2007

    [11]McCallum A,Nigam K.A comparison of event models for naive bayes text classification.in AAAI-98 Workshop on Learning for Text Categorization,1998

    [12]Corduneanu A,Jaakkola T. Using unlabeled data to improve text classification.Tech.Report AIM-2001-030.MIT AI Memo,2001

    [13]Castelli V,Cover T.The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter.in IEEE Transactions on Information Theory,1996

    [14]Nigam K,McCallum A,Thrun S,Mitchell T.Text classification from labeled and unlabeled documents using em.in Machine Learning,2000

    [15]Dara R,Kremer S,Stacey D.Clustering unlabeled data with soms improves classification of labeled real-world data. in World Congress on Computational Intelligence(WCCI),2002

    [16]Culp M.An iterative algorithm for extending learners to a semi-supervised setting.in The 2007 Joint Statistical Meetings(JSM),2007

    [17]Zhou Z,Li M.Tri-training:exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005

    [18]Zhu X,Lafferty J,Ghahramani Z.Semi-supervised learning: From gaussian fields to gaussian processes.Tech.Rep.CMU-CS-03-175,Carnegie Mellon University,2003

    [19]Szummer M,Jaakkola T.Information regularization with partially labeled data.in Advances in Neural Information Processing Systems,2002

    [20]Grira N,Crucianu M,Boujemaa N. Unsupervised and semi-supervised clustering:a brief survey.Tech.Rep.FP6.A Review of Machine Learning Techniques for Processing Multimedia Content,2004

    [21]Zhou Z,Li M.Semi-supervised regression with co-training.in International Joint Conference on Artificial Intelligence(IJCAI),2005

    [22]McCallum A,Nigam K.Employing em in pool-based active learning for text classification.in Proceedings of the 15th International Conference on Machine Learning,1998

    [23]Blum A,Mitchell bining labeled and unlabeled data with co-training.In Proceedings of the Workshop on Computational Learning Theory (COLT),1998

    [24]Nigam K,Ghani R.Analyzing the effectiveness and applicability of co-training.in Proceedings of the 9th ACM International Conference on Information and Knowledge Management(CIKM'00),2000

    [25]Goldman S,Zhou Y. Enhancing supervised learning with unlabeled data.in Proceeding of the 17th International Conference on Machine Learning(ICML'00),2000

    [26]Zhou Z,Li M.Tri-training: exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005

    相關熱門標簽
    主站蜘蛛池模板: 亚洲国产成人久久一区二区三区 | 成人网站在线进入爽爽爽| 动漫成人在线观看| 57pao成人国产永久免费视频| 成人毛片18女人毛片| 亚洲伊人成人网| 国产成人综合亚洲AV第一页| 久久成人国产精品一区二区| 国产精品成人无码视频| 色偷偷成人网免费视频男人的天堂| 成人午夜亚洲精品无码网站| 免费观看一级成人毛片| 成人免费无码大片a毛片| 99精品国产成人a∨免费看| 国产成人精品999在线观看| 成人窝窝午夜看片| a毛片成人免费全部播放| 午夜成人在线视频| 国产成人在线免费观看| 成人午夜国产内射主播| 欧洲成人在线视频| 69国产成人精品午夜福中文| 国产成人av区一区二区三| 国产成人高清精品免费软件| 成人免费网站视频| 成人精品一区二区三区中文字幕 | 成人a毛片视频免费看| 桃花阁成人网在线观看| 欧美成人影院在线观看三级| 欧美成人精品福利在线视频| 欧美成人全部免费观看1314色| 中文国产成人精品久久一区| 中文国产成人精品久久水| 久久亚洲国产成人精品性色| 亚洲午夜成人片| 欧美成人精品a∨在线观看| 成人自拍视频网| 在线看欧美成人中文字幕视频| 成人浮力影院免费看| 成人免费在线看片| 国产成人综合在线视频|