前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據挖掘技術主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:Web數據挖掘;分類;流程
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)26-7335-01
WebData Mining Technology
SONG Yu
(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)
Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.
Key words: Webdata mining; classification; process
所謂數據挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程 。
1 什么是Web的數據挖掘
Web挖掘是從Web資源上抽取信息或知識的過程,它是將傳統的數據挖掘的思想和方法應用于Web,從Web文檔和Web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。Web挖掘可在多方面發揮作用,如搜索引擎結構的挖掘,搜索引擎的開發,改進和提高搜索引擎的質量和效率,確定權威頁面。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。特別是電子商務領域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務活動。
2 Web數據挖掘的分類
根據挖掘的對象不同我們可以把基于Web的數據挖掘分為三大類:
1) Web內容的挖掘(WebContent Mining)
所謂Web內容的挖掘實際上就是從Web文檔及其描述中獲取知識, Web文檔文件挖掘以及基于概念索引或Agent 技術的資源搜索也應該歸于此類。Web信息資源類型眾多,目前WWW 信息資源已經成為網絡信息資源的主體,然而除了大量的人們可以直接從網上抓取、建立索引、實現查詢服務的資源之外,相當一部分信息是隱藏著的數據(如由用戶的提問而動態生成的結果,存在于數據庫系統中的數據,或是某些私人數據)無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內容挖掘出來。若從信息資源的表現形式來看,Web信息內容是由文本、圖像、音頻、視頻、元數據等種種形式的數據組成的,因而我們所說的Web內容的挖掘也是一種針對多媒體數據的挖掘。
2) Web結構的挖掘(WebStructure Mining)
這一類型的挖掘是從萬維網的整體結構和網頁上的相互鏈接中發現知識的過程,它主要挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類并且可以由此獲得有關不同網頁間相似度及關聯度的信息。Web結構挖掘有助于用戶找到相關主題的權威站點,而且對網絡資源檢索結果的排序有很大意義。
3) Web使用的挖掘(WebUsage Mining)
Web使用的挖掘,也稱為Web日志挖掘(WebLog Mining)。與前兩種挖掘方式以網上的原始數據為挖掘對象不同,基于Web使用的挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數據。這些數據包括:網絡服務器訪問記錄、服務器日志記錄、用戶注冊信息以及用戶訪問網站時的行為動作等等。Web使用挖掘將這些數據一一紀錄到日志文件中,然后對積累起來的日志文件進行挖掘,從而了解用戶的網絡行為數據所具有的意義。我們前面所舉的例子正屬于這一種類型。
3 Web挖掘技術的流程
Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習 和神經網絡等。Web挖掘可以在很多方面發揮作用,如對搜索引擎的結構進行挖掘,確定權威頁面,Web文檔分類,Weblog挖掘,智能查詢,建立MetaWeb數據倉庫等。
典型Web數據挖掘的處理流程如下:
3.1 查找資源
任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日志數據甚至是通過Web形成的交易數據庫中的數據。
3.2 信息選擇和預處理
任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數據組織成規整的邏輯形式甚至是關系表。
1) 模式發現
自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
2) 模式分析
驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
4 結束語
Web數據挖掘還有待進一步的研究,尤其是近來對Web內容挖掘方面集中在信息集成,如建立基于Web的知識庫或基于Web的數據倉庫的研究上。
參考文獻:
[1] 范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2007.
[關鍵詞] 數據挖掘 數據挖掘方法
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(Data Mining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
關鍵詞:數據挖掘;聚類算法;關聯規則;決策樹;遺傳算法
中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2009)13-3331-02
1 引言
數據挖掘是一個多學科的交叉領域,這些學科包括數據庫技術、機器學習、統計學、模式識別、信息檢索、神經網絡、基于知識的系統、人工智能、高性能計算和數據可視化等[1]。目前,對于數據挖掘方面的研究已經取得了很大的進展,開發出了許多新的數據挖掘算法、系統和應用。本文將先對數據挖掘的概念及實施步驟進行說明,然后將分類歸納數據挖掘中的各種常見算法,最后對數據挖掘目前的研究方向進行預測。
2 數據挖掘的概念及流程
2.1 數據挖掘的概念
簡單地說,數據挖掘就是從大量的數據中“挖掘”知識,即從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。它是一種決策支持過程,可以從企業數據庫的大量數據中,挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者做出正確的判斷,從而減少投資的風險,獲得更大的利潤。
2.2 數據挖掘的流程
一般來講,數據挖掘的整個過程由五個步驟組成:
1) 數據挖掘的最后結果是不可預測的,但是要探索的問題應該是有預見的,為了數據挖掘而進行數據挖掘,是不可取的。因此,清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的第一步,也是很重要的一步。
2) 數據準備[2],數據準備又可以分成數據選擇,數據預處理,數據轉化三個步驟。數據選擇,是從大量與業務對象有關的數據中選擇出適合進行數據挖掘的數據;數據預處理,包括進行數據清洗,數據推測,數據轉換等。數據清洗,指的是清除掉一些明顯的噪聲數據,提高數據的質量;數據推測,是因為在前面兩步中,也許會出現數據不全的情形,所以進行適當的推算,補齊所需的數據;數據轉換,是將數據轉換成一個分析模型,這個分析模型是針對數據挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵;數據轉化,則是在做完前面的步驟以后,適當的縮減即將進行分析的數據庫規模,以上這些工作會直接影響到數據挖掘時的效率和準確性,同樣很重要。
3) 數據挖掘,這是整個數據挖掘過程中最重要的一步,即使用適當的數據挖掘算法對剛才處理出的數據進行分析,進而得到可能的模式模型。根據不同數據的特點以及用戶不同的需求,對同樣的任務,可以選用不同的算法,目前常見的算法包括聚類算法、關聯分析、分類算法、遺傳算法等。
4) 結果評價,通過上述步驟得到的模式模型,并不一定是真實有效的,甚至可能會是和實際情況完全相反的,所以還需要對得到的結果進行評價。這一步使用的方法包括用數據代入進行驗證,也可以根據常規的經驗進行一些判斷,一般由數據挖掘具體操作而定。如果沒有得到合適的模式模型,就需要重新選擇數據,甚至需要選用其他的數據挖掘算法,因此,數據挖掘的過程往往都是一個不斷反復的過程。
5) 知識同化,完成上述步驟后,如果得到了可以接受的模式模型,就需要進一步把得出的模型形象化,運用到所需的信息系統中去。
3 數據挖掘的常見算法
數據挖掘常用的分析方法包括聚類算法(Cluster Algorithm)、關聯規則(Association Rules)、決策樹算法(Decision Tree Algorithm)、遺傳算法(Genetic Algorithm)等。
3.1 聚類算法
聚類是一種常見的數據分析工具,其目的是把大量數據點的集合分成若干類,使得每個類中的數據之間最大程度的相似,而不同類中的數據最大程度的不同。常見的聚類算法主要包括層次聚類算法(Hierarchical Clustering Method)、分割聚類算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于網格的方法(Grid-Based Methods)等[3]。
1) 層次聚類算法,是通過將給定的數據集組織成若干組數據,并形成一個相應的樹狀圖,進行層次式的分解,直到某種條件滿足為止,具體又可分為“自底向上”和“自頂向下”兩種算法[4]。這兩種算法的思路正好相反,前者是將每個對象都作為一個原子聚類,再進行聚合,最后得到相應的結果,而后者是將所有對象看成一個聚類,再進行分解。CURE算法、CHAMELEON算法、BIRCH算法等是比較常用的層次聚類算法。
2) 分割聚類算法,是先將數據集分成k個分組,每一個分組就代表一個聚類,然后從這k個初始分組開始,然后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,最終使同一分組中的記錄越來越近,不同分組中的記錄原來越遠,從而得到最優解。使用這一思想的主要算法有K-means算法、K-medoids算法、CLARANS算法等。
3) 基于密度的方法與其它方法的最要區別在于:它不基于各種距離,而是從數據對象的分布密度出發,將密度足夠大的相鄰區域連接起來,從而可以發現具有任意形狀的聚類,并能有效處理異常數據,它的代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法等。
4) 基于網格的方法則是從對數據空間劃分的角度出發,利用屬性空間的多維網格數據結構,將數據空間劃分為有限空間的單元,以構成一個可以進行聚類分析的網格結構。該方法的主要特點是處理時間與數據對象的數目無關,但與每維空間劃分的單元數相關,而且,這種方法還與數據的輸入順序無關,可以處理任意類型的數據,但是聚類的質量和準確性降低了,它的代表算法有STING算法[5]和CLIQUE算法等。
3.2 關聯規則
關聯規則是數據挖掘研究的重要內容,它描述了數據庫中一組對象與另一組對象之間存在的某種關聯關系。從大量商業記錄中挖掘有趣的關聯關系,有助于許多商務決策的制定,如分類設計、交叉購物等。關聯規則是形如A=>B的蘊涵式,表示形式如pen=>ruler [支持度=20%,置信度=60%],支持度和置信度分別反映規則的有用性和確定性,這條規則就意味著所有的顧客中有20%的人同時購買了鋼筆和直尺,而買了鋼筆的顧客的60%也買了直尺。在關聯規則中,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。如果一條關聯規則同時滿足最小支持度閾值和最小置信度閾值,就認為它是有趣的,并稱為強關聯規則。
關聯規則挖掘一般分為兩步:1) 找出所有頻繁項集,即滿足最小支持度的項集;2) 從頻繁項集中產生強關聯規則。最為著名的關聯規則挖掘算法就是R.Agrawal和R.Srikant于1994年提出的挖掘布爾關聯規則中頻繁項集的原創性算法Apriori。它使用一種稱作逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描數據庫,累積每個項的計數,并收集滿足最小支持度的項,找出頻繁1項集的集合。該集合記作L1。然后,L1用于找頻繁2項集的集合L2,L2用于找L3,如此下去,直到不能找到頻繁k項集。找每個Lk需要一次數據庫全掃描。
但是,Apriori算法也有其不足之處:1) 可能產生大量的候選集;2) 生成每個Lk都需要重復掃描數據庫。后來,陸續出現了一系列Apriori算法的改進算法,以及其他的關聯規則挖掘算法,比如RIApriori算法、Apriori-improve算法、FP-growth算法等,這大大提高了關聯規則挖掘的速度和準確性,也推動了關聯規則挖掘理論的進一步發展。
3.3 決策樹算法
決策樹是一種類似于流程圖的樹結構,每個內部節點(非樹葉節點)表示在一個屬性上測試,每個分支代表一個測試輸出,而每個樹葉節點(或終節點)存放一個類標號。決策樹算法主要圍繞決策樹的兩個階段展開:第一階段,決策樹的構建,通過遞歸的算法將訓練集生成一棵決策樹;第二階段,由測試數據檢驗生成的決策樹,消除由于統計噪聲或數據波動對決策樹的影響,來達到凈化樹的目的,得到一棵正確的決策樹。常見的決策樹算法主要有ID3算法[6]、C4.5算法、CART算法、SPRINT算法等。
3.4 遺傳算法
遺傳算法是基于進化理論,并采用遺傳結合,遺傳變異,自然選擇等設計方法的一種進化計算算法的優化算法。進化計算算法的基礎是生物進化,隨著時間的流逝,進化出更好的或更適應的個體。在數據挖掘中,遺傳算法可以用于評估聚類、關聯規則等算法的適合度。在應用遺傳算法解決問題時,最困難的一步應該是怎樣將問題建模成一組個體的集合,然后在計算中,首先假設一個初始模型,然后對其反復進行雜交技術和變異技術的算法,最后用適應度函數確定初始集合中應該保留的那個最優個體。這個算法的優點在于容易并行化,但是對問題進行建模很困難,雜交變異過程以及適應度函數也很難確定。
4 結束語
隨著數據量的積累和數據庫種類的多樣化,數據挖掘的應用前景非常的廣闊,從上面對各種常見算法的歸納可以看出,每種算法都有局限性,很難采用單一的方法解決相應的問題,因此,多方法融合將成為數據挖掘未來的發展趨勢。
參考文獻:
[1] 韓家煒,堪博.數據挖掘:概念與技術[M].2版.范明,孟小峰,譯.北京:機械工業出版社,2007.
[2] 曾瑩,陳曉.數據挖掘及算法淺談[J].中國科技信息,2005(14):75.
[3] 鄒志文,朱金偉.數據挖掘算法研究與綜述[J].計算機工程與設計,2005,26(9):2304-2307.
[4] 賀玲,吳玲達,蔡益朝.數據挖掘中的聚類算法綜述[J].計算機應用研究,2007(1):10-13.
[5] Wang W,Yang J,Muntz R.STING:A statistical information grid approach to spetial data mining[C].Twenty―third international conference on very large data bases,l997.
[6] Quinlan J R.Introduction of decision trees[J].Machine Leaming,1986(1):81-106.
關鍵詞:Web數據挖掘;挖掘過程;挖掘技術
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2009)15-3852-02
The Summary of Web Mining Technology
PAN Zheng-gao1,2
(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)
Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.
Key words:Web Mining; Mining Course; Mining Technology
1 引言
隨著Internet的發展,Web信息迅速膨脹,如何從海量的Web信息中快速和準確地獲取有用信息已經成為近幾年數據挖掘領域研究的熱點。Web上的數據與其他的數據相比較存在著明顯的特點,這些特點使得Web挖掘在方法和技術方面與傳統的數據挖掘有著顯著的不同。
2 Web數據挖掘的概念
Web數據挖掘(Web Mining),簡稱Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是數據挖掘技術和Internet應用研究相結合的研究領域。一般,對Web數據挖掘定義如下:Web數據挖掘是指Web從文檔結構和使用的集合C中發現隱含的模式P。如果將C看作輸入,P看作輸出,則Web挖掘的過程就是從輸入到輸出的一個映射[2]。
Web挖掘是指從大量的Web數據中發現新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規則、規律、約束及可視化等形式)的非平凡過程。Web挖掘是數據挖掘技術和Internet應用研究相結合的產物,其涉及的技術覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、機器學習、神經網絡等。
3 Web數據的特點[3]
1) 異構數據庫環境。Web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點的信息和組織都不一樣,這就構成了一個巨大的異構數據庫。
2) 分布式數據源。Web頁面散布在世界各地的Web服務器上,形成了分布式數據源。
3) 半結構化。半結構化是Web上數據的最大特點。Web上的數據非常復雜,沒有特定的模型描述,是一種非完全結構化的數據,稱之為半結構化數據。
4) 動態性強。Web是一個動態性極強的信息源,信息不斷地快速更新,各站點的鏈接信息和訪問記錄的更新非常頻繁。
5) 多樣復雜性。Web包含了各種信息和資源,有文本數據、超文本數據、圖表、圖像、音頻數據和視頻數據等多種多媒體數據。
4 Web數據挖掘的分類
Web挖掘技術根據挖掘的方向一般分為三類:Web內容挖掘,Web結構挖掘和Web使用記錄的挖掘。
4.1 Web內容挖掘(WCM,Web Content Mining)
Web內容挖掘是指從大量的Web數據中發現信息、抽取知識的過程。這些Web數據的形式有Web頁面、Web頁面上各種鏈接所指向的內容以及網絡數據庫里的數據等。從內容方面,Web內容挖掘可分為Web文本挖掘和Web多媒體挖掘,它們的不同在于提取的特征不同。從方法上,Web內容挖掘可分為數據庫方法和信息抽取方法。
4.2 Web結構挖掘(WSM,Web Structure Mining)
Web結構挖掘是從Web的組織結構、Web文檔結構與其鏈接關系中挖掘潛在的知識和模式。通過對Web結構的分析,可以發現頁面結構和鏈接關系中所蘊涵的有用模式;也可以對頁面及其鏈接進行分類和聚類,發現權威頁面。有關這方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改進的HITS(將內容信息加入到鏈接結構中去)、Hub/authority(Kleinberg,1998)[4]。
4.3 Web使用挖掘(WUM,Web Usage Mining)
Web使用挖掘是應用數據挖掘技術從Web數據中發現用戶訪問模式的過程[5]。它可以幫助我們提高Internet信息服務的質量,改進Web服務器的系統性能和結構。
5 Web數據挖掘過程
Web數據挖掘過程是一個完整的KDD過程,但是與傳統的數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態的、并且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的處理流程如圖1所示,包括如下四個過程:
1) 查找資源:根據挖掘目的,從Web資源中提取相關數據,構成目標數據集,Web數據挖掘主要從這些數據通信中進行數據提取。其任務是從目標Web數據(包括Web文檔、電子郵件、電子文檔、新聞組、網站日志、網絡數據庫中的數據等)中得到數據。
2) 數據預處理:在進行Web挖掘之前對“雜質”數據進行過濾,例如消除數據的不一致性;將多個數據源中的數據統一為一個數據存儲等。預處理數據的效果直接影響到挖掘算法產生的規則和模式。數據預處理主要包括站點識別、數據選擇、數據凈化、用戶識別和會話識別等。
3) 模式發現:利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發現技術包括:路徑分析、關聯規則挖掘、時序模式發現、聚類和分類等技術。
4) 模式分析:利用合適的工具和技術對挖掘出來的模式進行分析、解釋、可視化,把發現的規則模式轉換為知識。
6 常用的數據挖掘技術
6.1 路徑分析技術
我們通常采用圖的方法來分析Web頁面之間的路徑關系。G=(V,E),其中:V是頁面的集合,E是頁面之間的超鏈接集合,頁面定義為圖中的頂點,而頁面間的超鏈接定義為圖中的有向邊。頂點v的入邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網站的結構圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術常用于進行改進站點的結構。如70%的用戶訪問/company/product時,是從/company開始,經過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產品的點擊率。
6.2 關聯規則技術
關聯規則挖掘技術主要用于從用戶訪問序列數據庫的序列項中挖掘出相關的規則,就是要挖掘出用戶在一個訪問期限(Session),從服務器上訪問的頁面文件之間的聯系,這些頁面之間并不存在直接的參引(Reference)關系。使用關聯規則可以發展很多相關信息或產品服務。例如:某信息A和B,同時被很多用戶瀏覽,則說明A和B有可能相關。同時點擊的用戶越多,其相關度就可能越高。系統可以利用這種思想為用戶推薦相關信息或產品服務。如當當電子書店就采用了這一模式用以推薦相關書目。當你選擇某本圖書時,系統會自動給你推薦信息,告知“很多讀者在購買此書時還購買的其他書目”。ACM數字圖書館也采用了這一思想,推出信息推薦服務“Peer to Peer”。
6.3 序列模式挖掘技術
序列模式數據挖掘技術就是要挖掘出交易集之間的有時間序列關系的模式。它與關聯挖掘技術都是從用戶訪問下的日志中尋找用戶普遍訪問的規律,關聯挖掘技術注重事務內的關系,而序列模式技術則注重事務之間的關系。發現序列模式,便于預測用戶的訪問模式,有助于開展基于這種模式的有針對性的廣告服務。依賴于發現的關聯規則和序列模式,能夠在服務器方動態地創立特定的有針對性的頁面,以滿足訪問者的特定需求。
6.4 聚類分類技術
分類規則可挖掘出某些共同的特性,而這一特性可對新添加到數據庫中的數據項進行分類。在Web數據挖掘中,分類技術可根據訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務器文件的用戶特征。而聚類技術則是對符合某一訪問規律特征的用戶進行用戶特征挖掘。發現分類規則可以識別一個特殊群體的公有屬性的描述,這種描述可以用于分類新的檢索。如政府機關的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數據庫中聚集出具有相似特性的用戶群。在Web事務日記中聚類用戶信息或數據項能夠便于開發和執行未來的市場戰略。這些事務信息可以用在:在找出用戶共同興趣后,進行合作式信息推薦,共同體的成員可以互相推薦新的滾動信息;自動給一個特定的用戶聚類發送銷售郵件,為用戶聚類動態地改變一個特殊的站點等。
7 Web挖掘的研究熱點[6]
在未來一段時間內,Web挖掘研究的焦點可能會集中到以下幾個方面:
1) 高性能Web搜索引擎。盡管搜索引擎性能已有了較大提高,但搜索引擎的最終目標是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業搜索請求,實現自然語言處理,涉及興趣爬蟲、元搜索引擎、垂直搜索、移動搜索和多媒體搜索等方面的研究。
2) Web數據的特征描述與監控。如何表示Web文本內容的特征數據,如何表示和識別Web中的圖像、flash等多媒體數據,進而進行網頁分類、內容跟蹤、過濾和報警等,對于不良網站的監控等有著積極意義。
3) Web數據的獲取與集成。包括Web文本特征的提取和表示,如何用一種廣泛兼容的半結構化數據模型表示網頁;如何抽取動態網頁中的數據;如何在分布的Web中獲取信息;如何在指定網頁中快速定位所需的數據區;如何利用數據庫和數據倉庫技術查詢和存儲Web內容等。
4) Web數據流挖掘。Web日志、cookie、點擊流等流式數據量巨大,如何識別和過濾爬蟲的訪問信息;如何有效收集和處理日志以外的訪問數據;如何有效標識用戶、設置用戶會話時間等。
5) 安全與非法訪問檢測。如何評價Web數據信息本身的可靠和安全性;如何對Web內容、郵件、各種日志和用戶訪問行為的分析,識別出威脅、欺詐、入侵、無用的數據和異常行為,從而構建安全的網絡環境。
6) 個性化與安全隱患。如何跟蹤、學習和表達多變的用戶興趣及行為模式,在個性化服務中過濾信息,實現商業應用,在提醒個性化服務時不侵犯用戶隱私等都是亟待決的問題。
7) 基于Web的模式分析技術和工具。如何將Web挖掘的結果在瀏覽器中可視化地表達,包括統計、關聯、聚類、分類等工具開發等。
8) Web挖掘的算法改進與質量評估。由于Web數據本身的特點,使得Web挖掘不能照搬數據挖掘的理論和技術,而需要對現有的算法等方面都進行改進。Web挖掘算法和挖掘系統的性能通常需要大量用戶的反饋,實際運行測試,因而缺乏有效的評價模式。
9) Web挖掘在社會領域的應用。Web已經是人類社會活動的一面鏡子,如何在Web中發現社會現象、問題和熱點的規律,為社會學家、經濟學家、教育學者提供有價值的知識。
此外,分布式Web挖掘、語義Web挖掘、無線網絡下的Web挖掘、Web2.0時代的Web挖掘、多語言環境下的Web挖掘等是值得研究的方向。同時,Web挖掘技術應用于具體領域的研究將持續受到關注,例如,銀行證券、企業ERP、醫療衛生、農業、電子商務、網絡教學、BLOG等。
8結束語
Web挖掘技術是一個新興的研究領域,對它的研究和應用正在成為一個熱點。伴隨著Internet的快速發展,Web挖掘技術的研究和發展將會迎來更好的契機。
參考文獻:
[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).
[2]王玉珍.Web數據挖掘的分析與探索[J].計算機發展與應用,2003;(4).
[3]張藝雪.Web上的數據挖掘及應用[J].信息科技,2007;(3)115-116.
[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.
【關鍵詞】數據倉庫 數據挖掘 技術 應用
信息時代背景下,傳統數據庫主要是面向事務并存儲在線交易的數據信息,但是無法為人們找到信息中隱藏的重要內容。因此社會發展新形勢下,數據倉庫與挖掘技術應運而生,并成為企業現代化發展的重要應用技術,不僅能夠提高數據信息管理能力,還能夠促進企業發展。因此加強對該課題的研究具有積極意義。
1 數據倉庫及數據挖掘技術概念
所謂數據倉庫技術設計靈感來自于傳統數據庫技術,其主要是在計算機中實現數據存儲的一種技術。但是相比較傳統數據庫,二者存在本質上的差別。數據倉庫的出現并未取代傳統數據庫,二者共存在信息時代,且發揮自身獨特的優勢。數據庫主要存儲在線交易數據,且盡量避免冗余,通常采取符合范式規則設計;而數據倉庫在設計過程中有意引入冗余,采取反范式方式實現設計目標。
而數據挖掘技術是在數據集合基礎之上,從中抽取隱藏在數據當中的有用信息的非平凡過程。這些信息表現形式呈現多樣化,如概念、規則等。它在具體應用過程中,不僅能夠幫助決策者分析歷史與當前數據信息,還具有預見作用。就本質上來看,數據挖掘過程也是知識發現的過程。數據挖掘技術是多個學科綜合的結果,對此其融合了多項技術功能,如聚類、分類及預測等,且這些功能并非獨立存在,而是存在相互依存關系。
2 數據倉庫與挖掘技術的應用
2.1 數據倉庫技術的應用
作為信息提供平臺,其從業務處理系統中獲得數據,并以星型與雪花模型實現對數據的有效組織。一般情況下,它具體應用主要表現在四個方面:
2.1.1 抽取數據信息
數據倉庫具有獨立性,在應用中需要從事務處理系統、外部數據源等介質當中獲取數據,并設置定時抽取,但需要合理控制操作時間、順序等,以提高數據信息有效性。
2.1.2 存儲和管理數據
作為數據倉庫的關鍵,數據存儲及管理模式直接決定其自身特性。因此該方面工作需要從技術特點入手,并積極解決對各項業務并行處理、查詢優化等問題。
2.1.3 表現數據
數據表現作為數據倉庫的開端,集中在多位分析、數理統計等多個方面。其中多維分析是數據倉庫的核心,也是具體表現形式,而通過數據統計能夠幫助企業抓住機遇,實現經濟效益最大化目標。
2.1.4 技術咨詢
數據倉庫的出現及應用并不簡單,其是一個系統性的解決方案和工程。實施數據倉庫時,技術咨詢服務十分重要,是一個必不可少的部分,對此在應用中,應加強對技術咨詢的關注力度。
2.2 數據挖掘技術在各領域中的應用
不同于傳統時代,社會各領域在參與激烈的市場競爭過程中,充分認識到數據對自身長遠發展戰略實現的重要性。因此數據挖掘技術在當前各行業發展中隨處可見。
2.2.1 應用于醫學方面,提高診斷準確率
眾所周知,人體奧秘無窮無盡,遺傳密碼、人類疾病等方面都蘊含了海量數據信息。而傳統研究模式,單純依靠人工無法真正探索真正的秘密。而利用數據挖掘技術能夠有效解決這些問題,給醫療工作者帶來了極大的便利。同時,醫療體制改革背景下,醫院內部醫療器具的管理、病人檔案資料整理等方面同樣涉及數據,引進數據挖掘技術,能夠深入分析疾病之間的聯系及規律,幫助醫生診斷和治療,以達到診斷事半功倍的目標,且為保障人類健康等提供強大的技術支持。
2.2.2 應用于金融方面,提高工作有效性
銀行及金融機構中涉及儲蓄、信貸等大量數據信息。利用數據挖掘技術管理和應用這些數據信息,能夠幫助金融機構更好地適應互聯網金融時代的發展趨勢。提高金融數據完整、可靠性,為金融決策提供科學依據。金融市場變幻莫測,要想在競爭中提升自身核心競爭力,需要對數據進行多維分析和研究。在應用中,特別是針對偵破洗黑錢等犯罪活動,可以采取孤立點分析等工具進行分析,為相關工作有序開展奠定堅實的基礎。
2.2.3 應用于高校日常管理方面,實現高校信息化建設
當前,針對高校中存在的貧困大學生而言,受到自身家庭等因素的影響,他們學業與生活存在很多困難。而高校給予了貧困生很多幫助。對此將數據挖掘技術引入到貧困生管理工作中,能夠將校內貧困生群體作為主要研究對象,采集和存儲在校生生活、學習等多方面信息,然后構建貧困生認定模型,并將此作為基礎進行查詢和統計,為貧困生針對管理工作提供技術支持,從而提高高校學生管理實務效率,促進高校和諧、有序發展。
2.2.4 應用于電信方面,實現經濟效益最大化目標
現代社會發展趨勢下,電信產業已經不僅限于傳統意義上的電話服務提供商、而將語言、電話等有機整合成為一項數據通信綜合業務。電信網、因特網等網絡融合已經成為必然趨勢,并將成為未來發展的主要方向。在大融合影響下,數據挖掘技術應用能夠幫助運營商業務運作,如利用多維分析電信數據;或者采取聚類等方法查找異常狀態及盜用模式等,不斷提高數據資源利用率,更為深入地了解用戶行為,促進電信業務的推廣及應用,從而實現經濟效益最大化目標。
3 結論
根據上文所述,數據倉庫與挖掘技術作為一項新型技術,在促進相關產業發展等方面占據十分重要的位置。因此在具體應用中,除了要積極明確數據倉庫與傳統數據庫之間的差別之外,還應切實結合實際情況,積極引入數據挖掘技術,充分挖掘和探索數據信息中的重要內容,為制定科學決策提供支持,同時還應加大對技術的深度研究,不斷提高技術應用水平,從而為用戶帶來更大的利益。
參考文獻
[1]陳宏.淺談數據倉庫與數據挖掘技術及應用[J].科技廣場,2011,09:90-93.
[2]崔愿星.淺析數據倉庫與數據挖掘的應用[J].內江科技,2014,01:141-142.
[3]王慧.數據倉庫和數據挖掘在醫院信息系統中的應用[J].電腦開發與應用,2014,01:76-78.
[4]靳鑫.淺析數據倉庫和數據挖掘[J].中國新通信,2012,11:29-31.
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
[關鍵詞] 數據挖掘 商業決策 數據分析
一、應用數據挖掘技術支撐商業管理理念的實施
商業管理理論及理念的研究一直沒有停歇,那面是“二八原則”,這面又是“藍平長二”,無論是什么,其宗旨都是為使企業能在激烈的商業競爭中審時度勢,迅速出擊,知己知彼,百戰不殆。任何好的商業決策都必須及時、準確,有真實可靠的事實與數據為依據。商業組織如果感覺不靈敏,很容易陷入“夜半臨深池”的危險境地卻不自知,有先進的管理理念也無濟于事。面對日益復雜的競爭環境,數據挖掘技術應運而生。
數據挖掘技術基于人工智能、機器學習、統計學等技術,可高度自動化地從深層次上分析商業組織在運營過程中積累的海量業務數據,抽取重要信息,使商業組織大大提高認知其組織內外環境的能力,靈活應對突發事件,迅速制定合理決策,使先進的商業管理理念落到實處。
二、數據挖掘功能及其所能解決的典型商業問題
1.關聯分析
關聯分析是從大量的數據中發現項集之間相關關系或因果結構的數據分析方法。通過對大量銷售數據的分析,可以發現兩種或多種商品之間存在的關聯關系,據此可改變商品的擺放位置,制定捆綁銷售等策略。亞馬遜及當當等購物網站在用戶選擇商品后及時給出的其他商品的推介就是利用關聯分析得到的。
2.分類與預測
分類與預測是通過對當前數據集合的描述以識別未知數據的歸屬或預測未來數據的發展趨勢。通過對大量銷售數據的分析,可以確定特定客戶的興趣、消費習慣、消費傾向和消費需求,進而推斷其下一步的消費行為,據此進行定向營銷和推送服務,必將大大節省營銷成本,獲得良好的營銷收益。
3.聚類分析
聚類就是按照事物的某些屬性把事物聚集成類。聚類之前類的數量及類的特征都是未知的。應用聚類技術能發現不同客戶群并刻畫出客戶群的特征,據此制定營銷策略和客戶服務策略,如超市根據客戶聚集地中心點制定班車路線,制定商品宣傳策略等。
4.孤立點分析
數據庫中包含的與其他數據行為或模型不一致的數據對象稱為孤立點,在數據庫中查找識別孤立點的技術即為孤立點分析。在銀行、電信等行業的業務數據中發現的孤立點可能預示著欺詐行為,盡早識別,可以為企業減少不必要的經濟損失。另外可用于網絡的入侵檢測,生態系統的失調檢測,特殊病種檢測等。
5.時序演變分析
時序演變分析是建立事件或對象行為隨時間變化的規律或趨勢的模型。據此方法利用股市交易信息可分析股市的波動趨勢,利用商業交易信息可分析出產品的銷量變化趨勢、目標市場發展趨勢等,利用天氣狀況數據可分析天氣的變化趨勢等。
6.文本信息抽取
文本信息抽取是從非結構化的文本中提取重要信息的過程。利用該技術可獲取競爭情報,可從新聞等文本中動態抽取日期、地點和人物等信息,并借助關聯分析方法進一步識別出產品、企業、人、事件和地點之間的關系,使企業對競爭環境的感知更敏銳。
7.Web挖掘
Web挖掘是指從網絡環境中提取有價值信息的過程。如搜索引擎的應用;如分析網站的參觀者和購買者的高頻率瀏覽路徑,以確定用戶對某產品的需求,發現用戶的個人喜好,發現用戶的去留傾向……據此可改變網頁的設置,為用戶提供個性化服務,改變受歡迎產品的經營和宣傳策略等。
三、數據挖掘流程及所面對的問題
數據挖掘流程可描述為“數據選擇數據預處理數據挖掘模式評估知識表示”。
數據挖掘首先根據分析目標從數據源中選取與業務相關的數據。數據源是存儲業務數據的數據庫或數據倉庫。選取的數據通常會存在不完整、含噪聲(錯誤數據)、不一致等問題,需要預處理數據使數據適合于挖掘。在這一過程中元數據起了非常重要的作用。
數據挖掘之前必須選定數據挖掘模型,即先做出某種假定,關聯分析、聚類分析及分類與預測為不同的挖掘模型。分析商品銷售數據時假定其中某些商品具有相關性,則選擇關聯分析模型,若挖掘的結果找到了產品A的購買帶來產品B的購買則是具體的模式。最終需要評測這種模式是不是真實有效且對商業決策有指導意義(模型評估,利用興趣度度量加人的識別),保留有意義的模型,并用一種用戶容易理解的方式表達出來(知識表示)。
數據的選擇和預處理會直接影響數據挖掘的結果。另外任何一種挖掘模型和挖掘算法都不是萬能的,不同的商業問題需要用不同的方法去解決。對于特定的商業問題和特定數據可能有多種算法,需要評估以選取最佳算法。
四、總結
數據挖掘作為正在興起并得到廣泛應用的信息技術具有巨大的商業價值,特別是在銀行、電信、保險、交通、網上商城、超市等商業領域都有很好的表現。數據挖掘技術可以組織并深層次分析企業積累的海量業務數據,預測客戶行為,預測產品狀況,預測市場走勢,幫助決策者正確判斷即將出現的機會,調整策略,減少風險。因此利用數據挖掘技術必將大大提高商業組織利用信息的能力,使得信息更好地為決策服務。
但數據挖掘不是萬能的,在實際應用中還要受到許多限制。有足夠的合適的數據,選擇恰當的模型和算法,有決策者的支持等都是有效應用數據挖掘技術的必要條件。
參考文獻:
[1]李佩鈺等:藍平長二 商業理論洛陽紙貴,biz.省略
[2]欒世武:數據挖掘給企業應用帶來什么,省略ki.省略
[關鍵詞]計算機;數據;挖掘技術
中圖分類號:TP31 文獻標識碼:A 文章編號:1009-914X(2015)33-0244-01
計算機數據挖掘技術的產生是社會的一種進步,了解計算機數據挖掘對我們來說非常的重要,計算機數據挖掘技術對于龐大的數據有著整理分析的作用,這不僅僅對于企業的工作產生了巨大的作用,還對日常工作 生活等也提供重要的幫助。
1 計算機數據挖掘的概念及對象
1.1 計算機數據挖掘的概念
計算機數據挖掘是在社會的發展進入了網絡信息時代之后產生的網絡衍生產品,計算機數據挖掘主要是通過一定的手段對企業內部進行數據挖掘,然后通過一定的分析,對那些通過數據挖掘得到的數據進行整理,進而分析企業的市場以及企業的發展等等問題。計算機數據挖掘對處于網絡信息時代之中的企業來說非常重要,它是處于網絡信息時代之中的企業長遠發展的助推器,作為處于信息時代的企業要抓住這個促進自己發展的大好契機。
1.2 計算機數據挖掘的對象
計算機數據挖掘具有一定的針對性,計算機數據挖掘的對象(目標數據)并不是所有的數據,它是具有選擇性的,計算機數據挖掘的對象主要是指企業中能夠揭示一些未發現的隱藏信息和企業中比較有意義和研究價值的數據,明確這一點非常的重要,計算機數據挖掘的對象的選擇性是影響計算機數據挖掘效率的主要因素,對于一個沒有充分認識計算機數據挖掘對象的選擇性的企業來說,它的計算機數據挖掘的效率會比成熟的計算機數據挖掘的企業或者是充分認識到計算機數據挖掘的對象的選擇性的企業要低得多。同時,明確目標數據的類型也非常重要,它直接決定了要使用的數據挖掘技術和方法,大體上數據類型分為三類:記錄數據,給予圖形的數據和有序的數據。
2 計算機數據挖掘的任務及過程
2.1 計算機數據挖掘的任務
計算機數據挖掘主要是對海量的數據進行挖掘和分析,必須經過計算機數據準備和計算機數據規律尋找的固定過程,在計算機數據挖掘的過程中,計算機數據準備和計算機數據規律的尋找一個都不能少,我們要做好計算機數據挖掘的每一步,計算機數據挖掘的任務主要有對計算機數據挖掘的結果與企業的市場現狀進行一個具體的聯系、對計算機數據挖掘的結果進行一定的分類,對計算機數據挖掘的結果進行一定的變異分析。在處理計算機數據挖掘的任務時,我們要完成計算機數據挖掘的每一個任務,首先,對計算機數據挖掘的結果與企業的市場現狀進行一個具體的聯系是計算機數據挖掘的根本任務,而對計算機數據挖掘的結果進行一定的分類是計算機數據挖掘的主要任務,最后對計算機數據挖掘的結果進行一定的變異分析是計算機數據挖掘的必要任務。
2.2 計算機數據挖掘的過程
計算機數據挖掘的過程具有一定的復雜性,計算機數據挖掘的基本過程:第一,對計算機數據的來源進行一定的分析。這一步非常的重要,一個完整的計算機數據挖掘的過程必須以這一步為基礎,只有對計算機數據的來源進行一定的分析,我們才能夠進行下一步的操作;第二,從計算機數據的來源的分析結果中獲取一定的信息,然后我們要對計算機數據的來源的分析結果進行研究,在研究的過程中,我們要查閱相關的專業知識和專業的研究數據挖掘的技術,只有具備了相關的專業知識和專業的研究數據挖掘的技術,我們才能夠更好地對計算機數據進行挖掘;第三,對計算機數據挖掘的信息進行一定的整合,檢查出不太合理的相關信息;第四,數據挖掘的實施。根據挖掘具體任務選擇相應的數據挖掘實施算法;第五,結果評估與整理。在完成實施階段后,要對數據挖掘結果進行評估和整理,完成整個數據挖掘的過程。
3 計算機數據挖掘的技術應用挑戰
計算機數據挖掘最大的應用領域就是商業領域,它能夠為商業機構提供欺詐偵查和客戶市場分類等數據。在這個高速發展的信息時代,網絡是商業發展的主要推動因素,我們要使計算機數據挖掘在商業上的應用領域更廣。
3.1 在金融企業的應用及重要作用
金融企業是具有一定風險的企業,其重要的就是要對投資的風險做出評估,這樣,才能在我們金融企業進行投資時把風險降到最低。這時,金融企業就利用計算機數據挖掘技術對我們的投資項目進行評估預測。如:在企業收購股票時,就要根據這只股票歷史走向的數據做,從而做出評估,在做出較為精準的判斷和選擇。在金融業涉及到借貸款的問題時,企業要根據貸款對象日常的誠信做出調查,然后再進行數據的挖掘統計,從而判斷出貸款對象是屬于低風險還是高風險。由此可見,計算機數據挖掘技術對金融企業的投資、貸款有著重要的作用。
3.2 電子商務企業的應用
電子商務企業最注重的便是網站的瀏覽量和點擊率及與客戶的成交單子的數量。企業如何提高網站的瀏覽量和點擊率和用戶的交易數量就成了問題的核心。電子商務企業可以根據用戶在瀏覽網頁時的收藏物品的情況、購物車的情況、成交記錄的情況進行物品的推薦。這就需要應用技術數據挖掘技術對用戶的一系列情況做出數據的整合。通過數據的分析推薦的商品,及時客戶最終沒有購買,也會增加該物品的瀏覽量,這也使得我們電子商務的瀏覽量得到提升,從而增加企業在該行業的競爭力。
3.3 企業競爭的應用
社會經濟在不斷的發展進步,隨著而來的相同企業的數量也在不斷的增加,如何在眾多相同的企業里脫穎而出是所有企業思考的問題。一個企業除了要具有自己的特色之外,還要充分了解對手的情況,這時,就需要我們的企業利用計算機數據挖掘技術對競爭企業進行系統的分析調差,這樣,才能做到充分了解對手。吸取競爭對手的長處,在看到企業的短處時,也要使自己的企業避免相似的問題出現。所以,計算機數據挖掘技術在企業相互競爭時起著不可忽視的重大作用。
3.4 計算機數據挖掘技術面臨的挑戰
數據挖掘技術面臨的最大挑戰就是隱私的保護和數據的安全性問題。當數據在不同的抽象級別視角去考察的時候,數據挖掘對隱私和數據安全就構成了威脅。它威脅到保持數據安全和防止干涉隱私的目標的實現。
4 結語
社會的科技在不斷的發展進步,而計算機數據挖掘技術在我們的社會生活中的不同領域都發揮著其最大的作用。計算機數據挖掘技術將會在各個領域得到廣泛的應用,并對人類的活動產生深遠的影響。
參考文獻
一、海量數據挖掘關鍵技術隨時代而變化
所謂海量數據挖掘,是指應用一定的算法,從海量的數據中發現有用的信息和知識。海量數據挖掘關鍵技術主要包括海量數據存儲、云計算、并行數據挖掘技術、面向數據挖掘的隱私保護技術和數據挖掘集成技術。
1.海量數據存儲
海量存儲系統的關鍵技術包括并行存儲體系架構、高性能對象存儲技術、并行I/O訪問技術、海量存儲系統高可用技術、嵌入式64位存儲操作系統、數據保護與安全體系、綠色存儲等。
海量數據存儲系統為云計算、物聯網等新一代高新技術產業提供核心的存儲基礎設施;為我國的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲系統已經使用到石油、氣象、金融、電信等國家重要行業與部門。發展具有自主知識產權、達到國際先進水平的海量數據存儲系統不僅能夠填補國內在高端數據存儲系統領域的空白,而且可以滿足國內許多重大行業快速增長的海量數據存儲需要,并創造巨大的經濟效益。
2.云計算
目前云計算的相關應用主要有云物聯、云安全、云存儲。云存儲是在云計算(cloud computing)概念上延伸和發展出來的新概念,是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。
當云計算系統運算和處理的核心是大量數據的存儲和管理時,云計算系統中就需要配置大量的存儲設備,那么云計算系統就轉變成為一個云存儲系統,所以云存儲是一個以數據存儲和管理為核心的云計算系統。
3.并行數據挖掘技術
高效率的數據挖掘是人們所期望的,但當數據挖掘的對象是一個龐大的數據集或是許多廣泛分布的數據源時,效率就成為數據挖掘的瓶頸。隨著并行處理技術的快速發展,用并行處理的方法來提高數據挖掘效率的需求越來越大。
并行數據挖掘涉及到了一系列體系結構和算法方面的技術,如硬件平臺的選擇(共享內存的或者分布式的)、并行的策略(任務并行、數據并行或者任務并行與數據并行結合)、負載平衡的策略(靜態負載平衡或者動態負載平衡)、數據劃分的方式(橫向的或者縱向的)等。處理并行數據挖掘的策略主要涉及三種算法:并行關聯規則挖掘算法、并行聚類算法和并行分類算法。
4.面向數據挖掘的隱私保護技術
數據挖掘在產生財富的同時也隨之出現了隱私泄露的問題。如何在防止隱私泄露的前提下進行數據挖掘,是信息化時代各行業現實迫切的需求。
基于隱私保護的數據挖掘是指采用數據擾亂、數據重構、密碼學等技術手段,能夠在保證足夠精度和準確度的前提下,使數據挖掘者在不觸及實際隱私數據的同時,仍能進行有效的挖掘工作。
受數據挖掘技術多樣性的影響,隱私保護的數據挖掘方法呈現多樣性。基于隱私保護的數據挖掘技術可從4個層面進行分類:從數據的分布情況,可以分為原始數據集中式和分布式兩大類隱私保護技術;從原始數據的隱藏情況,可以分為對原始數據進行擾動、替換和匿名隱藏等隱私保護技術;從數據挖掘技術層面,可以分為針對分類挖掘、聚類挖掘、關聯規則挖掘等隱私保護技術;從隱藏內容層面,可以分為原始數據隱藏、模式隱藏。
5.數據挖掘集成技術
數據挖掘體系框架由三部分組成:數據準備體系、建模與挖掘體系、結果解釋與評價體系。其中最為核心的部分是建模與挖掘體系,它主要是根據挖掘主題和目標,通過挖掘算法和相關技術(如統計學、人工智能、數據庫、相關軟件技術等),對數據進行分析,挖掘出數據之間內在的聯系和潛在的規律。大體上,數據挖掘應用集成可分為幾類:數據挖掘算法的集成、數據挖掘與數據庫的集成、數據挖掘與數據倉庫的集成、數據挖掘與相關軟件技術的集成、數據挖掘與人工智能技術的集成等。
二、海量數據挖掘應用廣泛但深度不足
2011年中國數據挖掘軟件市場規模達接近2億元,2012-2014年還將快速增長。從數據挖掘應用行業上看,國內大多數的用戶都來自電信、銀行、保險、稅務、政府等領域。應用主題主要包含:消費者行為分析、信用評分與風險管理、欺詐行為偵測、購物籃分析等方面。目前,國內數據挖掘應用仍停留在初級階段,行業企業大規模的運用數據挖掘技術尚需時日。
1.國內數據挖掘應用可分為3個層次
從數據挖掘應用層次上看,大體可以分為三個層次:第一層次是把挖掘工具當作單獨的工具來用,不用專門建設系統;第二層次則是把數據挖掘模塊嵌入到系統中,成為部門級應用;第三層次是企業級應用,相當于把挖掘系統作為整個企業運營的中央處理器。目前,國內的數據挖掘應用的企業基本處于第一層次,偶爾某些企業用戶能夠做到第二層次。
2.國內有代表性的數據挖掘行業應用情況簡評
(1)通信業:國內應用數據挖掘的企業還是以通信企業(移動、聯通、電信)為首,應用的深度和廣度都處于領先地位。
(2)互聯網企業:隨著電子商務的普及,各大商務網站已經大規模使用數據挖掘技術,并且迅速從中取得商業價值。例如,國內很多網上商城已經開始使用數據挖掘技術進行客戶聚類或者商品關聯推廣。另外,搜索引擎企業使用數據挖掘技術的需求也非常迫切。
(3)政府部門:我國政府部門中使用數據挖掘技術比較領先的是稅務系統。數據挖掘在電子政務中的應用,更多的涉及到報表填制、數據統計。
(4)國內金融行業:操作型數據挖掘應用在國內金融行業應用廣泛,尤其是信貸評審領域。中小型銀行數據挖掘需求將是未來金融行業數據挖掘市場的主要增長點。未來5年時間里,數據挖掘應用在金融行業仍將高速發展。