前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算機數(shù)據(jù)挖掘技術的開發(fā)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:在信息化時代下,大數(shù)據(jù)的到來為社會變革提供了新的思路,從中也衍生出了數(shù)據(jù)挖掘技術,提高了數(shù)據(jù)處理效率和質(zhì)量。數(shù)據(jù)挖掘技術能夠從海量數(shù)據(jù)中找出用戶所需數(shù)據(jù),并保障數(shù)據(jù)挖掘的精度和利用率,是推動社會、產(chǎn)業(yè)發(fā)展的重要技術之一。基于此,筆者首先提出了數(shù)據(jù)挖掘的概念,然后分析了數(shù)據(jù)挖掘的相關技術,最后探究了數(shù)據(jù)挖掘的開發(fā)與應用。
關鍵詞:數(shù)據(jù)挖掘技術;大數(shù)據(jù);數(shù)據(jù)規(guī)約
1引言
在計算機不斷發(fā)展背景下,人們也正式步入了信息時代,計算機挖掘技術作為大數(shù)據(jù)時代的衍生品,在各個領域中的應用都十分廣泛,很大程度上推動了社會效益增長。數(shù)據(jù)挖掘技術讓數(shù)據(jù)庫技術發(fā)展到了更高階段,通過該項技術的應用不僅能夠查詢相關數(shù)據(jù)信息,而且能夠識別數(shù)據(jù)之間潛在數(shù)據(jù),保證數(shù)據(jù)挖掘的有效性,促進數(shù)據(jù)傳播。計算機挖掘技術發(fā)展不僅能夠豐富人們的生活,推動企業(yè)市場發(fā)展和調(diào)查工作,在各個領域中都發(fā)揮著極大的作用。所以,需要重點考慮如何充分利用數(shù)據(jù)挖掘技術發(fā)揮數(shù)據(jù)價值,從而推動行業(yè)、社會發(fā)展。
2數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘也被稱為資料探勘、數(shù)據(jù)采礦。作為數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟。數(shù)據(jù)挖掘技術通常是指在大量數(shù)據(jù)中采用相關算法搜索隱藏在大數(shù)據(jù)信息的過程。數(shù)據(jù)挖掘技術通常和計算機科學有著直接關系,采用統(tǒng)計、在線分析、檢索、機械學習以及模糊識別等技術實現(xiàn)信息搜索目標。數(shù)據(jù)挖掘技術的流程如下。第一步,信息收集。結合所確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需的特殊信息,之后采用相關信息收集方法,將自動搜索的信息存入到數(shù)據(jù)庫中。在大數(shù)據(jù)當中,選擇合適的數(shù)據(jù)管理和數(shù)據(jù)存儲技術是極為重要的。第二步,數(shù)據(jù)集成。將不同格式、領域與性質(zhì)的數(shù)據(jù)在物理層或邏輯層上集中,即可為企業(yè)或組織提供更加全面的信息數(shù)據(jù)。第三步,數(shù)據(jù)規(guī)約。采用數(shù)據(jù)挖掘相關算法,由于數(shù)據(jù)挖掘技術并未成熟,所以在數(shù)據(jù)挖掘效率上還有待提高,而商業(yè)運營數(shù)據(jù)往往較多,這就增加了數(shù)據(jù)挖掘難度。在此基礎上衍生出了數(shù)據(jù)規(guī)約技術,數(shù)據(jù)集可以應用規(guī)約表示,雖然數(shù)據(jù)體積變小;但是,可以保證數(shù)據(jù)的原始性,在規(guī)約后執(zhí)行數(shù)據(jù)挖掘結果和規(guī)約前執(zhí)行結果大致相同。第四步,數(shù)據(jù)清理。數(shù)據(jù)庫中并不一定是完整數(shù)據(jù),也有含噪聲數(shù)據(jù)、不一致數(shù)據(jù),這些數(shù)據(jù)需要過濾掉,精準的把完整、正確、一致的數(shù)據(jù)信息存儲到數(shù)據(jù)庫當中。第五步,數(shù)據(jù)變換。采用科學的聚集方法、數(shù)據(jù)概化法,將數(shù)據(jù)轉(zhuǎn)化成為可挖掘的數(shù)據(jù)形式。對于部分實數(shù)型的數(shù)據(jù),可以采用概念分層、數(shù)據(jù)離散化轉(zhuǎn)換數(shù)據(jù)方法實現(xiàn)轉(zhuǎn)化。第六步,數(shù)據(jù)挖掘(過程)。結合數(shù)據(jù)庫提供的數(shù)據(jù)信息,采用更加合理、適當?shù)姆治鲈摴ぞ撸ńy(tǒng)計方法、決策樹、事例推理、規(guī)則推理、模糊集、精神網(wǎng)絡以及模糊算法等技術,從而得出最終的有效信息。第七步,模式評估。從商業(yè)角度發(fā)展,各個行業(yè)專家對所挖掘的數(shù)據(jù)精準性進行評估。第八步,知識表示。將所挖掘的數(shù)據(jù)信息采用可視化技術呈現(xiàn)給用戶或者采用新型知識形式存放到數(shù)據(jù)庫當中,供其他程序使用。總之,數(shù)據(jù)挖掘技術在應用中適應反復循環(huán)的過程,如果其中一個步驟沒有達到預期目標,都要回到之前的步驟,重新執(zhí)行并調(diào)整。并不是每個數(shù)據(jù)挖掘工具都會在這里列出每一個步驟,如某個數(shù)據(jù)源中存在著多項數(shù)據(jù)種類,第二步的數(shù)據(jù)集成即可省略掉。在以上步驟當中,第三步三到第五步統(tǒng)稱之為數(shù)據(jù)預處理。在數(shù)據(jù)挖掘當中,主要的經(jīng)費都消耗在了第一步中,大量精力都要花費在數(shù)據(jù)預處理階段。
3數(shù)據(jù)挖掘技術開發(fā)工具分析
3.1神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡技術自身帶有十分強的組織適應性、魯棒性、處理能力、存儲能力(分布)以及高度容錯等,這些優(yōu)勢十分適用于數(shù)據(jù)挖掘體系。可以對大數(shù)據(jù)信息進行分類、預測、挖掘和識別,構建前饋式神經(jīng)網(wǎng)絡模型。其中,以hopfield的離散模型和連續(xù)模型為代表,可以實現(xiàn)優(yōu)化計算、聯(lián)想記憶的反饋式神經(jīng)網(wǎng)絡模型。以art模型、koholon模型為代表,主要應用在聚類自組織映射方法。但是,神經(jīng)網(wǎng)絡技術也存在弊端,就是其“黑箱”性,人們在應用神經(jīng)網(wǎng)絡時無法理解學習與決策的過程,執(zhí)行起來較為困難[1]。
3.2遺傳算法
該項技術作為一種基于生物自然選擇、遺傳機理的隨機搜索算法。遺傳算法決定了其“遺傳性”,也就是適應性,具有隱含并行性、可以和其他模型性質(zhì)結合等優(yōu)勢;因此,在數(shù)據(jù)挖掘技術中的應用十分廣泛。Sunil成功開發(fā)了一種以遺傳算法為核心的數(shù)據(jù)挖掘工具,通過利用該項技術對兩個飛機失事真實數(shù)據(jù)展開了數(shù)據(jù)挖掘試驗,結果證明遺傳算法是有效實現(xiàn)數(shù)據(jù)挖掘的技術之一。遺傳算法由于自身的遺傳性,注定了需要和相關技術結合使用,如神經(jīng)網(wǎng)絡、粗集等技術。遺傳算法的應用還能夠優(yōu)化神經(jīng)網(wǎng)絡結構,在能夠增加容錯率的前提下,將隱藏單元、多余連接刪除。結合bp算法可以訓練神經(jīng)網(wǎng)絡,并在網(wǎng)絡當中提取規(guī)則。遺傳算法的缺陷是自身結構十分復雜,很多較早的收斂問題尚未解決。
3.3決策樹
決策樹作為一種預測模型算法之一,該項技術可以將海量數(shù)據(jù)進行分類,并從數(shù)據(jù)當中找出更具價值、潛在優(yōu)勢的信息。決策樹在使用中具有分類效率高、描述簡單等優(yōu)勢,可以對大規(guī)模數(shù)據(jù)進行處理。最具影響、最早的決策樹是由quinlan提出的基于信息熵的id3算法,其主要的問題包括:id3是一種非遞增的學習方法;id3決策樹作為一種單變量決策樹,表達復雜概念較為困難;同性相互關系強調(diào)性能不足;缺乏抗噪性。針對這些問題,也在id3模型算法基礎上進行了升級,如有人提出了id4遞增式算法;有人提出了ible算法等。
3.4粗集
粗集作為一種結合理論,主要是用于研究不確定、不精準的數(shù)學工具。該項理論的優(yōu)勢表現(xiàn)在:不需要給出額外信息;簡化輸入信息的表達空間;算法簡單、容易操作。該項技術處理對象類似二維關系信息表。粗集數(shù)學基礎作為一種集合論,無法直接處理連續(xù)的信息屬性。并且在現(xiàn)實的信息表當中連續(xù)屬性普遍存在。所以,制約粗集理論實用化的因素就是連續(xù)屬性離散問題[2]。
4數(shù)據(jù)挖掘技術的應用
4.1市場營銷方面的應用
在市場營銷方面上,用戶購買貨物情況可以采用信息管理系統(tǒng)、POS系統(tǒng),特別是條形碼技術在零售行業(yè)中的應用十分廣泛。由于可以搜集的用戶信息量越來越多,甚至無法實現(xiàn)人為管控,需要在市場營銷中收集到各類相關數(shù)據(jù),包括購物行為、習慣性分析,總結各類信息數(shù)據(jù)的特征,對推動市場營銷能力提升有著巨大的作用,對提高企業(yè)市場競爭力有著積極的影響。在用戶數(shù)據(jù)分析中,通過采用高效的數(shù)據(jù)挖掘技術可以精準地分析客戶購買取向和興趣,提高商業(yè)決策的精準性,市場營銷上的數(shù)據(jù)挖掘可以分為兩大類:數(shù)據(jù)庫營銷和貨籃分析,前者主要采用了交互式查詢、模型預測方法選擇潛在的用戶,這也是該項技術在應用中的主要任務,向潛在客戶自動推向內(nèi)心所需的產(chǎn)品[3]。還能夠系統(tǒng)地分析客戶層之間的關系,強化客戶管理,分析零售行業(yè)的發(fā)展趨勢,包括市場購買走向、季節(jié)性特點等因素。針對客戶的購買商品行為中發(fā)覺一系列關系。例如,如何采用打折券的形式提高銷售額度等。
4.2電信行業(yè)的應用
電信行業(yè)本身就與數(shù)據(jù)掛鉤;因此,在數(shù)據(jù)挖掘技術應用中有著巨大的優(yōu)勢。從行業(yè)整體情況來看,電信行業(yè)在價格競爭方面空前激烈,語音業(yè)務增長態(tài)勢放緩,急速增長的中國移動通信市場也面臨著很大的發(fā)展壓力。在中國電信行業(yè)改革背景下,加強了市場的競爭,電信市場競爭在未來會進一步增強,特別是在集團客戶領域?qū)用嫔稀k娦判畔⒒⒓瘓F客戶已成為了未來各大運營商的競爭對手和實現(xiàn)經(jīng)濟增長的新引擎。隨著電信、移動、聯(lián)通全球業(yè)務競爭以及5G拍照的發(fā)放,各大運營商給客戶提供更加精準的解決方案也是大勢所趨,移動信息化已成為全球信息化服務的先導力量[4]。通過數(shù)據(jù)挖掘技術對大數(shù)據(jù)信息進行挖掘,包括數(shù)據(jù)統(tǒng)計分析、業(yè)務數(shù)據(jù)分析、銷售數(shù)據(jù)分析、網(wǎng)絡數(shù)據(jù)分析、流量數(shù)據(jù)分析、交易數(shù)量分析、情報數(shù)據(jù)分析以及日常數(shù)據(jù)分析等,結合預測預警模型、數(shù)據(jù)試驗模型等,為客戶提供精準、優(yōu)質(zhì)的服務,從而帶動新一輪的經(jīng)濟發(fā)展;但是,數(shù)據(jù)挖掘工具都是共享形式,運營商也需要在基礎工具形式上進行創(chuàng)新才能夠提高自身的市場競爭力。
4.3金融投資領域的應用
投資評估與股票交易市場預測作為金融業(yè)發(fā)展的重要趨勢,通常采用模型預測技術展開分析,包括統(tǒng)計回歸技術等。由于金融市場風險較大,在展開投資之前需要對各項數(shù)據(jù)進行分析,有效規(guī)避這種風險,明確最佳的投資方向。從客觀角度分析,任何事物發(fā)生都有一定趨勢和規(guī)律,可以進行預測,從投資評估到股票預測等諸多領域,可以通過挖掘數(shù)據(jù)信息推導出各個領域的發(fā)展情況,有效處理數(shù)據(jù),深度挖掘數(shù)據(jù)間的關系,采用相關模式進行合理預測。鑒別金融信息中的欺詐行為。例如,商業(yè)銀行領域存在諸多惡意詐騙行為、惡意透支行為,這對銀行發(fā)展有著極大的威脅,通過數(shù)據(jù)挖掘和預測預警模型可以鑒別惡意行為,一旦發(fā)現(xiàn)會發(fā)出警報提醒決策人員,當今很多軟件都是針對銀行欺詐展開科學評估,探究交易風險發(fā)生的可能[5]。
5結語
數(shù)據(jù)挖掘技術作為一種十分重要的工具和手段,雖然受到技術的制約數(shù)據(jù)挖掘技術還不夠成熟;但是,可以挖掘一些風險行為、風險用戶、行業(yè)趨勢等信息。數(shù)據(jù)挖掘技術在當今各個行業(yè)中的應用都十分廣泛,可以解決一些十分棘手的問題,并且在未來發(fā)展中會發(fā)揮更大的效益。
參考文獻
[1]李卓陽.計算機數(shù)據(jù)挖掘技術的開發(fā)及應用[J].電腦迷,2016(10):111-112.
[2]王洪飛.計算機數(shù)據(jù)挖掘技術的開發(fā)及其應用探究[J].中小企業(yè)管理與科技,2016(9):147-148.
[3]米娜瓦爾,努拉合買提.計算機數(shù)據(jù)挖掘技術的開發(fā)及其應用探究[J].信息與電腦,2016(20):146-147.
[4]夏天維.計算機數(shù)據(jù)挖掘技術的開發(fā)及其應用探究[J].決策與信息,2016(9):233-234.
[5]沈文淵,丁穎.計算機數(shù)據(jù)挖掘技術的開發(fā)及其應用探究[J].信息系統(tǒng)工程,2014(6):130-132.
作者:楊繼武 單位:河北旅游職業(yè)學院