前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據挖掘主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:數據挖掘 技術 應用
中圖分類號:TP311 文獻標識碼:A 文章編號:1674-098X(2013)04(c)-0054-01
數據挖掘是在信息的海洋中從統計學的角度分析發現有用的知識,并且能夠充分利用這些信息,發揮其巨大的作用,從而創造價值,為社會生產服務。數據挖掘工具能夠掃描整個數據庫,并且識別潛在的以往未知的模式。
1 數據挖掘
數據挖掘是與計算機科學相關,包括人工智能、數據庫知識、機器學習、神經計算和統計分析等多學科領域和方法的交叉學科,是從大量信息中提取人們還不清楚的但具有對于潛在決策過程有用的信息和知識的過程[1]。數據挖掘能夠自動對數據進行分析,并歸納總結,推理,分析數據,從而幫助決策者對信息預測和決策其作用[2]。
對比數據挖掘及傳統數據分析(例如查詢、報表),其本質區別在于:前者在沒有明確假設的前提下通過挖掘信息,提取有用的資料,并提升到知識層面,從而幫助提供決策支持。所以數據挖掘又稱為知識挖掘或者知識發現。數據挖掘通過統計學、數據庫、可視化技術、機器學習和模式識別等諸多方法來實現叢大量數據中自動搜索隱藏在其中的有著特殊關聯性的信息[3]。
2 數據挖掘技術
數據挖掘有許多挖掘分析工具,可以在大量數據中發現模型和數據間關系,常用數據挖掘技術包括:聚類分析和分類分析,偏差分析等。
分類分析和聚類分析的主要區別在于前者是已知要處理的數據對象的類,后者不清楚處理的數據對象的類。聚類是對記錄分組,把相似的記錄在一個聚集里,聚集不依賴于預先定義好的類,不需要訓練集。分類分析是預先假定有給定的類,并假定數據庫中的每個對象歸屬于這個類,并把數據分配到這個給定類中。通過分析訓練集中的數據,準確描述每個類別,并進行建模、挖掘分類規則,并依據該分類規則,劃分其他數據庫中的數據類別。聚類分析是非監督學習,不依靠預先定義的類和帶類標號的訓練數據集,實體對象集合依照某種相似性度量原則,歸納為若干個類似實體對象組成的多個類或簇的過程,不同類中的數據盡可能存在差異,同類中的數據之間各個數據盡可能相似。
存在大量數據的數據庫中,數據中存在著偏差,而在偏差中也包括了大量的知識。偏差分析是當數據庫中存在異常行為,就顯示出要采取預防措施;否則,正常的變化,則需要更新數據庫中的記錄[4]。
3 數據挖掘方法
要的數據挖掘方法包括決策樹、遺傳算法、人工神經網絡、近鄰算法和規則推導等。通過描述和可視化來對數據挖掘結果進行表示。
決策樹是以實例為基礎的歸納學習算法。著決策集的樹形結構代表決策樹,樹型結構表示分類或決策集合。決策樹是采用自頂向下的遞歸方式,樹的非終端節點表示屬性,葉節點表示所屬的不同類別。
遺傳算法是基于種群“多樣性”和“優勝劣汰”原則等進化理論,模擬生物進化過程的全局優化方法,將群體中將較劣的初始解通過復制、交叉和變異3個基本算子優化求解的技術,在求解空間隨機和定向搜索特征的多次迭代過程,直到求得問題的最優解[5]。
人工神經網絡對人腦神經元進行模擬,依據其非線形預測模型,通過模式識別的方式展開,獲取的知識需要存儲在網絡各單元之間的連接權中。人工神經網絡能夠完成分類和聚類等挖掘[5]。
關聯規則是進行數據挖掘的重要的可悲發現的知識,對于兩個或多個變量的取值之間存在某種規律性,并對其進行可信度的分析,挖掘其中的關聯關系。這對于發現數據中存在的各種有用的信息,發現其數據模式和特征,然后發現目標行為具有重要意義。
4 數據挖掘的應用
在醫學領域,科學家從異構和分布式基因數據發現的基因序列的識別、發現基因表達譜數據中的差異表達基因,疾病不同階段的致病基因等,運用各種數據挖掘技術了解各種疾病之間的相互關系、發展規律,總結治療效果這對疾病的診斷、治療和醫學研究都是很有價值的。在零售業/市場營銷,通過對顧客購物籃的分析,把顧客經常同時買的商品放在一起,幫助如何擺放貨架上的商品,挖掘購買商品的關聯關系,規劃如何相互搭配進貨,促銷產品組合等商業活動[6]。
數據挖掘在生物信息學中有著廣泛的應用。生物信息學就是通過對生物學實驗產生的海量數據,進行分類、處理、分析和存儲,達到深入理解生命科學中基于分子水平的生物信息的生物學意義。如差異基因表達檢測的基因芯片,就是具有高通量的特點,并同時能夠產生許多生物學數據,在其中蘊含著豐富的生物學意義。分析和挖掘基因芯片數據,檢測差異表達基因在不同環境條件的異常表達值,能夠生層次的了解生物學知識,提高對生命科學研究的科學性和效率。對癌癥差異基因的分析結果分析,能夠更好的檢測有關疾病,并根據相關疾病的基因特性,就能有針對性的進行個體化治療,開發個體化的新藥。
進入2013年,有許多媒體都在稱之為“大數據元年”。大數據也就是擁有龐大的數據信息,事務數據量大規模增長,而且大數據是要處理大量的非規范化數據,數據挖掘和分析是必不可少的。爆炸性的大數據的產生,可能會改變人們的思考方式,也重塑了人類交流的方式[7]。
5 結語
數據挖掘技術能自動分析數據,廣泛應用于各個企事業單位,分析調查大量數據,分析企業經營對社會,經濟和環境的綜合影響,并預測企業未來的發展趨勢,從數據倉庫中揭示出數據之間的潛在價值的規律性,形成知識發現,為決策管理提供依據。
參考文獻
[1] 孟曉明.淺談數據挖掘技術[J].計算機應用與軟件,2004(8).
[2] 丁樣武,楊瑩.數據挖掘在醫學上的應川[J].鄖陽醫學院學報,1999(3):130-132.
[3] 黃曉霞,蕭蘊詩.數據挖掘集成技術研究[J].計算機應用研究,2003(4):37.39.
[4] 王陽,張春華.數據挖掘技術、應用及發展趨勢[J].信息化與網絡建設,2003(4).
[5] 任承業.校園信息系統中數據挖掘的研究與應用[D].廣州:暨南大學,2005.
數據挖掘的做法和意思如下:
1、數據挖掘通常需要有信息收集、數據集成、數據規約、數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示8個步驟。
2、數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
(來源:文章屋網 )
【 關鍵詞 】 隱私保護;數據挖掘;數據擾動;多方安全計算
A Survey of Privacy Preserving Data Mining
Li Zhan-yu Zhu Jian-ming
(School of Information, Central University of Finance and Economics Beijing 100081)
【 Abstract 】 With the development of E-commerce and E-government, and deepening use of the data mining technology, the problem of privacy preservation becomes one of the key factors in data mining. In this dissertation, we briefly introduce the history and current situation of Privacy Preserving Data Mining (PPDM). Some basic concepts, characters, classifications and research results related to PPDM are presented. In addition, we exhibit PPDM technology in data perturbation and secure multi-party computation respectively, pointing out the research area in the future.
【 Keywords 】 privacy preservation; data mining; data perturbation; secure multi-party computation
1 引言
數據挖掘隱私保護(Privacy Preserving Data Mining,簡稱PPDM)是關于隱私和安全研究的熱點問題之一。數據挖掘的過程,就是自動發現高層次的數據或隱藏在其中的模式。在數據挖掘中,假設所有數據都是容易獲取的,并且存儲在一個中心位置,或通過集中的訪問機制存儲在聯合數據庫、虛擬數據倉庫中。然而,這些數據有時候分布在眾多的參與者中。出于隱私保護、法律要求和商業上的考慮,參與者們可能不會直接共享某些敏感數據。敏感數據通常涉及到個人的健康信息、金融方面的隱私等。參與者怎樣在保護隱私的情況下進行數據挖掘成為一個巨大的挑戰。這個問題的產生并不是源于數據挖掘本身,而是進行數據挖掘的方式。本文主要介紹數據挖掘隱私保護方面的研究現狀。
隨著電子商務、電子政務的發展以及越來越多的個人數據在線交換,數據隱私成為全社會關注的重要問題之一。無論是國家層面,還是商業交易層面,在數據使用方面的未授權訪問是隱私保護中的主要問題。在數據庫中,數據挖掘和知識發現就是從大量的數據中自動的提取未知的模式。現如今,企業和政府機構都收集了大量的數據,這自然導致了隱私保護方面的問題。因此,在數據挖掘者收集到大量隱私數據之后,為了防止隱私信息的披露,這些數據必須要以不同的方式進行擾亂,但同時又要保留數據中所包含的有價值的模式。隨著追蹤技術的發展,隱私保護在很多領域都成為重要問題?;谏鲜銮闆r,人們開始在“數據挖掘隱私保護”的框架下提出各種特殊的數據挖掘技術。數據挖掘隱私保護(Privacy Preserving Data Mining,簡稱PPDM)研究的目的,就是尋找在不破壞個體隱私的情況下進行數據挖掘的技術。近年來,數據挖掘隱私保護問題成為研究的熱點。
隱私保護數據挖掘的研究可以分為兩個方面。第一個方面是數據公布,也就是在隱私數據公布給數據挖掘者之前進行數據變換,把隱私隱藏起來。第二個方面是修改數據挖掘的算法,進行分布式數據挖掘,這樣隱私的信息就不會透露給其他的參與者。
PPDM研究的目的是消除合作的數據挖掘與數據機密性之間的隔閡。這涉及到許多領域,例如統計學、計算機科學、社會科學等。這對于國家安全、現代科學和我們的社會具有根本的重要性。
隱私的暴露包括兩個級別:身份信息暴露和價值信息暴露。身份信息暴露涉及到在數據庫中暴露個體的身份信息,而價值信息暴露涉及到暴露個體的某些機密的屬性。表1是n個顧客原始個人信息的情況,包含了各種屬性。毫無疑問的是,身份信息(例如姓名Name、社會保險號SSN)應該在數據公布之前隱藏起來。然而,一些范疇屬性(例如郵政編碼Zip、種族Race、性別Gender)連接到某些公共數據庫時,也可以用來識別個人隱私。這些屬性被稱為準識別碼。有很多研究都是關于預防身份暴露的,例如著名的統計披露控制(SDC)方法、k-匿名方法。為了防止價值信息披露,許多基于隨機化的方法被提出來。
數據挖掘中的隱私問題于20世紀90年代開始研究。在過去的幾年中,越來越多的成功技術被提出來,這些技術可以在保護隱私的條件下獲得有效的數據挖掘結果。
關鍵詞:數據挖掘;應用;發展
1數據挖掘技術的概述
數據挖掘是通過對各種數據信息進行有選擇的統計、歸類以及分析等挖掘隱含的有用的信息,從而為實踐應用提出有用的決策信息的過程。通俗的說數據挖掘就是一種借助于多種數據分析工具在海量的數據信息中挖掘模數據信息和模型之間關系的技術總裁,通過對這種模型進行認識和理解,分析它們的對應關系,以此來指導各行各業的生產和發展,提供重大決策上的支持。數據挖掘技術是對海量數據信息的統計、分析等因此數據挖掘技術呈現以下特點:一是數據挖掘技術主要是借助各種其它專業學科的知識,從而建立挖掘模型,設計相應的模型算法,從而找出其中的潛在規律等,揭示其中的內在聯系性;二是數據挖掘主要是處理各行數據庫中的信息,因此這些信息是經過預處理的;三是以構建數據模型的方式服務于實踐應用。當然數據挖掘并不是以發現數據理論為目的,而是為了在各行各業的信息中找出有用的數據信息,滿足用戶的需求。
2數據挖掘的功能
結合數據挖掘技術的概述,數據挖掘主要具體以下功能:一是自動預測趨勢和行為。數據挖掘主要是在復雜的數據庫中尋找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通過數據挖掘可以快速的將符合數據本身的數據找出來;二是關聯分析。關聯性就是事物之間存在某種的聯系性,這種事物必須要在兩種以上,數據關聯是在復雜的數據中存在一類重要的可被發現的知識;三是概念描述。概念描述分為特征性描述和區別性描述;四是偏差檢測。
3數據挖掘技術的步驟分析
3.1處理過程
數據挖掘雖然能夠實現在復雜的數據庫中尋求自己的數據資源,但是其需要建立人工模型,根據人工模型實現對數據的統計、分析以及利用等。
3.2關鍵技術
由于數據挖掘涉及到很多專業學科,因此相對來說,數據挖掘技術融合多門專業技術學科的知識,結合實踐,數據挖掘技術主要應用到以下算法和模型:一是傳統統計方法。采取傳統的統計方法主要有抽樣技術,也就是采取相應的策略對數據進行合理的抽樣。多元化統計和統計預測方法;二是可視化技術,可視化技術是數據挖掘技術的熱點,它是采取可視化技術與數據挖掘過程的結合,以直觀的圖形等使人們更好地進行數據挖掘技術;三是決策樹。決策樹需要對數據庫進行幾遍的掃描之后,才能完成,因此其在具體的處理過程中可能會包括很多的預測變量情況;四是4)聚類分析方法。聚類分析方法是一種非參數分析方法,主要用于分析樣本分組中多維數據點間的差異和聯系。判別分析法需要預先設定一個指針變量,假設總體為正太分布,必須嚴格遵守數理依據。而聚類分析則沒有這些假設和原則,只需要通過搜集數據和轉換成相似矩陣兩個步驟,就能完成聚類分析的全過程。聚類分析主要用于獲取數據的分布情況,能夠簡單方便的發現全局的分布模式,識別出密集和系數區域;此外,對于單個類的分析也有很強的處理能力,能深入分析每個類的特征,并找出變量和類之間的內在聯系。基于距離、層次、密度和網絡的方法是最常用的聚類分析方法。
4數據挖掘技術的實踐應用
數據挖掘技術雖然在我國發展的時間還不長,但是其在實踐中的應用已經非常的廣泛,因為數據挖掘技術在實踐中的應用價值是非常大的,其可以提取隱藏在數據背后的有用信息,具體來看,其主要應用在:(1)在醫學上的應用。人體的奧秘是無窮無盡的,人類遺傳密碼的信息、人類疾病史和治療方法等,都隱含了大量數據信息。采用數據挖掘來解決這些問題,將給相關工作者的工作帶來很大方便。此外,醫院內部醫藥器具的管理、病人檔案資料的整理、醫院內部結構的管理等,也是龐大的數據庫。將數據挖掘技術應用于醫學領域,深入分析人類疾病間的內在聯系和規律,幫助醫生進行診斷和治療,能夠有效提高醫生診斷的準確率,對人類的健康和醫療事業的發展有十分重要的作用。(2)在電信業中的應用。隨著三網融合技術的不斷發展,傳統的電信業務已經不能滿足當前社會發展的需求,而是側重通信、圖像以及網絡等業務的融合,而實現“三網融合”的關鍵技術是實現對數據的分析與統計,因為三網融合會帶來更多的數據,這些數據都需要充分的挖掘,以此實現“三網融合”戰略的實現。將數據挖掘技術與電信業務有效的結合起來,能夠提高資源利用率,更深入的了解用戶的行為,促進電信業務的推廣,幫助各行各業獲取更大的經濟效益。(3)在高校貧困生管理的應用。貧困生管理分析系統主要應用了數據倉庫技術以及數據挖掘技術,其主要是將高校貧困生的各種信息統一納入到高校信息管理平臺中,然后根據具體的貧困生劃分標準,建立模型,進而對學生的信息進行統計與分析,實現對貧困生信息的科學管理,便于高校管理者及時了解學生的信息。
5結語
總之數據挖掘技術在實踐中的廣泛應用,為我國互聯網+戰略提供了關鍵技術支撐,但是由于數據挖掘技術在實踐中還存在某些技術問題,比如各種模型和技術難于集成、缺少與數據庫系統耦合的通用API或挖掘系統僅提供孤立的知識發現功能,難于嵌入大型應用等問題導致挖掘技術在實踐中的應用還存在缺陷,因此需要我們加大對數據挖掘技術的進一步研究,以此更好地實現“互聯網+”戰略。
作者:陳建偉 李麗坤 單位:安陽職業技術學院
參考文獻
空間數據挖掘方法在測繪實際生產領域具有良好的運用前景,特別是在“數字地球”的應用中初見成效。從數據挖掘及空間數據挖掘的定義入手,分析研究數據挖掘及空間數據挖掘現狀,探討對空間數據進行數據挖掘的方法。
關鍵詞:
空間數據挖掘;數字城市;空間信息學
1引言
上世紀60年代,隨著數據庫的產生及大量原形數據庫的建設,人們對數據庫的研究熱情不斷加強,對數據庫技術的研究也不斷深入。上世紀70年代,研究人員已經把研究的視角從層次、網絡數據庫的方向轉向了關系數據庫,大力發展了數據庫建模工具、數據庫索引及其他分析工具等。進入上世紀80年代,研究者已經能夠在數據模型分析方面,譬如基于對象的模型、基于演繹的模型數據庫等等都得到廣泛應用及深入研究。而后隨著互聯網的不斷發展,數據庫技術的更新也日新月異。但是,數據庫技術的發展隨之也進入一個體量越來越大了、信息獲取難度不斷增加的程度。特別在于,獲取能夠運用于決策層的關鍵信息卻沒有隨著數據庫本身的體量擴大而進一步增加。因而針對數據庫的信息分析與數據挖掘的研究進入研究者的視野。進而,開發能夠從超大體量的數據庫資源中獲取我們所需的關鍵信息的技術工具成為數據庫研究人員的一個重要方向,數據挖掘技術進入了一個全新的時代,數據挖掘技術是一個針對數據庫本體的研究手段,從數據庫本體中發掘高效的有用信息,從而減少了數據資源的采集工作,增加了數據資源的利用效率。
2數據挖掘與空間數據挖掘的定義與研究現狀
數據挖掘,又譯為資料探勘、數據采礦。如圖1所示,即是一個典型的數據挖掘系統的結構圖。數據挖掘是數據庫知識發現中的一個步驟。所謂KDD是在1989年于美國密歇根州底特律市舉行的第11屆國際聯合人工智能學術會議上提出來的一種新型的技術手段。KDD是一個“從數據庫中發現隱含的、先前不知道的、潛在有用的信息的非平凡過程”[1]。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標[2]?,F階段,數據挖掘系統已經發展了四代,第一代數據挖掘系統設計相對簡單,一般運用一個或者幾個算法,僅用來挖掘向量數據,而且在進行數據挖掘的工作是,一般一次性調進內存進行處理。第二代數據挖掘系統能夠支持大體量的數據庫和數據倉庫,一般是針對數據庫的接口進行設計,對數據庫中的眾多數據模型能夠良好支持并擁有較強的高維數據、大數據集、復雜數據集的挖掘能力。第三代數據挖掘系統則能夠對網絡數據、高度異質的數據進行挖掘工作,這代數據挖掘系統的關鍵技術在于能夠對異質數據進行相對復雜的預言模型構建及管理這些預言模型的元數據。第四代數據挖掘系統則是在一定程度上對移動系統、嵌入式系統、甚至普遍存在的數據進行復雜程度更高的數據挖掘工作。如圖2所示,四代數據挖掘系統的特征與相關信息。從數據挖掘的定義我們可以很容易得到空間數據挖掘的定義的關鍵所在:即針對空間數據庫的探索,發現空間數據庫的中隱含的、用戶感興趣的或者是空間數據模式亦或者是非空間數據模式的一種數據挖掘技術。隨著研究人員對空間數據庫及數據挖掘技術的不斷深入研究,空間數據挖掘技術取得了長足的進步。這里以加拿大SimonFraser大學開發的數據挖掘軟件DBMiner中的空間數據挖掘擴展模塊———GeoMiner為例,GeoMiner系統包含三大子模塊,分別是空間數據立方體構建模塊、空間聯機分析處理模塊及空間數據挖掘模塊。GeoMiner系統采用人機交互式挖掘模式,在完成數據挖掘工作后能夠即時顯示挖掘結果。GeoMiner系統已經能夠在一定程度上實現數據的自動挖掘工作,但其實現過程仍需要工作人員的不斷干預,因而在自動化方面是研究人員未來重要的探索方向。
3空間數據挖掘常見算法空間
數據挖掘方法按功能的方式可以分為:描述、解釋、預測。下面介紹幾類常用的空間數據挖掘算法[3]:
1)基于概率論的方法基于概率論的方法這里主要是指通過計算不確定性屬性的概率來對空間數據進行數據挖掘的方法。
2)空間分析方法空間分析方法是指采用綜合屬性數據分析、拓撲分析、緩沖區分析、密度分析、距離分析、疊置分析、網絡分析、地形分析、趨勢面分析、預測分析等在內的分析模型和方法,用以發現目標在空間上的相連、相鄰和共生等關聯規則,或挖掘出目標之間的最短路徑、最優路徑等。
3)統計分析方法統計分析方法則主要表現在通過對空間對象的信息采用統計學的方法進行評估、預測等方式進行數據挖掘。
4)歸納學習方法歸納學習方法即運用一定的知識背景的手段,分析提取空間數據庫中的隱含的相關數據。
5)空間關聯規則挖掘方法關聯規則挖掘方法即運用空間數據庫中的數據關聯規律分析其一般的規則和運行模式。
6)聚類分析方法聚類分析方法即根據空間實體特征的一般性總結整個空間的分布規律及其典型運行模式的方法。
7)神經網絡方法神經網絡方法則是通過構建神經元網絡的方法來實現適應非線性動態系統,從而構建其分布存儲、聯想記憶等功能,并使得系統具有自行學習、并行處理的能力。
8)決策樹方法決策樹方法采用的是一種基于樹形表示分類結構的方法,從中發現規律,進而展示規則的數據挖掘算法方案。
9)基于模糊集合論的方法基于模糊集合論的方法主要是利用模糊集合理論中描述帶有不確定性的研究對象來對實際的不確定性問題進行處理的手段與方法。
10)基于云理論的方法基于云理論的方法,主要是利用云理論中關于云模型及不確定性的研究方法對空間數據進行定性分析及定量計算結合處置的方法。
11)遺傳算法遺傳算法則是一種基于生物進化理論的數據挖掘算法,該算法突出的表現在對空間數據的高效并行計算及在處置過程中的自動獲取知識、積累相關參數并實時適應挖掘過程從而得出最優的處理方案。除了以上算法之外,常用的還有數據可視化方法、計算幾何方法、空間在線數據挖掘等等方法,均在一定程度上可以對空間數據挖掘產生有利作用。
4小結
從以上的各種方法分析,我們可以看到數據挖掘工作對空間數據利用非常重要。空間數據的體量及其大,數據結構及其復雜,通過簡單的方式根本不能對空間數據的關鍵信息資源進行利用,只有通過空間數據挖掘的方法,才可以在更加直觀的、立體的平臺上對空間數據進行廣泛而有效的利用。
參考文獻:
[1]百度百科《KDD》
[2]百度百科《數據挖掘》
數據挖掘技術是延伸和擴展了傳統分析方法,可以發現傳統分析方法不能發現的內容和規律,并且它將人們從單調、枯燥的閱讀專利文獻的工作中解放出來,使用計算機代替了人類勞動,這樣不僅提高了效率,而且提升了準確度。因此,數據挖掘作為一個專利分析的強有力工具被引入到專利分析中來,并且得到快速的發展應用。專利數據挖掘流程應考慮的問題:一是用數據挖掘解決什么樣的問題;二是為進行數據挖掘所做的數據準備;三是數據挖掘的各種分析算法。故專利數據挖掘的一般過程通常按照以下步驟來完成:領會數據挖掘的目的,獲取分析所用的數據集合,探索、清理和預處理數據,選擇要使用的數據挖掘技術,使用算法解決問題,解釋算法的結果。而其一般流程可簡化為三個階段:數據準備數據挖掘結果解釋和評價。本文采用簡化的流程進行實證分析。
二、石家莊地區制藥企業專利數據挖掘
本文對石家莊地區制藥企業的專利數據進行挖掘分析,挖掘對象是華北制藥集團公司、石家莊制藥集團有限公司、石家莊神威藥業股份有限公司、石家莊四藥股份、河北以嶺藥業股份有限公司、石家莊市華曙制藥集團、河北醫科大學制藥廠、河北圣雪大成制藥有限責任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數據能夠找到石家莊地區制藥領域的核心組成,并能為藥企更好地發展提供有力的信息支持。IPC號是目前權威的專利技術主題的標識編碼之一,基本包含了各行各業的專利信息,是一個龐大的專利信息體系。目前國內外很多分析方法及技術大部分是基于專利的IPC分類號來分析專利技術主題的,此分析方法有一定的參考價值和科學性,而且對于具有大量專利信息的分析具有很好的總結概括效果。本文以專利全部IPC號為分析對象,并且構建IPC號之間的關聯規則,在最大程度上揭示隱含的專利技術關聯性,從而為石家莊地區制藥企業專利技術的發展提供參考。
1.數據準備。數據來源的準確與否是數據分析與挖掘的基礎,是數據分析與挖掘的根本。本文所使用的石家莊地區制藥領域專利數據由萬方數據公司提供,以制藥企業地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區制藥領域專利644條,分別分布在A、B、C、D、E、F、G、H八個大部。對專利數據庫中的644條專利進行篩選,根據“分類號”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區制藥領域沒有聯系或聯系很小,不宜保留。根據“申請人(專利權人)”字段的限制,剔除與石家莊地區制藥不相關或制藥企業地址不在石家莊地區的專利。最后篩選出590條最符合該領域特點的專利。由于IPC號在幾乎所有現存數據庫中均是以一個字段存儲一個專利的所有IPC分類號的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個專利一般都有好幾個分類號,而每個企業又研究大量的專利,所以在進行專利分析之前,需要對專利IPC號進行數據整理。由于過于細致的IPC分類號并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號的前4位。并將申請人與其對應的多條IPC號進行拆分,拆分后的數據項有773條,即顯示每個申請人對應的一條IPC分類號。
2.數據挖掘。本文數據挖掘過程將采用Excel和SQLsever2005軟件,首先對所得到的數據導入SQLserver2005進行挖掘,利用SQLserver2005可以直接進行IPC號的關聯規則挖掘,然后對專利信息進行分析。
3.數據挖掘結果與分析?;陉P聯規則制作依賴關系網絡圖,可以更加直觀地看到各個IPC號之間的關聯和依賴狀態。
(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術群。這些專利的IPC分類號是關鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫用、牙科用等的配置品)是項集次數最多的,即支持度較高的,C12P(發酵或使用酶的方法合成目標化合物或組合物或從外消旋混合物中分離旋光異構體)、C12N(微生物或酶;其組合物)、C07D(雜環環合物,例如鄰氯芐星青霉素的合成)、C07C(無環和碳環化合物)通過專利相關知識我們已經知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領域的核心。這也是和石家莊地區制藥企業的核心領域相符合的。另外這些專利主題的相互關聯、依賴說明了石家莊地區制藥企業在該領域具有很好的布局網絡,在研發數量上也占有一定優勢,所以說是石家莊地區制藥企業的主要研究領域。
(2)以B65G、C12M為中心的輔助設備專利技術群。藥品的生產離不開設備的支持,所以設備方面的專利也能體現制藥企業的技術水平。在圖1中也能體現出來,專利間有著很強的依賴性和關聯性,在核心專利周邊有B65G(運輸或貯存裝置,例如裝載或傾斜用輸送機、車間輸送機系統、氣動管道輸送機)、C12M(酶學或微生物學裝置),這些是制藥的輔助技術手段,與中心專利是相互聯系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領域的發展。先進藥品的研制離不開先進制藥設備支持,所以設備水平的提高也是關鍵的。如圖3所示,石家莊地區制藥企業在這一方面的技術依賴網絡也已經形成,說明在此技術領域也已經擁有較強實力。但與中心主要專利相比,輔助設備專利技術還是需要不斷提高的。
三、總結
1.1數據挖掘相關技術數據挖掘相關技術介紹如下[6]:(1)決策樹:在表示決策集合或分類時采用樹形結構,在這一過程中發現規律并產生規則,找到數據庫中有著最大信息量的字段,從而可建立起決策樹的人工智能及識別技術。(2)聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。(3)關聯分析:關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、因果、關聯或相關性結構。也可以說,關聯分析是用來發現有關交易的數據庫中不同商品(項)之間的聯系。(4)神經網絡方法:顧名思義,類似于生物的神經結構,由大量簡單的神經元,通過非常豐富和完善的連接組成自適應的非線性動態系統,具有自適應、自組織、自學習、聯想記憶、分布存儲、大規模并行處理等功能。粗集方法:也就是在數據庫里把行為對象列視為元素,將不同對象在某個(或多個)屬性上取值相同定義為等價關系R。其等價類為滿足R的對象組成的集合[5]。
1.2IBMSPSSModelerIBMSPSSModeler是一個數據挖掘工作臺,用于幫助用戶快速直觀地構建預測模型,而無需進行編程。其精密的數據挖掘技術使用戶能夠對結果進行建模,了解哪些因素會對結果產生影響。它還能可提供數據挖掘相關的數據提取、轉換、分析建模、評估、部署等全過程的功能[3]。通常,SPSSModeler將數據以一條條記錄的形式讀入,然后通過對數據進行一系列操作,最后將其發送至某個地方(可以是模型,或某種格式的數據輸出)[3]。使用SPSSModeler處理數據的三個步驟:(1)將數據讀入SPSSModeler;(2)通過一系列操縱運行數據;(3)將數據發送到目標位置。
2客戶流失預測分析
2.1數據預處理數據預處理[6],將需要的客戶投保數據按照業務預測分析的要求,將數據抽取到中間數據中,同時對數據清洗和轉換,滿足業務預測分析要求。每日凌晨調用存儲過程將核心業務系統數據提取到中間數據庫,壽險業務數據與其他數據一樣,存在不安全和不一致時,數據清洗與轉換可以幫助提升數據質量,進而提升數據挖掘進程的有效性和準確性。數據清洗主要包括:遺漏數據清洗,錯誤數據處理,垃圾數據處理[1]。
2.2數據選取數據預處理后,可以從中得到投保人的投保信息,包括投保人姓名,投保年齡(有效保單為當前年齡,無效保單為退保年齡),保費,投保年期,保單狀態等。數據如圖1所示。
2.3客戶流失預測模型建立壽險業務按渠道來分可分為個人保險、團體保險、銀行保險、網銷保險、經代保險五類。由于團體保險在壽險公司發展比較緩慢,團險業務基本屬于停滯階段。結合壽險公司的營銷特點,選定個人保單作為分析的對象,通過IBMSPSSModeler預測模型工具[3],使用決策樹預測模型對客戶流失進行預測分析。
2.4結果分析通過使用IBMSPSSModeler決策類預測模型分析某壽險公司2013年個人客戶承保情況來看有以下規則:(1)投保年數在1年以內,首期保費在0~2000元或大于9997.130保費的客戶比較容易流失。(2)保單終止保單中,女性客戶較男性客戶容易流失。(3)投保年數在2年以上,湖北及河北分支機構客戶流失率比較容易流失。(4)分紅壽險相對傳統壽險,健康壽險的客戶比較容易流失[1]。
3總結
自大數據進入了人們的視線之后,它便逐漸成為人們普遍關注的焦點。大數據講的是PB時代的科學,本質上大數據的挑戰是PB時代的對科學的挑戰,更是對包括數據挖掘在內的認知科學的挑戰。那么,大數據時代怎么做數據挖掘呢?
在現今時代人們通常所說的大數據主要包括三個來源:第一是自然界大數據,也就是地球上的自然環境,很大很大。第二是生命大數據。第三也是最重要的,則是人們關心的社交大數據。這些數據普遍存在于人們的手機、電腦等設備中。今天一個報告在3分鐘之內就可能被全世界的人們所知道。
奧巴馬就職的社交場所,這么多面孔,每一個面孔下都有一個故事,每一個人后面都有大數據的支撐。人臉是數據安全的很重要的識別器,怎么把人臉識別清楚呢?人們想了很多辦法。現在北京市有80萬個攝像頭,我們每天都在攝像頭的監督下開車、購物。我們可以利用攝像頭做身份認證、年齡識別、情感計算、親緣發現、心理識別、地區識別、民族識別。這種流媒體主要的形態是非結構化的,特征之間的關聯關系、設備算法的準確率等等,都嚴重地制約著大數據人臉挖掘的進度。如何能從這些海量數據中利用識別算法提取出所需要的特征屬性,并理清特征之間的關系都是現在所面臨的問題。
技術推動計算機發展
1936年天才數學家圖靈提出圖靈模型,后來有計算機把圖靈模型轉化為物理計算機,這其中有三大塊:CPU、操作系統、內存和外存,還有輸入和輸出。在計算機發展的頭30年里,我們投入最多的是CPU、操作系統、軟件、中間件以及應用軟件。當時人們側重于計算性能的提高,我們把這個時代叫做計算時代。
計算對軟件付出了很大的努力,尤其是高性能計算機。我們認為計算在前20年中起到了主導作用,它的標志速度就是摩爾速度。在這樣一個計算領先的時代當中,我們主要做的是結構化數據的挖掘。關系數據庫之父埃德加在1970年提出一個關系模型,以關系代數為核心運算,用二維表形式表示實體和實體間的聯系。三四十年來,各行各業的數據庫和數據倉庫技術,以及從數據庫發現知識的數據挖掘成為巨大的信息產業。
關系代數是關系數據庫的形式化理論和約束,先有頂層設計和數據結構,后填入清洗后的數據。數據圍繞結構轉,數據圍繞程序轉。用戶無需關心數據的獲取、存儲、分析以及提取過程。通過數據挖掘,可以從數據庫中發現分類知識、關聯知識、時序知識、異常知識等等。
隨著數據庫產業的膨大,人們對數據庫已經不太滿足了,于是把Databases說成大數據,這便遇到了兩個不可回避的挑戰,第一個挑戰是由于關系代數的形式化約束過于苛刻,無法表示現實數據;第二個挑戰是隨著數據量的增大,關系代數運算性能急劇下降。在這個時候,我們的存儲技術得到了迅猛發展,人類進入了搜索時代。搜索因為存儲便宜了,存儲的速度大概每9個月翻一番,所以存儲帶動了技術的腳步,這種搜索時代經過了20多年的發展,帶領我們進入了一個半結構化數據挖掘時代。這個時代的代表人物就是萬維網之父家蒂姆?伯納斯―李,他提出了超文本思想,開發了世界上第一個Web服務器,于是我們可以從一臺服務器上檢索另一臺服務器的內容,服務器在軟件的支持下可包括文本、表格、圖片、音視頻的碎片化超媒體信息。
因此,客戶端服務器結構和云計算結構蓬勃產生,這時已經沒有了關于代數那樣嚴格的形式化約束,依靠的主要是規范、標準,所有媒體均以實體形式存在,甚至是軟件,實體通過超鏈接產生聯系。
形式化理論比關系代數寬松了許多,創建了靈活多樣的實體,這時候數據開始圍繞實體轉,實體圍繞鏈接轉。在云計算背景下,數據挖掘也可以看作是云計算環境下的搜索與個性化服務,不存在固定的查詢方式,也不會出現唯一、100%準確的查詢結果。
網絡化的大數據挖掘
隨著互聯網帶寬6個月翻一番的速度,人類進入了交互時代,交互帶動著計算和存儲的發展。
移動互聯網時代的大數據挖掘主要是網絡化環境下的非結構化數據挖掘,這些數據形態反映的是鮮活的、碎片化的、異構的、有情感的原生態數據。
非結構化數據的特點是,它常常是低價值、強噪聲、異構、冗余冰冷的數據,有很多數據放在存儲器里就沒再用過。數據的形式化約束越來越寬松,越來越接近互聯網文化、窗口文化和社區文化。
關注的對象也發生很大改變,挖掘關注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個重要思想就是由下而上勝過由上而下的頂層設計,強調挖掘數據的真實性、及時性,要發現關聯、發現異常、發現趨勢,總之要發現價值。
當前,深度學習也是一種數據自適應簡約。如果我們在百度上用深度學習搜索一個人臉象素搜索,這么多人臉誰是誰?數據量急劇增加,各種媒體形態可隨意碎片化,組織結構和挖掘程序要圍著數據轉,程序要碎片化,并可以隨時虛擬重組,挖掘常常是人機交互環境下不同社區的發現以及社區中形成的群體智能,在非結構化數據挖掘中,會自然進行數據清洗,自然形成半結構化數據和結構化數據,以提高數據使用效率。
群體智能是一個最近說得很多的詞,我們曾經在計算機上做一個圖靈測試,讓計算機區分哪些碼是人產生的,哪些是機器產生的,這是卡內基美隆大學提出來的,在網絡購物、登錄網站、申請網站時都會碰到適配碼被使用。在此要提到第三個代表人物――路易斯,他提出用這個適配碼應用方式。
如果云計算支撐大數據挖掘要發現價值,那么我們認為云計算本來就是基于互聯網的大眾參與計算模式,其計算資源是動態的,可收縮的,被虛擬化的,而且以服務的方式提供。 產生擺脫了傳統的配置帶來的系統升級,更加簡潔、靈活多樣、個性化,手機、游戲機、數碼相機、電視機差別細微,出現了更多iCloud產品,界面人性化、個性化,都可成為大數據挖掘的終端。
挖掘員支撐各種各樣的大數據應用,如果我們有數據收集中心、存儲中心、計算中心、服務中心,一定要有數據挖掘中心,這樣一來,就可以實現支撐大數據的及時應用和價值的及時發現。
關聯技術用于發現數據庫中屬性之間的有趣聯系。和傳統的產生式規則不同,關聯規則可以有一個或多個輸出屬性。同時,一個規則的輸出屬性可以是另一規則的輸入屬性。關聯規則是用于購物籃分析的常用技術,是因為可以找尋潛在的令人感興趣的所有的產品組合。由此,有限數目的屬性可能生成上百條關聯規則。
Income range($) Magazine promotion Watch promotion Life insurance promotion Credit card insurance sex age
40-50K yes no no no male 45
30-40K yes yes yes no female 40
40-50K no no no no male 42
30-40K yes yes yes yes male 43
50-60K yes no yes no female 28
20-30K no no no no female 55
30-40K yes no yes yes male 35
20-30K no yes no no male 27
30-40K yes no no no female 43
30-40K yes yes yes no female 41
40-50K no yes yes no male 43
20-30K no yes yes no female 29
50-60K no yes yes no female 39
40-50K yes yes no no male 55
20-30K no no yes yes female 19
我們將Agrawal等人描述的apriori關聯規則算法應用到上表數據中。該算法檢查了項目籃,并為那些包含項目最少的籃子生成規則。Apriori算法不處理數值型數據。因此,在應用該算法之前,我們將屬性年齡轉化為離散的分類值:超過15,超過20,超過30,超過40,和超過50。例如,age=over40是年齡在40和49歲(包含40和49)之間。我們將屬性選項限制為income range,credit card insurance,sex和age。這里是通過表的數據應用apriori算法所產生的3條關聯規則:
(1) IF sex=female & age=over40 & credit card insurance=NO THEN life=insurance promotion=YES
(2) IF sex=male & age=over40 & credit card insurance=NO THEN life=insurance promotion=NO
(3) IF sex=female & age=over40 THEN credit card insurance=NO & life=insurance promotion=YES
3條規則的準確度都達到100%并且正確的覆蓋了所有數據實例的20%。對于規則3,20%的覆蓋率告訴我們,每5個人是年齡超過40的女性,她沒有信用卡保險,且她們都是通過壽險促銷活動獲得壽險的。注意,規則3中的信用卡保險和壽險促銷都是輸出屬性。
關聯規則存在的問題是,對于潛在有趣的規則,我們可能發現某個規則的值很小。
在關聯規則系統中,規則本身是“如果條件怎么樣,怎么樣,怎么樣,那么結果或情況就怎么樣”的簡單方式??梢员硎緸椤癆=>B”關聯規則,它包括兩2部分:左部A稱為前件,又部B稱為后件。前件可以包括一個或多個條件,在某個給定的正確率中,要使后件為真,前件中的所有條件必須同時為真。后件一般只包含一種情況,而不是多種情況。
例如,購買計算機有購買財務軟件趨向的關聯規則,以及年齡在30至40歲之間并且年收入早42000元至50000元之間的客戶購買高清晰度彩電電視機趨向的關聯規則可以分別表示為:
Buys(x,“computer”)=>buys(x,“financial_management_software”) (11.1)
Age(“30…60”)∧income(“42000…50000”)=>buys(x,“high_resolution_TV”)(11.2)
其中x為表示客戶的變量。
關聯規則在實際應用中根據值類型,數據維,層次的不同,可以分成各種類型的規則。
根據規則中所處理的值類型可以分部成布爾關聯規則和量化關聯規則兩種。例如,上述的關聯(11.1)就是布爾關聯規則,而關聯規則(11.2)是量化規則,其量化屬性值就離散值。
如果規則中的項或屬性只涉及到一個維,那就是單維規則。例如關聯規則(11.1)只涉及buys維。而關聯規則(11.2)涉及到三個維age,income和buys數據維,因此是多維關聯。
如果規則集涉及不同的抽象層次,那么關聯規則集就是多層次關聯規則;反之就是單層關聯規則。例如,規則(11.1)和(11.2)都是單層規則。而關聯規則集
Age(“30…40”)=>buys(x,“IBM computer”) (11.3)
Age(“30…40”)=>buys(x,“computer”) (11.4)
涉及的購買商品有較低抽象層次“IBM computer”和較高抽象層次的“computer”。因此,規則集(11.3)和(11.4)是多層關聯規則。
關聯規則在實際應用中用SQL語言就可以很好的處理,例如對于關聯規則(11.2)可以用以下的SQL查詢語句完成。
Select Cust.name, p.item_name
From Purchases, P
Group by Cust.ID
Having (Cust.age>=30.and.Cust.age=42000 and Cust.income
關聯規則的應用必須有應用目標,在實際應用中可以以前件為目標,以后件為目標,以準確性為目標,以覆蓋率為目標或者以“興趣度”為目標。
以前件為目標的關聯規則是將前件等于某值的所有規則收集起來顯示給用戶。例如:一個五金店可能需要前件為釘子,螺栓或螺釘的所有規則,以了解對這些低利潤的商品打折是否能夠促進其他高利潤商品的銷售。
以后件為目標的關聯規則是查找后件等于某值的所有規則,用來了解什么因素與后件有關或對后件有什么影響。例如,得到后件為“咖啡”的所有標準對于咖啡的銷售就十分重要,可以從中了解哪些商品的銷售會導致咖啡銷售的增加??Х鹊昃涂梢詫⑦@些商品放到咖啡附近,以同時提高兩者的銷售額。或者,咖啡廠商可以根據這個準則決定下次把他們的優惠卷放在哪些雜志上。
以正確率為目標的關聯規則,主要是以正確率表示前件為真時,后件為真的可能性。正確率高表示規則比較可靠。正確率有時也稱為置信度,對于“A=>B”關聯規則,其置信度或正確率可以定義為:
置信度(A=>B)=包含A和B的元組數/包含A的元組樹(11.5)
有時,對用戶來說最重要的是規則的正確率。正確率達到80%或90%以上的規則,表明發現的關系是很強的。即使它們對數據庫的覆蓋率較低,出現的次數有限,只要抓住這些規則。成功的可能性就比較大。
以覆蓋率為目標的關聯規則表示數據庫中適用于規則的記錄數量。其覆蓋率可以定義為:
覆蓋率(A=>B)=包含A和B的元組數/元組總數(11.6)