公務員期刊網 論文中心 正文

    電子商務用戶數據挖掘研究

    前言:想要寫出一篇引人入勝的文章?我們特意為您整理了電子商務用戶數據挖掘研究范文,希望能給你帶來靈感和參考,敬請閱讀。

    電子商務用戶數據挖掘研究

    摘要:隨著互聯網經濟產業發展規模的突飛猛進,電子商務呈現著爆炸式發展態勢。而電子商務用戶數據也開始暴增,這些由用戶創造的數據遠超出了當前人力處理的范圍。因此,研究了將模糊聚類算法應用于電子商務用戶數據的挖掘處理中,通過遺傳算法改進的模糊C均值聚類,處理龐大的電子商務用戶數據,挖掘電子商務核心資源的商業價值,從而實現精準營銷。

    關鍵詞:模糊聚類;遺傳算法;電子商務;數據挖掘

    0引言

    互聯網經濟時代背景下,伴隨著社交網絡和移動網絡的快速發展,電子商務的用戶數據規模不斷擴大,維度也不斷增加。這些數據的類型十分復雜,除了用戶的基本信息數據,還包含電子商務平臺的數據、用戶使用移動終端信息等非結構化的過程性數據[1]。商業價值是否能得到最大限度的利用,取決于對用戶數據的挖掘和分析的方式。因此,找到一種行之有效的數據挖掘技術對電子商務用戶數據進行高效處理十分必要。

    1互聯網經濟下電子商務用戶數據特點

    相比較于傳統經濟的數據,互聯網經濟下電子商務用戶數據體量極大,每日產生的數據規模已達到TB級,并且對時效性有著極高的要求。這些數據都是高速、實時的數據流,蘊含著巨大的商業價值[2]。可以看出,電子商務用戶數據具有大數據的特征。如何高效處理這些用戶數據,從中挖掘出有價值的信息,從而實現精準營銷,成為了當前亟待解決的問題。

    2模糊聚類算法相關研究

    聚類算法是一種自然進行、無需人工監督的學習過程,在這個過程中,不需要任何先驗知識作為指導,僅通過數據的內在特點就可以對其進行聚類和分析。作為一種重要的數據挖掘技術,聚類算法已被廣泛應用到了許多領域,如文本分析、圖像處理等[3]。在電子商務用戶數據的處理分析中,也可以用到模糊聚類。其中,模糊C均值算法FCM(FuzzyC-Means)的應用特別廣泛。FCM算法是指通過引入隸屬度的概念,查找各個樣本的數據對象依據隸屬度值的大小決定其是否從屬于某一個分類。簡單來說,它是一種在模糊理論基礎上的柔性劃分。先將向量Xi(i=1,2,…,n)分成c組V={V1,V2,V3,…,Vc},然后求出每組的聚類中心A={A1,A2,A3,…,Ac},對于其中每一個向量Xi都有一個[0,1]之間的值,用于表示其從屬于某一個聚類中心的程度。為得到模糊聚類的最優解,要使目標函數在約束條件控制的前提下得到最小值。因此,整個聚類算法過程步驟如下:第一步:初始條件下,隨機生成c個聚類中心A={A1,A2,A3,…,Ac};第二步:計算全部樣本數據的隸屬度矩陣,并且使這個矩陣總能保證滿足和恒等于1的約束條件;第三步:計算目標函數值,當其大小與設定閾值相比,小于閾值則算法結束;第四步,最后更新聚類中心A,并且迭代整個算法(返回第二步)。

    3遺傳算法改進的模糊聚類

    目前,針對FCM算法的研究和應用有許多,但是該算法存在較為明顯的缺陷。因此,利用遺傳算法GA的全局搜索,優化FCM算法的隨機初始聚類中心選取問題。作為一種群體搜索智能算法,GA算法通過一定的規則逐步迭代,最終選取全局最優解。以該最優解作為模糊聚類算法的初始聚類中心,可以較好地改善FCM聚類。在整個算法中,可以用t表示迭代演化的代數,那么群體P(t)經過一定規則的搜索后,就會產生下一代群體P(t+1),然后不斷迭代,直到最終找到最優解。如果在搜索過程中,群體陷入了局部極值,那么迭代操作就會因此停滯,算法的最終結果也陷入局部的最優解,這種現象稱為早熟,它會導致當前搜索的群體中很難涵蓋到全局最優解。這個問題產生的最大原因,在于搜索過程中,進化到下一代的個體選擇速度過快,即對子代的篩選速度過快,與產生新個體的速度不相匹配,導致個體多樣性受到破壞,最優解無法涵蓋到下一代種群。在傳統算法中,是通過交叉和變異操作產生新的個體。因此,可以通過增加交叉和變異操作的概率來達到加快新個體產生速度的目的。但是,這種操作會導致迭代過程產生的新個體速度過快,個體的多樣性太高,個體中的解決方案丟失,無法完全把最優解囊括到下一代群體中。因此,為了保證個體的多樣性,同時也保證群體的穩定性,引入了反向學習機制,改善遺傳算法的這個缺陷。也就是說,在搜索過程的子代選擇上,不僅搜索當前種群P(t)的個體,還搜索當前種群P(t)的反向種群P(t)'個體,從二者的集合中挑選出較優解作為下一代解集P(t+1)。遺傳算法中的其他設置如下。編碼方法采用的是二進制編碼,對原始種群中的個體進行編碼,每條染色體都是由二進制字符串組成,根據它的位置基因取值是0還是1,進而判斷這個位置上的個體是否被選中(0表示未選中,1表示選中)。對需要求解問題的方案好壞做評判,通常是使用適應度函數,計算適應度的值,對最優解的種群個體一一計算,判斷是否可取。這個適應度函數通常是使用與聚類算法相同的目標函數。但是,這種設置使得每次都要耗費大量時間去計算隸屬度矩陣,每次循環時都要對其進行更新,導致整個算法運行的效率降低。因此,采用了一個新的適應度函數解決時間效率問題。同時,為保證優秀個體不被選擇操作破壞,在選擇環節采用了隨機遍歷抽樣的方法,它對子代進行選擇的操作與輪盤賭的方法很像,但它的優點是只需進行一次輪盤旋轉,整個過程較為快捷。使用該種遺傳算法改進模糊聚類FCM算法,可以得到很好的數據處理效果。同時也更能適應電子商務用戶數據的特點,在數據預處理清洗數據雜質、冗余、數據的挖掘以及分析方面表現優異。

    4改進模糊聚類的電子商務用戶數據挖掘流程

    由于電子商務用戶數據的高維度、快流轉速度、大體量等特點,普通人工數據分析已無法滿足需求。因此,將模糊聚類算法這種數據挖掘技術引入對電子商務用戶數據的處理分析中,以獲得其中潛在的有價值的信息[5]。大致流程如下。第一,數據收集。根據用戶的交易情況、互動情況對數據進行簡單分類,然后收集用戶產生的各種數據。第二,數據預處理。用戶數據中存在著很多冗余和噪聲數據,影響了整個數據挖掘分析的結果。因此,數據預處理的好壞,很大程度上決定了數據挖掘的結果。在預處理中,通過結構化和半結構化的方法對其進行過濾整理,目標是提升用戶數據的相關度,找出其潛在的共同性特征。第三,數據挖掘。通過遺傳算法改進的FCM聚類對已預處理過的數據進行聚類分析,根據電子商務用戶數據的共同特點將數據進行柔性分類,簡單將其劃分為不同隸屬度的幾個大類。第四,數據應用。通過聚類分析得到的隸屬度分類,可以應用在用戶的購買預測方面。其對用戶共同特性的聚類如用戶屬性、購買力分析等,可以將用戶群體進行劃分,從而實現精準營銷。

    5結語

    聚類分析作為一種重要的數據挖掘技術,應用于電子商務用戶數據的分析中,可以對海量數據進行抽取、分類等處理,從而挖掘出關鍵性信息幫助商家進行精準決策,使電子商務更加順利的開展進行,從而實現更多的經濟效益。

    參考文獻

    [1]蘆海燕.數據挖掘技術在電子商務中的應用探究[J].電子測試,2014(s1):73-75.

    [2]李霏.Web數據挖掘技術在電子商務中的應用價值探析[J].電子技術與軟件工程,2016(2):198

    [3]高新波.模糊聚類分析及其應用[M].西安:西安電子科技大學出版社,2004:11.

    [4]張永庫,尹靈雪,孫勁光.基于改進的遺傳算法的模糊聚類算法[J].智能系統學報,2015,10(4):627-635.

    作者:王越 單位:山東勞動職業技術學院

    主站蜘蛛池模板: 中国国产成人精品久久| 国产成人久久精品区一区二区| 欧美成人鲁丝片在线观看| 国产成人精品久久免费动漫| 成人av在线一区二区三区| 成人免费看www网址入口| 国产精品成人久久久| 国产成人愉拍精品| a级成人毛片久久| 国产成人无码av在线播放不卡| 亚洲国产成人久久精品app| 成人艳情一二三区| 亚洲成人免费网站| 成成人看片在线| 中文字幕在线成人免费看| 国产成人综合在线观看网站| 久久久久99精品成人片试看| 成人一级片在线观看| 亚洲国产成人va在线观看| 日韩av无码成人精品国产| 四虎影视永久地址www成人| 成人免费在线观看网站| 亚洲AV午夜成人片| 午夜成人免费视频| 国产成人久久777777| 成人av鲁丝片一区二区免费| 亚洲人成人网站在线观看| 国产成人精品一区二区三区免费| 成人小视频免费在线观看| 爱情岛永久地址www成人| 亚洲精品国产成人片| 国产成人精品无缓存在线播放| 成人在线免费观看网站| 欧美日韩成人午夜免费| 3d成人免费动漫在线观看| 中文国产成人精品久久不卡| 亚洲成人黄色网| 97成人碰碰久久人人超级碰OO| 久久精品成人国产午夜| 中文字幕成人网| 色综合天天综合网国产成人 |