公務員期刊網 精選范文 個性化推薦范文

    個性化推薦精選(九篇)

    前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的個性化推薦主題范文,僅供參考,歡迎閱讀并收藏。

    個性化推薦

    第1篇:個性化推薦范文

    關鍵詞:個性化推薦;icon;協同過濾算法;權值;關鍵點;

    中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)03-0250-03

    1 概述

    隨著信息時代的不斷發展,網絡給人們的生活帶來了翻天覆地的變化,人們可以足不出戶就能夠在網絡上購買到自己想要的任何商品。網絡的便利,使得人們的購物方式得到了改變,同時也滋生了很多購物平臺的產生。無論大型還是小型的電子商務平臺,都會存在著一些弊端,信息過載問題,就是商品的種類太過于豐富多樣性,以至于用戶不能很快地查找到自己喜歡的商品。所以平臺開發商們就會想盡辦法來避免這種情況,個性化推薦應運而生,個性化推薦就是在正確的時間把正確的商品推薦給正確的用戶,來拉攏用戶,防止用戶的流失,從而提升自己平臺的競爭力。

    1.1課題背景及研究的目的

    當今時代是信息的時代,每天人們都會被不同的海量數據所圍繞,如何從這些繁雜的數據中找到自己想要的數據,是我們每個人都迫切需要的。我們都希望每個平臺系統都能給我們展示出契合我么自己的數據,這樣我們就不需要花費太多的精力在尋找數據上。

    基于和老師同學們一起做的這個ICON項目(一個類似圖片交際購物系統),因為用戶的不斷增加,所上傳的圖片也越來越多,為了滿足用戶查找數據的方便,就打算給系統添加一個個性化推薦策略。由于自己對推薦這一塊比較陌生,閱讀了多篇關于推薦系統的論文及報告,大多都會涉及諸多復雜的算法,就想到針對我們這個系統來設計一個較為簡單的個性化推薦。

    1.2 本文主要研究的內容和組織架構

    1.2.1 本文主要工作

    本文主要探討了一下個人設計的簡單個性化推薦策略及相關工作。介紹了該推薦策略的研究背景和目的,然后又詳細地介紹了該策略算法。最后就該研究成果在ICON項目中的應用效果進行了展示,說明了我們算法的可行性。

    1.2.2 本文的組織架構

    第一章是緒論部分,介紹了個性化推薦系統的背景,以及研究目的。簡單個性化推薦策略的由來。

    第二章是算法簡述部分,大概地介紹了一下算法。

    第三章是算法詳解部分,在本章節中詳細介紹了算法的構成。

    第四章是指標的權重計算部分,介紹了算法中一個比較重要的權重計算方法,并計算出了算法中各個特性的權重值。

    第五章是結果分析部分,對推薦前后用戶滯留系統的時間和點擊look的數量進行觀察比較,得出分析結果。

    2 算法簡述

    1) 找出平臺關鍵點;

    2) 統計關鍵點數據;

    3) 畫出涉及關鍵點的表格;

    4) 整理分析,推薦圖片;

    5) 通過圖片推薦給用戶商品。

    3 算法詳解

    3.1 找出平臺關鍵點

    用戶發表一個look(即圖片),都會給這個look選擇一個性別、季節、品牌、風格等,其中風格包含有正裝、暗黑、韓國風、運動、嘻哈等多達20多種的不同風格,其中肯定會有一種是你發表的look風格。性別和風格是主要的,從這兩個特性中我們就能看出你平時穿衣打扮,因為發表的每一張look都是對自己平時的一個真實寫照。用戶發表的每一張look都是對應自己所購買的衣服,從而我們就可以從look中對應到相應的商品中。

    拋開性別這個普遍的共性來分析,我們可以根據用戶平時發表的look的風格來觀察該用戶的穿衣習慣,從而得到用戶可能喜歡的商品類型,繼而向用戶推薦他們想要看到或者想要購買的衣服。

    在icon的系統中,用戶看見自己喜歡的look時,可以對其進行點贊或者收藏。用戶也可以關注其他的用戶,成為他的粉絲,隨時關注他(她)發表的look,你們之間也可以相互交流探討穿衣打扮的技巧。

    在認真觀察項目后,可以看出用戶發表look的風格就是所謂的關鍵點。

    3.2 y計關鍵點數據

    用戶發表的look,關注的look,點贊的look,以及收藏的look我們都統一存到了數據庫中。平臺是用mybatis連接的數據庫,所以,數據我們可以寫sql語句直接獲取到,而不用去分析歷史數據或者網絡爬蟲去解析用戶瀏覽行為等。

    這個算法,我要求只需要能獲取到用戶偏重的前三個就行,所以常用到的mysql中的limit關鍵字,limit接受一個或兩個數字參數,參數必須是一個整數常量,如果給定兩個參數,第一個參數指定第一個返回記錄行的偏移量,第二個參數指定返回記錄行的最大數目。在使用limit時,要先判斷查詢到的數據集的數目有多少,防止查詢的時候出錯。

    舉個例子,通過tbl_look表和tbl_user_likes表來查找id為131的用戶點贊的look風格的前三個的mysql語句:

    SELECT tul.id,tul.uid,tul.lookid,tl.style,COUNT(tl.style) AS sc FROM tbl_user_likes tul ,tbl_looks tl WHERE tul.uid=131 and tl.id=tul.lookid GROUP BY tl.style ORDER BY sc DESC LIMIT 3

    3.3 畫出涉及關鍵點的表格

    為了更形象的觀察用戶的自己的風格以及自己和其他人的風格,我們將查詢的數據用表格的形式展示出來。這樣就可以一目了然的通過觀察表格得出合理的結論。

    3.4 整理分析,推薦內容

    分析表1,因為用戶發表、點贊和收藏的數量差別可能比較大,所以我們就按照表格中展示的三項以及它們的權值來計算每個用戶表側重的風格。

    每個用戶的風格評分計算如下:

    [fur=i=03wiri]

    [fur]表示u用戶r風格的評分,其中[wi]表示每個i指標的權值,會在第四章詳細介紹權值算法;[ri]表示u用戶r風格是否存在i指標的參數,存在為1,不存在為0。

    經過計算,我們得出甲用戶和丁用戶都比較側重ABC折三種風格,并且甲和丁也互相關注了,那么我們完全就可以認為甲和丁用戶風格類似,可以看成是相似用戶。按照基于用戶的協同過濾算法來考慮的話,我們可以把E風格的服飾推薦給丁用戶,而把G風格的服飾推薦給甲用戶。

    我們還可以得出,BC風格總是在一起,EF風格總是在一起,我們就可以這樣認為,喜歡B風格服飾的人通常也會喜歡C風格的服飾,喜歡E風格服飾的人通常也會喜歡F風格服飾的人,反過來也一樣。按照基于內容的系統過濾算法考慮的話,我們就可以把B風格的服飾推薦給乙用戶。

    3.5 通過圖片推薦給用戶商品

    整個系統的模式是這樣的,通過用戶的各項特征找到一個關鍵點,再由該關鍵點給用戶推薦look,最后由推薦的look來決定用戶可能喜歡的商品(服裝)。如圖1所示:

    4 指標的權重計算

    各項指標的權重根據定量統計法算法計算得出。

    定量統計計算權重的步驟如下:

    1) 按照沒有關聯、有點關聯、關聯和非常關聯四個等級繪制出統計表格。

    2) 以67%(2/3)位界限,若選擇“關聯”和“非常關聯”的比例合計小于67%,就刪除該指標,不予考慮。

    3) 分別把沒有關聯賦值為1,有點關聯賦值為2,關聯賦值為3,非常關聯賦值為4,選擇出沒有關聯之外以上數據都進入統計,那么三種選項的權重分別為[w′1]=2/(2+3+4)=0.22;[w′2]=3/(2+3+4)=0.33;[w′3]=4/(2+3+4)=0.45。

    4)指標權重計算:

    [wi=pii=13pi]

    其中[pi]為指標i的統計權值和:

    [pi=j=13w′iaij]

    其中,[aij]表示i指標除沒有關聯外的其他關聯度的統計數,[a11]就表示指標1有點關聯的統計人數,[a32]就表示指標3關聯的統計人數。

    我們對使用該系統的用戶進行了一次統計,隨機抽出統計過的100名用戶來計算權值。

    首先畫出統計的表格如下:

    分別代表用戶發表、點贊和收藏look的風格權值。通過計算得到的數值可明顯看出,用戶發表和收藏的look風格所占比重比較大,點贊風格所占比重較小。所以,發表和收藏風格的特性能較大反映出用戶的風格類型,而點贊風格的特性稍次于發表和收藏特性。

    5 結果分析

    項目中我們引入了cnzz流量統計、網絡分析數據專家,可以通過cnzz來獲取到用戶滯留平臺的時間和點擊各個look的數量。

    為了驗證該個性化推薦策略的可行性,我們隨機抽取了四名用戶,利用cnzz獲取到在推薦系統應用的前后,用戶滯留系統的時間(從進入系統到退出系統的滯留時間),以及用戶點擊look的數量,描繪成線形圖如下:

    通^這兩個柱狀圖,可以明顯的觀察到推薦策略應用前后的效果,證明了我們所做的工作的可行性。

    參考文獻:

    [1] 丁宏飛,黃戰.個性化電子商務系統中用戶興趣模型的研究[D].廣州:暨南大學,2008.

    [2] 王國霞,劉賀平.個性化推薦系統綜述[J].計算機工程與應用,2012(9).

    [3] 劉瑋.電子商務系統中的信息推薦方法研究[J].情報科學,2006(4).

    [4] 米鵬,段建勇,付曉宇.面向社區用戶的推薦策略研究[D].北京:北方工業大學,2016.

    [5] 曾春,邢春曉,周立柱.個性化服務技術綜述[J].軟件學報,2002(5).

    [6] 于波,陳庚午,王愛玲,等.一種結合項目屬性的混合推薦算法[J].計算機技術應用,2017(5).

    第2篇:個性化推薦范文

    如何關閉微博個性化廣告推薦 2、點擊右上方的【設置圖標】進入設置。

    如何關閉微博個性化廣告推薦 3、點擊【隱私設置】選項進入。

    如何關閉微博個性化廣告推薦 4、點擊底端【個性化廣告推薦】的開關按鈕。

    如何關閉微博個性化廣告推薦 5、點擊關閉后,頁面顯示【設置成功】即可。

    第3篇:個性化推薦范文

    2、在“美團”窗口中,點擊下方“我的”菜單選項。

    3、在彈出窗口中,點擊右上方“設置”符號選項。

    4、在“設置”窗口中,找到“通用”選項并點擊它。

    5、在“通用”窗口中,找到“隱私管理”選項并點擊它。

    6、在“隱私管理”窗口中,找到“接收個性化推薦”選項并點擊“關閉”按鈕。

    7、在彈出窗口中,點擊“確認關閉”按鈕選項。

    第4篇:個性化推薦范文

    關鍵詞:社會化標簽;學習平臺;協同過濾

    中圖分類號:TP311.56 文獻標志碼:B 文章編號:1673-8454(2014)19-0044-04

    引言

    泛在學習是一種隨時隨地的、個性化的學習過程,是人們最喜歡的一種學習模式。泛在學習是現在信息社會最流行的一種非正式學習方式,它彌補了數字學習的不足和限制,也是構建學習型社會的主要途徑之一。泛在學習環境中需要數量巨大的各類學習資源,但由于泛在學習的隨時隨地性與個性化等特點,學習主體對各類資源的需求層出不窮,如果能在數量巨大的各類學習資源中找到學習者需要的學習資源,屏蔽那些學習者不喜歡的學習資源,建立起這種學習者與學習資源的匹配機制,將大大提高學習者的學習效率。[1]不同的學習者興趣愛好不同,為不同的學習者提供自己喜歡的學習資源,讓學習資源來適應學習者,這將是以后研究的熱點。

    一、個性化學習的現狀

    目前絕大多數的網絡學習資源平臺都可以對本平臺的資源進行管理,可以進行資源的分類瀏覽和基于關鍵知識點的資源檢索功能,當不同的學習者訪問網絡學習資源平臺,平臺為所有學習者的服務是完全一樣的,未考慮每位學習者的個性化需求,不能為學習者提供他們需要的、想要的服務和需求。 “大量資源”和個性化學習網絡的人的需求之間的矛盾就已經存在,這種矛盾的存在,一方面降低了資源的有效利用、造成了資源的浪費;另一方面給學習者使用資源帶來了諸多困難。[2]

    個性化推薦是目前一種重要的解決“信息過載”問題和提供個性化服務的方案。個性化推薦是利用已有的Web用戶興趣愛好和行為信息,講web學習者和學習資源關聯起來,通過Web用戶與Web用戶、Web用戶與學習資源之間相似性、相關性關系挖掘和發現學習者潛在感興趣的學習資源,進而對Web學習者進行個性化推薦服務。本質上是對信息進行帥選、提取,它根據Web用戶的偏好、興趣等,對其提供具有個性化特征的信息產品推薦。

    二、推薦策略的組合使用

    1.社會化標簽的引入

    社會化標簽是近幾年新使用的一種標注網絡資源的工具,其思想是根據用戶的訪問內容來判斷用戶的行為和需求,和基于內容的推薦很類似。基于內容的推薦技術是以資源信息為研究對象,利用信息檢索技術來分析項目的內容,通常應用鄰居函數和分類技術來分析和聚類項目的文本內容,并基于項目特征與用戶檔案產生推薦。[3]通過使用社會化標簽,資源信息變得更加準確和明白,進而給資源信息定義了一種新的社會屬性。

    標簽由用戶定義,反應了用戶的興趣偏好,我們可以通過分析用戶標簽來判斷出用戶的興趣愛好。同時,標簽表達了與資源之間的語義關系,可以用來分析資源的潛在屬性。我們可以根據標簽建立相似資源集,為目標用戶找到感興趣的學習資源,同時社會化標簽還提供了解決冷啟動問題的方法。

    因為標簽可以由用戶自己定義,會遇到同義詞標簽的問題,解決方法為:通過窮舉的方式查詢同義詞庫,對同義詞標簽進行歸一。

    2.協同過濾算法的改進

    (1)通過社會化標簽計算資源之間的相似度

    對于新增的學習者,由于學習者對資源的評分很少,不能進行很好的協同過濾的推薦,這就是冷啟動問題。這里我們根據用戶注冊時填寫的興趣標簽,向學習者推送學習者所感興趣標簽相似度最大的資源。

    對于評分數據稀疏的問題,我們通過社會化標簽計算資源之間的相似度,通過資源間的相似度來對評分矩陣進行進一步的填充。其流程如圖1所示。

    1)計算資源之間的相似度。這里使用向量空間模型(VSM)對資源和社會化標簽進行描述,向量空間模型就是用一組關鍵詞及其權重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n為關鍵詞維度)。這里的關鍵詞即轉換為社會化標簽,而權重通過TF-IDF算法計算得來(具體計算時,對于資源――標簽,weight的計算公式為:tag在該資源中年出現的次數/該資源所有的標簽數 + tag標識過的資源數量/總的資源數量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根據標簽和資源形成資源―標簽矩陣表。[4]

    2)通過Pearson算法計算資源之間的相似度,選取相似度最大K個資源。Pearson算法:Tij表示標簽i和標簽j所標注的資源的交集,j表示標簽j所占的平均權重,i表示標簽i所占的平均權重。

    3)根據資源的相似度來填充學習者――資源評分矩陣,解決數據稀疏問題。相似資源的集合Su,Rn,表示資源n的評分,sim(u,n)表示資源u、n的相似度,u表示資源u所得到的平均評分。

    (2)通過協同過濾算法得到最相似的Top-N個學習者

    協同過濾算法是根據學習者和資源的評分矩陣,計算出學習者之間的相似度,來推算出那些學習者沒有進行評分的資源的評分,并且系統綜合學習者的興趣愛好,給學習者推送他們可能會評分高的資源[10]。基于協同過濾的個性化推薦具體流程:

    1)得到m個用戶對n個資源的評分矩陣。

    2)通過Pearson算法計算用戶的相似度,選取相似度最大的前k個用戶。

    Pearson算法:Iij表示用戶i評過分的項目和j評過分的項目的交集,j表示用戶j評分的平均分。

    3)根據用戶的相似度得到用戶對其他的沒有評過分的項目的評分,產生推薦。相似用戶的集合Su,Rn,j表示用戶n對項目i的評分,sim(u,n)表示用戶u、n的相似度,u表示用戶u對項目的平均評分。

    三、學習平臺的架構

    本學習平臺設計主要分為三部分:學習者管理模塊、資源管理模塊、個性化推薦模塊。其總體架構如圖2所示。

    學習資源建設主要通過兩種方式:服務器中存放的大部分的學習資源、學習者自己上傳自己感興趣的資源。學習者模塊主要是記錄學習者的學習情況,分析學習者的興趣愛好。學習者和資源之間有一個資源描述文件,該文件記錄了資源本身的內容特征、學習者訪問的次數、訪問的時間和各種行為,形成一種學習者和資源之間的關系表。

    個性化推薦模塊是平臺的主要功能模塊。該模塊中最主要的是推薦算法,推薦算法的使用直接會影響到本系統的準確性。該平臺采組合使用了多種推薦算法,引入了社會化標簽,并且對協同過濾算法做了一定的改進。

    四、學習者模型和資源模型的具體構建

    1.學習者模型

    對學習者的學習興趣抽取,并對興趣愛好進行量化,建立學習者模型,并且不斷地更新用戶的興趣變化,進一步地完善學習者模型,凸顯出以學習者為中心的學習理念[2]。其創建流程如圖3所示。

    (1)顯性數據的獲取

    顯性數據主要包括學習者注冊時填寫的學習者的基本學習情況和相關的興趣愛好以及學習者的直接評分和評價。學習者注冊信息主要有學習者的教育層次、正在學習的課程資源、使用的資源標簽、喜歡觀看視頻還是文字等。其相關數據如表所示。

    (2)隱性數據的獲取

    學習者在平臺中學習時,對學習資源就會產生收藏、下載、瀏覽、在頁面停留的時間、瀏覽的次數和評價等學習行為,這些學習行為就表現出了他的學習興趣,我們將學習者的學習動作收集并記錄下來。根據學習者的行為的不同進行打分,作為學習者對資源的評分。[5]例如:瀏覽一次得2分、瀏覽并且收藏了得4.5分等。

    用戶特征的提取中,不同用戶的瀏覽行為反映了不同用戶的興趣愛好,而且,用戶的興趣總會隨著時間的變化,具有一定的漂移性,動態轉移的。這樣,在用戶模型中,用戶的興趣度值也會相應變化的;用戶對感興趣的資源也會在一段時間內是高頻點擊瀏覽的,時間也是會越長的,那么,用戶就會對其相應感興趣的資源的興趣度值也會提高。[6]

    2.學習資源模型

    學習資源是學習者學習、交流、互動的根本和媒介,建立符合學習者的學習資源模型同樣重要,目前大多數學習資源的建立都是根據學習者的學習需求建立的,但是學習資源之間的聯系很松散,學習資源都是在雜亂無序的生長,所以我們對學習資源進行統一的管理和歸類。[7]

    學習資源分為學習主題、學習文檔、學習序列,每個資源都必須要用兩個以上的標簽進行標注,這樣每個學習資源都用標簽來代替,標簽的引入有助于對資源內容進行分類,實現資源的統一管理和高度共享。

    五、展望

    1.推薦系統實時性的提高

    推薦系統都需要學習者的反饋,所以會產生一個冷啟動的問題,一個新的資源很難很快地推薦給學習者。如果系統可以及時地向學習者推薦新的學習資源,推薦的質量就要受到很大的影響,如何保證這兩個的協調需要進一步的研究。

    2.深化學習資源特征的描述

    可以把學習資源先根據某些標準進行分類,并且和學習者的教育級別相結合,在大的方向上向學習者推薦。隨著信息時代的發展,信息量的擴大,數據挖掘技術的發展,我們可以將協同過濾算法和數據挖掘相結合,向學習者更準確地推薦學習資源。同時加大對新的資源的引入和分類,將信息更及時地推向給學習者。

    參考文獻:

    [1]楊麗娜,肖克曦,劉淑霞.面向泛在學習環境的個性化資源服務框架[J].中國電化教育,2012(7):84-88.

    [2]楊麗娜,顏志軍,孟昭寬.基于個性化推薦思想的虛擬社區學習共同體動態構建[J].現代教育技術,2012(1):88-92.

    [3]王永固.基于協同過濾技術的學習資源個性化推薦研究[J].遠程教育雜志,2011(3): 66-71.

    [4]李高敏.基于協同過濾的教學資源個性化推薦技術的研究及應用[D].北京交通大學,2011:58.

    [5]程成.基于社會化標簽和混合模式的教學資源個性化推薦系統的設計[D].北京交通大學,2012:66.

    第5篇:個性化推薦范文

    關鍵詞:推薦系統;Mahout;單機內存算法;組件

    中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)25-0171-02

    隨著信息技術和互聯網的發展,人們逐漸從信息匱乏的時代進入了信息過載的時代。推薦系統的出現可以幫助用戶發現對自己有價值的信息,同時能夠讓信息展現在對它感興趣的用戶面前。個性化推薦系統依賴于用戶的行為數據,目前被廣泛地應用在包括電子商務、社交網絡、電影和視頻、音樂、個性化郵件和廣告、基于位置的服務、閱讀等領域中,從而提高相關網站的點擊率和轉化率。Mahout是來自Apache的、開源的機器學習軟件庫,主要提供了機器學習領域的推薦引擎(協同過濾)、聚類和分類算法的實現,為推薦系統的應用和研究提供了支持。

    本文通過對Mahout中的推薦算法進行研究,使用一個示例對推薦算法進行評估,從而找到一個有效的推薦程序應用到示例中,為用戶實現推薦。

    1 Mahout的推薦算法

    基于Hadoop分布式框架的機器學習算法庫Mahout封裝了多種機器學習算法的分布式實現,由多個組件混搭而成,各個組件的組合可以定制,從而針對特定應用提供理想的推薦。通常包括的組件如下:數據模型由DataModel實現;用戶間的相似性度量由UserSimilarity實現;用戶近鄰的定義由UserNeighborhood實現;推薦引擎由一個Reommender實現。從數據處理能力上,Mahout推薦算法可以分為單機內存算法和基于Hadoop的分布式算法,本文僅討論單機內存算法。

    1.1 推薦數據的表示

    推薦引擎的輸入是偏好數據(preference data),通常用(用戶ID,物品ID,偏好值)的元組集合來表示。在Mahout中使用DataModel對推薦程序的輸入數據進行封裝,GernericDataModel是現有DataModel實現中最簡單的,它通過程序在內存中構造數據表示形式,將偏好作為輸入,將用戶ID映射到這些用戶數據所在的PreferenceArray(一個接口,表示一個偏好的聚合)上。若用戶和物品的數據無偏好值時,可以使用GenericBooleanPrefDataModel來實現。基于文件的數據使用FileDataModel,從文件中讀取數據,將所得的偏好數據存儲到內存,即GernericDataModel中。基于數據庫的數據用JDBCDataModel實現,若使用MySQL數據庫,可以使用其子類MySQLJDBCDataModel。

    1.2 相似性度量

    基于用戶的推薦程序和基于物品的推薦程序都依賴于UserSimilarity這個組件,及用戶或物品之間的相似性,缺乏對用戶或物品的相似性定義的推薦方法是毫無意義的。相似度算法包括了歐氏距離相似度(EuclideanDistanceSimilarity)、皮爾遜相關系數相似度(PearsonCorrelationSimilarity)、曼哈頓距離相似度(CityBlockSimilarity)、對數似然相似度(LogLikehoodSimilarity)、谷本系數相似度(TanimotoCoefficientSimilarity)等

    1.3 用戶近鄰

    近鄰算法適用于基于用戶的協同過濾算法,選出前N個最相似的用戶構成鄰域,作為最終推薦參考的用戶。近鄰算法分為2種:基于固定大小和基于閾值的。NearestNUserNeighborhood實現基于固定大小的鄰域,指定N的個數,如選出前10個最相似的用戶;ThresholdUserNerghborhood實現基于閾值的鄰域,指定比例,如選擇前10%最相似的用戶。

    1.4 推薦算法

    Mahout的推薦算法以Recommender作為基礎父類,實現類有基于用戶的推薦算法、基于物品的推薦算法、基于物品的KNN的推薦算法、Slope-one推薦算法、基于奇異值分解(SVD)的推薦算法、基于聚類(TreeCluster)的推薦算法。推薦算法對比如表1所示。

    2 Mahout在推薦系統中的應用

    上節介紹了Mahout提供的推薦算法,接下來講述如何在數據集上使用Mahout開發推薦系統。首先分析樣本數據,對數據做預處理,然后選取一個方法,收集數據、評估結果,多次重復這個過程,找到最優的推薦算法創建一個推薦引擎。

    本示例數據來自捷克的一個約會網站(http://libimseti.cz)。該網站的用戶可以對其他用戶的檔案進行評分,分值從1到10不等,分值1代表“喜歡”,分值10代表“不喜歡”。

    2.1 數據的輸入

    示例數據集有17359346份評分,存儲為ratings.dat文件,是一個簡單地以逗號分界的文件,包含用戶ID、檔案ID和評分,檔案是指其他用戶的檔案。每行代表一個用戶對另一個用戶檔案的一次評分,如:1,133,8,表示用戶ID為“1”的用戶對檔案ID為“133”的評分值為8。輸入數據的格式直接可以用于Mahout的FileDataModel。即用戶和檔案是數字,文件按字段依次以逗號分隔:用戶ID,物品ID,偏好值。

    2.2 尋找一個有效的推薦程序

    為了創建一個推薦引擎來處理示例數據,需要從Mahout中挑選一個推薦程序。通過在基于用戶的推薦程序和基于物品的推薦程序下選擇幾種不同的相似性度量和鄰域定義進行嘗試性測試,測試結果如表2、表3所示。

    以上的結果較為理想。這些推薦程序估計的用戶偏好平均偏差在1.12~1.56之間,而取值范圍為1~10。最佳的方案是選擇基于歐氏距離相似性度量和2個最近鄰域的基于用戶的推薦程序,其評分估值為1.12。

    從結果看出,平均誤差,即估計值和實際值的平均差值翻了大概2倍,具體值超過了2,顯然基于物品的推薦方法相較于基于用戶的推薦方法效果不佳。

    Slope-one推薦程序在數據模型中的大多數物品對之間求得一個差值。示例數據集中有168791個物品(檔案),意味著潛在存儲了280億個差值,它太龐大因而無法存入內存。可以考慮在數據庫中存儲這些差值,但會極大地降低性能。對于示例數據集,Slope-one推薦程序也并非最佳選擇。

    讀者還可以嘗試更多的組合進行測試,經過目前所做的測試進行對比分析,這里在Mahout中選擇最佳方案:基于用戶的推薦程序,采用歐氏距離測度且鄰域為2。

    2.3 評估性能

    使用Mahout的LoadEvaluator類評估該數據集上使用的推薦程序,采用如下的標識類參數:-server Cd64 CXmX2048 CXX:+UseParallelGC CXX:+UserParallelOldGC。在測試機上平均每次推薦會用218ms。這個程序在運行時僅占用1GB左右的堆空間。這些測試結果是否可被接受,依賴于應用的需求和可用的硬件資源。對于許多應用而言,這些測試數據應該還是符合要求的。

    3 結束語

    本文通過使用一個來自約會網站的數據作為示例,分析了數據的格式,使之成為適合Mahout應用的數據輸入格式。通過嘗試性測試不同算法組件的組合進行對比,找出最佳的推薦程序,并對推薦程序進行性能評估,使讀者了解在Mahout選擇和創建一個推薦引擎的基本過程。本文僅討論了基于單機內存的算法,基于Hadoop的分布式算法將是今后考慮的研究方向。

    參考文獻:

    [1] 朱倩,錢立.基于Mahout的推薦系統的分析與設計[J].科技通報,2013(6):35-36.

    [2] 韓懷梅,李淑琴.基于Mahout的個性化推薦系統架構[J].北京信息科技大學學報:自然科學版,2014(4):51-54.

    第6篇:個性化推薦范文

    關鍵詞:移動電子商務;個性化推薦;基于位置的服務(LBS);用戶興趣模型

    一、引言

    2011年中國移動電子商務進入了快速發展的軌道,部分電商企業在移動終端取得了非常不錯的成績,到2012年年末,中國移動電子商務的發展進入爆發期。相對于傳統電子商務而言,移動電子商務具有移動性、虛擬性、非結構化數據、個性化和社會性等主要特征,其移動性一般體現在用戶的可移動特征及用戶需求對情境的依賴性。推薦系統便是在這種大的環境下產生的,主要是為用戶推薦其感興趣的對象。

    二、個性化推薦系統簡介

    個性化推薦系統主要是為了向用戶自動推薦,是從信息中找出符合用戶喜好或需求的資源,在此基礎上為用戶提供一種智能推薦系統,解決互聯網信息過載的問題。

    (一)個性化推薦系統的構成

    個性化推薦系統可分三個部分:輸入模塊(Input Function)、推薦模塊(Recommendation Method)和輸出模塊(Output Function)。一個完整的個性化推薦系統包括三個部分:用戶信息的收集和分類、建立用戶喜好的模型、使用算法為用戶推薦。

    (二)電子商務活動與個性化推薦系統的結合

    客戶在選擇商品時往往會碰到在商家提供的浩大的信息面前無法快速找到所需產品信息的問題,在此種情形下,商家通過個性化推薦可快速地為客戶提供服務,找到其所需的商品,最終完成購買活動。

    1.將電子商務網站的瀏覽者轉變為購買者

    個性化推薦可快速的為客戶找到其所需的商品,可以將一個網頁的瀏覽者變成一個實實在在的購買者。可減少商家客戶的流失率,減少客戶瀏覽網頁查詢商品目錄的時間。

    2.提高電子商務網站的銷售能力

    個性化推薦可減少客戶瀏覽網頁的時間,為客戶提供精準的推薦,如果推薦的產品得到客戶的認同,可大大地提高網站的銷售量,訂單數量也會增加。

    (三)個性化推薦系統的分類

    從技術實現角度來看,個性化推薦系統主要劃分為四大類:一是規則基礎上的推薦;二是內容基礎上的推薦;三是協同過濾基礎上的推薦;四是混合型推薦。

    1.規則基礎上的推薦

    規則基礎上的推薦主要是通過系統之前的規則進行推薦。規則基礎上的推薦所用的語句為IF-Then,根據事先設定的規則,“IF”主要規定了所出現的各種情形,在各種情形基礎上,“Then”將輸出提供的各種推薦資源和服務。這種規則也是可變的,客戶也可以制定規則。規則基礎上的推薦相對比較簡單,客戶理解起來比較容易。

    2.內容基礎上的推薦

    內容基礎上的推薦主要是基于用戶之前喜歡的產品,通過分析之前所喜好的產品特征,通過相似度計算和其他技術,最終為客戶提供與其偏好相似的新產品系列。

    3.協同過濾推薦

    協同過濾推薦是一種綜合推薦,結合客戶之前的購買活動特征與新晉的目標客戶之間的相似度進行比較,為新客戶進行推薦。

    4.混合型推薦

    和如上兩種推薦不同,混合型推薦不涉及比較用戶模型和信息的相似度,而主要是利用用戶對于各個資源的評分或評價來發掘各個用戶之前的相似點,應用這些相似點為新客戶提供更加精確的推薦。混合型推薦成立的前提是具有相似點的客戶對于一種資源的評價一致,那么其對另外一種資源的評價也將是一致的。這樣我們便可將不同興趣的用戶進行劃分分類,為同一類的客戶推薦相似的產品。

    三、移動客戶端與個性化的結合

    使用移動客戶端的用戶,其興趣和需求并不是固定不變的,而是隨著時間和用戶所處的情景而變化。例如,用戶在旅行時往往會關注天氣、旅館和交通工具信息;在休假時一般會關注娛樂信息和促銷信息。這些都極大地增加了預測用戶行為和分析用戶偏好的難度。

    (一)移動電子商務環境下個性化推薦的特點

    隨著3G技術的發展及移動客戶端的開發應用,用戶可在移動環境下進行辦公或購物。相比傳統電子商務環境下的推薦,移動商務環境下的個性化推薦擁有新的特點,主要表現在推薦范圍和推薦時間方面。從推薦范圍來看,移動環境下的推薦并非是固定的,面對的用戶群也不是有限的;移動推薦系統所面對的是“移動”的用戶,而不是傳統的位置相對不變的傳統的臺式機訪問,移動環境下更多的要考慮用戶的空間位置變化,要隨時將用戶位置納入到推薦序列中。

    (二)基于LBS的個性化推薦系統

    1.LBS簡介

    LBS(Location Based system)是在互聯網快速發展的基礎上新興的位置服務。伴隨著手機終端的迅速發展,使用LBS的用戶總數也在逐年增加。LBS也被稱為位置簽到服務,其定義為采用GPS基站等相關定位技術,結合GIS,以短信、彩信及客戶端軟件為用戶提供的基于地理位置的信息服務。下圖主要展示了我國提供LBS企業的市場情況。

    特別對于旅行者而言,LBS可實時了解到旅行者的空間位置信息,針對移動變化的位置也可以提供準確的推薦。

    2.LBS的特征及其對個性化推薦的要求

    (1)LBS的特征

    LBS的突出特征體現在位置敏感、突發性和即時訪問三個方面。在LBS環境下,可以方便地跟蹤到用戶的地理位置信息,很容易地識別用戶的身份及對用戶的需求進行處理。在移動環境下,即使發生突發事件,也能及時滿足用戶的需要,這些都提高了用戶使用LBS的便利性。例如,用戶可及時了解天氣、酒店和所感興趣的其他信息,不會受到時間、地點的阻礙,同步性增強。

    (2)LBS對個性化推薦系統的要求

    LBS環境下的用戶處于不斷變化的情境之下,用戶的興趣可分為短期的和長期的,因此必須區分出長期興趣和短期興趣,對于用戶興趣的變化要進行及時響應,最終才能為用戶做出精準的個性化推薦。

    四、個性化推薦系統與情境的結合

    (一)傳統二維推薦系統

    傳統的推薦系統將用戶作為一個推薦列表輸出,將用戶項目描述成一個函數,主要包括:輸入數據、二維推薦函數、推薦輸出列表。

    傳統推薦系統使用的數據一般以用戶、項目、評分的形式出現。首先收集數據,之后構建推薦函數,在構建函數過程中主要是使用函數處理用戶u及每個用戶對項目的評價或評分,在分析后根據用戶的項目評分排序最終生成推薦列表。

    (二)基于情境的推薦系統

    和傳統的推薦系統相比,融入了情境的推薦流程會發生變化,數據由U*I*R變為U*I*C*R,該模型中引入的C為情境維度,也就是將情境加入到推薦模型中。隨著應用情境信息階段的不同,有了在推薦系統中整合情境信息的三種不同的方式。

    1.前置情境過濾

    這種方式的推薦模型主要是將情境C納入到用于選擇或構建相關數據之中,在處理數據之前便將情境融入模型中。前置情境過濾方法使用情境信息作為過濾條件來選擇最相關的用戶X項目數據來生成推薦。前置情境過濾相比較其他兩種的優勢主要是其使用是為傳統推薦方法。

    2.后置情境過濾

    與前置情境過濾相比較而言,在后置情境過濾下,一開始并沒有將情境信息融入進來,應用傳統的推薦系統事先將各種數據進行處理和評分,在此之后再將情境信息C引入到模型中,調整之前的推薦結果,主要是剔除與情境不符合的推薦列表,調整列表推薦的順序,找出最符合用戶特定情境的推薦列表。

    啟發式和模型式是后置情境過濾的兩種方法,前一種方法主要是找到用戶所共有的特征然后使用這些屬性來調整推薦。對于后置情境過濾而言,其可以使用任何傳統推薦技術。

    3.情境建模

    情境建模方法直接應用了情境所包含的內容信息,這種方法使用的為多維推薦,其整合了情境信息、用戶數據、項目信息的預測模型或啟發式計算方法。

    四、結論

    移動環境下的個性化推薦研究日益被業界重視。抓住了用戶興趣建模也是抓住了個性化推薦的核心,本文主要在傳統的推薦模型下將情境信息引入到用戶興趣模型,將情境融入到推薦矩陣中,將情境與用戶對項目的興趣度相結合,為移動環境下的用戶模型構建提供理論框架。

    參考文獻:

    [1]吳麗花,劉魯.個性化推薦系統用戶建模技術綜述[J].情報學報,2006(02).

    [2]曾春,邢春曉,周立柱.個性化服務技術綜述[J].軟件學報,2002(10).

    [3]裴仰軍.個性化服務中用戶興趣模型的研究[D].重慶大學,2005.

    [4]費洪曉,戴戈,穆等.個性化信息過濾系統中用戶興趣模型建立和更新[J].計算機系統應用,2007(08).

    第7篇:個性化推薦范文

    隨著印本圖書資源的不斷豐富,如今的圖書館成為名副其實的“書海”。沒有“羅盤”的用戶進入圖書館非但不能遨游書海,反而迷失于書海,因此,用戶希望擁有能夠快速幫助自己找到目標書籍的“羅盤”,降低尋找書籍的精力和時間成本,而圖書館工作者也希望能夠為用戶提供一種高效的工具來滿足用戶需求,改善用戶體驗。圖書館個性化推薦系統正是解開這把雙向鎖的鑰匙,為解決用戶和圖書館所面臨的信息過載問題而提出的一種智能系統[1,2],成為跨越用戶與館藏資源之間信息鴻溝的橋梁。

    如齊普夫省力法則所述,一個系統即使其效用性很高,但是其易用性不好也會使用戶的使用概率大打折扣。從目前圖書館的推薦系統來看,大多數是從推薦的準確性及推薦算法改進方面開展的,注重用戶模型的研究,但忽略了用戶與信息標志物之間的距離問題,即在信息推送的同時,讀者并不在該書籍附近,如果是非必需的書籍,讀者忽略推薦的可能性就會比較大,推薦就起不到良好的效果。而基于定位的個性化推薦加入用戶此時所處位置,將位置與用戶的興趣相結合,便能很好地為用戶提供個性化服務。本文試圖參考大眾點評基于位置信息服務的個性化推薦方式,結合RFID無線射頻識別技術,探尋一種適合于定位圖書館用戶的方法。

    2 RFID技術與圖書館個性化推薦系統的國內外研究現狀

    2.1 RFID技術的國內外研究現狀

    RFID是一種非接觸式的自動識別技術,主要利用無線射頻信號和空間耦合的數據傳輸原理,對物體進行自動識別,并讀寫相關數據,而在識別系統和特定目標之間無須接觸。在圖書館中,應用RFID系統可以將圖書的書名、條形碼、借閱記錄以及讀者信息等匯集在一起,并能快速識別,起到優化借還書操作程序,提高館藏圖書清點速度,提高圖書整價和歸位等良好效果,此外,它具有的良好穿透能力也能改進用戶自助體驗,省時高效,提高用戶的滿意度。目前,RFID技術在國內外發展都很快,應用范圍很廣,如圖書館、門禁系統、高速公路自動收費系統、停車場管理系統、食品安全溯源等。

    國外圖書館應用RFID技術開始較早,同時發展也比較迅速。目前,在英國、美國、德國、日本及新加坡等都有較成熟的RFID系統。Elisha OndiekiMakori[3]指出,在發展中國家,RFID技術被當做一種現代信息系統廣泛應用于圖書館,提高圖書館為用戶服務的效率和質量。Yogesh K. Dwivedi[4]以問卷調查的方法調查了經常使用RFID技術的181名圖書館用戶,調查結果表明,系統質量、用途和用戶滿意度是影響用戶選擇RFID的主要因素。此外,國外圖書館使用RFID技術還顯現出很多優勢,如提高用戶滿意度,提高工作效率等[5]。

    國內圖書館應用RFID技術較晚,2006年,“射頻識別(RFID)技術與應用”等20個重大課題,同時設立了中國國家高技術研究發展技術,意味著國家正以計劃和資金啟動RFID技術的全面應用,圖書館成為試點對象,逐漸開始了RFID技術的使用,集美大學、汕頭大學、北京石油化工學院、西安理工大學、北京理工大學等圖書館隨后使用了RFID技術[6]。余昭芬提出,RFID技術可以為智能便攜式找書器的到來奠定基礎,實現與圖書館固定資產數字化管理的無縫對接,對圖書借閱數據的統計與分析,使現代圖書館實現智能化書車管理,實現智能化移動書亭成為可能[7]。

    2.2 高校圖書館個性化推薦系統的國內外研究現狀

    高校圖書館的個性化推薦,是指圖書館根據用戶的興趣愛好、借閱記錄、個人需求等,主動分析用戶的興趣愛好特點,進而智能高效地為用戶提供一一對應式的圖書推薦。圖書館的個性化推薦方法是主動服務用戶,使用戶滿意推薦結果并快速、準確地定位自己所需要的書籍。

    國外圖書館個性化推薦的研究始于20世紀七八十年代,當時學者們提出“采用圖書館推送的服務來滿足讀者的需求”,此概念可以稱之為最初關于圖書館個性化推薦的雛形[8]。隨著信息技術的飛速發展,美國康奈爾大學研制了MyLibrary系統,隨后,很多大學及公共圖書館以此為標準,創建并使用了類似MyLibrary的系統和服務,如My Gateway(美國華盛頓大學圖書館)、BraryDog(德國梅克倫堡州公共圖書館),My Library(美國加州工藝州立大學圖書館),My Library@UT(美國西南得克薩斯醫學中心圖書館),my.library(加拿大多倫多大學圖書館),MyLibrary(新西蘭克萊斯特徹奇教育學院)以及My UCLA(美國加利福尼亞大學洛杉磯分院)[9]。

    在國內也有不少學者對圖書館的個性化推薦展開了相關研究,孫雨生和董慧針對當前數字圖書館個性化推薦過程中出現的問題,分析了互聯網、語義網、網格技術在數字圖書館個性化推薦領域的應用局限性,提出基于語義網格的數字圖書館個性化推薦體系結構與總體框架[10]。聶飛霞對數據挖掘的關聯規則與聚類分析技術進行了系統研究,并將其應用到高校圖書館數據挖掘工作中,對讀者的閱讀興趣以及圖書的利用率進行分析,最終設計了一個適合西北大學圖書館的個性化推薦服務系統[11]。此外,還有很多學者致力于探討適合高校圖書館個性化服務的推薦算法、推薦模型和推薦系統。

    3 利用RFID技術實現圖書館個性化推薦服務探討

    伴隨著移動網絡及智能手機的普及,信息環境發生了巨大的變化,引發了由靜態信息服務向動態信息服務的轉變,帶來數字化信息服務的全面升級[12-14]。著眼于圖書館領域,移動信息環境的變革將催生出有別于傳統圖書館信息服務的新方式。

    3.1 普適環境給圖書館個性化推薦服務帶來的變革

    在移動終端設備、移動通信網絡飛速發展及用戶信息需求個性化的影響下,普適環境悄然興起,由此所產生的普適服務也逐漸呈現在用戶面前。普適服務是基于Weiser于1991年提出的普適計算思想[15],在普適計算模式下,通過計算機、通信和數字媒體等多種技術的融合,將信息空間與人們生活的物理空間關聯成一個和諧的智能環境,從而提供無處不在的信息服務,人們可以隨時隨地、無任何障礙地獲取這些服務。普適環境中用戶位置信息的變換性使得在普適服務中用戶的個性化特點逐漸凸顯。具體表現在:

    (1)實時性推薦

    在有線網絡時代,臺式機及筆記本電腦等設備限定了用戶的位置,使用戶在靜止的狀態下接受圖書館推薦服務。進入普適服務時代,移動設備的便捷性使得用戶在請求圖書館提供服務時常常是在不斷的“移動”中,這種位置信息的不斷變換就要求系統有較強的快速反應能力,能夠實時反饋用戶的服務需求,如果用戶已經從文學庫移動到歷史書庫了,系統才將用戶在文學庫的服務要求結果反饋給用戶,此時用戶的需求因為位置的變換也已發生改變,延遲性的服務結果無法滿足普適服務的要求。

    (2)云端化推薦

    雖然目前智能手機已進入八核時代,但和傳統的PC設備相比,移動終端在硬件方面仍然具有較大差距,無線網絡信號的不穩定性及延遲性,同樣使得移動端設備只能作為接收設備,大部分的數據處理都需放在云端才能實現。

    (3)開放式推薦

    圖書館目前所采用的信息推薦服務方式多為定制化服務,其中RSS是圖書館最為常用的信息推薦服務方式,只有申請了相關服務并填寫相關資料的用戶才能享受推薦服務,沒有開通的用戶則無法使用,而普適服務的開放性使得每一個用戶在信息獲取方面都處于相同的地位,只要是該圖書館的用戶,擁有相應的移動接收終端,進入服務環境后就能夠享受圖書館提供的信息推薦服務。同樣,加入RFID電子標簽的書籍也是整個開放普適環境中的一份子,用戶或管理員能夠隨時隨地感知書籍的位置信息,提高找尋及管理效率,有效節約時間成本。

    3.2 定位技術在圖書館個性化推薦服務中的作用

    個性化推薦能夠促進借閱轉化,改善借閱體驗,提高館藏利用率,還能完善用戶體驗效果,增加用戶對圖書館的黏性。而定位技術能夠準確定位用戶所在書庫,給用戶提供當前位置附近的書籍,往往更能貼近用戶此時的需求,達到令用戶滿意的效果。筆者總結出目前利用RFID定位技術在圖書館個性化推薦中的作用主要有以下三點:

    (1)實現書庫隔離

    利用RFID進行空間定位是一種全新的定位技術,它可以有效定位用戶當前所在位置,現有的個性化推薦是針對整個圖書館這一整體而言的,推薦的書籍也是分散在不同的書籍庫中,在個性化推薦中,加入定位技術可以為后續的計算提供強有力的支撐。此外,按照圖書館所采取的分類標準,把整個圖書館分成不同的書庫,以位置信息為尺度實現書庫之間的隔離,有助于后臺數據庫的整理,簡化計算的流程,而且“位置―用戶―書籍”的立體化結構可以更方便地分析用戶之間的關聯性,這樣就可以為推薦提供更加有針對性的參考。

    (2)實現數據降維,減小運算負荷

    傳統的推薦方式往往是以整個圖書館的書籍為基礎進行計算,當有新的用戶出現時,為了尋找相似性用戶,保證推薦的準確性,往往需要調用所有學生的數據記錄,因此,運算負荷比較大。而利用RFID技術進行個性化推薦,在個性化推薦中加入位置因素,可以通過尋找用戶所在位置,然后調用用戶當前所在書庫中的數據,而不需要調用整個圖書館的數據,并且當出現新的需求變更時,只需在本書庫內進行興趣偏好的更新,就可以大大降低運算維度,從而降低計算機的運算負荷,提高運算的速度。

    (3)提高推薦的實時性和針對性

    用戶在尋找書籍時,一旦有目的地來到某個書庫,就表示用戶此時的需求是該書庫中的書籍,而利用RFID技術進行個性化推薦,在個性化推薦系統中加入定位技術,可以快速地定位用戶當前所在位置,根據用戶的位置,將計算得出的書籍推薦給用戶,不但具有實時性,即用戶在圖書館的某一個書庫時只給用戶推薦該書庫中的書籍,不需要很長的時間間隔,而且具有很好的針對性,推薦的書籍正好是用戶所在位置附近的書籍,同時提高了借閱率,促進了圖書的流通。

    第8篇:個性化推薦范文

    關鍵詞:搜索引擎;關鍵詞推薦;個性化;專利分析

    引言

    隨著互聯網的普及,搜索引擎已經成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶自主輸入關鍵詞,檢索系統根據輸入的關鍵詞提供檢索結果。然而,由于用戶輸入的關鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達其搜索意圖。為了幫助用戶更好地構造關鍵詞,通常搜索引擎會使用個性化關鍵詞推薦技術。其通過分析文檔結構、用戶瀏覽行為及用戶對文檔的評價等信息,建立用戶的興趣模型,推薦出用戶實際所需的關鍵詞,提高搜索準確性,改善用戶智能、便捷的搜索體驗。

    1 個性化關鍵詞推薦技術概述

    早在上世紀90年代,學者就開展了一些關鍵詞推薦相關研究,如今已成為搜索引擎的必備技術之一。個性化關鍵詞推薦根據所依賴的數據源不同大體可分為三類:基于文檔詞典、基于搜索日志和其他相關技術,如圖1所示。

    (1)基于文檔詞典的關鍵詞推薦技術是以當前關鍵詞返回的文檔內容為對象,對文檔進行概括來提取關鍵詞,并將關鍵詞按類別進行聚類,最后將關鍵詞反饋給用戶。該技術不考慮用戶的歷史記錄,根據文檔內容之間的相似度來提取用戶興趣,并基于各種詞庫(如分類詞庫、同義詞庫、關聯詞庫、外語詞庫、糾錯詞庫和分詞詞庫等)來推薦關鍵詞。

    (2)基于用戶搜索日志的關鍵詞推薦技術是從用戶角度出發,以用戶搜索日志中的歷史記錄作為對象,采用聚類技術計算關鍵詞之間的相似度,并返回相關度較高的關鍵詞。該技術通常會從搜索日志中分析用戶操作行為,提取用戶標識和群體特征。

    (3)對于個性化關鍵詞推薦中的其他相關技術,其主要包含了能夠使用戶更加便捷地使用搜索引擎所采用的一些其它技術。例如,與用戶之間進行語音交互、結合用戶當前位置信息等手段來提供關鍵詞。

    2 個性化關鍵詞推薦相關專利申請分析

    本文在CNABS和DWPI數據庫中,通過“搜索”、“關鍵詞”、“推薦”及其中英文擴展詞匯作為主要關鍵詞,并排除IPC分類號為G06Q的噪聲文獻,檢索得到的2016年5月以前公布的300余篇專利文獻作為樣本,對全球的專利申請量的趨勢、申請區域分布以及重要申請人分布進行分析,從中得到技術發展趨勢,以及各階段專利申請人所屬的國家分布和主要申請人分布。其中,以每個同族中最早優先權日期視為該申請的申請日,一系列同族申請視為一件申請。

    2.1 國際專利申請量趨勢分析

    圖2給出了個性化關鍵詞推薦技術的全球專利申請趨勢,大致可以分為四個時期,各時期劃分以申請量增長率的變化為標準。

    2.1.1 萌芽階段(2003年之前)

    搜索引擎起源于1990年,經歷近10年的發展后,開始向個性化趨勢邁進。1998-2003年是個性化搜索引擎中的關鍵詞推薦技術從無到有的萌芽階段,該階段申請量極少。具有代表性的申請人是國際商業機器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。

    2.1.2 平穩增長階段(2004年-2007年)

    從2004年開始,關于個性化關鍵詞推薦技術的專利每年的申請量明顯比2003年之前的申請量多,申請量和申請人的發展總體趨勢趨于平穩增長。在此階段,申請量前三位的國別分布如圖3所示。美國申請的專利量占67%,其中,前四位的申請人分別是微軟公司、谷歌公司、雅虎公司、IBM公司。另外,韓國和中國分別占25%和5%,這也從側面說明這個時期內,中國和韓國在搜索引擎所涉及的IT技術領域發展迅猛。

    2.1.3 快速增長階段(2008年-2011年)

    在2008年-2011年之間,除了2009年出現了下滑趨勢(經濟環境背景的影響)以外,該技術的申請量和申請人數量呈現跨越式增長。這是由于在此期間IT產業的迅猛發展,使得企業對于個性化關鍵詞推薦技術的關注度急劇提升,因此出現了申請量的快速增長。在此階段,申請量占前四位的國別分布如圖4所示。可以看出,中國在這一時期內的申請保持著較快的發展,并且申請量超過起步較早的韓國和日本,這與中國在2008年之后各種IT類型企業迅猛發展息息相關。而美國的申請量趨于穩定,技術發展成熟度也較高,保持著絕對的領先地位。

    2.1.4 成熟階段(2012年-至今)

    個性化關鍵詞推薦技術的專利申請量從2012年至今呈現出穩步增長的趨勢。在此階段,申請量占前五位的國別分布如圖5所示。在這一階段,中國國內的大型公司充分意識到了知識產權的重要性,申請量超過了美國成為第一。特別是國內如百度、奇虎、騰訊等公司申請的專利在數量和質量上都有明顯提升。

    2.2 本領域重要申請人分析

    本節對本領域重要申請人方面做進一步分析,主要考慮申請人歷年的申請總量,按照申請總量進行排名。前16名申請人分布如圖6所示。其中GOOG:谷歌(美國);MICT:微軟(美國);BAID:百度(中國);YAHO:雅虎(美國);IBMC:國際商業機器公司(美國);QIHU:奇虎(中國);ABAB:阿里巴巴(中國);NHNN:NHN株式會社(韓國);TNCT:騰訊(中國);ETRI:韓國電子通信研究院(韓國);EBAY:電子灣(美國);FUIT:富士通株式會社(日本);INCR:INCRUIT公司(n國);KING:金山軟件(中國);NITE:日本電信電話株式會社(日本);SOGO:搜狗(中國)。

    從圖6可以看出,在本領域,諸如谷歌、微軟、雅虎、IBM等的國際化大公司一直是較為活躍的申請人,這些申請人在申請數量以及質量方面都占據領頭羊地位;諸如百度、奇虎、阿里巴巴、騰訊等的國內知名大公司也占據著較重要的席位。

    3 個性化關鍵詞推薦相關專利技術發展分析

    個性化關鍵詞推薦技術可分為基于文檔詞典、基于搜索日志和其他相關技術。圖7給出了從1998年到2015年,三類技術相關的專利申請量分布。從圖7可知,基于文檔詞典和基于搜索日志的個性化關鍵詞推薦技術為主要技術。

    本章將對基于文檔詞典和基于搜索日志這兩類技術的發展路線方面進行分析,給出了每個年度具有代表性的專利技術。

    以申請時間為主線,基于文檔詞典的個性化關鍵詞推薦技術示例性專利如圖8所示。

    以申請時間為主線,基于搜索日志的個性化關鍵詞推薦技術示例性專利如圖9所示。

    4 結束語

    本文結合國內外專利申請的狀況,對個性化搜索引擎中關鍵詞推薦專利技術進行了較為全面的分析和研究,并對其發展歷程進行了回顧。從以上分析可知,我國關鍵詞推薦技術雖然起步較晚,但近十幾年發展很快,也涌現出一批具有競爭力的大企業。另外,目前基于文檔詞典和搜索日志的關鍵詞推薦技術已經發展成熟,且應用廣泛。今后的關鍵詞推薦技術應該會向混合推薦方向發展,充分發揮每種推薦方法的優勢,提高推薦的效率。

    參考文獻

    [1]張博,周瑞瑞,魚冰.協同過濾推薦算法專利綜述[J].河南科技,2015(10):3-5.

    [2]王瑩,羅坤,姜磊,等.基于內容的圖像檢索技術的專利技術綜述[J].電視技術,2013,37(2):62-65.

    [3]李亞楠,王斌,李錦濤.搜索引擎查詢推薦技術綜述[J].中文信息學報,2010,24(6):75-84.

    第9篇:個性化推薦范文

    關鍵詞:個性化推薦;協同過濾;聚類;廣電運營

    1 背景

    近年來,廣電運營在高清、互動電視平臺的建設方面取得了長足的進步,包括點播、時移、回看、資訊信息在內的大量交互業務在各地紛紛上馬,大大改善了各地電視用戶的收視體驗,同時也為運營商平臺化進行了深入的探索和驗證。個性化推薦技術是解決上述問題的重點方案之一,通過主動把熱點內容、最新內容或者用戶喜好的內容推送給用戶,用戶無需進行繁瑣的內容瀏覽,就能快速定位到自己感興趣的內容,一方面提升了用戶體驗,另一方面也大大增加了運營商投資購入的節目內容的長尾效應[1]。本文針對廣電家庭用戶個性化推薦技術的難點,重點討論利用協同過濾推薦技術與注重速度和精度的智能聚類算法來為用戶精準推薦和推送其感興趣的節目內容。

    2 協同過濾推薦技術

    2.1 協同過濾算法分類

    隨著協同過濾技術在電子商務領域的廣泛應用,協同過濾算法主要分為基于內存、基于知識、基于模型和混合式推薦等,其中各種算法各有千秋,只能根據自身的實際情況選擇適合自身的算法。

    2.2 聚類技術

    一種基于用戶相似度矩陣實現近線分析的算法簡單描述為新物品上線后,通過門戶Portal、選單、榜單及非個性化推薦方式被老用戶收看后,可以基于系統通過用戶協同過濾算法得到的用戶相似度矩陣,將新物品推薦給與收看過該物品的用戶相似的其他用戶[3]。通過這種基于相似群體(簇)推薦的方式,可以將新物品的推薦能夠快速推薦給大量老用戶。

    而聚類技術就是將有共同特性的項目或事物聚集在一起,在該模型中通過將有共同興趣愛好的用戶聚集在一起,認為該聚集簇中的目標用戶與鄰居用戶有相同的產品風格喜好,從而就可以向目標用戶推薦鄰居用戶喜好的商品,這種模型推薦算法不僅可以推薦用戶所喜歡已知種類的商品,還可以向用戶推薦用戶可能會喜歡的新鮮商品。

    3 k-means聚類算法

    3.1 K-means聚類算法原理

    K-means的算法原理是:首先從數據集(包含N個數據樣本點)中隨機選擇k個數據樣本點作為初始聚類中心,對于剩余的(N-k)個其他數據樣本點,分別將他們分配給距離那k個中心簇最近(相似度最大)的簇中,然后再分別重新計算他們的聚類中心(即該簇中所有數據樣本點的均值),不斷重復這一過程,直到聚類中心不再改變,標準測度函數開始收斂為止。否則繼續迭代執行聚類,其算法描述如下:

    輸入:數據集(包含N個數據樣本點),初始k個數據簇中心。

    輸出:滿足終止迭代條件的k個數據簇。

    3.2 基于k-means算法的用戶聚類

    現實生活中,相似的用戶有共同的用戶特征、喜好特征、行為特征,而非相似用戶的用戶特征、喜好特征、行為特征等也都大相徑庭。具體來講,從用戶特征可以從這幾個大的方面來進行區分,比如說,性別,年齡,職業,學歷等多方面,一般來說,不同學歷的人,由于他們對知識基礎的積累層次不一,導致他們選擇不同的分別適合他們自己的視節目對象,相似的用戶群體他們的職業、年齡或者其他方面具有一定的相似性,導致他們選擇了共同的電視節目。從喜好特征來講,有相同愛好的用戶,自然他們在選擇電視節目對象時,很有可能選擇同一個對象。從行為特征來講,兩個有相似行為特征的用戶很有可能選擇的電視節目對象也是同一類,所以在本文中,我們認為相似的用戶在選擇電視節目對象時也具有一定的相似性,所以我們根據用戶訂閱過的電視節目對象便可以將相似的用戶聚類。

    4 改進的K-means算法

    4.1 改進策略

    (1)計算出數據集中N個樣本點兩兩之間的距離(本文衡量的是相似度)dis(),找到滿足的兩個樣本點d1和d2,并將它們設為初始兩個聚類中心。

    (2)在剩余的(N-2)個樣本點中,選取滿足

    的樣本點d3作為第三個初始聚類中心樣本點,其中,di是除去數據集中樣本點d1、d2、d3的任意一個樣本點。

    (3)依此類推,直到剩余的(N-k+1)個樣本點中,選取滿足

    的樣本點dk作為第k個初始聚類中心樣本點,其中,di是除去數據集中樣本點d1,d2,…dk的任意一個樣本點。

    (4)對于數據集中剩余的(N-k)個樣本點,計算每個樣本點與上面求得的k個聚類中心樣本點之間的距離,并將這些樣本點歸入距離其最近的聚類中心簇中。

    (5)重新計算k個數據簇的聚類中心值和標準測度函數,中心值為該簇類所有樣本點的平均值,其計算公式為,標準測度函數為,其中,nj為第j類中的數據樣本點個數,為聚類子類Dj的數據樣本點。;

    (6)如果滿足(表示子類簇中樣本點的誤差平方和已經收斂)或達到了最大的迭代次數,表示子類樣本成員不再發生變化,就可以結束聚類。否則,返回4)步驟繼續迭代,其中,是一個任意小的數,E1與E2代表前后兩次迭代的測度函數值。

    4.2 相似特征用戶聚類算法流程

    通過建立的矩陣模型對相似特征用戶進行聚類,首先,根據用戶與電視節目資源對象標簽之間的訂閱關系來建立矩陣模型,根據這個矩陣模型可以獲得所有的數據集樣本點,矩陣的每行數據代表一個樣本點,且每個樣本點都是高維的,然后就是對該海量數據集應用k-means聚類算法來對相似用戶(簇)聚類,然而由于K-means算法對初始聚類中心點比較挑剔,為了合理高效的得到有效的聚類中心點,先采取簡單隨機抽樣算法,在抽樣的數據樣本集中應用改進的最大距離法對初始聚類中心得到優化,同時,將K-means算法中的距離量度換為本文改進的相似度計量方式,最后根據抽樣樣本輸出的K個聚類中心,在總數據集上應用K-means算法,將相似特征用戶進行聚類。

    相關熱門標簽
    主站蜘蛛池模板: 亚洲国产成人精品女人久久久| 伊人久久大香线蕉AV成人| 成人免费视频软件网站| 成人亚洲欧美日韩在线观看| 国产成人免费片在线视频观看| 亚洲人成人一区二区三区| 色噜噜成人综合网站| 成人乱码一区二区三区AV| 国产成人免费观看| 88xx成人永久免费观看| 国产成人综合野草| 亚洲av无码专区在线观看成人| 成人区视频爽爽爽爽爽| 四虎成人精品无码永久在线| 成人看免费一级毛片| 全球中文成人在线| 欧美成人免费一区二区| 亚洲综合在线成人一区| 性欧美成人免费观看视| 青青国产成人久久91网| 免费看污成人午夜网站| 成人性生交大片免费看| 欧美xxxx成人免费网站| 中文字幕成人在线| 国产成人无码一区二区三区在线 | 亚洲国产成人久久笫一页| 成人窝窝午夜看片| 久久亚洲国产成人精品无码区| 国产成人a人亚洲精品无码| 成人无遮挡毛片免费看| 2345成人高清毛片| 久久久久成人精品免费播放动漫| 四虎高清成人永久免费影院 | 8x成人永久免费视频| 四虎成人免费网址在线| 成人免费的性色视频| 成人欧美视频在线观看| 成人网站在线进入爽爽爽| 成人综合国产乱在线| 成人精品视频一区二区三区| 成人毛片18女人毛片免费视频未 |