【正文】
品能滿足自己的模糊需求。同年 4 月,以美國為主的多國個性化研究機構(gòu)和網(wǎng)絡公司成立了個性化協(xié)會,旨在推動個性化服務的發(fā)展,同時保護個性化服務中涉及的用戶隱私。而且,系統(tǒng)給出的推薦是可以實時更新的,即當系統(tǒng)中的商品庫或用戶特征庫發(fā)生改變時,給出的推薦序列會自動改變。在基于內(nèi)容的推薦系統(tǒng)中,項目或?qū)ο笫峭ㄟ^相關(guān)的特征的屬性來定義,系統(tǒng)基于用戶評價對象的特征,學習用戶的興趣,考察用戶資料與待預測項目的相匹配程度。其次,商品名稱的同義性問題也是關(guān)聯(lián)規(guī)則的一個難點。最簡單的做法就是分別用基于內(nèi)容的方法和協(xié)同過濾推薦方法去產(chǎn)生一個推薦預測結(jié)果,然后用某方法組合其結(jié)果。比如說購買和評分這兩種行為表達潛在的喜好程度就不盡相同 , 完善的行為記錄需要能夠綜合多種不同的用戶行為,處理不同行為的累加。 推薦系統(tǒng)的推薦精度和實時性是一對矛盾。 本課題 的重心在于 在研究電子商務 中基于客戶資料挖掘的 服務器端個性化推薦的工作。最終實現(xiàn)了基于客戶聚類的推薦辦法。也就是說,以前的行為選擇與你相似的用戶,在以后的行為中很可能也會和你相似。基于 資源項 的方法通過計算 資源項 之間的相似性來代替用戶之間的相似性。 Slope One 算法試圖同時滿足這樣的的 5 個目標: (1)易于實現(xiàn)和維護:普通工程師可以輕松解釋所有的聚合數(shù)據(jù),并且算法易于實現(xiàn)和測試 ; (2)運行時可更新的:新增一個評分項,應該對預測結(jié)果即時產(chǎn)生影響 ; (3)高效率的查詢響應:快速的執(zhí)行查詢,可能需要付出更多的空間作為代價 ; (4)對初次訪問者要求少:對于一個評分項目很少的用戶,也應該可以獲得有效的推薦 ; (5)合理的準確性:與最準確的方法相比,此方法應該是 有競爭力的,準確性方面的微小增長不能以簡單性和擴展性的大量犧牲為代價。在實際的商業(yè)系統(tǒng)中,即使使用了這種方法,也多會被包裝為一種更加友好的樣子。 1. 數(shù)據(jù)清理 數(shù)據(jù)清理也稱為 數(shù)據(jù)清洗。此外,數(shù) 據(jù)可能來自多個實際系統(tǒng),因而存在 異構(gòu) 數(shù)據(jù)的轉(zhuǎn)換問題和數(shù)據(jù)類型的選擇問題 ; (2)冗余數(shù)據(jù)集成往往 導致數(shù)據(jù)冗余,對于屬性間冗余可以用相關(guān)分析檢測到,然后將其刪除; (3)數(shù)據(jù)值沖突的檢測與處理由于表示、比例、編碼等的不同,現(xiàn)實世界中的同一實體,在不同數(shù)據(jù)源中的數(shù)據(jù)性質(zhì)可能不同。最近鄰搜索的核心是計算兩個用戶或者項目的相似度。 為了保證 相關(guān)性計算的準確度,首先必須孤立兩項都評分的集合 (即用戶對項目 i和 j 均做出了評價 ),就像如 表 所表現(xiàn)的一樣。在這里,將考慮兩個這樣的技術(shù)。如果采用 iR 和 NR 分別表示目標項目 i 和相似項目 N,那么這個線性回歸模型可表示為 : 39。 (2)關(guān)聯(lián)推薦 : 也稱為基于關(guān)聯(lián)規(guī)則的推薦。此外,因為計算用戶的相似度時,是通過將目標用戶的歷史行為記錄與其他每一個用戶的記錄相比較得出的,所以對于一個現(xiàn)實的推薦系統(tǒng)來說,擴展性將成為非常嚴重的問題。 因此,本章簡要敘述了 協(xié)同過濾技術(shù) 的相關(guān)理論和技術(shù)。 綜上所述, 協(xié)同過濾推薦系統(tǒng) 的設計需要達到的目標總結(jié)如下: (1)在功能設計上, 采用 可評估性能的個性化推薦系統(tǒng) 方法。 模 塊 資源項類相對比較簡單,主要是用來表現(xiàn)資源項的屬性特征,在個性化推薦系統(tǒng)中實際上用到的只有資源的 ID,資源項類的類圖如 圖 所示 。 模塊 用戶類在協(xié)同過濾推薦系統(tǒng)中占據(jù)核心位置,它不僅封裝了用戶的自然屬性如用戶 ID,名字等,還封裝了一個用戶的偏好映射表。 下面以用戶相關(guān)性為例講述 Pearson 相關(guān)算法的步驟。 + g e t P r e f e r e n c e F o r ( ) : P r e f e r e n c e+ g e t P r e f e r e n c e s ( ) I D : i n t n a m e : s t r i n g p r e f e r e n c e s d a t aG e n e r i c U s e r 圖 用戶類 模塊 在數(shù)據(jù)管理模塊內(nèi),數(shù)據(jù)管理類是一個工具類,實際上它負責的是封裝用戶類,項目類和用戶偏好類,對外提供數(shù)據(jù)處理的接口,便于外界用戶的調(diào)用,所以數(shù)據(jù)管理類的類圖以及數(shù)據(jù)管理里與這幾個 類的相互關(guān)系可以如 圖 表示 。 + g e t I n s t a n c e ( ) ( )+ c o m p a r e ( P r e f e r e n c e o 1 , P r e f e r e n c e o 2 ) ( ) I D : i n t N a m e : s t r i n g i n s t a n c eB y U s e r P r e f e r e n c e C o m p a r a t o r 基于客戶資料挖掘的電子商務網(wǎng)站的設計與實現(xiàn) 第三章 協(xié)同過濾推薦系統(tǒng)設計 16 圖 封裝的資源項類 后面的用戶偏好類和用戶類需要同樣的封裝,封裝方法與用戶類相同,將不再贅述。 總體框架 圖 展示了基于用戶協(xié)同過濾算法的不同模塊之間的相互關(guān)系。 協(xié)同過濾推薦系統(tǒng) 的設計 目標 協(xié)同過濾推薦 系統(tǒng),是 在電子商務中 開發(fā)用來 進行個性化推薦 的模型。所以在許多推薦系統(tǒng)中,每個用戶涉及的數(shù)據(jù)量相當有限,在一些大的系統(tǒng)如 Amazon 中,用戶最多不過就評價過上百萬本書的 1%,造成評估數(shù)據(jù)相當稀疏。在 Amazon 介紹書的詳細信息的頁面上,可以看到這種推薦的一個實際應用。最常見的推薦結(jié)果有兩種, TopN 推薦和關(guān)聯(lián)推薦。 這種做法是類似加權(quán)和的方法,唯一的不同是取代了直接使用相似項目的評分的方法,它使用一種基于回歸的模型評分通知的方法。調(diào)整的余弦相似度計算將通過在每一對中減去相應的用戶平均分來彌補這個缺陷。 ... jItem ... nItem ... ... ... ... ... iUser ... ,ijR ... ... ... ... ... ... ... mUser ... ... ... ,mnR 圖 協(xié)同過濾算法處理流程 在這種情況下,兩個項目被視為 m 個用戶空間的兩個向量。 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最活躍的研究方法之一。 2. 數(shù)據(jù)集成 數(shù)據(jù)集成也就是將多個數(shù)據(jù)源的數(shù)據(jù)合并存放在一個統(tǒng)一的數(shù)據(jù)存儲中 [7]。電子商務網(wǎng)站在隱式評分的數(shù)據(jù)獲取上有先天的優(yōu)勢,用戶購買的商品記錄是非常有用的數(shù)據(jù)。 傳統(tǒng)的系統(tǒng)一般使用打分的方式,最著名的例如 MovieLens, 豆瓣網(wǎng) 上經(jīng)常出現(xiàn)在右側(cè)的“我來評價”也是這種方法。當然,在降低了計算量的同時,完全基于 資源項 的推薦技術(shù)也在推薦的準確度上做了小小的犧牲。用戶之間的相似度是通過比較兩個用戶的行為選擇矢量得到的。 基于客戶資料挖掘的電子商務網(wǎng)站的設計與實現(xiàn) 第二章 協(xié)同過濾推薦系統(tǒng) 7 第二章 協(xié)同過濾推薦系統(tǒng) 基于協(xié)同過濾的推薦系統(tǒng)可以說是從用戶的角度來進行相應推薦的,而且是自動的,即用戶獲得的推薦是系統(tǒng)從購買模式或瀏覽行為等 方式中 隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調(diào)查表格等。最后采用 MovieLens 數(shù)據(jù)集進行測試,分析關(guān)鍵參數(shù)對協(xié)同過濾算法的影響和在相同環(huán)境下的各個協(xié)同過濾算法的 性能。 電子商務推薦面臨的另外一個挑戰(zhàn)就是對多種數(shù)據(jù)和多種技術(shù)的有效集成 [13]。大眾 對內(nèi)容集本身需要提供的信息要求非常低,在經(jīng)典的協(xié)同過濾算法下,內(nèi)容集甚至只需要提供 ID 就足夠。 一個優(yōu)秀的推薦系統(tǒng)需要滿足下面幾個目標: (1)不可強制用戶進行某些操作:用戶 個性化推薦系統(tǒng)必須能夠基于用戶之前的口味和喜好提供相關(guān)的精確的推薦,而且這種口味和喜歡的收集必須盡量少的需要用戶的勞動 ; (2)實 時性: 推薦的結(jié)果必須能夠?qū)崟r計算,這樣才能夠在用戶離開網(wǎng)站前之前獲得推薦的內(nèi)容,并且及時 地 對推薦結(jié)果作出反饋?;谥R的方基于客戶資料挖掘的電子商務網(wǎng)站的設計與實現(xiàn) 第一章 緒論 4 法因 它們所用的功能知識不同而有明顯區(qū)別。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)不同商品在銷售過程中的相關(guān)性,在零售業(yè)中已經(jīng)得到了成功的應用。 1. 協(xié)同過濾推薦 協(xié)同過濾推薦 (Collaborative Filtering Remendation)技術(shù)是推薦系統(tǒng)中應用最早和最為成功的技術(shù)之一。 Varian 在 1997 年給出的:“它是利用電子商務網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程” [8]。 1997 年 3 月,《 Communications of the ACM》組織了個性化推薦系統(tǒng)的專題報道,個性化服務己經(jīng)受到相當?shù)闹匾暋? 因特網(wǎng) 的迅猛發(fā)展將人類帶入了信息社會和網(wǎng)絡經(jīng)濟時代,對企業(yè)發(fā)展和個人生活都產(chǎn)生了深刻的影響 [2]。伴隨著電子商務平臺的日益成熟,個性化的商品推薦已經(jīng)成為滿足個體對個性化商品信息需求的重要手段。 33 參 考 文 獻 23 本章小結(jié) 21 基于資源項和用戶的推薦 15 用戶偏好模塊 14 協(xié)同過濾推薦系統(tǒng)的設計目標 7 Slope One 算法 2 個性化推薦系統(tǒng)的評價標準 作者簽名: 日期: 年 月 日 導師簽名: 日期: 年 月 日 注 意 事 項 (論文)的內(nèi)容包括: 1)封面(按教務處制定的標準封面格式制作) 2)原創(chuàng)性聲明 3)中文摘要( 300 字左 右)、關(guān)鍵詞 4)外文摘要、關(guān)鍵詞 5)目次頁(附件不統(tǒng)一編入) 6)論文主體部分:引言(或緒論)、正文、結(jié)論 7)參考文獻 8)致謝 9)附錄(對論文支持必要時) :理工類設計(論文)正文字數(shù)不少于 1 萬字(不包括圖紙、程序清單等),文科類論文正文字數(shù)不少于 萬字。 作 者 簽 名: 日 期: 指導教師簽名: 日 期: 使用授權(quán)說明 本人完全了解 大學關(guān)于收集、保存、使用畢業(yè)設計(論文)的規(guī)定,即:按照學校要求提交畢業(yè)設計(論文)的印刷本和電子版本;學校有權(quán)保存畢業(yè)設計(論文)的印刷本和電子版,并提供目錄檢索與閱覽服務;學??梢圆捎糜坝?、縮印、數(shù)字化或其它復制手段保存論文;在不以贏利為目的前提下,學校可以公布論文的部分或全部內(nèi)容。 作者簽名: 日 期: 學位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導師的指導下獨立進行研究所取得的研究成果。 :任務書、開題報告、外文譯文、譯文