freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

信號與信息專業(yè)學位論文-處理基于協(xié)同過濾的個性化社區(qū)推薦方法研究-文庫吧資料

2025-01-24 14:13本頁面
  

【正文】 究熱點,國內(nèi)外已有一些學者對此課題展開了相關的研究。正因為有如此多的優(yōu)點,協(xié)同推薦逐漸成為個性化推薦中最受歡迎的技術,在商業(yè)應用上也成為迄今為止最成功的技術[11],取得了不錯的成績。和基于內(nèi)容的過濾方法相比,協(xié)同過濾具有如下優(yōu)點:(1) 解決了基于內(nèi)容的過濾方法中資源特征不易提取的問題;(2) 可以處理缺少用戶特征信息或者產(chǎn)品特征信息的情況,推薦中考慮了資源質(zhì)量以及用戶觀點等因素;(3) 可以發(fā)現(xiàn)用戶的新興趣。但是基于模型的協(xié)同過濾算法也有它的不足,就是建立模型的時間復雜度過高,建模工作量大,導致新的模型相對于舊的模型在數(shù)據(jù)同步上有一定的延遲。這一部分的研究內(nèi)容,被認為是未來研究工作的一個可能的熱點。但是,其計算復雜度較高,必須使用近似的算法。當用戶被推薦了某個項目后,其狀態(tài)會因此轉(zhuǎn)變,或者接受這次推薦,或者接受未推薦的,或者什么都不做。每一個馬爾科夫決策過程都可以描述為一個四元組,其中,S是一組狀態(tài),A是一組動作,R是對每組狀態(tài)動作對定義的獎勵函數(shù),Pr是在給定動作下狀態(tài)間轉(zhuǎn)化的概率[32]?;隈R爾科夫決策過程模型的推薦算法,與普通將推薦看作預測問題的處理方法不同,將整個推薦過程看作是一個連續(xù)的優(yōu)化問題[31]。多項式混合模型(Multinomial Mixture Model)在多項式模型(Multinomial Model)的基礎上,假設所有的用戶可以分為若干類,并且代表評分信息的多個因子互相之間以及其與用戶的身份信息之間都是獨立的。示像模型(Aspect Model)是由文獻[29]提出的一種概率隱空間模型。從概念上進行描述,它將用戶的興趣喜好使用互相重疊的用戶群組來表示。但是,其計算開銷較普通的推薦算法有較大提升,這也成為其無法廣泛應用的一個原因。聚類算法使用在協(xié)同過濾中時,一般首先對數(shù)據(jù)樣本進行聚類,然后在聚集成的每一個小類中,應用基于記憶的協(xié)同過濾算法。最常用的聚類是衡量兩個數(shù)據(jù)樣本間距離的度量包括Minkowski距離及Pearson相關系數(shù)。基于ELR的經(jīng)典算法NBELR(naive Bayes optimized by ELR)可以取得較Pearson相關系數(shù)方法更好的預測結果,但是需要更多的時間進行模型的訓練[27]。針對其不足之處,擴展邏輯回歸ELR(Extended Logistic Regression)被引入到基于貝葉斯置信網(wǎng)的協(xié)同過濾算法中[26]。簡單貝葉斯分類器(naive Bayes)適用于二值分類情況,而現(xiàn)實中的推薦數(shù)據(jù),一般不存在二值化的情況。其中,每個節(jié)點代表一個隨機變量,每個有向邊代表其鏈接的兩個變量之間存在的概率關系,同時,代表一個子節(jié)點與其父親節(jié)點之間的條件概率表[24]。在基于模型的推薦算法中,最為經(jīng)典的模型包括了貝葉斯置信網(wǎng)絡模型,聚類模型,隱參數(shù)模型以及馬爾科夫決策過程模型等等?;谀P驮O計的合理程度,可以針對基于記憶的推薦算法中的不足,更加契合地適應現(xiàn)實世界中的數(shù)據(jù)及推薦問題。因此,在這樣情況下,發(fā)展出了基于模型的協(xié)同過濾技術(Modelbased Collaborative Filtering)。據(jù)統(tǒng)計,在Amazon中,用戶評價的書籍占系統(tǒng)中所有書籍的比例最多也只能達到1%2%。 基于模型的協(xié)同過濾基于用戶(Userbased)的協(xié)同過濾和基于項目(Itembased)的協(xié)同過濾統(tǒng)稱為基于記憶(Memorybased)的協(xié)同過濾技術,他們具有一個共同的缺點就是會遇到數(shù)據(jù)稀疏的問題,難以處理大資料量,影響即時結果。Sarwar[33]和Karypis [34]已經(jīng)證明基于項目的協(xié)同過濾推薦方法比基于用戶的協(xié)同過濾推薦方法在性能上有所提升,而且與基于用戶的協(xié)同過濾推薦方法相比,基于項目的協(xié)同過濾推薦更加準確。假設目標項目的最近鄰集合為,則用戶對目標項目的預測評分的計算公式如下: ()其中,是所有用戶對目標項目的所有評分的均值,是項目和最近鄰集合中的項目之間的相似度,是對的評價值,是所有用戶對項目的評價均值。選擇最近鄰的策略依然可以是“TopN策略”和“閾值策略”兩種。具體計算兩個項目相似性的方法如下:假設要計算項目和項目的相似性,首先得到對項目和項目評論過的所有用戶,分別表示為用戶評價向量的形式,然后通過不同的相似性度量方法(),計算兩者的相似度。與基于用戶的協(xié)同過濾所不同的是,基于項目的協(xié)同過濾不再計算用戶之間的相似度,而是通過計算項目之間的相似度,獲得目標項目的最近鄰,然后通過用戶對最近鄰項目的評分來預測用戶對目標項目的評分,從而完成推薦[37]。為了避免這個問題,2001年Sarwar[33]提出了基于項目的協(xié)同過濾推薦算法(Itembased Collaborative Filtering Algorithms)。(2) 產(chǎn)生推薦集合計算最近鄰集合中的用戶對項目的感興趣程度的加權平均值,取N 個取值最高的且不屬于的項作為TopN 推薦集合。3. 產(chǎn)生推薦得到目標用戶的最近鄰集合之后,就可以預測用戶對某項目的感興趣程度,并且產(chǎn)生TopN形式的推薦集。計算出用戶之間的相似度,就可以根據(jù)用戶之間的相似度來計算目標用戶的最近鄰集合。若,表明兩個變量間不是線性相關,但有可能是其他方式的相關。的取值范圍是,若,表明兩個變量是正相關的,即一個變量的值增加,另一個變量的值也會增加;若,表明兩個變量是負相關的,即一個變量的值增加,另一個變量的值反而會減小。樣本的相關系數(shù)一般用表示,其中為樣本量,分別為兩個變量的觀測值,分別為兩個樣本的均值。表示用戶對某個項目的評價分數(shù)的均值。如果用相關相似性來計算,則可以修正這樣的錯誤,給出比較符合實際情況的結論。例如,某用戶a習慣將他認為的最好的項目評為5分,而某用戶b習慣將他認為的最好的項目評為4分。(1) 余弦相似性用向量來表示用戶對項目的評分,如果用戶沒有項目評分,則把該維度設為0,這樣可以得到各個用戶的評分向量,然后利用如下公式計算兩個用戶評分向量的余弦相似性: ()其中,“”表示向量點積,是向量的長度??梢钥闯觯嬎阆嗨贫仁腔谟脩舻膮f(xié)同推薦中最重要的一個環(huán)節(jié),能否準確的計算出用戶之間的相似度直接影響推薦的準確性。也就是說,對于每個用戶都要維護一個最近鄰集合,其中到是分別是與用戶相似度從大到小排列的鄰居。評分值也可以是非二值的,比如將用戶對項目的喜愛程度分成0~9十個等級。矩陣中的每個值表示第個用戶對第個項目的評分值?;谟脩舻膮f(xié)同過濾的基本思想就是先計算用戶之間的相似度,然后找到與目標用戶具有相近興趣愛好的幾個用戶,稱之為鄰居,然后將這些鄰居所喜好的資源推薦給目標用戶。目前已有的協(xié)同過濾方法大概分為三種:基于用戶的(Userbased)的協(xié)同過濾,基于項目的(Itembased)的協(xié)同過濾和基于模型的(Modelbased)的協(xié)同過濾。與傳統(tǒng)的基于內(nèi)容的推薦不同,協(xié)同過濾通過分析用戶興趣,在用戶群中找到與指定用戶有相似興趣的用戶,綜合這些相似用戶對某一資源的評價,得到系統(tǒng)對該用戶對此資源的喜好程度的預測。 基于協(xié)同過濾的推薦方法基于協(xié)同過濾的推薦算法[22][23][63][64]是利用這樣的途徑來進行推薦:在為用戶進行個性化推薦之前,先找到與這個用戶興趣相似的其他用戶,然后再根據(jù)這些相似用戶的瀏覽記錄,來推薦給目標用戶。因此這種方法通常被限制在容易分析內(nèi)容的產(chǎn)品推薦,而對于一些比較難提取出內(nèi)容的產(chǎn)品往往就不能產(chǎn)生令人滿意的推薦效果。NewsWeeder是一個網(wǎng)頁新聞推薦系統(tǒng),它根據(jù)用戶對新聞的評論來為用戶的興趣建模,進而給用戶推薦他所感興趣的網(wǎng)頁新聞。WebWatcher是互聯(lián)網(wǎng)上的一個檢索助理,它可以用來幫助用戶在一個網(wǎng)站內(nèi)找到他所需要的信息。目前,基于內(nèi)容的推薦系統(tǒng)有WebWatcher、InforFinder、CiteSeer、Letizia、NewsWeeder和Syskillamp。每個屬性特征作為向量的一個維度,每個維度的值表示用戶對該屬性特征的感興趣程度。人工神經(jīng)網(wǎng)絡依靠系統(tǒng)的復雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間的相互連接的關系,從而達到處理信息的目的。具體實現(xiàn)方式就是:利用幾個變量來判斷所屬的類別,其中每個變量對應一個問題,最終的每個葉子會對應一個類別。在從上到下遍歷決策樹的過程中,每個節(jié)點都是一個問題,對每個節(jié)點上問題的回答不同導致不同的分支,最后會到達其中一個葉子節(jié)點。每個決策或事件(即自然狀態(tài))都有可能有不同的結果,從而引出兩個或多個分支,把這種決策分支畫成圖形就會很像一棵樹的枝干,故稱決策樹。如何對用戶進行興趣建模,主要取決于所用學習方法,常用的機器學習方法有決策樹[66][67][68]、人工神經(jīng)網(wǎng)絡和向量表示法等。分別計算各個維度數(shù)據(jù)的相關系數(shù),根據(jù)求得的相關系數(shù)與1的接近程度進行評判。(6) 相關系數(shù)評價相關系數(shù)計算公式: ()其中,表示與的協(xié)方差,、為、的方差。(5) 擬合優(yōu)度評價方法根據(jù)最小二乘數(shù)據(jù)擬合的評價標準,采用它的擬合優(yōu)度評價參數(shù)來進行評價。(4) 頻譜分析法首先將用戶興趣向量與資源描述向量都進行傅立葉變換,然后計算各個維度的幅度值之差的平方的均值。這里度量實質(zhì)是向量與之間的夾角的余弦,因此具有旋轉(zhuǎn)、放大、縮小的不變性。(2) Camberra距離度量Camberra距離定義: ()因為考慮到兩個向量(經(jīng)過剔除粗大誤差后)的數(shù)據(jù)個數(shù)不一致,因此,對Camberra距離進行一個平均,即采用的距離為修正后的: ()其值越小,說明兩者的相似度越高。: ()其中,n為剔除粗大誤差之后的維度個數(shù)。當相似度高于某個閾值時便推薦給用戶,相似度和推薦程度成正比,相似度越大,推薦程度越高。可以看出,相似度的計算是基于內(nèi)容的推薦算法中很重要的部分。隨著機器學習技術的不斷發(fā)展和完善,目前已有的基于內(nèi)容的推薦系統(tǒng)可以通過分析已經(jīng)瀏覽過的內(nèi)容,對用戶和資源分別建立描述文件,然后不斷獲取新的內(nèi)容來更新用戶的描述文件。 基于內(nèi)容的推薦方法基于內(nèi)容的推薦算法[16][17][18],是通過計算用戶已經(jīng)選擇過的資源與待推薦資源之間的相似性,然后依據(jù)相似性給待推薦資源進行排序,相似性越高的資源,越優(yōu)先推薦給用戶。這些推薦方式都會在一定程度上提高用戶體驗,增加網(wǎng)站的銷售額。卓越亞馬遜是國內(nèi)著名的商業(yè)網(wǎng)站,大型的網(wǎng)上購物中心,互聯(lián)網(wǎng)用戶可以在該網(wǎng)站上購買服裝百貨、電子產(chǎn)品、影像制品以及圖書等等各種各樣的產(chǎn)品。近年來,已經(jīng)有大量的網(wǎng)站應用了個性化推薦技術來提高用戶體驗,例如著名的Amazon、eBay、Yahoo等網(wǎng)站都開始把握個性化服務帶來的巨大商機。網(wǎng)站能夠根據(jù)各個用戶的特點來推薦他們可能感興趣的內(nèi)容,而不是單一地對所有用戶提供同樣的界面。個性化推薦技術[9][10][11][12]為網(wǎng)站的訪問者們提供個性化服務,為他們提供了方便的同時,也有效地提高了網(wǎng)站的服務質(zhì)量和效率,成功地減少了網(wǎng)絡信息泛濫的問題,也避免了服務單一化,從而為網(wǎng)站吸引了更多的用戶。用戶也非常希望網(wǎng)站能夠為自己提供個性化的服務,可以根據(jù)自己的興趣愛好以及瀏覽習慣,單獨為自己提供信息,從而更方便更快捷。然而,隨著互聯(lián)網(wǎng)上的信息越來越豐富,這些海量信息已經(jīng)大大超過了用戶所能接受的閱讀量,用戶要從中找到適合自己的信息是非常困難的,往往要耗費大量的時間和精力。 個性化推薦技術如今,互聯(lián)網(wǎng)儼然已經(jīng)成為人們?nèi)粘I钪凶畈豢苫蛉钡囊徊糠?。本文最后是本人攻讀學位期間發(fā)表的學術論文以及申請的專利、參與的科研項目和致謝。第五章將本文提出的基于在線軟約束LDA的社區(qū)推薦算法應用到實際系統(tǒng)中,主要介紹該平臺的設計和應用,以及如何將算法應用到該平臺中,最后展示了算法的推薦結果。第三章提出一種基于在線軟約束LDA算法的社區(qū)推薦方法,其中重點講述如何將用戶與社區(qū)關系強弱作為軟約束然后通過LDA模型去挖掘用戶的潛在行為,以及為了提高算法效率提出的在線運算框架,并分析實驗結果。第二章是相關背景。為了彌補這一不足,我們計算時間信息對用戶興趣建模的影響因子,再利用影響因子來給用戶主題分布加權。3. 如何將用戶興趣與時間的關系加入到推薦算法中去。2. 提出一個在線計算框架,用一個增量的方法處理新加入的用戶。具體的研究內(nèi)容分為以下幾點:1. 利用用戶在社區(qū)上的發(fā)帖次數(shù)作為衡量用戶與社區(qū)關系強弱的指標,以此來計算用戶與社區(qū)之間的關系。如果有新用戶加入,無法及時快速地更新模型,沒有良好的可擴展性。經(jīng)過廣泛的調(diào)研與分析,我們發(fā)現(xiàn)現(xiàn)有的文獻中關于社區(qū)推薦的算法,容易遇到由于數(shù)據(jù)觀察的限制所導致的過擬合現(xiàn)象以及計算量龐大的問題。 研究目標與內(nèi)容在互聯(lián)網(wǎng)信息泛濫的今天,如何幫助用戶在互聯(lián)網(wǎng)上快速準確地找到自己感興趣的社區(qū)已經(jīng)成為新的研究熱點。目前,幾乎所有的社交網(wǎng)絡平臺都不同程度地使用了各種形式的推薦系統(tǒng)?!皞€性化推薦”直到20世紀90年代才被作為一個獨立的概念提出來[7][8]。但是,如今用戶想從如此大量的社區(qū)中找到其感興趣的社區(qū),變得愈來愈困難。其內(nèi)容涵蓋了娛樂、體育、游戲、電影、音樂、寵物等等眾多類別。Orkut擁有28個類別的社區(qū),平均每個類別下有超過10,000個用戶自發(fā)組建的社區(qū)。國內(nèi)著名的人人網(wǎng)[6],擁有龐大的用戶群體,其注冊用戶數(shù)量在全球僅次于Facebook。此外,Decayenne,Tagged,XING,Badoo,Skyrock等,在歐洲有相當大的用戶群體。近年來,無數(shù)的虛擬社區(qū)在互聯(lián)網(wǎng)上涌現(xiàn)出來。在虛擬社區(qū)中,用戶可以依據(jù)自己的興趣愛好創(chuàng)建群組或者社區(qū),在這些社區(qū)中,用戶可以互相交流、討論,獲取自己所感興趣的信息。各種各樣形
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1