freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

信號(hào)與信息專業(yè)學(xué)位論文-處理基于協(xié)同過濾的個(gè)性化社區(qū)推薦方法研究(參考版)

2025-01-21 14:13本頁(yè)面
  

【正文】 基于時(shí)間信息的社區(qū)推薦。本文所提出的基于在線軟約束LDA的社區(qū)推薦算法,雖然在準(zhǔn)確率和效率上都有很好的表現(xiàn),但是依然沒有考慮這方面的信息。以上的例子顯示出了將時(shí)間信息考慮進(jìn)用戶興趣建模的重要性。那么,按照之前那些不考慮用戶興趣隨時(shí)間變化的算法,會(huì)認(rèn)為用戶對(duì)這兩個(gè)社區(qū)的興趣度是相同的。 提出問題目前已有的社區(qū)推薦算法,都沒有考慮到用戶興趣隨時(shí)間的發(fā)展變化,但是這點(diǎn)往往是影響推薦系統(tǒng)的用戶體驗(yàn)的很重要的方面。第四章 基于時(shí)間信息的社區(qū)推薦算法第四章 基于時(shí)間信息的社區(qū)推薦算法第三章所提出的基于在線軟約束LDA的社區(qū)推薦算法,沒有考慮用戶興趣隨時(shí)間的變化。為了提高算法的可擴(kuò)展性,我們提出了在線更新模型參數(shù)的算法。如果有新用戶加入,無法及時(shí)快速的更新模型,沒有良好的可擴(kuò)展性。這兩種方法雖然都能獲得較好的結(jié)果,但是容易遇到由于數(shù)據(jù)觀察的限制所導(dǎo)致的過擬合現(xiàn)象以及計(jì)算量龐大的問題。完全可以達(dá)到在線運(yùn)算的要求。這證明了我們的在線算法可以收斂并且得到很好的結(jié)果。最后還剩下30%的用戶數(shù)據(jù)將會(huì)應(yīng)用我們的在線算法,一個(gè)一個(gè)的加入到模型的訓(xùn)練過程中去。在我們的實(shí)驗(yàn)中,我們從用戶集合中選擇20%的用戶。這樣就既能保證準(zhǔn)確性,又能解決離線更新數(shù)據(jù)與在線應(yīng)用脫節(jié)的問題。 在線更新算法SOLDA流程考慮到這個(gè)在線更新方法是一個(gè)增量的方法,可以實(shí)現(xiàn)實(shí)時(shí)運(yùn)算,但是會(huì)對(duì)準(zhǔn)確率產(chǎn)生一定的影響。其中N1,N2,N3,N4四個(gè)矩陣的元素分別是原有模型的。因此,計(jì)算的復(fù)雜度降為O(T * 1 * L * h)。具體做法是:首先,隨機(jī)地給新用戶文檔中的社區(qū)單詞分配主題;,而維持原有模型中主題的分配不變。 在線更新系統(tǒng)流程初始由爬蟲單元搜集一定規(guī)模的用戶文檔,用本文提出的SLDA算法建立并且計(jì)算出概率分布模型。為了解決這個(gè)問題,我們提出了一個(gè)在線更新模型的系統(tǒng)框架。當(dāng)系統(tǒng)已經(jīng)包括了N個(gè)用戶并且平均每個(gè)用戶參與了L個(gè)社區(qū),那么這種重建行為的時(shí)間復(fù)雜度為O(T * N * L * l)。當(dāng)有新用戶加入時(shí),自適應(yīng)的推薦系統(tǒng)需要更新模型參數(shù)[62]。 SLDA vs BLDA/ARM,SLDA曲線明顯比BLDA曲線和ARM曲線更快地達(dá)到最高點(diǎn),這說明了我們的算法跟BLDA和ARM相比,有著更好的表現(xiàn)。排序百分比為100%表示的排序?yàn)?01。橫軸是排序百分比,它是體現(xiàn)推薦質(zhì)量的指標(biāo)。我們所希望見到的結(jié)果是社區(qū)排名第一,也就是說,它的評(píng)分值超過所有其它的個(gè)用戶未參加的社區(qū)。我們同時(shí)使用SLDA和BLDA給這個(gè)社區(qū)排序。社區(qū)推薦算法需要為用戶推薦個(gè)用戶最有可能感興趣的社區(qū)。這證明了,我們的算法學(xué)習(xí)出來的主題基本上能夠反映真實(shí)世界中社區(qū)之間的關(guān)系。 主題聚類結(jié)果,用我們的算法訓(xùn)練出來的主題,基本上與網(wǎng)站本身對(duì)于社區(qū)的分類相符合。:我們將Gibbs采樣的迭代次數(shù)設(shè)為200??紤]到數(shù)據(jù)的準(zhǔn)確性,我們沒有從“其它”類別中抓取數(shù)據(jù),因此我們的數(shù)據(jù)集中的社區(qū)分為32個(gè)類別,包括音樂、健康、寵物等等。這些私人社區(qū)共分為33個(gè)類別,包括了音樂、游戲、體育等等,其中還有一個(gè)“其它”類,內(nèi)容涵蓋面非常廣泛。Myspace是以SNS為基礎(chǔ)的娛樂平臺(tái),是全球最大的在線交友平臺(tái),提供免費(fèi)的微型博客、個(gè)人主頁(yè)、個(gè)人空間、電子相冊(cè)、博客空間、音樂和視頻上傳空間等服務(wù)。 基于軟約束的LDA社區(qū)推薦算法流程 實(shí)驗(yàn)結(jié)果為了驗(yàn)證算法的準(zhǔn)確性,我們用Myspace的用戶數(shù)據(jù)做了實(shí)驗(yàn)。模型參數(shù)一旦收斂,我們就可以為用戶進(jìn)行社區(qū)推薦,做法是為候選社區(qū)進(jìn)行打分,分?jǐn)?shù)越高,則越應(yīng)該優(yōu)先推薦給用戶: ()。 主題集合分配,更新每一個(gè)分配好的主題。我們可以通過如下公式,計(jì)算出主題社區(qū)分布和用戶主題分布: () ()在本文中,Gibbs采樣的具體過程如下:初始階段,我們先隨機(jī)的為每個(gè)用戶文檔中的每個(gè)社區(qū)單詞分配一個(gè)潛在主題集合。是社區(qū)的總數(shù)目,是潛在主題的數(shù)目。主題的分配采樣于: ()其中,其中,表示除去當(dāng)前的主題之后剩下的所有主題分配,表示社區(qū)被分配到主題的總次數(shù),表示主題被分配給用戶的次數(shù),表示主題總共出現(xiàn)了幾次,表示總共被分配的主題數(shù)目。 模型參數(shù)的求解我們采用Gibbs采樣[59]來求解模型參數(shù)。表示社區(qū)屬于主題的概率,表示用戶從主題中選擇社區(qū)加入的概率。具體做法是,在我們的算法中,將每個(gè)用戶看作一個(gè)文檔,用戶參與的每個(gè)社區(qū)看成是文檔中的單詞,而用戶與社區(qū)的關(guān)系強(qiáng)弱看作是用戶文檔中同一個(gè)社區(qū)單詞的出現(xiàn)次數(shù)。用戶也在社區(qū)上共發(fā)了10個(gè)帖子,但是他在所有社區(qū)上的總發(fā)帖數(shù)量為300,那么他對(duì)于社區(qū)的喜愛程度就不怎么明顯了。我們用來表示第個(gè)用戶與他所參與的第個(gè)社區(qū)之間的關(guān)系,用來表示第個(gè)用戶在他所參與的第個(gè)社區(qū)上的發(fā)帖次數(shù),則有如下公式: ()之所以不直接用發(fā)帖次數(shù)去衡量用戶與社區(qū)的關(guān)系強(qiáng)弱,而是選擇先歸一化,就是考慮到不同用戶訪問互聯(lián)網(wǎng)的習(xí)慣不同,有些人喜歡多發(fā)帖多參與社區(qū)討論,而有些人則相對(duì)發(fā)帖較少,但是他們對(duì)于所參與的社區(qū)都有著同樣的不同程度的偏好。如果將用戶與社區(qū)的關(guān)系強(qiáng)弱考慮到模型中去,顯而易見可以更加準(zhǔn)確的挖掘用戶的潛在行為,更好地為用戶進(jìn)行社區(qū)推薦。但是,在實(shí)際的虛擬社區(qū)中,用戶和社區(qū)之間的關(guān)系是非常復(fù)雜的。為了解決以上這些問題,本文提出了一種基于在線軟約束LDA算法的社區(qū)推薦方法,下一節(jié)將詳細(xì)介紹該算法。但是,二值的LDA方法也有它的不足之處,它用簡(jiǎn)單的二值的矩陣來表示用戶和社區(qū)的關(guān)系,忽略了不同用戶與社區(qū)關(guān)系強(qiáng)弱有差異,也沒能考慮用戶興趣隨著時(shí)間的發(fā)展變化。互聯(lián)網(wǎng)用戶和社區(qū)的關(guān)系數(shù)據(jù)往往是非常稀疏的,這就給基于ARM的方法帶來了很大的麻煩,運(yùn)行效率十分低下,并且可以挖掘出的規(guī)則非常有限。以上兩節(jié)詳細(xì)介紹了兩種現(xiàn)在比較流行的基于模型的協(xié)同過濾社區(qū)推薦方法。此算法的輸入數(shù)據(jù)是一個(gè)二值的用戶社區(qū)關(guān)系矩陣,矩陣中的每個(gè)元素只有0或者1兩種取值,0代表用戶沒有參加此社區(qū),1代表用戶參加了此社區(qū)。對(duì)于文檔,它的所有已知和潛在變量的聯(lián)合分布為: ()消去變量,得到: ()對(duì)于整個(gè)文檔集,其似然值為: ()將社區(qū)用戶共生矩陣作為L(zhǎng)DA的訓(xùn)練數(shù)據(jù),就可以訓(xùn)練出相應(yīng)的生成模型,從而得到用戶之間的相似度、社區(qū)之間的相似度等信息,完成最終的推薦。所謂Dirichlet分布是指,對(duì)于多項(xiàng)分布,對(duì)應(yīng)的Dirichlet分布概率密度為: ()其中,參數(shù)稱為多項(xiàng)式的超參數(shù),是文檔中主題出現(xiàn)次數(shù)的先驗(yàn)觀測(cè),可以理解為在見到任何文檔文字之前,主題被抽樣的頻數(shù)。我們用表示對(duì)于主題,個(gè)詞匯上的多項(xiàng)分布,其中是個(gè)唯一性詞匯表中的詞匯;用表示對(duì)于文檔,個(gè)潛在主題上的多項(xiàng)分布。表示主題屬于當(dāng)前文檔的概率。假設(shè)文檔中總共有個(gè)主題,則所給文檔中的第個(gè)詞匯記號(hào)可以表示如下: ()其中,是潛在主題,表明第個(gè)詞匯記號(hào)對(duì)應(yīng)的主題。一個(gè)文檔通常包括了若干個(gè)潛在的主題,而文檔中的詞匯則往往可以體現(xiàn)出這些主題來。作為一種生成模型,它認(rèn)為每一篇文檔都是在一個(gè)隱主題分布上通過對(duì)屬于某個(gè)主題的單詞進(jìn)行抽樣得到的。LDA(Latent Dirichlet Allocation)模型[57][58]是近年來提出的一個(gè)文本生成模型,它描述了隨機(jī)生成一篇由N個(gè)潛在主題組成的文章的過程。如果用ARM的方法來進(jìn)行推薦,那么對(duì)于加入“搖滾之家”的用戶,不會(huì)給他推薦“搖滾無極限”社區(qū),因?yàn)椤皳u滾之家”與“搖滾無極限”之間沒有足夠多的共同用戶來支持這樣一條關(guān)聯(lián)規(guī)則。與基于ARM的方法不同,這種方法可以挖掘出社區(qū)之間的間接關(guān)聯(lián)。也就是說,我們可以算出社區(qū)的推薦度分?jǐn)?shù)為1+=,并給用戶推薦這兩個(gè)社區(qū)。用對(duì)應(yīng)規(guī)則的置信度之和來衡量候選社區(qū)的推薦度。 頻繁項(xiàng)集與關(guān)聯(lián)規(guī)則(a)頻繁項(xiàng)集和支持度Frequent ItemsetsSupport23232222(b)關(guān)聯(lián)規(guī)則以及支持度和置信度Association RulesSupportConfidence2%2%2100%2%2%2100%利用這些挖掘出來的規(guī)則,我們就可以根據(jù)用戶已經(jīng)參加的社區(qū)來給他推薦新的社區(qū)了。 每個(gè)用戶作為一個(gè)交易UserCommunity采用FPGrowth算法[56]來挖掘頻繁項(xiàng)集,并使用發(fā)現(xiàn)的頻繁項(xiàng)集來產(chǎn)生關(guān)聯(lián)規(guī)則。這就是從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則的方式。2. 產(chǎn)生關(guān)聯(lián)規(guī)則產(chǎn)生關(guān)聯(lián)規(guī)則是關(guān)聯(lián)規(guī)則挖掘的第二階段。1. 尋找頻繁項(xiàng)集支持度大于某閾值的項(xiàng)目集合就是頻繁項(xiàng)集,該閾值稱為最小支持度(Minimum Support)。一般來說,只有支持度和置信度均高的關(guān)聯(lián)規(guī)則才可能是消費(fèi)者感興趣的、有用的規(guī)則。形如的蘊(yùn)涵式就是一個(gè)關(guān)聯(lián)規(guī)則,其中和都是項(xiàng)目集合,且,和分別是關(guān)聯(lián)規(guī)則的前提和結(jié)論。關(guān)聯(lián)規(guī)則挖掘的具體過程如下:把一個(gè)交易用集合來表示,集合中的每個(gè)元素都是一個(gè)項(xiàng)目。為了找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),我們要進(jìn)行關(guān)聯(lián)分析。這是數(shù)據(jù)庫(kù)中存在的一類很重要的可被發(fā)現(xiàn)的知識(shí)。最初的關(guān)聯(lián)規(guī)則挖掘是用于挖掘顧客交易數(shù)據(jù)庫(kù)中商品集合之間的數(shù)據(jù)關(guān)聯(lián)。也就是說,ARM可以根據(jù)社區(qū)之間共有的用戶來計(jì)算社區(qū)之間的直接關(guān)聯(lián)。舉個(gè)例子,如果參加社區(qū)“我愛搖滾”的用戶往往都會(huì)去參加社區(qū)“搖滾無極限”,那么ARM就會(huì)發(fā)現(xiàn)一條社區(qū)之間的潛在關(guān)聯(lián)規(guī)則,將“我愛搖滾”和“搖滾無極限”關(guān)聯(lián)起來。 基于ARM的方法ARM(關(guān)聯(lián)規(guī)則挖掘)方法[53][54]利用不同社區(qū)之間有多少重疊的用戶來推算社區(qū)之間的相互關(guān)系。目前,基于模型的社區(qū)協(xié)同推薦主要有兩個(gè)知名的方法:一種是基于ARM(Association Rule Mining)的方法,一種是二值的LDA(Latent Dirichlet Allocation)方法。因此,在社區(qū)推薦中,與基于內(nèi)容的推薦相比,協(xié)同推薦最大限度地利用了社會(huì)網(wǎng)絡(luò)中最有價(jià)值的信息,是最重要的推薦手段。社會(huì)網(wǎng)絡(luò)中最有價(jià)值的數(shù)據(jù)就是結(jié)構(gòu)化的關(guān)系數(shù)據(jù)。 相關(guān)工作目前國(guó)內(nèi)外已有一些關(guān)于社區(qū)推薦的研究,提出了一些社區(qū)推薦算法。 豆瓣論壇討論群組頁(yè)面針對(duì)現(xiàn)在越來越突出的用戶難以選擇感興趣的社區(qū)的問題,個(gè)性化社區(qū)推薦成為了研究的熱點(diǎn)。這些豆瓣小組就是一個(gè)個(gè)的用戶自發(fā)建立的社區(qū),其內(nèi)容涵蓋了讀書、影視、音樂、藝術(shù)、生活、情感、學(xué)術(shù)還有體育等等類別。這一切說明國(guó)內(nèi)的虛擬社區(qū)已有一定的影響和規(guī)模,有著廣闊的研究和發(fā)展空間。目前在國(guó)內(nèi)有一些以興趣愛好休閑娛樂為主的極富影響力的虛擬社區(qū),有豆瓣[49]、天涯社區(qū)[50]、人人網(wǎng)[6]、開心網(wǎng)[51]等。用戶也可以根據(jù)自己的喜好自由選擇所加入的社區(qū)。虛擬社區(qū)打破了地域的限制,人們只需要一臺(tái)聯(lián)網(wǎng)的電腦就可以跟全球任何地方的人暢所欲言。它讓用戶可以以文字的形式表達(dá)出自己的思想。虛擬社區(qū)為每一個(gè)用戶提供了很多與其他用戶交流的功能,例如社區(qū)通信、電子郵箱,還可以即時(shí)聊天。它是指由網(wǎng)民在網(wǎng)絡(luò)上進(jìn)行社會(huì)互動(dòng)而形成的由共同興趣的人集合形成的活動(dòng)場(chǎng)所。本章首先介紹虛擬社區(qū)的相關(guān)背景,從普通用戶對(duì)虛擬社區(qū)的體驗(yàn)入手,分析個(gè)性化社區(qū)推薦的實(shí)際意義;其次,根據(jù)現(xiàn)有的研究成果和相關(guān)應(yīng)用,總結(jié)社區(qū)推薦算法的發(fā)展現(xiàn)狀,指出現(xiàn)有算法的不足之處;然后提出一種基于軟約束LDA算法的社區(qū)推薦算法,并通過實(shí)驗(yàn)證明該算法的可行性和優(yōu)勢(shì);最后設(shè)計(jì)一個(gè)在線系統(tǒng)框架以實(shí)現(xiàn)實(shí)時(shí)更新。最后,本章介紹了現(xiàn)在已有的一些個(gè)性化社區(qū)推薦方法。目前已有一些基于模型的協(xié)同過濾社區(qū)推薦方法的相關(guān)工作。以上的幾種社區(qū)推薦方法基本都是采用了基于記憶的協(xié)同過濾方法,但是它們具有一個(gè)共同的缺點(diǎn)就是會(huì)遇到數(shù)據(jù)稀疏的問題,難以處理大資料量,影響即時(shí)結(jié)果。陳瓊等[47]根據(jù)社會(huì)網(wǎng)絡(luò)的動(dòng)態(tài)變化特性,通過分析網(wǎng)絡(luò)的動(dòng)態(tài)演變過程、網(wǎng)絡(luò)個(gè)體的行為特征及個(gè)體間聯(lián)系的變化,研究動(dòng)態(tài)社區(qū)及其個(gè)體的動(dòng)態(tài)特性的形式化描述方法,提出了節(jié)點(diǎn)(個(gè)體)間的動(dòng)態(tài)屬性相似度計(jì)算方法和基于節(jié)點(diǎn)(個(gè)體)間的動(dòng)態(tài)屬性相似度計(jì)算的社區(qū)推薦算法。HanGyu Ko等[46]提出了一種算法,可以根據(jù)用戶的社會(huì)關(guān)系以及用戶的喜好,識(shí)別和推薦潛在的IPTV社區(qū)。首先提出了一種基于使用程度的網(wǎng)頁(yè)發(fā)現(xiàn)策略,然后在此基礎(chǔ)上,利用PLSA進(jìn)行用戶聚類,建立用戶描述文檔。由于對(duì)網(wǎng)絡(luò)的文件和動(dòng)態(tài)網(wǎng)絡(luò)數(shù)據(jù)缺乏一個(gè)統(tǒng)一的模式,使用傳統(tǒng)的數(shù)據(jù)管理和搜索技術(shù)進(jìn)行信息管理和網(wǎng)絡(luò)數(shù)據(jù)檢索的效率往往都不理想?;谶@樣的思想,Wang Fang[44]提出了一種建立多興趣社區(qū)群的方法。實(shí)驗(yàn)結(jié)果表明,前者在準(zhǔn)確率和效率上都要高于后者。在Vishvas Vasuki等人的工作[43]中,提出了一種通過現(xiàn)有的用戶和社區(qū)之間的從屬網(wǎng)絡(luò)關(guān)系,預(yù)測(cè)用戶和社區(qū)之間新的從屬關(guān)系的方法。通過分析“general neighborhood”問題,Li Yu[42]提出了“munity neighborhood”的概念,并基于此提出了一種基于社區(qū)的協(xié)同推薦算法。Liu Ji等[41]提出了一種基于網(wǎng)絡(luò)社區(qū)的協(xié)同過濾推薦算法,通過對(duì)用戶社會(huì)網(wǎng)絡(luò)的特征向量進(jìn)行加權(quán)來增強(qiáng)在協(xié)同推薦中社區(qū)的貢獻(xiàn)。因此,在社區(qū)推薦中,協(xié)同推薦最大限度的利用了社會(huì)網(wǎng)絡(luò)中最有價(jià)值的信息,是最重要的推薦手段。社會(huì)網(wǎng)絡(luò)中最有價(jià)值的數(shù)據(jù)就是結(jié)構(gòu)化的關(guān)系數(shù)據(jù)。 個(gè)性化社區(qū)推薦方法社區(qū)推薦是近年來剛剛興起的研
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1