freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-資料下載頁(yè)

2025-06-30 14:35本頁(yè)面

【導(dǎo)讀】師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知,除文中特別加。而使用過(guò)的材料。均已在文中作了明確的說(shuō)明并表示了謝意。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文。不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)的成果作品。究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。全意識(shí)到本聲明的法律后果由本人承擔(dān)。同意學(xué)校保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)大學(xué)可以將本學(xué)位。印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。涉密論文按學(xué)校規(guī)定處理。程序清單等),文科類(lèi)論文正文字?jǐn)?shù)不少于萬(wàn)字。有圖紙應(yīng)符合國(guó)家技術(shù)標(biāo)準(zhǔn)規(guī)范。圖表整潔,布局合理,文字注釋必須使用工程

  

【正文】 有效的方法是 “隱式評(píng)分”方法。這種方法不需要用戶直接輸入評(píng)價(jià)數(shù)據(jù),而是根據(jù)用戶的行為特征由系統(tǒng)代替用戶完成評(píng)價(jià)。一種研究得比較多的方法是 網(wǎng)絡(luò)數(shù)據(jù)挖掘 (Web Mining)。電子商務(wù)網(wǎng)站在隱式評(píng)分的數(shù)據(jù)獲取上有先天的優(yōu)勢(shì),用戶購(gòu)買(mǎi)的商品記錄是非常有用的數(shù)據(jù)。 數(shù)據(jù)挖掘通常并不需要使用所擁有的所有數(shù)據(jù),有些數(shù)據(jù)對(duì)象和數(shù)據(jù)屬性對(duì)建立模型、獲得模式是沒(méi)有影響的,這些數(shù)據(jù)的加入會(huì)大大影響挖掘效率,甚至還可能導(dǎo)致挖掘結(jié)果的偏差,因此,有效地選擇數(shù)據(jù)是很有必要的 [7]。數(shù)據(jù)預(yù)處理模塊就是出于這一目的,對(duì)存在大量的噪聲數(shù)據(jù)、 冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等進(jìn)行處理,以解決數(shù)據(jù)應(yīng)用質(zhì)量的問(wèn)題。 數(shù)據(jù)預(yù)處理模塊包含兩個(gè)方面 [7]:一是從多個(gè)數(shù)據(jù)源去整合挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)的綜合性、易用性和數(shù)據(jù)的時(shí)效性;另外一方面就是如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。 1. 數(shù)據(jù)清理 數(shù)據(jù)清理也稱為 數(shù)據(jù)清洗。在數(shù)據(jù)中消除錯(cuò)誤和不一致,并解決對(duì)象識(shí)別問(wèn)題的過(guò)程。數(shù)據(jù)清洗包括空值處理、噪聲數(shù)據(jù)處理以及不一致數(shù)據(jù)處理等。數(shù)據(jù)的不一致性導(dǎo)致數(shù)據(jù)挖掘結(jié)果的可信度的降低,數(shù)據(jù)清理去 除噪聲或無(wú)關(guān)數(shù)據(jù),并處理數(shù)據(jù)中缺失的數(shù)據(jù)域 [7]。 2. 數(shù)據(jù)集成 數(shù)據(jù)集成也就是將多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并存放在一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)中 [7]。數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)意模糊性并整合成一致的數(shù)據(jù)存儲(chǔ)。主要涉及到三個(gè)方面的問(wèn)題: (1)模式集成 是 從多個(gè)異構(gòu)數(shù)據(jù)庫(kù)、文件或遺留系統(tǒng)提取并集成數(shù)據(jù),解決語(yǔ)義二義性,統(tǒng)一不同格式的數(shù)據(jù),消除冗余、重復(fù)存放數(shù)據(jù)的現(xiàn)象。因此,模式集成涉及實(shí)體識(shí)別,通常借助于數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的原數(shù)據(jù)進(jìn)行模式識(shí)別,幫助避免模式集成中的錯(cuò)誤。此外,數(shù) 據(jù)可能來(lái)自多個(gè)實(shí)際系統(tǒng),因而存在 異構(gòu) 數(shù)據(jù)的轉(zhuǎn)換問(wèn)題和數(shù)據(jù)類(lèi)型的選擇問(wèn)題 ; (2)冗余數(shù)據(jù)集成往往 導(dǎo)致數(shù)據(jù)冗余,對(duì)于屬性間冗余可以用相關(guān)分析檢測(cè)到,然后將其刪除; (3)數(shù)據(jù)值沖突的檢測(cè)與處理由于表示、比例、編碼等的不同,現(xiàn)實(shí)世界中的同一實(shí)體,在不同數(shù)據(jù)源中的數(shù)據(jù)性質(zhì)可能不同。這種數(shù)據(jù)語(yǔ)義上的歧義性是數(shù)據(jù)集成的最大難點(diǎn)。 3. 數(shù)據(jù)變換與規(guī)約 數(shù)據(jù)變換要求做到三個(gè)方面:一是將連續(xù)的數(shù)據(jù)屬性離散化 成 若干個(gè)區(qū)間;二基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第二章 協(xié)同過(guò)濾推薦系統(tǒng) 10 是新建變量,在很多情況下需要從原始數(shù)據(jù)中生成一些新的變量作為預(yù)測(cè) 變量;三是格式變換,規(guī)范化數(shù)據(jù)格式。如定義時(shí)間、數(shù)值、字符等數(shù)據(jù)加載格式。 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最活躍的研究方法之一。最初其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫(kù) (也稱為事務(wù)數(shù)據(jù)庫(kù) )中不同商品之間的聯(lián)系規(guī)則。 最近鄰搜索實(shí)質(zhì)上所做的工作即是用戶對(duì)目標(biāo)項(xiàng)目的評(píng)分預(yù)測(cè)。協(xié)同過(guò)濾的出發(fā)點(diǎn)是尋找與你興趣相同的一組用戶,術(shù)語(yǔ)叫做“最近鄰”。最近鄰搜索的核心是計(jì)算兩個(gè)用戶或者項(xiàng)目的相似度。例如項(xiàng)目 i和項(xiàng)目 j 之間相似性計(jì)算的本質(zhì)是首先去找出對(duì)這兩個(gè)項(xiàng)目都已經(jīng)評(píng)價(jià)的用戶集,然后利用相似性計(jì)算技術(shù)來(lái)產(chǎn)生相似 度 。圖 已經(jīng)詳述了這個(gè)過(guò)程,在這里矩陣的行表示用戶而列則表示項(xiàng)目。目前使用比較多的相似度算法包括, Pearson 相關(guān)系數(shù) (Person Correlation Coefficient)、余弦相似性 (Cosinebased Similarity)以及調(diào)整余弦相似性 (Adjusted Consine Similarity)。 ... jItem ... nItem ... ... ... ... ... iUser ... ,ijR ... ... ... ... ... ... ... mUser ... ... ... ,mnR 圖 協(xié)同過(guò)濾算法處理流程 在這種情況下,兩個(gè)項(xiàng)目被視為 m 個(gè)用戶空間的兩個(gè)向量。他們之間的相似性是通過(guò)計(jì)算兩個(gè)向量之間角度的余弦值來(lái)得到的。 正式的說(shuō)法是,在如 表 的 m*n的評(píng)分矩陣中,項(xiàng)目 i與項(xiàng)目 j 的相似度被表示為 ( , ) || || || ||ijijijuus im u uuu????????? 公式 () 這里“ .”表示兩個(gè)向量之間的標(biāo)量積。 在這種情況下,兩個(gè)項(xiàng)目 i和 j 之間的相似性是通過(guò)計(jì)算 Pearson 的相關(guān)性 ,ijcorr來(lái)衡量的。 為了保證 相關(guān)性計(jì)算的準(zhǔn)確度,首先必須孤立兩項(xiàng)都評(píng)分的集合 (即用戶對(duì)項(xiàng)目 i和 j 均做出了評(píng)價(jià) ),就像如 表 所表現(xiàn)的一樣。將為項(xiàng)目 i 和 j 均評(píng)分的評(píng)分預(yù)測(cè) 推薦結(jié)果 評(píng)分 Ri,j TOPN推薦 輸入評(píng)分矩陣 協(xié)同過(guò)濾算法 輸出接口 基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第二章 協(xié)同過(guò)濾推薦系統(tǒng) 11 用戶集表示為 U,那么相關(guān)相似度可表示為 , 22,( ) ( )( , )( ) ( )u i i u j juUiju U u i i u U u j jR R R Rsi m i j c orrR R R R???????????????? 公式 () 在這里 ,uiR 表示用戶 u 對(duì)項(xiàng)目 i的評(píng)分,而 _iR 則是第 i個(gè)項(xiàng)目的評(píng)分平均值。 基于用戶的協(xié)同過(guò)濾算法和基于項(xiàng)目為基礎(chǔ)的協(xié)同過(guò)濾算法一個(gè)根本區(qū)別是,以用戶為基礎(chǔ)的協(xié)同過(guò)濾計(jì)算的是矩陣中行之間的相 似度,而基于用戶的則是計(jì)算矩陣中列之間的相似度,在兩項(xiàng)都評(píng)分的集合中每一對(duì)都是關(guān)聯(lián)到不同的用戶。在項(xiàng)目為基礎(chǔ)的情況下,使用基本的余弦相似度計(jì)算,有一個(gè)致命的缺陷就是,不同的用戶之間評(píng)分的幅度不同沒(méi)有考慮在內(nèi)。調(diào)整的余弦相似度計(jì)算將通過(guò)在每一對(duì)中減去相應(yīng)的用戶平均分來(lái)彌補(bǔ)這個(gè)缺陷。正式的形式是,項(xiàng)目 i和 j 之間的相似度可以表示為 ,22,( ) ( )( , )( ) ( )u i u u j uuUu U u i u u U u j uR R R Rsi m i jR R R R??????????????? 公式 () 這里 _uR 是第 u 個(gè)用戶的評(píng)分平均值。 在協(xié)同過(guò)濾系統(tǒng)中最重要的一步是以推斷形式來(lái)產(chǎn)生輸出接口。一旦基于相似性措施孤立出最相似的項(xiàng)目的集合,下一步就是尋找到目標(biāo)用戶的評(píng)分和使用技術(shù)去獲得的預(yù)測(cè)。在這里,將考慮兩個(gè)這樣的技術(shù)。 顧名思義,這種方法通過(guò)計(jì)算該用戶在與項(xiàng)目 i相似項(xiàng)目上的評(píng)分總和來(lái)計(jì)算用戶 u 對(duì)項(xiàng)目 i 的評(píng)分預(yù)測(cè),每一個(gè)評(píng)分是根據(jù)項(xiàng)目 i 與項(xiàng)目 j 之間的相似度來(lái)做加權(quán)的。正式的形式是,可以將推斷 ,uiP 表示為: , ,( * )( | |)i N u Na l l s i m i l a r i t e m s Nui iNa l l s i m i l a r i t e m s NSRPS????? ?? 公式 () 基本上,這種做法試圖捕捉那些活躍的用戶在類(lèi)似項(xiàng)目項(xiàng)目中是如何評(píng)分的。加權(quán)是由相似度和的形式以確保預(yù)測(cè)是在預(yù)定的范圍內(nèi)。 這種做法是類(lèi)似加權(quán)和的方法,唯一的不同是取代了直接使用相似項(xiàng)目的評(píng)分的方法,它使用一種基于回歸的模型評(píng)分通知的方法。在實(shí)踐中,采用余弦或關(guān)聯(lián)相似的相關(guān)措施計(jì)算出的評(píng)分可能誤導(dǎo)兩個(gè)評(píng)分向量是冷漠的 , 但可能有很高的相基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第二章 協(xié)同過(guò)濾推薦系統(tǒng) 12 似性。在這種情況下使用 “ 所謂 ” 的行評(píng)分可能會(huì)導(dǎo)致很差的預(yù)測(cè)。這里基本思路是使用和加權(quán)和 技術(shù)相同的形式,但是取代了相似項(xiàng)目 N 的行評(píng)分值 ,unR ,這個(gè)模型使用基于線性回歸模型的近似值 ,`unR 。如果采用 iR 和 NR 分別表示目標(biāo)項(xiàng)目 i 和相似項(xiàng)目 N,那么這個(gè)線性回歸模型可表示為 : 39。NiRR? ? ???? ? ? 公式 () 回歸模型的兩個(gè)參數(shù) ? 和 ? 是通過(guò)仔細(xì)檢查兩個(gè)評(píng)分向量來(lái)決定的, ? 是該回歸模型的誤差。 有了最近鄰集合,就可以對(duì)目標(biāo)用戶的興趣進(jìn)行預(yù)測(cè),生成推薦結(jié)果。通常根據(jù)推薦目的的不同,可以進(jìn)行多種形式的推薦。最常見(jiàn)的推薦結(jié)果有兩種, TopN 推薦和關(guān)聯(lián)推薦。 (1)TopN 推薦 : 這里的 TopN 和一般網(wǎng)站 (比如 digg)上見(jiàn)到的“最熱門(mén)”列表是不同的。熱門(mén)列表是基 于全部數(shù)據(jù)集產(chǎn)生的,它對(duì)每個(gè)人都是一樣的; TopN 推薦是針對(duì)單個(gè)用戶產(chǎn)生的,它對(duì)每個(gè)人是不一樣的:通過(guò)對(duì)你的最近鄰用戶進(jìn)行統(tǒng)計(jì),選擇出現(xiàn)頻率最高且在你的評(píng)分項(xiàng)目中不存在的項(xiàng)目作為推薦結(jié)果。 豆瓣網(wǎng) 上的“排行”欄目,應(yīng)該是傳統(tǒng)的“熱門(mén)”列表,不是 TopN 推薦。 (2)關(guān)聯(lián)推薦 : 也稱為基于關(guān)聯(lián)規(guī)則的推薦。與傳統(tǒng)關(guān)聯(lián)規(guī)則針對(duì)全部數(shù)據(jù)進(jìn)行挖掘不同的是,此方法僅對(duì)最近鄰用戶的購(gòu)買(mǎi)記錄進(jìn)行關(guān)聯(lián)規(guī)則挖掘。如果你曾經(jīng)購(gòu)買(mǎi)過(guò)關(guān)聯(lián)規(guī)則左邊的商品,而沒(méi)有購(gòu)買(mǎi)過(guò)關(guān)聯(lián)規(guī)則右邊的商品,那么就把右邊的這個(gè)商品推薦給你。它最 突出的優(yōu)點(diǎn)就是,可以幫助你發(fā)現(xiàn)你感興趣的而以前卻從來(lái)沒(méi)有注意過(guò)的商品。在 Amazon 介紹書(shū)的詳細(xì)信息的頁(yè)面上,可以看到這種推薦的一個(gè)實(shí)際應(yīng)用。 特性分析 協(xié)同過(guò)濾 推薦作為當(dāng)前電子商務(wù)網(wǎng)站中應(yīng)用最成功最廣泛的技術(shù) 之一 ,相比其他個(gè)性化推薦技術(shù),協(xié)同過(guò)濾推薦具有下列 優(yōu)點(diǎn) [1]: (1)能夠過(guò)濾難以進(jìn)行機(jī)器自動(dòng)內(nèi)容分析的信息,如藝術(shù)品,音樂(lè)等 ; (2)共享其他人的經(jīng)驗(yàn),避免了內(nèi)容分析的不完全和不精確,并且能夠基于一些復(fù)雜的,難以表述的概念 (如信息質(zhì)量、個(gè)人品味 )進(jìn)行過(guò)濾 ; (3)有推薦新信息的能力 , 可以發(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對(duì)推薦信息的內(nèi)容事先是預(yù)料不到的 , 這也是協(xié)同過(guò)濾和基于內(nèi)容的過(guò)濾一個(gè)較大的差別,基于內(nèi)容的過(guò)濾推薦很多都是用戶本來(lái)就熟悉的內(nèi)容,而協(xié)同過(guò)濾可以發(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好 ; 基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第二章 協(xié)同過(guò)濾推薦系統(tǒng) 13 (4)能夠有效 地 使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個(gè)性化學(xué)習(xí)的速度。 缺點(diǎn) 雖然協(xié)同過(guò)濾推薦系統(tǒng)在當(dāng)前的電子商務(wù)中擁有著無(wú)可比擬的優(yōu)勢(shì),但是任何一種技術(shù)都有其弱點(diǎn) : (1)冷啟動(dòng)問(wèn)題 : 在基于用戶的協(xié)同算法中,對(duì)于一個(gè)網(wǎng)上書(shū)店來(lái)說(shuō),新上架的書(shū)因?yàn)檫€沒(méi)有被相當(dāng)數(shù)量的用戶購(gòu)買(mǎi)或者評(píng)價(jià)的記錄,便很少有機(jī)會(huì)被用戶的“最近鄰居”篩選進(jìn)入推薦集。這個(gè)問(wèn)題,也被稱之為協(xié)同過(guò)濾的“冷啟動(dòng)”問(wèn)題 [8]。此外,因?yàn)橛?jì)算用戶的相似度時(shí),是通過(guò)將目標(biāo)用戶的歷史行為記錄與其他每一個(gè)用戶的記錄相比較得出的,所以對(duì)于一個(gè)現(xiàn)實(shí)的推薦系統(tǒng)來(lái)說(shuō),擴(kuò)展性將成為非常嚴(yán)重的問(wèn)題。設(shè)想一下,對(duì)于一個(gè)擁有上百萬(wàn)用戶的網(wǎng)站來(lái)說(shuō),每計(jì)算一個(gè)用戶都將涉及到上百萬(wàn)次的比較,更不要說(shuō)其中會(huì)帶來(lái)的大量數(shù)據(jù)庫(kù) I/O 操作 的開(kāi)銷(xiāo)。 (2)數(shù)據(jù)稀疏問(wèn)題 : 不論是第一代的基于用戶方法,還是第二代的基于 資源項(xiàng) 方法,都不可避免的遇到數(shù)據(jù)稀疏的問(wèn)題 [8]。在任何一個(gè)網(wǎng)站中,用戶的評(píng)分記錄或者購(gòu)買(mǎi)記錄,相對(duì)整個(gè)可供選擇的內(nèi)容集來(lái)說(shuō),都是很小的一部分。所以在許多推薦系統(tǒng)中,每個(gè)用戶涉及的數(shù)據(jù)量相當(dāng)有限,在一些大的系統(tǒng)如 Amazon 中,用戶最多不過(guò)就評(píng)價(jià)過(guò)上百萬(wàn)本書(shū)的 1%,造成評(píng)估數(shù)據(jù)相當(dāng)稀疏。當(dāng)用戶評(píng)價(jià)過(guò)的內(nèi)容之間找不到交集時(shí),就難以判斷用戶的口味是否相似,難以找到相似用戶集,導(dǎo)致推薦效果大大降低。 本章小結(jié) 隨著 電 子商務(wù)網(wǎng)站的迅猛發(fā)展 ,近年來(lái)越來(lái)越多的新興技術(shù)被應(yīng)用到 個(gè)性化推薦 領(lǐng)域。其中, 協(xié)同過(guò)濾技術(shù) 的研究取得了重大的進(jìn)步。 因此,本章簡(jiǎn)要敘述了 協(xié)同過(guò)濾技術(shù) 的相關(guān)理論和技術(shù)。了解 協(xié)同過(guò)濾 工作流程, 目的在于 推薦 引擎的模型設(shè)計(jì)提供理論基礎(chǔ);了解 協(xié)同過(guò)濾推薦 算法的核心思想及其暴露出來(lái)的瓶頸問(wèn)題,并熟悉一些改進(jìn)思想, 為 解決這些問(wèn)題 尋找突破口。 基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第三章 協(xié)同過(guò)濾推薦系統(tǒng)設(shè)計(jì) 14 第三章 協(xié)同過(guò)濾推薦系統(tǒng)設(shè)計(jì) 協(xié)同過(guò)濾推薦系統(tǒng) 的總體設(shè)計(jì) 基于前幾章節(jié)對(duì) 協(xié)同過(guò)濾 技術(shù)的研究 和 分析,提出 基于客戶和基于資源項(xiàng)的 設(shè)計(jì) 方案 。 協(xié)同過(guò)濾推薦系統(tǒng)的總體設(shè) 計(jì)可以分為五個(gè)大模塊:數(shù)據(jù)管理模塊(DataManager);相關(guān)性計(jì)算模塊 (包括用戶相關(guān)性 (UserCorrelation)和項(xiàng)目相關(guān)性(ItemCorrelation));近鄰用戶模塊 (UserNeighborhood); 推薦模塊 (Remender)和 工具模塊 (Common)。 協(xié)同過(guò)濾推薦系統(tǒng) 的設(shè)計(jì) 目標(biāo) 協(xié)同過(guò)濾推薦 系統(tǒng),是 在電子商務(wù)中 開(kāi)發(fā)用來(lái) 進(jìn)行個(gè)性化推薦 的模型。在設(shè)計(jì)本模型時(shí),參考了數(shù)據(jù)挖掘 的 基本模型。 由于電子商務(wù)網(wǎng)站的多變性,要求個(gè)性化推薦系統(tǒng)易于配置,方便不 同的網(wǎng)站建立合適的推薦系統(tǒng)。由于個(gè)性化推薦系統(tǒng) 的實(shí)時(shí)性特性,需要非常注意個(gè)性化推薦的效率。 綜上所述, 協(xié)同過(guò)濾推薦系統(tǒng) 的設(shè)計(jì)需要達(dá)到的目標(biāo)總結(jié)如下: (1)在功能設(shè)計(jì)上, 采用 可評(píng)估性能的個(gè)性化推薦系統(tǒng) 方法。 實(shí)現(xiàn)協(xié)同過(guò)濾系統(tǒng)的基于項(xiàng)目和基于用戶的個(gè)性化推薦算法,并根據(jù) Slope One 算法思想和用戶聚簇算法的思想,實(shí)現(xiàn)具體功能。最后讀取的數(shù)據(jù)集 來(lái) 分析 各種算法的性能 。 (2)在性能設(shè)計(jì)上,本模型要達(dá)到提高個(gè)性化推薦產(chǎn)生的有效率、準(zhǔn)確率以及可理解性 。 總體框架 圖 展示了基于用戶協(xié)同過(guò)濾算法的不同模塊之間的相互關(guān)系。在基于資源的協(xié)同過(guò)濾算法中唯一的不同是除去了圖中的近鄰計(jì)算和偏好偏差。 該框架結(jié)構(gòu)的重要組成部分的設(shè)計(jì),將在以下各小節(jié)中作詳細(xì)敘述。 基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第三章 協(xié)同過(guò)濾推薦系統(tǒng)設(shè)計(jì) 15 推 薦 系 統(tǒng)近 鄰 計(jì) 算相 關(guān) 計(jì) 算偏 好 偏 差數(shù) 據(jù) 管 理 器用 戶偏 好 項(xiàng) 目偏 好 項(xiàng) 目 圖 協(xié)同過(guò)濾系統(tǒng)總體架構(gòu) DataManager的模塊設(shè)計(jì) 在協(xié)同過(guò)濾推薦系統(tǒng)中,需要從服務(wù)器中讀取大量的數(shù)據(jù)來(lái)做計(jì)算推薦,數(shù)據(jù)來(lái)源可能是數(shù)據(jù)文件或者數(shù)據(jù)庫(kù),所以需要專門(mén)的數(shù)據(jù)處理模塊來(lái)負(fù)責(zé)數(shù)據(jù)的讀取更新和管理。 模 塊 資源項(xiàng)類(lèi)相對(duì)比較簡(jiǎn)單,主要是用來(lái)表現(xiàn)資源項(xiàng)的屬性特征,在個(gè)性化推薦系統(tǒng)中實(shí)際上用到的只有資源的 ID,資源項(xiàng)類(lèi)的類(lèi)圖如 圖 所示 。 + g e t I t e m ( ) I D : i n t N a m e : s t r i n gG e n e r i c I t e m 圖 資源項(xiàng)類(lèi) 在個(gè)性化推薦系統(tǒng)中,需要注意的是 需要 保證在任何時(shí)候任何地方,都要保證用戶數(shù)據(jù)只能至多存在一個(gè)實(shí)例在進(jìn)行訪問(wèn)。所以為了避免數(shù)據(jù)操作的沖突,采用了創(chuàng)建型設(shè)計(jì)模式中的單例模式對(duì)用戶類(lèi)進(jìn)行了封裝。因?yàn)樵谙嚓P(guān)性計(jì)算那個(gè)步驟需要大量的比較操作,用戶類(lèi)必須要有比較操作,因此封裝之后的單例模式的 用戶類(lèi)如 圖 。 + g e t I n s t a n c e ( ) ( )+ c o m p a r e ( P r e f e r e n c e o 1 , P r e f e r e n c e o 2 ) ( ) I D : i n t N a m e : s t r i n g i n s t a n c eB y U s e r P r e f e r e n c e C o m p a r a t o r 基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第三章 協(xié)同過(guò)濾推薦系統(tǒng)設(shè)計(jì) 16 圖 封裝的資源項(xiàng)類(lèi) 后面的用戶偏好類(lèi)和用戶類(lèi)需要同樣的封裝,封裝方法與用戶類(lèi)相同,將不再贅述。 模塊 用戶對(duì)系統(tǒng)中項(xiàng)目的評(píng)分即為用戶的偏好,這是協(xié)同過(guò)濾推薦系統(tǒng)中非常關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)。用戶偏好類(lèi)的屬性由三部分組成:用戶,項(xiàng)目和評(píng)分值。 本數(shù)據(jù)結(jié)構(gòu)記錄了用戶的偏好,是用于計(jì)算相似度和其他算法的基礎(chǔ)。 模塊 用戶類(lèi)在協(xié)同過(guò)濾推薦系統(tǒng)中占據(jù)核心位置,它不僅封裝了用戶的自然屬性如用戶 ID,名字等,還封裝了一個(gè)用戶的偏好映射表。用戶類(lèi)在相關(guān)性以及近鄰用戶算法中非常重要。為了便于從數(shù)據(jù)庫(kù)或數(shù)據(jù)文件中處理用戶偏好,本結(jié)構(gòu)還使用了一個(gè)偏好鏈表。用戶類(lèi)的類(lèi)圖結(jié)構(gòu)如 圖 所示 。 + g e t P r e f e r e n c e F o r ( ) : P r e f e r e n c e+ g e t P r e f e r e n c e s ( ) I D : i n t n a m e : s t r i n g p r e f e r e n c e s d a t aG e n e r i c U s e r 圖 用戶類(lèi) 模塊 在數(shù)據(jù)管理模塊內(nèi),數(shù)據(jù)管理類(lèi)是一個(gè)工具類(lèi),實(shí)際上它負(fù)責(zé)的是封裝用戶類(lèi),項(xiàng)目類(lèi)和用戶偏好類(lèi),對(duì)外提供數(shù)據(jù)處理的接口,便于外界用戶的調(diào)用,所以數(shù)據(jù)管理類(lèi)的類(lèi)圖以及數(shù)據(jù)管理里與這幾個(gè) 類(lèi)的相互關(guān)系可以如 圖 表示 。 基于客戶資料挖掘的電子商務(wù)網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn) 第三章 協(xié)同過(guò)濾推薦系統(tǒng)設(shè)計(jì) 17 圖 數(shù)據(jù)管理模塊以及和其他模塊的關(guān)系 由于個(gè)性化推薦系統(tǒng)需要處理大量的數(shù)據(jù),所以需要進(jìn)行數(shù)據(jù)庫(kù)和文件的讀取操作,本課題采用的是文件操作與 MySQL 數(shù)據(jù)庫(kù)操作。 在協(xié)同過(guò)濾系統(tǒng)中有很多相關(guān)性的計(jì)算方法, 本設(shè)計(jì) 中實(shí)現(xiàn)了其中的用戶相關(guān)性 (UserCorrelation)和項(xiàng)目相關(guān)性 (ItemCorrelation)算法。 Pearson相關(guān)性算法 基于 Pearson 相關(guān)性算法是應(yīng)用最為廣泛的相關(guān)性算法,它既可以用于基于用戶的協(xié)同過(guò)濾系統(tǒng) 中,也可以用于基于資源項(xiàng)的協(xié)同過(guò)濾系統(tǒng)中。 下面以用戶相關(guān)性為例講述 Pearson 相關(guān)算法的步驟。 對(duì)于系統(tǒng)中的用戶 X 和用戶 Y,下列的值代表的意義如下所示: (1)sumX2:用戶 X 的所有偏好值的平方和 ; (2)sumY2:用戶 X 的所有偏好值的平方和 ; (3)sumXY:是指那些用戶 X 和用戶 Y 都給予評(píng)分的項(xiàng)目上,用戶 X 和用戶 Y的偏好值的和 。 然后 Pearson
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1