【正文】
的方法是隱含語義索引 ? Sarwar等學者將 LSI引入協(xié)作過濾領域 ? 關系矩陣由活動用戶和項目組成;語義關系由用戶與用戶之間、項目與項目之間、用戶與項目之間的相關性組成 LSI協(xié)作過濾的流程 ? 建立用戶 項目關系矩陣 R ; ? 采用奇異值分解技術將矩陣 R 分解為 U ,S 和 V ? 將 V 降維成維數為 k的矩陣 VK k r),并采用相同方法簡化矩陣 U和 S 為 Uk 和 Sk ; ? 計算矩陣 Vk 的平方根 ,并相應計算 和 ? 預測用戶 a 對項目 i 的評分,公式如下: )()(, iVSaSURP TkkTkkaia ???kk SU ? Tkk VS ?優(yōu)缺點 ? 重要的用戶 項目關系結構被映射到低維空間中,消除了關系上的細微差別而保留了重要的潛在關聯(lián)性 ? K值太大會導致結果趨近于原始矩陣而失去挖掘潛在關聯(lián)的能力 ? K值太小則會使得關聯(lián)信息丟失太多,以至于對于用戶和項目的分辨能力不足 基于項目的協(xié)作過濾 ? 基于用戶的協(xié)作過濾系統(tǒng)通過遍歷整個用戶群建立用戶之間的相似關系,并推薦項目,對用戶規(guī)模龐大的過濾系統(tǒng)而言,這種方法極大影響推薦效率 ? 基于項目的協(xié)作過濾系統(tǒng)只針對目標項目和活動用戶已有項目之間進行協(xié)作性檢測,從而在保證過濾效果的同時,大大提高了系統(tǒng)效率 ? 基于項目的協(xié)作過濾系統(tǒng)的核心問題是檢測兩個項目之間的協(xié)作相似性 ? 區(qū)別于基于內容的過濾,描述項目的特征空間不是由項目本身包含的詞、短語或句子構成,而是用戶群對其進行的綜合評分 項目打分 ? 用戶群對項目綜合評分 ? 基于這種定義,項目之間的相關性仍然可以采納余弦相似度和相關相似度等算法進行度量 ? 用戶是否對項目 ti 感興趣,需要計算已知的相關項目與項目 ti 的綜合相似度 ? 項目之間的相似度不僅來源于共有相關用戶的數量,也來源于這些用戶對其喜好程度評分的相似性 ],[ ,2,1, nikiiii s c o rs c o rs c o rs c o rt ???用戶對項目的評價 ? 用戶 u 對目標項目 ti評分的估計方法有兩種 ? 權相加方法 Pu,i代表用戶 u對目標項目 ti的評分估計 Si,k代表用戶偏愛的已知項目 tk與項目 ti的協(xié)作相似性 Ru,k代表用戶 u對項目 tk的偏愛程度評分 ? 回歸方法 ???? ??i t e m ss i m i l ara l lk kii t e m ss i m i l ara l lk kukiiu SRSP , ,)(??? ??? ik RR改進方法 ? 由于在大多數協(xié)作過濾系統(tǒng)中項目的更新比較慢,因此可以預先計算項目之間的相似性,從而提高推薦系統(tǒng)的效率 ? 一種方法是計算所有項目之間的相似性并進行索引,這種方法的缺陷在于系統(tǒng)需要 的存儲空間 ? 一種方法是對每個項目 ,只保存最相似的 j個項目及其協(xié)作相關性, j 稱為模型尺寸 ? 模型尺寸的選擇對于過濾系統(tǒng)的性能有較大影響 ? 過大,則系統(tǒng)的預測能力很強,但空間復雜度增大 ? 過小,則一些于目標項目相似的項目可能沒有被考慮其中,從而降低過濾系統(tǒng)的預測性能 小結 ? 基于內容的信息過濾策略重點在于分析信息內在的本質規(guī)律,通過自然語言處理技術對知識的表示進行深層理解,從而提高信息服務的精確性; ? 基于協(xié)作的信息過濾策略重點在于挖掘用戶的社會關系網絡,探尋知識背景和信息需求相似的用戶,并在此基礎上實施信息多元化的交互,從而實現信息服務的拓展性和新穎性 ? 目前信息過濾領域的另一研究熱點是內容與協(xié)作策略的融合,使信息過濾系統(tǒng)既能延續(xù)用戶指定的信息查詢路線精準地獲取知識,又能挖掘相關于用戶的其它興趣偏好拓展知識獲取的領域。 本章小結 ? 介紹了信息過濾的概念和需求 ? 介紹了信息過濾的體系結構 ? 介紹了信息過濾的方法