【正文】
大量用戶同時 頻繁訪問數據庫,導致數據庫服務器癱瘓 ,需要 進一步 優(yōu)化數據庫緩存機制和索引。 輸出 3: 該禮品的詳細信息,包括禮品圖片,禮品名稱,禮品商家,禮品價格等 。如選擇節(jié)日場合,選擇收禮人的信息等 輸出 1: 滿足用戶需求的禮品信息推薦列表,包括禮品圖片 ,禮品名稱,禮品 URL 等 , 每頁顯示 40 個禮品,超過 40 個禮品進行分頁顯示 。 系統(tǒng)性能的需求規(guī)定 ? 精度要求 本系統(tǒng)要求 用戶根據自己的需求選擇節(jié)日場合,收禮人信息,搜索關鍵字等信息。 6) 個性化 搜索 系統(tǒng) 根據 用戶的搜索日志 分析用戶的 偏好。 禮 品 專 家選 擇 適 宜 贈 送 的 節(jié) 日 場 合選 擇 適 宜 贈 送 的 收 禮 對 象 u s e s u s e s 保 存 節(jié) 日 場 合 知 識 庫保 存 收 禮 對 象 知 識 庫 e x t e n d s e x t e n d s 圖 34 禮品知識庫人工初始化用例圖 如上圖所示,人工初始化用例圖。每種人根據其特點對其類型進行劃分,并對該類型的收禮人 從圖片、服飾特點、周末活動、性格特征、興趣愛好和個人偶像來進行描述,用戶根據這些特征描述來選擇收禮人并獲得系統(tǒng)的推薦。如,贈送男人宜送領帶,錢包,商務包等;贈送女人宜送口紅,廚房用品等;贈送孩童宜送文具,卡通玩具等。 送禮的場合有:戀愛,約會,結婚,周年,生日,孩子滿月,喬遷新居,升學,畢業(yè),退休,升職,探病,慰問,感謝等。 由于送禮的節(jié)日和場合 不同,贈送的禮品會有所不同。 假定和約束 為了保證推薦的準確性 和客觀性,本系統(tǒng)的假定和約束如下: 1) 從淘寶網上抓取的 40 類 共 3000 個 禮品 在一定時間內不會下架,即用戶得到禮品推薦后可以 從網上 買到該禮品 。 4. 用戶瀏覽推薦 用戶瀏覽某一禮品的詳細信息時,系統(tǒng)要向用戶推薦與此禮品最相關的若干 禮品。 本系統(tǒng)要調研禮品贈送知識并據此構建禮品知識庫。最重要的是,用戶甚至不知道瀏覽器正 在與服務器通信: Web站點看起來是即時響應的[35]。該對象在 Inter Explorer 5中首次引入,它是一種支持異步請求的技術。 4) 運用 XMLHttpRequest實現異步數據檢索。這使得 Web 應用的交互性得到了前所未有的提高, 大大增強了應用的實用性和實時性。 AJAX AJAX 的全稱是 Asynchronous JavaScript XML(即異步 JavaScript 和 XML)。在這一點上,商業(yè)軟件的靈活性遠遠不及 Lucene。 ( 4)設計了獨立于語言和文件格式的文本分析接口,索引器通過接受 Token流完成索引文件的創(chuàng)立,用戶擴展新的語言和文件格式,只需要實現文本分析的接口。 Lucene 定義了一套以 8 位字節(jié)為基礎的索引文件格式,使得兼容系統(tǒng)或者不同平臺的應用能夠共享建立的索引文件。 早 先 發(fā) 布 在 作 者 自 己 的 SourceFe, 20xx 年年底成為 apache 軟件基金會 jakarta 的一個子項目: 作為一個開放源代碼項目, Lucene 從問世之后,引發(fā)了開放源代碼社群的巨大反響,程序員們不僅使用它構建具體的全文檢索應用,而且將之集成到各種系統(tǒng)軟件中去,以及構建 Web 應用,甚至某些商業(yè)軟件也采用了 Lucene 作為其內部全文檢索子系統(tǒng)的核心。需要說明的是它并不是一個完整的全文檢索應用 , 而是為應用程序提供索引和搜索功能。 在 JAVA 中使用正則表達式查找字符串的典型調用語句是 boolean b = (regEx).matcher(str).find() 其中 regEx 是需要編譯的正則表達式, str 為需要進行查找的文本或字符串,通過 ()方法可以查找文本或字符串 str 中是否存在符合正則表達式規(guī)則 regEx 的字符串 [27]。 在 JAVA 中使用正則表達式匹配字符串的典型調用語句是 Pattern p = (a*b); Matcher m = (aaaaab); boolean b = (); 是正則表達式的編譯表示形式,指定為字符串的正則表達式必須首先被編譯為 此類的實例。 正則表達式可以用來:( 1)驗證字符串是否符合指定特征,比如驗證是否是合法的郵件地址。abb39。b39。 簡單的說,正則表達式就是用一個 “ 字符串 ” 來描述一個特征,然后去驗證另一個 “ 字符串 ”是否符合這個特征。 系統(tǒng) 實現 關鍵 技術介紹 正則表達式 正則表達式 ( Regular Expression)在 計算機科學 中,是指一個用來描述或者匹配一系列符合某個 句法 規(guī)則的 字符串 的單個字符串。 關聯(lián)規(guī)則推薦方法是先根據銷售數據發(fā)現不同商品在銷售過程中的相關性 ,然后基北京郵電大學研究生畢業(yè)論文 8 于生成的關聯(lián)規(guī)則模型和用戶的購買行為產生推薦結果 。 隨著信息技術的高速發(fā)展 , 人們積累的數據量急劇增長,動輒以 TB計,如何從海量的數據中提取有用的知識成為當務之急。 知識發(fā)現 將用戶請求視作一個查詢 ,然后基于用戶需求和偏好進行推薦。而且這些屬性特征成千上萬 ,隨著系統(tǒng)的不斷學習 ,數據庫規(guī)模還會不斷擴大 ,對系統(tǒng)的性能也會有很大的影響 。 3. 內容過濾的優(yōu)缺點 優(yōu)點: 正如內容過濾出現的原因 內容過濾 對推薦結果的解釋更換 在 一定程度上解決了 協(xié)同過濾方法中的用戶多偏好和產品內容多樣的問題, 可以讓用戶提供一定的初始化信息 ,輔助系統(tǒng)做出更好的推薦。 1. 基于新產品的內容過濾 新產品進入 系統(tǒng) 后,系統(tǒng) 將新產品與產品特征數據庫進行匹配 ,然后提取新北京郵電大學研究生畢業(yè)論文 7 產品的特征。 內容過濾 (Content Based FilteringCBF) 為了應對協(xié)同過濾的稀疏性問題出現了內容過濾 。 3. 協(xié)同過濾的優(yōu)缺點 優(yōu)點: 協(xié)同過濾的最大優(yōu)勢就在于 ,系統(tǒng)與目標產品在網絡上的呈現形式完全獨立 , 只需要用戶產品交易數據 , 比較簡便易行。 首先利用用戶的歷史記錄如搜索記錄、瀏覽記錄、評分評 價等對用戶特征進行分析和建模。協(xié)同過濾 基于這樣的假設:為用戶找到他真正感興趣的內容的好方法是,首先找 到 與他興趣相似的用戶,然后將這些用戶感興趣的內容推薦給此用戶。 禮品知識庫的初始化和完善:用禮品專家的禮品知識 對禮品知識庫進行初始化 , 然后采用 一定的算法 對禮品知識庫進行完善 。 最后根據用戶對推薦禮品的反饋信息對知識庫進一步 調整和 完善。 本文工作 研究路線和方法 本文從淘寶網 上抓取數千禮品信息, 然后采用正則表達式進行文本提取,將提取的文本信息保存到數據庫形成禮品庫。 因此,基于知識庫的禮品推薦系統(tǒng)的研究具有很高的經濟價值和社會價值。 凡客誠品 20xx年銷售的衣服達到了4000萬件。 20xx年淘寶網銷售額達到了 20xx億人民幣,預計 20xx年淘寶網銷售額將翻一番達到 4000億人民幣。 北京郵電大學研究生畢業(yè)論文 4 研究意義 電子商務網站是推薦系統(tǒng)應用 最 廣泛的地方。 淘寶禮物 (于淘寶巨大的消費平臺。 實驗結果表明 , 算法在用戶評分數據極端稀疏的情況下 , 仍能取得較理想的推薦質量 [16]。 針對新用戶和新項目的冷啟動問題 采用了基于統(tǒng)計的眾數法阻及信息熵法來解決 [14]。 北京郵電大學研究生畢業(yè)論文 3 Gift Ideas()是一個專業(yè)的個性化禮品推薦網站, 網站的禮品知識庫非常專業(yè),推薦頁面用戶體驗性非常好。 FAB: Stanford 大學數字圖書館項目組開發(fā)的 基于內容過濾和協(xié)同過濾的 推薦系統(tǒng),用于推薦 Web 頁面。MovieLens采用了基于用戶的協(xié)同過濾和關聯(lián)規(guī)則相結合的技術,計算用戶的相似度并根據相似度分析用戶的“鄰居”,這些“鄰居”是具有相似興趣愛好的“鄰居區(qū)”, “鄰居”們對電影的評分數據被用來為目標用戶生 成個性化推薦項目 [10]。由于基于項目協(xié)同 過濾推薦算法高度的關聯(lián)性,推薦質量也比較高 [9]。 Gery Linden, Brent Smith和 Jeremy York主導開發(fā)的 集研究與應用于一體的推薦系統(tǒng), 采用項目 項目協(xié)同 過濾算法,根據用戶己購買和己評分項目尋找相似項目,將相似度高的項目列入到推薦列表中。在推薦算法方面,協(xié)同過濾是應用最廣泛的個 性化推薦技術。另外,用戶每次獲取信息,都要輸入大量、煩瑣的檢索條件,而信息系統(tǒng)不能通過服務歷史和服務過程掌握用戶需求,信息系統(tǒng)不能產生對用戶持久的吸引力。 隨著信息技術特別是網絡技術的發(fā)展,信息系統(tǒng)的規(guī)模越來越大,數量越來越多,信息獲取的工具和方法越來豐富,在更方便的為用戶提供越來越多信息和服務的同時,其結構和內容越來越復雜,在海量信息中,用戶及時、準確地獲得所需要的信息也更加困難 [1]。第七章是 工作總結和進一步的展望。第三章描述了系統(tǒng)的需求分析,包括任務概述、需求規(guī)定以及運行環(huán)境的規(guī)定。首先在調研了禮品信息和禮品贈送知識后構建禮品知識庫,然后禮品專家通過人工方式對禮品知識庫進行初始化,最后系統(tǒng)根據禮品的基本信息計算出禮品綜合相似度對禮品知識庫進一步完善。(保密的學位論文在解密后遵守此規(guī)定) 非保密論文注釋:本學位論文不屬于保密范圍,適用本授權書。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。盡我所知,除了文中特別加以標注和致謝中所羅列的內容以外,論文中不包含其他人已經發(fā) 表或撰寫過的研究成果,也不包含為獲得北京郵電大學或其他教育機構的學位或證書而使用過的材料。學校有權保留并向國家 有關部門或機構送交論文的復印件和磁盤,允許學位論文被查閱和借閱;學校可以公布學位論文的全部或部分內容,可以允許采用影印、縮印或其它復制手段保存、匯編學位論文。 鑒于以上問題,本文針對禮品推薦領域提出了基于知識庫的推薦方法。第二章介紹了主要的推薦算法和本系統(tǒng)所涉及的關鍵技術。第六章對系統(tǒng)進行功能測試和性能測試。s log. In Chapter 1, the background of remendation system, the significance of the study, and the methods and contents of the study is introduced. In Chapter 2, we describe the main algorithms and key technologies that involved. Requirements analysis, includes overview of the work, the demand of requirement and environment is described in Chapter 3. The main content in Chapter 4 is the system design, which is divided into two parts, the function part and the construction part. Chapter 5 is the detailed description of the key problems and solutions in the process of system construction. In Chapter 6, functional testing and performance testing of the system is operated. The last Chapter is a summary of our work and further prospects. KEY WORDS:gifts remendation, knowledge base,similarity, personalized,search 北京郵電大學碩士研究生畢業(yè)論文 目錄 V 目錄 北京郵電大學研究生畢業(yè)論文 1 第一章 緒論 研究背景 隨著 互聯(lián)網和電子商務 的迅速發(fā)展,人類己步入網絡信息時代。 首先,由于很難準確描述出需要的信息的特征,用戶常常會面對大量的信息而束手無策,迷失在大量的信息空間中;其次,信息系統(tǒng) 單純依靠 提供的檢索方式,往往 不能滿足用戶描述檢索條件的需求,找不到描述信息需求的方式。