【正文】
aaab); boolean b = (); 是正則表達(dá)式的編譯表示形式,指定為字符串的正則表達(dá)式必須首先被編譯為 此類的實(shí)例。需要說明的是它并不是一個完整的全文檢索應(yīng)用 , 而是為應(yīng)用程序提供索引和搜索功能。 Lucene 定義了一套以 8 位字節(jié)為基礎(chǔ)的索引文件格式,使得兼容系統(tǒng)或者不同平臺的應(yīng)用能夠共享建立的索引文件。在這一點(diǎn)上,商業(yè)軟件的靈活性遠(yuǎn)遠(yuǎn)不及 Lucene。這使得 Web 應(yīng)用的交互性得到了前所未有的提高, 大大增強(qiáng)了應(yīng)用的實(shí)用性和實(shí)時性。該對象在 Inter Explorer 5中首次引入,它是一種支持異步請求的技術(shù)。 本系統(tǒng)要調(diào)研禮品贈送知識并據(jù)此構(gòu)建禮品知識庫。 假定和約束 為了保證推薦的準(zhǔn)確性 和客觀性,本系統(tǒng)的假定和約束如下: 1) 從淘寶網(wǎng)上抓取的 40 類 共 3000 個 禮品 在一定時間內(nèi)不會下架,即用戶得到禮品推薦后可以 從網(wǎng)上 買到該禮品 。 送禮的場合有:戀愛,約會,結(jié)婚,周年,生日,孩子滿月,喬遷新居,升學(xué),畢業(yè),退休,升職,探病,慰問,感謝等。每種人根據(jù)其特點(diǎn)對其類型進(jìn)行劃分,并對該類型的收禮人 從圖片、服飾特點(diǎn)、周末活動、性格特征、興趣愛好和個人偶像來進(jìn)行描述,用戶根據(jù)這些特征描述來選擇收禮人并獲得系統(tǒng)的推薦。 6) 個性化 搜索 系統(tǒng) 根據(jù) 用戶的搜索日志 分析用戶的 偏好。如選擇節(jié)日場合,選擇收禮人的信息等 輸出 1: 滿足用戶需求的禮品信息推薦列表,包括禮品圖片 ,禮品名稱,禮品 URL 等 , 每頁顯示 40 個禮品,超過 40 個禮品進(jìn)行分頁顯示 。 ? 故障處理要求 如果大量用戶同時 頻繁訪問數(shù)據(jù)庫,導(dǎo)致數(shù)據(jù)庫服務(wù)器癱瘓 ,需要 進(jìn)一步 優(yōu)化數(shù)據(jù)庫緩存機(jī)制和索引。這四種推理方式分別接受用戶交互模塊傳來的參數(shù),經(jīng)過推理計算后將結(jié)果返回到用戶交互模塊。 3) 收禮人描述推薦 系統(tǒng)根據(jù)收禮人的年齡,性別,愛好,職業(yè)等信息進(jìn)行分類,并對每一類別從服飾特征,周末活動,個人偶像等方面進(jìn)行描述,用戶根據(jù)對收禮 人的了解與描述進(jìn)行匹配然后選擇,最后系統(tǒng)向用戶進(jìn)行禮品推薦。 (2) 知識庫 與搜索 子系統(tǒng) 調(diào)研禮品贈送知識并構(gòu)建知識庫模型,禮品專家對禮品知識庫進(jìn)行初始化。 ? 包 存放系統(tǒng)推薦的業(yè)務(wù)邏輯。 系統(tǒng)類結(jié)構(gòu)說明 ? 包 包中的類的描述如表 51。系統(tǒng)整體模塊圖從系統(tǒng)整體方面對系統(tǒng)的功能模塊進(jìn)行劃分和描述。 3) 對淘寶頁面的 HTML 進(jìn)行分析, 設(shè)計正則表達(dá)式進(jìn)行抽取 由于淘寶的搜索結(jié)果的頁面布局是相同的, 設(shè)計 正則表達(dá)式對 頁面的內(nèi)容進(jìn)行 抽取。 ( 1) 節(jié)日場合 節(jié)日場合表包括節(jié)日場合名稱和節(jié)日場合日期。 北京郵電大學(xué)研究生畢業(yè)論文 27 節(jié) 日 場 合 禮 品 表P K I DF K 2 O C C A T I O N I DF K 1 G I F T I D V A L U E收 禮 對 象 禮 品 表P K I DF K 2 R E C I P I E N T I DF K 1 G I F T I D V A L U E年 齡 表P K I D V A L U E N A M E禮 品 表P K I D N A M E P I C T U R E C L A S S I D F L A G L P I C T U R E W P I C T U R E V A L U E收 禮 人 類 型 表P K I D G E N D E R I DF K 1 A G E I DF K 3 R E L A T I O N I DF K 2 I N T E R E S T I D關(guān) 系 表P K I D N A M E興 趣 愛 好 表P K I D N A M E節(jié) 日 場 合 表P K I D N A M E T I M E 圖 51 禮品知識庫 ER 圖 如上圖所示,禮品知識庫 ER 圖。 表 55 禮品表( gifts) 字段名稱 字段類型 字段長度 可否為空 備注 ID NUMBER(20) 20 否 自增 ID,主鍵 NAME VARCHAR2(200) 200 否 禮品名稱 PICTURE VARCHAR2(200) 200 否 禮品圖片 地址 CLASSID NUMBER(20) 20 否 禮品所屬類別ID,外鍵依賴 禮品類別 表的 ID NUM NUMBER(12) 12 是 禮品數(shù)目 FLAG NUMBER(1) 1 否 是否處理標(biāo)志, 0表示未處理, 1北京郵電大學(xué)研究生畢業(yè)論文 。 通過調(diào)研將興趣劃分為:運(yùn)動,旅游,書畫,音樂,閱讀,棋牌,居家,烹飪,營養(yǎng)品,探險,宅,影視,交際,游戲,時尚,購物,美容,舞蹈 等。收禮人指的是收禮人的個人信息,如年齡,性別,興趣愛好等。 并將這些分類放到設(shè)計好的數(shù)據(jù)庫分類表中 。 小結(jié) 本章 主要從系統(tǒng)整體功能和系統(tǒng)整體架構(gòu)兩方面 對系統(tǒng)設(shè)計進(jìn)行了闡述。 ? 包 存放系統(tǒng)的數(shù)據(jù)訪問邏輯。 系統(tǒng)包結(jié)構(gòu)設(shè)計 圖 54 系統(tǒng)包組織結(jié)構(gòu)圖 如上圖所示,系統(tǒng)包組織結(jié)構(gòu)圖。由于只抓取禮品信息,所以傳統(tǒng)的爬蟲已不太適用。 2) 收禮對象 推薦 用戶選擇收禮人的類別(如:老年人,中年人,男青年,女青年等),系統(tǒng)向用戶推薦適合該年齡段的禮品。完善的知識庫為推薦推理模塊提供了推理和數(shù)據(jù)北京郵電大學(xué)研究生畢業(yè)論文 20 支持。 ? 數(shù)據(jù)管理能力要求 所有禮品信息均從淘寶網(wǎng)上抓取,禮品 信息 要 隨時 進(jìn)行更新 。 ? 時間特性要求 本系統(tǒng) 不僅 需要處理大量的知識庫數(shù)據(jù) ,還要保證禮品推薦的實(shí)時性, 因此從用戶選擇需求 并發(fā)送請求后 500ms 內(nèi)要 返回 用戶的推薦 結(jié)果 , 從用戶輸入搜索關(guān)鍵字并發(fā)送請求后 200ms 內(nèi)要返回用戶的搜索結(jié)果。 計 算 禮 品 類 別 相 似 度計 算 禮 品 商 家 相 似 度 計 算 禮 品 綜 合 相 似 度計 算 禮 品 價 格 相 似 度 e x t e n d s e x t e n d s e x t e n d s 完 善 禮 品 知 識 庫 e x t e n d s 圖 35 禮品知識庫完善 用例圖 如上圖所示,禮品知識庫完善 用例圖。 表 32 收禮人興趣愛好劃分 類別 興趣劃分 老人 運(yùn)動,旅游,書畫,音樂,閱讀,棋牌,居家,烹飪,營養(yǎng)品 男人 運(yùn)動,旅游,探險,宅男,音樂,書畫,影視,閱讀,交際,游戲 女人 時尚,購物,美容,運(yùn)動,旅游,居家,烹飪,宅女,音樂,舞蹈,書畫,影視,閱讀 ,交際,探險 青年 運(yùn)動,購物,時尚,影視,閱讀,交際,音樂,舞蹈,書畫,游北京郵電大學(xué)研究生畢業(yè)論文 15 戲 少年 運(yùn)動,動畫,閱讀,舞蹈,書畫,游戲,玩具 嬰兒 玩耍,睡覺,洗澡,營養(yǎng)品 3) 基于收禮人描述的 推薦 當(dāng)用戶對收禮人的個人信息無法完整的描述時可以通過基于收禮人描述的方法來獲得 禮品 推薦。本系統(tǒng)將把禮品贈送 節(jié)日 場合分類如下。 系統(tǒng)設(shè)計意圖 該系統(tǒng)設(shè)計的意圖是要將符合中國文化的禮品 知識借助數(shù)據(jù)庫進(jìn)行知識庫建模, 通過 禮品專家 對知識庫進(jìn)行初始化 ,然后 計算禮品的綜合相似度對知識庫進(jìn)一步完善 ,同時, 系統(tǒng)要提供個性化的禮品搜索功能。 然后介紹了本系統(tǒng)實(shí)現(xiàn)過程中所利用 的關(guān)鍵技術(shù): 正則表達(dá)式, Lucene 和 AJAX 技術(shù)。 使用 AJAX的關(guān)鍵在于對瀏覽器端的 JavaScript、 DHTML和與服務(wù)器異步通信的組合 [33]。 所以,不必采用會中斷交互的完整頁面刷新,就可以動態(tài)地更新 Web 頁面。 面對已經(jīng)存在的商業(yè)全文檢索引擎, Lucene 也具有相當(dāng)?shù)膬?yōu)勢。Lucene 以其開放源代碼的特性、優(yōu)異的索引結(jié)構(gòu)、良好的系統(tǒng)架構(gòu)獲得了越來越多的應(yīng)用。這使得開發(fā)人員可以根據(jù)需要對它們進(jìn)行擴(kuò)展。( 3)用來替換,比普通的替換更強(qiáng)大。ab39。許多程序設(shè)計語言 都支持利用正則表達(dá)式進(jìn)行字符串操作 [24]。 數(shù)據(jù)挖掘 是知識發(fā)現(xiàn)的關(guān)鍵步驟。 知識 發(fā)現(xiàn) ( Knowledge Discovery in Database KDD) 知識發(fā)現(xiàn)是 從數(shù)據(jù)庫中提取隱含的、先前未知的、潛在有用的知識或信息模式的決策支持方法。 2. 基于新用戶的內(nèi)容過濾 新用戶進(jìn)入后 ,系統(tǒng)提取用戶個性化特征 ,提取的方法一般有三種 ,一是問問題 ,二是通過注冊信息獲得 ,三是通過用戶行為進(jìn)行提取。第二,協(xié)同過濾方法 存在計算規(guī)模問題 ,而如果降低計算復(fù)雜度 又會降低推薦質(zhì)量。 1. 基于用戶的協(xié)同過濾推薦 (CF U) 基于用戶的協(xié)同過濾 推薦技術(shù)是 目前 推薦算法實(shí)際 應(yīng)用中最為成功的個性化推薦技術(shù), 在商業(yè)推薦系統(tǒng)中得到廣泛應(yīng)用。 主要研究內(nèi)容 本文的主要研究內(nèi)容為推薦系統(tǒng)在禮品推薦領(lǐng)域的應(yīng)用研究,本文采用了知識 庫推薦的方法,并結(jié)合禮品個性化搜索,最后根據(jù)知識庫的特點(diǎn)設(shè)計具有良好用戶體驗(yàn)的推薦交互界面更好地 描述用戶的需求向用戶提供個性化的禮品推薦服務(wù)。優(yōu)點(diǎn)是可以全面形象地描述用戶的送禮需求,通過禮品知識庫進(jìn)行推理向用戶推薦準(zhǔn)確的個性化的禮品。 當(dāng)當(dāng)網(wǎng) 已經(jīng)形成以圖書、化妝 品、家居、母嬰等為主的核心品類,并 于 美國東部時間 12月 8日在美國紐約證券交易所正式掛牌上市 。另外還 有送禮場景包括生日送禮,嬰兒誕生,喬遷新居,愛意表達(dá)等。 北京航空航天大學(xué)的張光衛(wèi)等人 針 對傳統(tǒng)相似度 度量方法存在的不足 ,利用云模型在定性知識表示以及定性、定量知識 轉(zhuǎn)換時的橋梁作用 , 提出一種在知識層面比較用戶相似度的方法 , 克服了傳統(tǒng)基于向量的相似度比較方法嚴(yán)格匹配對象屬性的不足 。 Google News是一個 為新聞領(lǐng)域 開發(fā)的個性化資訊平臺。 MovieLens 是一個基于 Web 的推薦,系統(tǒng)通過瀏覽器方式進(jìn)行用戶評分?jǐn)?shù)據(jù)收集與推薦結(jié)果顯示,用戶使用更方便。 Kuo R J, Liao J L和 Tu C提出了一個利用神經(jīng)網(wǎng)絡(luò)和遺傳 Kmeans 算法通過分析用戶在電子商務(wù)網(wǎng)站的瀏覽路徑來獲取用戶偏好的方法。 面對網(wǎng)絡(luò)信息量呈指數(shù)增長,如何從這浩瀚的海洋中取得所需要的 、真正有用的信息, 已成為廣大網(wǎng)絡(luò)用戶共同面臨的問題。第五章詳細(xì)描述了系統(tǒng)實(shí)現(xiàn)中的關(guān)鍵問題和解決方案。推薦技術(shù)包括協(xié)同過濾、內(nèi)容過濾、知識發(fā)現(xiàn)等,但是這些推薦技術(shù)并沒有考慮推薦領(lǐng)域的知識對推薦結(jié)果的影響,或者推薦結(jié)果沒有通過與用戶的交互過程中得到完善和改進(jìn)。 碩士研究生學(xué)位論文 題目: 基于知識庫 的 禮品推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn) 學(xué) 號: 085707 姓 名: 路衛(wèi)杰 專 業(yè): 計算機(jī)科學(xué)與技術(shù) 導(dǎo) 師: 孟祥武 學(xué) 院: 計算機(jī) 學(xué)院 年 月 日 北京郵電大學(xué)碩士研究 生畢業(yè)論文 聲明 II 獨(dú)創(chuàng)性(或創(chuàng)新性)聲明 本人聲明所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。 本人簽名: 日期: 導(dǎo)師簽名: 日期: 北京郵電大學(xué)碩士研究生畢業(yè)論文 中文摘要 III 基于知識庫推理的禮品推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn) 摘 要 當(dāng)今,個性化推薦系統(tǒng)已經(jīng)在很多領(lǐng)域得到了應(yīng)用,如網(wǎng)絡(luò)商品推薦、音樂推薦、影視推薦等。第四章闡述了系統(tǒng)設(shè)計,包括系統(tǒng)整體功能設(shè)計和系統(tǒng)整體架構(gòu)設(shè)計。 海量信息的同時呈現(xiàn) , 一方面使用戶很難從中發(fā)現(xiàn)自己感興趣的部分 , 另一方面也使得大量少人問津的信息成為網(wǎng)絡(luò)中的“暗信息” , 無法被一 般用戶獲取 [2]。協(xié)同過濾首先 計算用戶之間的相似度,然后將相似度最高的用戶作為北京郵電大學(xué)研究生畢業(yè)論文 2 最近鄰居, 最后 通過最近 鄰居用戶產(chǎn)生推薦結(jié)果。 MovieLens是由