freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于分層的個性化推薦軟件系統(tǒng)項目可行性研究報告(編輯修改稿)

2025-06-08 23:36 本頁面
 

【文章內(nèi)容簡介】 a程序開發(fā)方法研究薛錦云2001國家自然科學(xué)基金4參數(shù)化智能搜索引擎王明文2001教育廳科技課題5江西軟件產(chǎn)品如何做大做強勒中堅2001江西省教育廳人文社科招標項目6成人高等教育管理信息系統(tǒng)勒中堅2003江西省高校教改省級課題重點項目7高校教學(xué)多制式綜合管理系統(tǒng)勒中堅2005江西省科技廳工業(yè)攻關(guān)計劃項目820062010年上饒市電子政務(wù)建設(shè)規(guī)劃勒中堅2005上饒市十一五和中長期發(fā)展規(guī)劃項目9基于WEB的學(xué)分制綜合管理信息系統(tǒng)陸旭2006江西省教育廳科技項目10基于角色訪問控制的高校教學(xué)管理信息系統(tǒng)勒中堅2006江西省科技廳科技項目二、 項目實施方案. 項目達到的目標及考核的主要技術(shù)、經(jīng)濟指標. 主要技術(shù)指標 研究和設(shè)計一個基于層次分類思想的個性化推薦系統(tǒng),能構(gòu)建層次的用戶興趣模型和使用層次網(wǎng)頁分類來進行個性化信息推薦。 整個采用struts顯示/邏輯/數(shù)據(jù)處理分離的三層技術(shù)架構(gòu)模型,應(yīng)用Java語言,結(jié)合Jsp、servlet、Javabean、XML等技術(shù)來實現(xiàn)。 本系統(tǒng)的用戶行為模式的分析機制是基于具有偏序關(guān)系的層次結(jié)構(gòu)圖來設(shè)計的,可以有效地刻畫用戶的類別屬性。 本系統(tǒng)采用聚類和分類作為個性化推薦的基本技術(shù),作為推薦引擎的核心技術(shù)。 個性化的推薦系統(tǒng)的推薦機制是以基于類別層次圖的用戶為中心,智能推送具有層次類別的資源,客觀反映用戶的興趣偏好。 本系統(tǒng)實現(xiàn)了基于偏最小二乘統(tǒng)計分析理論的網(wǎng)頁分類工具,該分類工作作為推薦引擎的重要組成部分。 本系統(tǒng)J2EE架構(gòu)和Java語言實現(xiàn),支持多種軟硬件平臺,具有跨平臺無關(guān)性,具有良好的兼容性。. 主要經(jīng)濟指標 開發(fā)基于分層的個性化推薦軟件產(chǎn)品,該產(chǎn)品所具有的基于層次類別圖的用戶描述模型和基于層次分類理論的推薦引擎具有獨創(chuàng)性,將會在國內(nèi)的個性化服務(wù)產(chǎn)品中占有相當?shù)氖袌龇蓊~。具備產(chǎn)業(yè)化的能力、擁有完全的自主知識產(chǎn)權(quán),軟件開發(fā)成本低。 該產(chǎn)品在電子商務(wù)、電子政務(wù)和其他需要個性化服務(wù)的系統(tǒng)(如數(shù)字化圖書館和辦公自動化軟件等)中具有廣闊的市場需求基礎(chǔ),項目投產(chǎn)后實現(xiàn)年銷售額500萬元以上的銷售規(guī)模,實現(xiàn)年利潤總額為150萬元以上。在此軟件產(chǎn)品的基礎(chǔ)上衍生出其他的個性化服務(wù)系統(tǒng)能使公司近三年總銷售收益比率能力增強,保持凈利潤率收益水平平穩(wěn)。. 項目的主要研究(開發(fā))內(nèi)容. 研究內(nèi)容基于分層的用戶行為分析與預(yù)測在Web使用挖掘日志預(yù)處理中,用戶的會話識別是一個十分重要的工作。把用戶分類為一些具有穩(wěn)定興趣的用戶群,用戶群的分類可以通過聚類或者用戶的個人信息獲取,這些用戶群的類別信息采用層次表示。再結(jié)合用戶群層次分類圖,運用偏序關(guān)系原理,構(gòu)建全部用戶具有偏序結(jié)構(gòu)的關(guān)鍵瀏覽路徑層次圖,從而達到調(diào)整用戶層次類別圖的目的。用戶的行為與預(yù)測就依據(jù)調(diào)整的層次圖進行?;诜謱拥钠钚《藗€性化內(nèi)容推送偏最小二乘回歸方法主要的研究焦點是多因變量對多自變量的回歸建模,它與普通多元回歸方法在思路上的主要區(qū)別是它在回歸建模過程中采用了信息綜合與篩選技術(shù)。它不再是直接考慮因變量集合與自變量集合的回歸建模,而是在變量系統(tǒng)中提取若干對系統(tǒng)具有最佳解釋能力的新綜合變量(又稱成分),然后對它們進行回歸建模。我們將構(gòu)建在分層的偏最小二乘基礎(chǔ)上,以用戶為中心,個性化的用戶資源推送模塊。采用struts顯示/邏輯/數(shù)據(jù)處理分離的三層技術(shù)架構(gòu)模型,應(yīng)用Java語言,結(jié)合Jsp、servlet、Javabean、XML等技術(shù)構(gòu)建整個個性化推薦系統(tǒng)。. 系統(tǒng)設(shè)計流程思路是建立具有層次關(guān)系的用戶類別和具有層次關(guān)系的站點頁面,根據(jù)用戶提供的個人信息和已有的訪問歷史記錄,把用戶歸類到不同層次的用戶群,推薦不同層次的相關(guān)頁面,提供個性化的推薦服務(wù)。我們的系統(tǒng)分為離線和在線兩部分:(1) 離線部分:這是本系統(tǒng)的核心部分,包括Web使用數(shù)據(jù)的預(yù)處理,Web頁面的預(yù)處理,Web頁面的表示,特征降維和層次文本分類器的學(xué)習等。在Web使用挖掘的預(yù)處理中,運用我們新提出的方法建立具有層次類別的用戶群和提取用戶關(guān)鍵層次路徑以進行會話識別,分析用戶的行為。(2) 在線部分:根據(jù)后臺得到的用戶興趣描述和層次文本分類器學(xué)習的參數(shù),由推薦引擎把已有的頁面和新增的頁面建立各用戶的推薦集,該推薦集的內(nèi)容具有層次結(jié)構(gòu)。Web站點文件Web使用數(shù)據(jù)Web內(nèi)容Web使用數(shù)據(jù)預(yù)處理會話文件用戶興趣描述Web網(wǎng)頁預(yù)處理特 征降 維文本表示層次網(wǎng)頁分類器學(xué)習離線部分用戶新的站點頁面用戶行為預(yù)測推薦規(guī)則在線部分新的站點頁面層次網(wǎng)頁分類器推薦引擎…..用戶........ Web使用挖掘用戶行為的分析與預(yù)測主要使用Web使用挖掘的原理和技術(shù)來實現(xiàn)。Web使用挖掘是通過挖掘Web日志記錄以發(fā)現(xiàn)用戶訪問Web頁面的模式、挖掘有用模式和預(yù)測用戶瀏覽行為的技術(shù)。它關(guān)注于用戶和Web進行交互時的用戶行為預(yù)測,而挖掘的對象正是這一交互過程中產(chǎn)生的數(shù)據(jù),主要包括:Web服務(wù)器日志(包括服務(wù)器日志、客戶日志和代理日志)、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。類似于數(shù)據(jù)挖掘過程,Web日志挖掘的一般過程分為以下三個階段:(1) 數(shù)據(jù)的預(yù)處理:就是將來自于不同數(shù)據(jù)源的數(shù)據(jù),如使用模式等信息重新組織成為模式發(fā)現(xiàn)所必需的數(shù)據(jù)結(jié)構(gòu)。(2) 模式發(fā)現(xiàn):對數(shù)據(jù)預(yù)處理所形成的文件,利用數(shù)據(jù)挖掘的一些有效算法(如關(guān)聯(lián)規(guī)則、聚類、分類、序列模式等)來發(fā)現(xiàn)隱藏的模式和規(guī)則。(3) 模式分析:主要是對挖掘出來的模式、規(guī)則進行分析,找出用戶感興趣的模式,提供可視化的結(jié)果輸出。Web使用挖掘主要處理從Web日志文件抽取出知識。當用戶存取Web服務(wù)時,這些日志文件時用戶訪問Web服務(wù)時產(chǎn)生的。Web日志的格式一般有通用日志格式(Common Log Format)、擴展日志格式(Extended Log Format)。典型的服務(wù)器日志包括以下信息:IP地址、請求時間、方法(如Post或Get)、被請求文件的URL、Http版本、返回碼、傳輸字節(jié)數(shù)(傳輸文檔的大?。⒁庙摰腢RL(指向請求頁面的URL)和代理。圖 Web使用挖掘的預(yù)處理詳細過程上圖是Web使用挖掘的預(yù)處理詳細過程。在Web使用挖掘中,數(shù)據(jù)預(yù)處理的目標是將包含在多種數(shù)據(jù)源中的信息轉(zhuǎn)化為適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的數(shù)據(jù)抽象概念,然后在事務(wù)數(shù)據(jù)庫上實施挖掘算法,以期最終獲得有價值的規(guī)律。預(yù)處理包括使用數(shù)據(jù)、內(nèi)容和結(jié)構(gòu)信息的預(yù)處理。預(yù)處理過程的結(jié)果是用戶會話文件,它包含了訪問Web站點的用戶、請求的頁面及順序、每一頁閱讀的時間等。對日志進行預(yù)處理的結(jié)果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式??梢哉f預(yù)處理過程是Web日志挖掘質(zhì)量保證的關(guān)鍵。一般來說,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理(Data Cleaning)、用戶識別(user identification)、會話識別(Session Identification)和路徑補充四個基本的步驟,重點和難點是用戶識別和會話識別。 數(shù)據(jù)抽象W3C Web Characterization Activity(WCA)定義了一些數(shù)據(jù)抽象:用戶(user):通過瀏覽器訪問網(wǎng)頁的個體;用戶可以在不同的地方通過不同的機器使用不同的代理訪問網(wǎng)站。頁面瀏覽(page view):用戶點擊鼠標瀏覽網(wǎng)頁所得到的結(jié)果;這個結(jié)果可以由多個文件構(gòu)成;一次頁面瀏覽代表一次用戶行為。點擊流(clickstream):用戶訪問的一組連續(xù)的頁面瀏覽的序列。用戶會話(user session):某個用戶階段性的頁面瀏覽所產(chǎn)生的頁面序列或點擊流。其特點是可以跨越多個服務(wù)器。服務(wù)器會話(server session):某個用戶在一個服務(wù)器上階段性的頁面瀏覽所構(gòu)成的點擊流。片斷(episode):用戶會話或服務(wù)器會話中一段點擊流。 數(shù)據(jù)源分析Web使用挖掘使用的數(shù)據(jù)主要來自Web服務(wù)器(Web Server)、代理服務(wù)器(Proxy Server)和Web客戶端(Web Client)。各種不同的數(shù)據(jù)不僅來源和類型不同,其使用方式也不相同。從不同數(shù)據(jù)源采集的使用數(shù)據(jù)將代表Web流量中不同部分的導(dǎo)航模式,從單用戶/單網(wǎng)站瀏覽行為到多用戶/多網(wǎng)站的存取模式。服務(wù)器日志文件描述了多用戶/單站點的瀏覽行為,客戶日志文件通常給出了單用戶/多站點的用戶瀏覽行為,代理服務(wù)器日志文件跟蹤多用戶/多站點的使用行為。服務(wù)器端日志主要的問題是用戶會話的識別,例如,如何對所有用戶的頁面請求(或者點擊流)進行分組,以便能清楚地識別各個用戶在Web站點上的瀏覽路徑。這一問題的處理十分困難,它取決于日志文件中的可用信息的類型。最常用的方法是使用cookie去追蹤用戶頁面請求序列。如果cookie不可用,可以使用啟發(fā)式搜索的方法去識別用戶會話。HTTP是一種無狀態(tài)連接,因而追蹤單個用戶并不容易。由于涉及到用戶的隱私問題,使用Cookie需要客戶的配合。在服務(wù)器端,不能追蹤瀏覽器上back按鈕的使用,所以,即使使用cookie,識別準確的瀏覽路徑仍然是不可能的。除Web日志外,使用TCP/IP的包偵探器(Package Sniffer)也可以在服務(wù)器端跟蹤用戶行為。這種方法具有一些優(yōu)勢:收集的數(shù)據(jù)是實時的;來自不同Web服務(wù)的信息容易被合并為一個日志;一些特定的行為(如stop按鈕的使用)可以跟蹤。但是包偵探器的使用增加了網(wǎng)絡(luò)的流量,在一些安全性高的商務(wù)事務(wù)中不能存取加密的數(shù)據(jù)包。由于Web環(huán)境中存在多級別的緩存(如用戶本地緩存和代理服務(wù)器緩存)和防火墻,用戶瀏覽緩存的頁面不在服務(wù)器端日志上記錄,防火墻使得不同的用戶請求在Web服務(wù)器的日志中記錄的都是防火墻的IP地址,所以日志中的網(wǎng)站使用數(shù)據(jù)并不完全可靠(未采集到所有訪問頁面、采集時間不夠準確、瀏覽用戶的確定不夠準確)。跟蹤Web使用最佳方法可能是直接訪問不同服務(wù)應(yīng)用層。因為涉及服務(wù)器應(yīng)用的版權(quán)等一系列問題,這種方法也并不可行。因此,使用服務(wù)器端記錄的數(shù)據(jù)進行Web挖掘使用模式挖掘是不完全可靠的。代理服務(wù)器是通過提供緩存功能來加快用戶Web訪問的速度。在一些情況下,代理服務(wù)器端的瀏覽數(shù)據(jù)收集十分類似于服務(wù)器端的收集??蛻舳说臄?shù)據(jù)收集比服務(wù)器端的數(shù)據(jù)收集更具有優(yōu)越性,它是建立在用戶行為源上的,可準確地捕獲用戶的行為,能準確地確定瀏覽用戶??蛻舳说臄?shù)據(jù)收集需要用到遠程代理(如JavaScript或Java applets)、P lugIn、網(wǎng)頁跟蹤幀或者需要修改已有瀏覽器(如Mosaic、IE、Netscape)的源程序代碼來增強瀏覽器軟件的數(shù)據(jù)收集能力。這些技術(shù)可以避免用戶會話識別的問題和由緩存導(dǎo)致的一些問題(如Back按鈕的使用),同時也能提供用戶的實際行為的詳細信息。但是,這些方法嚴重依賴用戶的合作和涉及到隱私法律的問題。 數(shù)據(jù)清理數(shù)據(jù)清理的工作主要是去除那些對于挖掘無用的Web日志信息,與Web挖掘有關(guān)的數(shù)據(jù)只有用戶IP地址、用戶ID、請求訪問的URL頁面和訪問時間,其它屬性可以去除。例如:將日志中文件后綴名為gif, jpeg, jpg, swf, css等的記錄刪除,后綴名為CGI的腳本文件也應(yīng)被刪除。此外,Robot和Spider的訪問日志也應(yīng)該刪除。因為服務(wù)器通常對一切HTTP請求都事無巨細地記錄,所以識別無關(guān)頁面請求的工作相當繁重,簡單的處理方法往往不能滿足要求。目前可行的解決方法是利用站點結(jié)構(gòu)和內(nèi)容數(shù)據(jù)進行清理。 會話識別和會話重構(gòu)主要包括兩方面的工作:從日志文件中識別不同的用戶會話和在已識別的會話里重新構(gòu)建用戶的瀏覽路徑。在這一階段的復(fù)雜度變化非常大,它完全取決于Web日志中可用信息的質(zhì)量和數(shù)量。在處理過程中遇到的大多數(shù)問題是因為代理服務(wù)器和瀏覽器產(chǎn)生的,典型的問題有:l 單IP地址/多服務(wù)器會話:Internet服務(wù)提供商(ISPs)為用戶提供了許多用于上網(wǎng)的代理服務(wù)器。因此,在同一時間段內(nèi)可能有許多不同用戶通過同一代理服務(wù)器存取同一網(wǎng)站。l 多IP 地址/單服務(wù)器會話:一些ISP或者隱私工具會為來自單獨用戶的每次請求隨機分配多個IP地址中的某一個,在這種情況下,一次單獨的服務(wù)器會話可能會有多個IP地址。l 多IP地址/單用戶:一個用戶從不同機器訪問Web會在不同會話中使用不同地址,這就使得追蹤同一用戶的重復(fù)訪問變得很困難。l 多服務(wù)器會話/單用戶:某用戶在同一機器上打開多個瀏覽器窗口,同時訪問Web站點的不同部分,或打開不同的瀏覽器進行訪問,將產(chǎn)生單個用戶的多個服務(wù)器會話。l 單客戶端/多用戶:當在同一機器上存在多個單獨的使用(會話應(yīng)用)時,就像公共訪問機,這樣使人產(chǎn)生有多個用戶在上網(wǎng)的錯覺。上述問題可以通過使用Cookie,重寫URL部分解決,或者要求用戶登錄Web站點。因為需要用戶的合作,所以在許多情況下是不可行的。所以,更多的情況是使用IP地址和Agent(瀏覽器)兩者作為用戶標識,輔助一些啟發(fā)式規(guī)則。啟發(fā)式規(guī)則的核心思想:(1)不同的IP地址代表著不同的用戶。(2)用戶的IP地址相同,但相應(yīng)的代理日志表明用戶的瀏覽器類型或操作系統(tǒng)發(fā)生了改變,則認為代表著不同的用戶。(3)用戶的IP地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則根據(jù)網(wǎng)站的頁面鏈接結(jié)構(gòu)對用戶進行識別(如果用戶請求的某個頁面不能從已訪問的任何頁面到達,則認為這是一個新的用戶)。在識別用戶后,需要對用戶的會話進行識別。因為Http協(xié)議是無狀態(tài)的,所以為確定一個會話何時終止,很難知道用戶何時離開Web站點。經(jīng)常使用的是啟發(fā)式的方法。一種啟發(fā)式方法是基于時間的,因簡單而得到了普遍使用。規(guī)定會話的最大時間長度,一般最長是30分鐘。規(guī)定了兩個連續(xù)點擊間的最大時間間隔。但是間隔的大小與內(nèi)容數(shù)據(jù)是緊密相關(guān),所以它的應(yīng)用范圍較小。路徑補充就是將由于本地緩存或代理服務(wù)器緩存所造成的遺漏的請求頁面補充完整。解決的辦法類似于用戶識別的方法。用一種啟發(fā)式方
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1