freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于分層的個(gè)性化推薦系統(tǒng)可行性報(bào)告v2-資料下載頁(yè)

2024-11-16 20:10本頁(yè)面

【導(dǎo)讀】南昌市科技計(jì)劃項(xiàng)目可行性研究報(bào)告。起止年限:2020年1月——2020年12月。通訊地址、郵編:南昌市高新區(qū)高新一路海外大廈南座

  

【正文】 情況下,一次單獨(dú)的服務(wù)器會(huì)話可能會(huì)有多個(gè) IP地址。 ? 多 IP地址 /單用戶:一個(gè)用戶從不同機(jī)器訪問 Web會(huì)在不同會(huì)話中使用不同地 23 址,這就使得追蹤同一用戶的重復(fù)訪問變得很困難。 ? 多服務(wù)器會(huì)話 /單用戶:某用戶在同一機(jī)器上打開多個(gè)瀏覽器窗口,同時(shí)訪問Web站點(diǎn)的不同部分,或打開不同的瀏覽器進(jìn)行訪問,將產(chǎn)生單個(gè)用戶的多個(gè)服務(wù)器會(huì)話。 ? 單客戶端 /多用戶:當(dāng)在同一機(jī)器上存在多個(gè)單獨(dú)的使用 (會(huì)話應(yīng)用 )時(shí),就像公共訪問機(jī),這樣使人產(chǎn)生有多個(gè)用戶在上網(wǎng)的錯(cuò)覺。 上述問題可以通過使用 Cookie,重寫 URL 部分解決,或者要求 用戶登錄 Web 站點(diǎn)。因?yàn)樾枰脩舻暮献鳎栽谠S多情況下是不可行的。所以,更多的情況是使用IP 地址和 Agent(瀏覽器)兩者作為用戶標(biāo)識(shí),輔助一些啟發(fā)式規(guī)則。啟發(fā)式規(guī)則的核心思想 :(1)不同的 IP 地址代表著不同的用戶 。(2)用戶的 IP 地址相同,但相應(yīng)的代理日志表明用戶的瀏覽器類型或操作系統(tǒng)發(fā)生了改變,則認(rèn)為代表著不同的用戶 。(3)用戶的 IP 地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則根據(jù)網(wǎng)站的頁(yè)面鏈接結(jié)構(gòu)對(duì)用戶進(jìn)行識(shí)別 (如果用戶請(qǐng)求的某個(gè)頁(yè)面不能從已訪問的任何頁(yè)面到達(dá),則認(rèn)為這是一個(gè)新的用戶 )。 在識(shí)別用戶后,需要對(duì)用戶的會(huì)話進(jìn)行識(shí)別。因?yàn)?Http 協(xié)議是無(wú)狀態(tài)的,所以為確定一個(gè)會(huì)話何時(shí)終止,很難知道用戶何時(shí)離開 Web 站點(diǎn)。經(jīng)常使用的是啟發(fā)式的方法。一種啟發(fā)式方法是基于時(shí)間的,因簡(jiǎn)單而得到了普遍使用。規(guī)定會(huì)話的最大時(shí)間長(zhǎng)度,一般最長(zhǎng)是 30 分鐘,但目前使用更為廣泛的是 分鐘。規(guī)定了兩個(gè)連續(xù)點(diǎn)擊間的最大時(shí)間間隔。但是間隔的大小與內(nèi)容數(shù)據(jù)是緊密相關(guān),所以它的應(yīng)用范圍較小。 路徑補(bǔ)充就是將由于本地緩存或代理服務(wù)器緩存所造成的遺漏的請(qǐng)求頁(yè)面補(bǔ)充完整。解決的辦法類似于用戶識(shí)別的方法。用一種啟發(fā)式方法直接利用 頁(yè)面的引用者數(shù)據(jù)修整路徑;如果沒有引用者數(shù)據(jù),可依賴于站點(diǎn)結(jié)構(gòu)。另外,執(zhí)行 CGI 程序時(shí),由于傳遞的參數(shù)不同,最后的輸出結(jié)果頁(yè)截然不同,因此,必要時(shí)還要結(jié)合參數(shù)確定顯示的頁(yè)面內(nèi)容。 用戶會(huì)話是 Web 日志中唯一具有自然事務(wù)特征的對(duì)象,但對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)仍然不夠精確,粒度太粗,一個(gè)用戶的一次會(huì)話可能會(huì)完成幾個(gè)事務(wù),所以需要把用戶會(huì) 24 話進(jìn)一步分割為一些具有語(yǔ)義的、粒度更小的事務(wù)。比如,在網(wǎng)上書店,一個(gè)用戶非??赡苓B續(xù)瀏覽幾種類型的書籍;或者用戶瀏覽新聞門戶網(wǎng)站時(shí),連續(xù)瀏覽不同類型的新聞內(nèi)容。那么,這些用戶實(shí)際在瀏覽這 些網(wǎng)頁(yè)時(shí)完成了一系列不同的事務(wù),但用戶訪問網(wǎng)站的興趣行為反映在日志數(shù)據(jù)中只是具有時(shí)序關(guān)系的頁(yè)面,不能識(shí)別用戶完成的事務(wù),不能識(shí)別用戶的興趣和愛好。事務(wù)識(shí)別就是對(duì)用戶會(huì)話進(jìn)行語(yǔ)義分組。常用的事務(wù)識(shí)別方法有 :引用長(zhǎng)度( Reference Length),最大向前引用路徑( Maximal Forward Reference)、時(shí)間窗口( Time Window)等。 但是,目前網(wǎng)絡(luò)安全受到大家的普遍關(guān)注,使用防火墻技術(shù)和代理技術(shù)十分普遍;因?yàn)榫W(wǎng)絡(luò)速度的快捷,用戶也經(jīng)常同時(shí)打開不同的瀏覽器窗口完成不同的事務(wù)。那么,在 目前的網(wǎng)絡(luò)環(huán)境下,如何運(yùn)用 Web 日志,從用戶的興趣和愛好的角度去識(shí)別用戶這些會(huì)話,還需要進(jìn)一步的研究。 內(nèi)容和頁(yè)面結(jié)構(gòu) Web 使用挖掘過程中絕大多數(shù)是把 URL 作為挖掘的主要信息來(lái)源。然而, URL 并不能富有很多的信息,例如,它不能表示頁(yè)面的內(nèi)容。所以,在 Web 使用挖掘中許多利用 Web 內(nèi)容和結(jié)構(gòu)信息來(lái)改善挖掘效果。 可以 把頁(yè)面內(nèi)容的分類作為一個(gè)附加步驟,從而加強(qiáng) Web 日志的信息。 或者使用 語(yǔ)義網(wǎng)( Semantic Web),為改進(jìn)頻繁訪問路徑,把頁(yè)面映射到一些本體( Ontology)上。 數(shù)據(jù)格式化 數(shù)據(jù)格式化是預(yù) 處理步驟地最后步驟,它是把上述幾個(gè)步驟處理的 Web 日志或者相關(guān)信息按照模式發(fā)現(xiàn)算法的要求進(jìn)行存儲(chǔ)。 最為 著名的 是 WAPtree( Web Access Pattern Tree)結(jié)構(gòu)來(lái)記錄訪問序列。 也有使用 基于數(shù)據(jù)立方體的方法,即根據(jù) Web日志建立數(shù)據(jù)立方體,然后對(duì)數(shù)據(jù)立方體進(jìn)行數(shù)據(jù)挖掘和 OLAP( Online Analysis Processing)。采用基于多維數(shù)據(jù)模型的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),使其也能夠同時(shí)支持?jǐn)?shù)據(jù)挖掘和 OLAP。 25 模式發(fā)現(xiàn) 算法 在 Web 使用挖掘中, 用戶行為與預(yù)測(cè),即 模式發(fā)現(xiàn)是運(yùn)用一些挖掘算法去發(fā) 現(xiàn)隱藏在 Web 日志后的信息,這些方法絕大多數(shù)是從數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、信息檢索、統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理和模式識(shí)別等一些領(lǐng)域借鑒過來(lái),然后針對(duì) Web 挖掘的特點(diǎn)做出相應(yīng)的調(diào)整,國(guó)內(nèi)研究人員對(duì) Web 使用挖掘的研究大多數(shù)集中在這些算法的研究。常用的模式發(fā)現(xiàn)的算法有:統(tǒng)計(jì)分析方法、關(guān)聯(lián)規(guī)則挖掘、路徑分析、序列模式發(fā)現(xiàn)、聚類和分類算法等。其算法可分兩類:基于關(guān)聯(lián)規(guī)則的用戶存取事務(wù)分析和用戶存取事務(wù)的時(shí)間序列分析。 統(tǒng)計(jì)分析方法 采用統(tǒng)計(jì)分析方法的目的是運(yùn)用一些簡(jiǎn)單的分析方法(均值、方差)或其他度量指標(biāo)試圖找到一些有價(jià)值的信 息,了解 Web用戶的行為特征,為網(wǎng)站的設(shè)計(jì)、商業(yè)智能和網(wǎng)站個(gè)性化提供決策支持。這方面的內(nèi)容有對(duì)頻繁訪問頁(yè)、單位時(shí)間訪問頁(yè)、網(wǎng)站時(shí)間訪問分布、用戶興趣、頁(yè)面訪問瀏覽時(shí)間、平均瀏覽路徑、非法 IP、無(wú)效 URI和未授權(quán)訪問等進(jìn)行統(tǒng)計(jì)分析。盡管這種分析缺乏深度,但這類知識(shí)有助于改進(jìn)系統(tǒng)性能、提高系統(tǒng)的安全性、便于站點(diǎn)修改,并能提供營(yíng)銷決策支持,尤其在電子商務(wù)領(lǐng)域。 關(guān)聯(lián)規(guī)則挖掘技術(shù) 在 Web使用挖掘中,關(guān)聯(lián)規(guī)則挖掘是使用最為廣泛的技術(shù)之一,主要用于發(fā)現(xiàn)用戶之間、頁(yè)面之間以及用戶瀏覽頁(yè)面和網(wǎng)上行為之間存在的潛在關(guān)系。挖 掘的對(duì)象是項(xiàng)的集合(項(xiàng)集),目的是挖掘出用戶在一個(gè)訪問期間( Session)從服務(wù)器上訪問的頁(yè)面文件之間的關(guān)系,找出在某次服務(wù)器會(huì)話中最經(jīng)常一起出現(xiàn)的相關(guān)頁(yè)面。關(guān)聯(lián)規(guī)則挖掘一個(gè)重要的步驟是按照興趣度的度量找出所有的頻繁項(xiàng)集。 Apriori算法是挖掘關(guān)聯(lián)規(guī)則的常用技術(shù),可從事務(wù)數(shù)據(jù)庫(kù)中挖掘出最大頻繁訪問項(xiàng)集,該項(xiàng)集就是關(guān)聯(lián)規(guī)則挖掘出來(lái)的用戶訪問模式。 序列模式挖掘技術(shù) 序列模式挖掘目的是從大量的序列數(shù)據(jù)中發(fā)現(xiàn)頻繁的子序列。在 Web 使用挖掘 26 中,它用于發(fā)現(xiàn)頻繁出現(xiàn)在用戶會(huì)話中序列瀏覽模式,找出 Web 日志中所有滿足用戶規(guī)定的最小支持度的大序列模式。在 Web 日志中存在兩種序列模式:會(huì)話間序列模式和會(huì)話內(nèi)序列模式。目前存在兩種用于提取序列模式的方法:基于關(guān)聯(lián)規(guī)則的挖掘方法;樹結(jié)構(gòu)的使用和 Markov 鏈表示的瀏覽模式。一些著名的用于挖掘關(guān)聯(lián)規(guī)則算法修改后用于抽取序列模式,例如, Apriori 的改進(jìn)算法 AprioriAll, GSP。 分類技術(shù) 根據(jù)用戶群的特征挖掘用戶群的訪問特征 (某些共同的特性 ),這些特征可用于把數(shù)據(jù)項(xiàng)映射到預(yù)先定義好的類中去,即對(duì)新添加到數(shù)據(jù)庫(kù)里的數(shù)據(jù)進(jìn)行分類。分類方法有很多種,常用的算法有 決策樹、貝葉斯分類、 KNN分類法和支持向量機(jī)( Support Vector Machine, SVM)等。 聚類技術(shù) 在 Web使用挖掘中,主要是對(duì)具有相似特征的項(xiàng)進(jìn)行聚類,存在兩種類型的聚類:使用(用戶)聚類和頁(yè)面聚類。用戶聚類是對(duì)具有相似瀏覽模式的用戶進(jìn)行分組,這些知識(shí)對(duì)于電子商務(wù)中市場(chǎng)劃分和為用戶提供個(gè)性化的服務(wù)特別有用。頁(yè)面聚類是把相關(guān)內(nèi)容的頁(yè)面進(jìn)行分組,這些信息對(duì)于 Inter搜索引擎和 Web幫助提供者非常有用。上述兩類應(yīng)用都能根據(jù)用戶的詢問或過去所需信息的歷史生成靜態(tài)或動(dòng)態(tài) HTML,從而向用戶推 薦相關(guān)的超鏈接。 路徑分析技術(shù) 一個(gè) Web站拓?fù)浣Y(jié)構(gòu)就是一幅有向圖,該圖代表了定義在網(wǎng)站上的頁(yè)面之間的聯(lián)系,客戶在一段時(shí)間內(nèi)的訪問模式為其子圖。具有相似訪問子圖的客戶為需求相似的客戶,此即客戶群體聚類??蛻粼L問頻繁的有向邊則應(yīng)為頻繁路徑。使用路徑分析技術(shù)進(jìn)行 Web使用模式挖掘,最常用的就是圖,圖的直接來(lái)源是網(wǎng)站結(jié)構(gòu)圖。站點(diǎn)頁(yè)面定義為圖的節(jié)點(diǎn),頁(yè)面之間的超級(jí)鏈接定義為圖中的邊。其它各式各樣的圖都是建立在頁(yè)面和頁(yè)面之間的聯(lián)系或一定數(shù)量的用戶瀏覽頁(yè)面順序基礎(chǔ)之上的?;?Web使用模式的數(shù)據(jù)挖掘,就是要從圖中確定最 頻繁的路徑訪問模式或大參引訪問序列,這也是發(fā)現(xiàn)用戶訪問模式的關(guān)鍵。路徑分析可以用來(lái)確定網(wǎng)站上最頻繁的訪問路徑,從而調(diào)整站點(diǎn)的結(jié)構(gòu)。 27 依賴性建模 依賴性建模是另一種數(shù)據(jù)挖掘中有用的模式發(fā)現(xiàn)方法,其目標(biāo)是開發(fā)出一種能表達(dá) Web 領(lǐng)域中各種變量之間的顯著依賴性的模型。例如,在網(wǎng)上商店中,當(dāng)用戶基于動(dòng)作選作購(gòu)物時(shí),可以對(duì)用戶的不同階段進(jìn)行建模(比如從一個(gè)隨意瀏覽的訪客到一個(gè)潛在的購(gòu)物者)。存在幾種可以對(duì)用戶的瀏覽行為建模的概率學(xué)習(xí)方法,例如,隱馬爾可夫模型 (Hidden Markov Models)、貝葉斯信念網(wǎng)絡(luò) (Bayesian Belief Networks)等方法。 Web 使用模式的建模不僅能為分析用戶行為提供理論框架,而且對(duì)于預(yù)測(cè) Web資源消耗是十分具有潛力的。這些信息有助于對(duì)設(shè)計(jì)增加網(wǎng)上產(chǎn)品銷售的策略以及改進(jìn)用戶導(dǎo)航的便利性。 . 層次 網(wǎng)頁(yè) 分類 器 在個(gè)性化推薦系統(tǒng)中, 基于內(nèi)容的推薦主要采用基于層次的網(wǎng)頁(yè)分類器實(shí)現(xiàn),從而達(dá)到分層推送網(wǎng)頁(yè)內(nèi)容的目的。 而 層次網(wǎng)頁(yè)分類器是文本分類中的一項(xiàng)內(nèi)容 , 自動(dòng)文本分類是將自然文本文件根據(jù)內(nèi)容自動(dòng)分為預(yù)先定義的一個(gè)或幾個(gè)類別的過程。自動(dòng)文本分類技術(shù)的研究目標(biāo)就是實(shí)現(xiàn)文本分類的自動(dòng)化,以 達(dá)到降低分類成本、提高分類效率和改善分類性能等目的。自動(dòng)文本分類主要有兩種基本實(shí)現(xiàn)途徑:基于知識(shí)的( BasedKnowledge)和基于學(xué)習(xí)的 ( BasedLearning)。也有兩者結(jié)合的方式?;谥R(shí)也稱基于規(guī)則的( BasedRule),它的分類規(guī)則通常由一些領(lǐng)域的專家手工建立。這種方式的優(yōu)點(diǎn)是可以達(dá)到非常高的分類準(zhǔn)確率,但是它非常耗費(fèi)人力和時(shí)間,對(duì)于各個(gè)領(lǐng)域的文本信息需要不同領(lǐng)域的專家?;趯W(xué)習(xí)的自動(dòng)文本分類系統(tǒng)是利用機(jī)器學(xué)習(xí)技術(shù)從預(yù)先定義的類別中自動(dòng)提取分類規(guī)則,自動(dòng)導(dǎo)出文本分類器。 因特網(wǎng)中 分布傳播的海量電子化文本所顯現(xiàn)出的種類多樣、分布不均勻、關(guān)系復(fù)雜、更新頻繁及標(biāo)注困難等新的特征,給近年來(lái)面向互聯(lián)網(wǎng)海量信息處理需求的文本分類帶來(lái)了巨大挑戰(zhàn),非線性、數(shù)據(jù)集分布不均、標(biāo)注瓶頸、多層分類、算法的擴(kuò)展性及 Web 頁(yè)分類等問題是目前文本分類研究的關(guān)鍵問題。 一般來(lái)說(shuō),一個(gè)完整的 網(wǎng)頁(yè)分類器 通常包括如下幾個(gè)主要 模塊 : 網(wǎng)頁(yè) 預(yù)處理、文本的表示、文本特征的選擇、 網(wǎng)頁(yè) 分類器的學(xué)習(xí)、分類器的測(cè)試。 如下圖所示。 28 圖 網(wǎng)頁(yè) 分類 器 總體結(jié)構(gòu)圖 網(wǎng)頁(yè) 預(yù)處理 為保證 網(wǎng)頁(yè) 分類任務(wù)能夠快速有效地執(zhí)行,必須進(jìn)行 網(wǎng)頁(yè) 預(yù)處理,其主要是指將網(wǎng)頁(yè) 轉(zhuǎn)化為適合 網(wǎng)頁(yè) 分類系統(tǒng)處理的中間形式并濾除與任務(wù)不相關(guān)的冗余特征。一般包括去除 網(wǎng)頁(yè) 中的格式標(biāo)記、過濾非法字符、字母大小寫轉(zhuǎn)換、去除停用詞和稀有詞、詞干化 和 中文分詞 等處理。 文本表示 在網(wǎng)頁(yè)分類中,網(wǎng)頁(yè)也稱為文檔。 從文檔( document,也稱文本)的組成來(lái)看,它是字符串的集合,在進(jìn)行文本預(yù)處理后,我們需要用計(jì)算機(jī)容易處理和符合文本分類器數(shù)據(jù)輸入的特征表示。文檔的特征項(xiàng)應(yīng)該具有以下特點(diǎn):特征項(xiàng)是能夠?qū)ξ臋n進(jìn)行充分表示的語(yǔ)言單位;文檔在特征項(xiàng)集合上 的分布具有較為明顯的統(tǒng)計(jì)規(guī)律;特征項(xiàng)分離比較容易實(shí)現(xiàn),計(jì)算復(fù)雜度不太大。在 網(wǎng)頁(yè) 分類中,常用的特征單位有詞、詞組和 NGram( N元)項(xiàng),中文中有時(shí)也把詞性作為文檔的特征。如何把文檔表示為計(jì)算機(jī)容易存儲(chǔ)和方便的方式,也會(huì)對(duì)學(xué)習(xí)任務(wù)產(chǎn)生較大的影響。 網(wǎng)頁(yè) 分類中文檔的表示方法大多數(shù)是從信息檢索( IR)領(lǐng)域借鑒過來(lái)的,其中最為著名的就是向量空間模型( Vector Space Model, VSM)。它是 1975年由 Salton等首次提出,后來(lái)逐步成為信息檢索中標(biāo)準(zhǔn)的文本表示方式。 向量空間模型也稱詞袋表示方法( Bag of Words, BOW)。一個(gè)詞袋是一個(gè)集合,它允許元素的重復(fù);這樣不但考慮的詞的出現(xiàn)與否,而且考慮了詞出現(xiàn)的頻率。使用這種方式表示的文檔忽略了詞的順序和標(biāo)點(diǎn)符號(hào),那么也就丟失了一些語(yǔ)義信息。向分類器 測(cè)試 網(wǎng)頁(yè) 分類器 學(xué)習(xí) 網(wǎng)頁(yè) 預(yù)處理 特征降維 文本表示 29 量空間模型的定義如下: 網(wǎng)頁(yè) 中所有的詞組成詞表( dictionary),一篇文檔表示為向量空間中的一個(gè)向量,也即一個(gè)“袋子”: NN R,dttf,dttf,dttfdd ?? ))(,),(),(()(: 21 ?? ?? ( 23) 其中, ( , )itf t d 表示詞 ti 出現(xiàn)在文檔 d 中的頻率, ti 為詞表中的 一個(gè)詞, N 為詞表的大小。這樣,一個(gè)文檔就映射到一個(gè) N 維的空間。通常, N 是一個(gè)很大的數(shù),通常向量中很多元素為 0,這就通常所說(shuō)的“數(shù)據(jù)稀疏問題”。 確定了文檔的表示模型后,需要對(duì)特征進(jìn)行權(quán)重表示,常用的特征權(quán)重表示方法有:布爾權(quán)重、詞頻權(quán)重、 tfidf 權(quán)重、 ltc 權(quán)重和熵權(quán)重等。 特征降維 特征降維也稱維數(shù)約簡(jiǎn)。文檔特征的特征降維是文本分類的必要前提。 最基本的特征選
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1