freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[經(jīng)濟(jì)學(xué)]第9章:案例:電子商務(wù)數(shù)據(jù)挖掘改(編輯修改稿)

2025-04-17 22:10 本頁面
 

【文章內(nèi)容簡介】 被遺漏 。? 事件識別: 事件識別是與要挖掘什么樣的知識有關(guān),將用戶會話針對挖掘活動的特定需要進(jìn)行事件定義。數(shù)據(jù)預(yù)處理的功能p數(shù)據(jù)凈化 是指刪除 Web 服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù) ,一般來說只有日志中 HTML 文件與用戶會話相關(guān)。 Web 日志文件的目的是獲得用戶的行為模式 , 通過檢查 URL 的后綴,刪除認(rèn)為不相關(guān)的數(shù)據(jù)。 例如 :將日志中文件的后綴名為 GIF、 J PEG、 J PG等的圖形文件刪除。將后綴名為 CGI 的腳本文件刪除。具體到實(shí)際的系統(tǒng)就使用一個缺省的后綴名列表幫助刪除文件。列表可以根據(jù)正在分析的站點(diǎn)類型進(jìn)行修改。p過濾非法請求的頁面 :有些網(wǎng)站的頁面用戶在提出請求 ,Web 服務(wù)器拒絕該頁面的請求 ,那么應(yīng)該過濾掉非法請求的頁面 ,僅僅只對正常的頁面進(jìn)行數(shù)據(jù)處理是很有價值的。一、數(shù)據(jù)凈化對于數(shù)據(jù)凈化之后的數(shù)據(jù) ,使用基于日志 / 站點(diǎn)的方法 ,同時輔助一些啟發(fā)式規(guī)則 ,可以識別出每個訪問網(wǎng)站的用戶 ,該過程稱為 用戶識別 。在跨越時間區(qū)段較大的 Web 服務(wù)器日志中 ,用戶有可能多次訪問了該站點(diǎn)。 會話識別 的目的就是將用戶的訪問記錄分為單個的會話(Session) 。用戶會話 S 是一個二元組( userid ,RS〉 ,其中 userid 是用戶標(biāo)識, RS 是用戶在一段時間內(nèi)請求的 Web 頁面的集合 ,包含用戶請求的頁面的標(biāo)識符 Pid 和請求時間。所以 用戶會話 S 可以表示為下 式所示的元組。S =〈 userid ,{ (Pid1 ,time1) ,……, ( Pidk ,timek) }〉 (1)二、用戶識別與會話識別由于 本地緩存和代理服務(wù)器緩存的存在 ,使得服務(wù)器的日志會遺漏一些重要的頁面請求。路徑補(bǔ)充的任務(wù)就是利用引用日志或站點(diǎn)的拓?fù)浣Y(jié)構(gòu)將這些遺漏的請求補(bǔ)充到用戶會話中。經(jīng)過路徑補(bǔ)充后S 變?yōu)楸磉_(dá)式 (2) 。S = userid ,{ (Pid1 ,time1) , ?, (Pidi ,timei) ,(Pidu ,timeu) , (Pidi + 1 ,timei + 1) , ?,(Pidk ,timek) } 其中: Pidu ∈ {Pid1 ,Pid2 , ?Pidi}hyperlink (Pidu ,Pidi + 1) ∈ Topo ∧ hyperlink(Pidj ,Pidi + 1) ∈ Topo ,a j ≤Itimei =timeu = timei + 1 三、路徑補(bǔ)充 其中 ( Pidu , timeu) 是添加的頁面請求 , topo 是 Web 站點(diǎn)的拓?fù)浣Y(jié)構(gòu) , hyperlink (a ,b) ∈ Topo 表示頁面 a 中有指向頁面 b 的超鏈接, 請求時間 timeu設(shè)備為前后兩次請求時間的平均值。 用戶會話是 Web 日志挖掘中唯一具備自然事務(wù)特征的元素。但對于某些挖掘算法來說可能它的粒度太粗 ,為此需要利用分割算法將其轉(zhuǎn)化為更小的事務(wù) ,即進(jìn)行事務(wù)識別?!?html〉  〈 frameset cols =“3,60 % ,3”〉 〈 frame name =“B”src =“B. html”〉  〈 frameset rows =“45 ,3”〉  〈 frame name =“c”src =“C. html”〉  〈 frame name =“d”src =“D. html”〉  〈 / frameset〉  〈 / frame name =“E”,src =“E. html”〉  〈 / frameset〉  〈 / html〉 A. Html〈 html〉  〈 frameset rows =“100 ,3”〉  〈 frame name =“F”src =“F. html”〉  〈 frame name =“G”src =“G. html”〉  〈 / frameset〉  〈 / html〉 D. html四、事務(wù)( FRAME)識別與子頁刪除HTML 規(guī)范通過 “Frame”標(biāo)記支持多窗口頁面 ,每個窗口里裝載的頁面對應(yīng)一個 URL 。多窗口頁面中 Frame 頁面是定義多窗口頁面的大小、位置及內(nèi)容的頁面 ,Subframe頁面是多窗口頁面中被Frame 頁面包含的子窗口所對應(yīng)的頁面。圖 2 是使用 “Frame”標(biāo)記定義多窗口頁面的兩個 html 文件。A. html 的第一個 f rameset 標(biāo)記將頁面分為左 ,中 ,右三個部分 ,中間半部分寬度為整個寬度的 60 % ,又通過 f rameset 標(biāo)記分為上下兩個部分 ,上半部分高度為 45 象素 ,顯示 C. html 頁面 ,下半部發(fā)顯示 D. html 頁面 。左、右兩部分均分其余的 40 % ,分別顯示 B. html 頁面和 E. html 。 D. html 也是一個多窗口頁 ,其上下兩部分分別顯示 F. html 和 G. html 。 當(dāng)用戶訪問的 URL 對應(yīng)的是一個 Frame 頁面時 ,瀏覽器通過解釋執(zhí)行頁面源程序 ,會自動向 Web 服務(wù)器請求該 Frame 頁面中包含的所有 Subf rame 頁面 ,這一個過程可以重復(fù)進(jìn)行 ,直到所有的 Subf rame 頁面被請求。在這樣的用戶會話文件上進(jìn)行數(shù)據(jù)挖掘 ,Frame 頁面和 Subf rame 頁面 作為頻繁遍歷路徑或者頻繁訪問頁組出現(xiàn)的概率很高 ,這就降低了挖掘結(jié)果的價值和意義。 Web 日志挖掘的目的是發(fā)現(xiàn)未知的用戶行為模式 ,而 Frame 頁面和 Subf rame
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1