正文內容

[經濟學]第9章：案例：電子商務數據挖掘改(編輯修改稿)

2025-04-17 22:10 本頁面

　

【文章內容簡介】被遺漏。? 事件識別：事件識別是與要挖掘什么樣的知識有關，將用戶會話針對挖掘活動的特定需要進行事件定義。數據預處理的功能p數據凈化是指刪除 Web 服務器日志中與挖掘算法無關的數據 ,一般來說只有日志中 HTML 文件與用戶會話相關。 Web 日志文件的目的是獲得用戶的行為模式 , 通過檢查 URL 的后綴，刪除認為不相關的數據。例如 :將日志中文件的后綴名為 GIF、 J PEG、 J PG等的圖形文件刪除。將后綴名為 CGI 的腳本文件刪除。具體到實際的系統(tǒng)就使用一個缺省的后綴名列表幫助刪除文件。列表可以根據正在分析的站點類型進行修改。p過濾非法請求的頁面 :有些網站的頁面用戶在提出請求 ,Web 服務器拒絕該頁面的請求 ,那么應該過濾掉非法請求的頁面 ,僅僅只對正常的頁面進行數據處理是很有價值的。一、數據凈化對于數據凈化之后的數據 ,使用基于日志 / 站點的方法 ,同時輔助一些啟發(fā)式規(guī)則 ,可以識別出每個訪問網站的用戶 ,該過程稱為用戶識別。在跨越時間區(qū)段較大的 Web 服務器日志中 ,用戶有可能多次訪問了該站點。會話識別的目的就是將用戶的訪問記錄分為單個的會話(Session) 。用戶會話 S 是一個二元組（ userid ,RS〉 ,其中 userid 是用戶標識， RS 是用戶在一段時間內請求的 Web 頁面的集合 ,包含用戶請求的頁面的標識符 Pid 和請求時間。所以用戶會話 S 可以表示為下式所示的元組。S =〈 userid ,{ (Pid1 ,time1) ,……, ( Pidk ,timek) }〉 (1)二、用戶識別與會話識別由于本地緩存和代理服務器緩存的存在 ,使得服務器的日志會遺漏一些重要的頁面請求。路徑補充的任務就是利用引用日志或站點的拓撲結構將這些遺漏的請求補充到用戶會話中。經過路徑補充后S 變?yōu)楸磉_式 (2) 。S = userid ,{ (Pid1 ,time1) , ?, (Pidi ,timei) ,(Pidu ,timeu) , (Pidi + 1 ,timei + 1) , ?,(Pidk ,timek) } 其中： Pidu ∈ {Pid1 ,Pid2 , ?Pidi}hyperlink (Pidu ,Pidi + 1) ∈ Topo ∧ hyperlink(Pidj ,Pidi + 1) ∈ Topo ,a j ≤Itimei =timeu = timei + 1 三、路徑補充其中 ( Pidu , timeu) 是添加的頁面請求 , topo 是 Web 站點的拓撲結構 , hyperlink (a ,b) ∈ Topo 表示頁面 a 中有指向頁面 b 的超鏈接, 請求時間 timeu設備為前后兩次請求時間的平均值。用戶會話是 Web 日志挖掘中唯一具備自然事務特征的元素。但對于某些挖掘算法來說可能它的粒度太粗 ,為此需要利用分割算法將其轉化為更小的事務 ,即進行事務識別。〈 html〉　〈 frameset cols =“3,60 % ,3”〉〈 frame name =“B”src =“B. html”〉　〈 frameset rows =“45 ,3”〉　〈 frame name =“c”src =“C. html”〉　〈 frame name =“d”src =“D. html”〉　〈 / frameset〉　〈 / frame name =“E”,src =“E. html”〉　〈 / frameset〉　〈 / html〉 A. Html〈 html〉　〈 frameset rows =“100 ,3”〉　〈 frame name =“F”src =“F. html”〉　〈 frame name =“G”src =“G. html”〉　〈 / frameset〉　〈 / html〉 D. html四、事務（ FRAME)識別與子頁刪除HTML 規(guī)范通過 “Frame”標記支持多窗口頁面 ,每個窗口里裝載的頁面對應一個 URL 。多窗口頁面中 Frame 頁面是定義多窗口頁面的大小、位置及內容的頁面 ,Subframe頁面是多窗口頁面中被Frame 頁面包含的子窗口所對應的頁面。圖 2 是使用 “Frame”標記定義多窗口頁面的兩個 html 文件。A. html 的第一個 f rameset 標記將頁面分為左 ,中 ,右三個部分 ,中間半部分寬度為整個寬度的 60 % ,又通過 f rameset 標記分為上下兩個部分 ,上半部分高度為 45 象素 ,顯示 C. html 頁面 ,下半部發(fā)顯示 D. html 頁面。左、右兩部分均分其余的 40 % ,分別顯示 B. html 頁面和 E. html 。 D. html 也是一個多窗口頁 ,其上下兩部分分別顯示 F. html 和 G. html 。當用戶訪問的 URL 對應的是一個 Frame 頁面時 ,瀏覽器通過解釋執(zhí)行頁面源程序 ,會自動向 Web 服務器請求該 Frame 頁面中包含的所有 Subf rame 頁面 ,這一個過程可以重復進行 ,直到所有的 Subf rame 頁面被請求。在這樣的用戶會話文件上進行數據挖掘 ,Frame 頁面和 Subf rame 頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現(xiàn)的概率很高 ,這就降低了挖掘結果的價值和意義。 Web 日志挖掘的目的是發(fā)現(xiàn)未知的用戶行為模式 ,而 Frame 頁面和 Subf rame

點擊復制文檔內容

教學課件相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

[經濟學]第9章：案例：電子商務數據挖掘改(編輯修改稿)

電子商務經濟學第一章-資料下載頁

3電子商務經濟學基礎-資料下載頁

電子商務的經濟學基礎-資料下載頁

電子商務經濟學4-資料下載頁

3、電子商務經濟學基礎-資料下載頁

電子商務與網絡經濟學第7章-王曉晶、鐘琦-資料下載頁

電子商務網站建設第9章-資料下載頁

[經濟學]第9章企業(yè)合并-資料下載頁

電子商務經濟學講授1-資料下載頁

電子商務案例分析9(ppt43)移動電子商務-資料下載頁

x電子商務案例分析9(ppt43)移動電子商務-資料下載頁

[經濟學]金融學第9、10章-資料下載頁

電子商務的傳統(tǒng)經濟學與信息經濟學視角-資料下載頁

[經濟學]第2章數據的搜集-資料下載頁

[經濟學]第五章電子商務信用和網上支付-資料下載頁