freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[經(jīng)濟學(xué)]第9章:案例:電子商務(wù)數(shù)據(jù)挖掘改-資料下載頁

2025-03-21 22:10本頁面
  

【正文】 RL,能不能提取出上面有什么?? 要自動提取出關(guān)于這個網(wǎng)頁所描述的產(chǎn)品的信息,像作者、版本、出版日期就更加困難了q動態(tài)內(nèi)容q隨著互聯(lián)網(wǎng)上的動態(tài)內(nèi)容越來越多,基于 WEB日志的分析與挖掘就越來越困難了? 同樣的 URL將會連接到不同的內(nèi)容? 在動態(tài)站點, URL往往會很長很復(fù)雜而實際所指的內(nèi)容卻是在應(yīng)用服務(wù)器的 session上amp。BV_Operation=Dyn_RawSmartLinkamp。BV_SessionID=%40%40%40%2%40%40%40%40amp。form%25destination=mplamp。BV_ServiceName=American? 個性化的內(nèi)容(比如:推薦的捆綁銷售內(nèi)容),基本上無法通過 Web日志來進行重構(gòu)q重構(gòu) session的困難q一個 Session代表著一次用戶和網(wǎng)站之間的連接,從 Web日志中的多個用戶的 requests中重構(gòu)每個用戶的 session是困難的。q由于 HTTP是無狀態(tài)的,因此通過 Web日志重構(gòu) session只能依賴于假設(shè)與推斷,而且用于假設(shè)與推斷的數(shù)據(jù)也少得可憐? IP地址? Cookies? 瀏覽器類型q商業(yè)事件q對用戶 “點擊流 ”事件的考察,最終必須定位到 “商業(yè)事件 ”,即將一個點擊(或請求)的集合轉(zhuǎn)化為一個邏輯上有意義的事件或商業(yè)細節(jié)。q一些對數(shù)據(jù)挖掘很重要的商業(yè)相關(guān)事件無法由 Web日志來決定? 購物中哪些東西添加到購物車,哪些又被拋棄了? 購物車中物品數(shù)量的增減? 網(wǎng)頁上的促銷信息? 當(dāng)時顯示的 “沒有庫存 ”的商品? 表單數(shù)據(jù)? 檢索 —— 關(guān)鍵字以及沒有找到內(nèi)容的關(guān)鍵字q示例 —— 關(guān)鍵字檢索q在一個銷售運動器材的電子商務(wù)網(wǎng)站,排名前 10的檢索關(guān)鍵字為:? 籃球? 錄像? 足球? 排球? 乒乓球? 音樂? 書? 海報? 撲克? 手套紅色字體顯示的關(guān)鍵字都有些什么共同特點?q失敗的檢索q紅色字體顯示的關(guān)鍵字都是沒有檢索結(jié)果的關(guān)鍵字!? 有些關(guān)鍵字可能是因為用詞不正確? 有些卻傳達了一種強烈的暗示:這個網(wǎng)站都還應(yīng)該賣些什么東西q而 Web日志卻沒有足夠的信息讓我們來提取哪些關(guān)鍵字檢索失敗了? 在實際的電子商務(wù)網(wǎng)站中, 11%的檢索沒有返回任何結(jié)果!q將 Web日志中的內(nèi)容映射到數(shù)據(jù)庫q從 Web日志中提取一個 URL請求,如何才能:?將這個請求映射到在你的數(shù)據(jù)庫中注冊過的一個客戶??決定這是這個客戶的第幾次訪問??決定這個客戶是否曾經(jīng)購物??由事后來決定上述信息是極端困難的q要想由一系列的請求來重構(gòu)一個用戶的購物過程就更加困難了qWeb數(shù)據(jù)到底挖掘什么?q用點擊率和訪問量來決定一個站點成功與否,就好像用音量來決定音樂美妙與否。q Forrester Report, 1999q對電子商務(wù)站點而言,只有轉(zhuǎn)化率(購物者與瀏覽者之間的比率)才是最重要的指標(biāo)? 對廣告鏈接而言,更是如此q給出一個指向你的廣告的 HTTP請求 ,你怎么決定該 HTTP請求是否會帶來一個銷售?Forrester Reportq結(jié)論q現(xiàn)在流行的基于 Web日志的數(shù)據(jù)挖掘并不是一個很好的選擇q電子商務(wù)中蘊涵有的數(shù)據(jù),遠比 Web日志中所提供的內(nèi)容要多q兩種比 Web日志更好的數(shù)據(jù)收集方法:? Packet sniffer? 在應(yīng)用服務(wù)器層收集數(shù)據(jù)qPacket SnifferqPacket sniffer通過偵聽從 Web服務(wù)器發(fā)送的數(shù)據(jù)包來獲得跟電子商務(wù)相關(guān)的數(shù)據(jù)。q優(yōu)點? 可以獲得比 Web日志中更多的信息? 不需要改動現(xiàn)有的應(yīng)用架構(gòu)q缺點? 在識別用戶和 session方面還是有困難? 邏輯信息提取困難? 無法探測到加密的信息,比如使用 SSL協(xié)議傳送的信息,而實際應(yīng)用中,一些關(guān)鍵信息,像用戶登陸,登出,用戶信息傳送都常常使用 SSL協(xié)議q多層應(yīng)用框架( J2EE/EJB)q應(yīng)用服務(wù)器層數(shù)據(jù)收集q應(yīng)用服務(wù)器層數(shù)據(jù)收集可以克服 Web日志和 Packet sniffer的缺點,對用戶的訪問數(shù)據(jù)做全面的收集和解析。? 應(yīng)用服務(wù)器端可以得到返回給用戶的所有內(nèi)容? 應(yīng)用服務(wù)器使用 cookie技術(shù)(或者是 URL編碼技術(shù))來記錄一個用戶的 session? 應(yīng)用服務(wù)器通過用戶登陸機制來鎖定一個用戶,因而可以將每個點擊定位到用戶q需要將數(shù)據(jù)收集機制和應(yīng)用服務(wù)器端相集成q電子商務(wù)中進行數(shù)據(jù)挖掘的幾個難點q爬蟲 /機器人q大量數(shù)據(jù)的處理q分析前的數(shù)據(jù)變換q提供市場級的決策支持q網(wǎng)絡(luò)爬蟲 /機器人q網(wǎng)絡(luò)爬蟲 /機器人是自動訪問你的站點的程序? 搜索引擎使用的爬蟲( √ )? 購物機器人( √ )? IE離線瀏覽器( √ )? EMAIL搜索者( )? 一些 PERL腳本( )q為了對客戶行為作出準(zhǔn)確研究,必須過濾掉爬蟲 /機器人的訪問? 30%的 session是由網(wǎng)絡(luò)爬蟲 /機器人造成的q有些網(wǎng)絡(luò)爬蟲 /機器人會故意將自己隱藏起來q數(shù)據(jù)變換q在電子商務(wù)中進行數(shù)據(jù)挖掘時,有時 70%以上的數(shù)據(jù)分析時間都消耗在數(shù)據(jù)變換上q改善數(shù)據(jù)變換的方法:? 自動的將站點上的數(shù)據(jù)傳送到數(shù)據(jù)倉庫中? 提供良好的數(shù)據(jù)轉(zhuǎn)換用戶界面? 為常見的數(shù)據(jù)轉(zhuǎn)換問題定制一些工具q提供市場級的決策支持q你花費了大量的時間來? 收集數(shù)據(jù)? 構(gòu)建數(shù)據(jù)倉庫? 數(shù)據(jù)變換? 建模分析 ...? 最后將你的結(jié)果交給了用戶 ...這個具有237個維的數(shù)據(jù)立方體到底是什么東西?總結(jié): 電子商務(wù)與數(shù)據(jù)挖掘 數(shù)據(jù)預(yù)處理 模式挖
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1