freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[經(jīng)濟(jì)學(xué)]第9章:案例:電子商務(wù)數(shù)據(jù)挖掘改-資料下載頁

2025-03-21 22:10本頁面
  

【正文】 RL,能不能提取出上面有什么?? 要自動(dòng)提取出關(guān)于這個(gè)網(wǎng)頁所描述的產(chǎn)品的信息,像作者、版本、出版日期就更加困難了q動(dòng)態(tài)內(nèi)容q隨著互聯(lián)網(wǎng)上的動(dòng)態(tài)內(nèi)容越來越多,基于 WEB日志的分析與挖掘就越來越困難了? 同樣的 URL將會(huì)連接到不同的內(nèi)容? 在動(dòng)態(tài)站點(diǎn), URL往往會(huì)很長很復(fù)雜而實(shí)際所指的內(nèi)容卻是在應(yīng)用服務(wù)器的 session上amp。BV_Operation=Dyn_RawSmartLinkamp。BV_SessionID=%40%40%40%2%40%40%40%40amp。form%25destination=mplamp。BV_ServiceName=American? 個(gè)性化的內(nèi)容(比如:推薦的捆綁銷售內(nèi)容),基本上無法通過 Web日志來進(jìn)行重構(gòu)q重構(gòu) session的困難q一個(gè) Session代表著一次用戶和網(wǎng)站之間的連接,從 Web日志中的多個(gè)用戶的 requests中重構(gòu)每個(gè)用戶的 session是困難的。q由于 HTTP是無狀態(tài)的,因此通過 Web日志重構(gòu) session只能依賴于假設(shè)與推斷,而且用于假設(shè)與推斷的數(shù)據(jù)也少得可憐? IP地址? Cookies? 瀏覽器類型q商業(yè)事件q對(duì)用戶 “點(diǎn)擊流 ”事件的考察,最終必須定位到 “商業(yè)事件 ”,即將一個(gè)點(diǎn)擊(或請(qǐng)求)的集合轉(zhuǎn)化為一個(gè)邏輯上有意義的事件或商業(yè)細(xì)節(jié)。q一些對(duì)數(shù)據(jù)挖掘很重要的商業(yè)相關(guān)事件無法由 Web日志來決定? 購物中哪些東西添加到購物車,哪些又被拋棄了? 購物車中物品數(shù)量的增減? 網(wǎng)頁上的促銷信息? 當(dāng)時(shí)顯示的 “沒有庫存 ”的商品? 表單數(shù)據(jù)? 檢索 —— 關(guān)鍵字以及沒有找到內(nèi)容的關(guān)鍵字q示例 —— 關(guān)鍵字檢索q在一個(gè)銷售運(yùn)動(dòng)器材的電子商務(wù)網(wǎng)站,排名前 10的檢索關(guān)鍵字為:? 籃球? 錄像? 足球? 排球? 乒乓球? 音樂? 書? 海報(bào)? 撲克? 手套紅色字體顯示的關(guān)鍵字都有些什么共同特點(diǎn)?q失敗的檢索q紅色字體顯示的關(guān)鍵字都是沒有檢索結(jié)果的關(guān)鍵字!? 有些關(guān)鍵字可能是因?yàn)橛迷~不正確? 有些卻傳達(dá)了一種強(qiáng)烈的暗示:這個(gè)網(wǎng)站都還應(yīng)該賣些什么東西q而 Web日志卻沒有足夠的信息讓我們來提取哪些關(guān)鍵字檢索失敗了? 在實(shí)際的電子商務(wù)網(wǎng)站中, 11%的檢索沒有返回任何結(jié)果!q將 Web日志中的內(nèi)容映射到數(shù)據(jù)庫q從 Web日志中提取一個(gè) URL請(qǐng)求,如何才能:?將這個(gè)請(qǐng)求映射到在你的數(shù)據(jù)庫中注冊(cè)過的一個(gè)客戶??決定這是這個(gè)客戶的第幾次訪問??決定這個(gè)客戶是否曾經(jīng)購物??由事后來決定上述信息是極端困難的q要想由一系列的請(qǐng)求來重構(gòu)一個(gè)用戶的購物過程就更加困難了qWeb數(shù)據(jù)到底挖掘什么?q用點(diǎn)擊率和訪問量來決定一個(gè)站點(diǎn)成功與否,就好像用音量來決定音樂美妙與否。q Forrester Report, 1999q對(duì)電子商務(wù)站點(diǎn)而言,只有轉(zhuǎn)化率(購物者與瀏覽者之間的比率)才是最重要的指標(biāo)? 對(duì)廣告鏈接而言,更是如此q給出一個(gè)指向你的廣告的 HTTP請(qǐng)求 ,你怎么決定該 HTTP請(qǐng)求是否會(huì)帶來一個(gè)銷售?Forrester Reportq結(jié)論q現(xiàn)在流行的基于 Web日志的數(shù)據(jù)挖掘并不是一個(gè)很好的選擇q電子商務(wù)中蘊(yùn)涵有的數(shù)據(jù),遠(yuǎn)比 Web日志中所提供的內(nèi)容要多q兩種比 Web日志更好的數(shù)據(jù)收集方法:? Packet sniffer? 在應(yīng)用服務(wù)器層收集數(shù)據(jù)qPacket SnifferqPacket sniffer通過偵聽從 Web服務(wù)器發(fā)送的數(shù)據(jù)包來獲得跟電子商務(wù)相關(guān)的數(shù)據(jù)。q優(yōu)點(diǎn)? 可以獲得比 Web日志中更多的信息? 不需要改動(dòng)現(xiàn)有的應(yīng)用架構(gòu)q缺點(diǎn)? 在識(shí)別用戶和 session方面還是有困難? 邏輯信息提取困難? 無法探測(cè)到加密的信息,比如使用 SSL協(xié)議傳送的信息,而實(shí)際應(yīng)用中,一些關(guān)鍵信息,像用戶登陸,登出,用戶信息傳送都常常使用 SSL協(xié)議q多層應(yīng)用框架( J2EE/EJB)q應(yīng)用服務(wù)器層數(shù)據(jù)收集q應(yīng)用服務(wù)器層數(shù)據(jù)收集可以克服 Web日志和 Packet sniffer的缺點(diǎn),對(duì)用戶的訪問數(shù)據(jù)做全面的收集和解析。? 應(yīng)用服務(wù)器端可以得到返回給用戶的所有內(nèi)容? 應(yīng)用服務(wù)器使用 cookie技術(shù)(或者是 URL編碼技術(shù))來記錄一個(gè)用戶的 session? 應(yīng)用服務(wù)器通過用戶登陸機(jī)制來鎖定一個(gè)用戶,因而可以將每個(gè)點(diǎn)擊定位到用戶q需要將數(shù)據(jù)收集機(jī)制和應(yīng)用服務(wù)器端相集成q電子商務(wù)中進(jìn)行數(shù)據(jù)挖掘的幾個(gè)難點(diǎn)q爬蟲 /機(jī)器人q大量數(shù)據(jù)的處理q分析前的數(shù)據(jù)變換q提供市場級(jí)的決策支持q網(wǎng)絡(luò)爬蟲 /機(jī)器人q網(wǎng)絡(luò)爬蟲 /機(jī)器人是自動(dòng)訪問你的站點(diǎn)的程序? 搜索引擎使用的爬蟲( √ )? 購物機(jī)器人( √ )? IE離線瀏覽器( √ )? EMAIL搜索者( )? 一些 PERL腳本( )q為了對(duì)客戶行為作出準(zhǔn)確研究,必須過濾掉爬蟲 /機(jī)器人的訪問? 30%的 session是由網(wǎng)絡(luò)爬蟲 /機(jī)器人造成的q有些網(wǎng)絡(luò)爬蟲 /機(jī)器人會(huì)故意將自己隱藏起來q數(shù)據(jù)變換q在電子商務(wù)中進(jìn)行數(shù)據(jù)挖掘時(shí),有時(shí) 70%以上的數(shù)據(jù)分析時(shí)間都消耗在數(shù)據(jù)變換上q改善數(shù)據(jù)變換的方法:? 自動(dòng)的將站點(diǎn)上的數(shù)據(jù)傳送到數(shù)據(jù)倉庫中? 提供良好的數(shù)據(jù)轉(zhuǎn)換用戶界面? 為常見的數(shù)據(jù)轉(zhuǎn)換問題定制一些工具q提供市場級(jí)的決策支持q你花費(fèi)了大量的時(shí)間來? 收集數(shù)據(jù)? 構(gòu)建數(shù)據(jù)倉庫? 數(shù)據(jù)變換? 建模分析 ...? 最后將你的結(jié)果交給了用戶 ...這個(gè)具有237個(gè)維的數(shù)據(jù)立方體到底是什么東西?總結(jié): 電子商務(wù)與數(shù)據(jù)挖掘 數(shù)據(jù)預(yù)處理 模式挖
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1