freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)(論文)-基于關(guān)聯(lián)分析的web日志挖掘-文庫吧

2025-05-16 01:53 本頁面


【正文】 已經(jīng)在這個(gè)時(shí)代爆炸了。但是,我們又不得不面對(duì)“人們被數(shù)據(jù)淹沒 ,人們卻饑餓于知識(shí)”的現(xiàn)實(shí)。隨著興起與 20世紀(jì) 80年代末的數(shù)據(jù)挖掘在 web上的應(yīng)用,從某種程度上改善了上述情況。 根據(jù)所挖掘的 Web 數(shù)據(jù)的類型,可以將 Web 數(shù)據(jù)挖掘分為以下三類: Web 內(nèi)容挖掘 (Web Content Mining)、 Web 結(jié)構(gòu)挖掘 (Web Structure Mining)、 Web 使用挖掘 (Web Usage Mining)(也稱為 Web日志挖掘)。Web日志挖掘是指采用數(shù)據(jù)挖掘的技術(shù),通過對(duì) Web服務(wù)器日志中大量的用戶訪問記錄深入分析,發(fā)現(xiàn)用戶的訪問模式和興趣愛好等有趣、新穎、潛在有用的以及可理解的未知信息和知識(shí),用于分析站點(diǎn)的使用情況,從而輔助管理和支持決策。當(dāng)前, web日志挖掘主要被用于個(gè)性化服務(wù)與定制、改進(jìn)系統(tǒng)性能和結(jié)構(gòu)、站點(diǎn)修改、商業(yè)智能以及 web特征描述等諸多領(lǐng)域。 一、 Web 日志挖掘 Web日志挖掘主要是通過對(duì) web瀏覽的日志數(shù)據(jù)的分析,發(fā)現(xiàn)用戶的瀏覽模式 ,更好地規(guī)劃站點(diǎn) 。 下面是一段日志:① 20211017 00:00:00② ③ 80 ④ GET ⑤ / ⑥ Mozilla/+(Windows; +U;+Windows+NT+; +zhCN; +rv: )+Gecko/20210426+Firefox/。主要包括:①訪問時(shí)間;② 用戶 IP地址 ;③訪問的 URL,端口 ;④ 請(qǐng)求方法 (“ GET”、“ POST”等 ); ⑤ 訪問模式; ⑥ agent,即用戶使用的操作系統(tǒng)類型和瀏覽器軟件 。 Web日志挖掘一般都包含以下幾個(gè)過程: ( 一) 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是 Web 日志挖掘的首要環(huán)節(jié) , 其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式 , 預(yù)處理可以直接簡(jiǎn)化數(shù)據(jù)挖掘過程,使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充四南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 4 個(gè)步驟。 1.?dāng)?shù)據(jù)凈化 數(shù)據(jù)凈化 , 是指將待處理的日志數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫 ,刪除 Web日志數(shù)據(jù)中的錯(cuò)誤值、缺失值等,同時(shí)把與 Web數(shù)據(jù)挖掘無關(guān)的變量或數(shù)據(jù)進(jìn)行清理,已達(dá)到簡(jiǎn)便運(yùn)算的目的; 用戶識(shí)別 , 是從 Web日志數(shù)據(jù)中找出每個(gè)用戶的訪問地址,避免挖掘的重復(fù)性。目前 , 由于本地緩存、代理服務(wù)器和防火墻的存在 , 為用戶動(dòng)態(tài)的分配 IP 地址 , 想要識(shí)別出每一個(gè)用戶變得很復(fù)雜??梢酝ㄟ^以下 3 種方法來識(shí)別用戶 : ( 1) 如果 Web 服務(wù)器提供 Cookie , 則具有相同 Cookie 值的頁面請(qǐng)求是來自同一個(gè)用戶 。 ( 2) 如果 Web 服務(wù)器沒有提供 Cookie , 但每個(gè)網(wǎng)站用戶都要一個(gè)登錄標(biāo)識(shí)符 ( 用戶 ID) 方可訪問站點(diǎn) , 則利用登錄標(biāo)識(shí)符識(shí)別用戶 。 ( 3) 如果 Web 服務(wù)器既沒有 Cookie 也沒有用戶 ID,最常用的方法就是采用啟發(fā)式規(guī)則。根據(jù)我們的日志格式采用 兩條啟發(fā)式規(guī)則:①不同的 IP地址代表不同的用戶;② 如果 IP地址相同,但是操作系統(tǒng)類型或者瀏覽器軟件不同我們認(rèn)為是不同的用戶。 會(huì)話 , 是指同一個(gè)用戶連續(xù)請(qǐng)求的頁面。在跨越時(shí)間區(qū)段較大的 Web 服務(wù)器日志中 , 用戶可能多次訪問該站點(diǎn)。會(huì)話識(shí)別的目的是將用戶的所有訪問序列分成單個(gè)的訪問序列。常用的算法有以下幾種 : ( 1) 對(duì)用戶在整個(gè)網(wǎng)站的停留時(shí)間設(shè)一個(gè)閾值 T。如果兩個(gè)相鄰的瀏覽頁面之間的訪問時(shí)間超過 T, 則認(rèn)為用戶又開始了一個(gè)新的會(huì)話。一般 T取 30min。 ( 2)對(duì)用戶在一個(gè)頁面停留時(shí)間設(shè)一個(gè)域 值△ t。如果 2 個(gè)連續(xù)請(qǐng)求的時(shí)間南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 5 間隔沒有超過這個(gè)值△ t, 則屬于同一會(huì)話。否則 , 分屬于兩個(gè)會(huì)話。△ t 一般取 10min。 ( 3)利用用戶的訪問歷史和引用頁來劃分。如果一個(gè)用戶的請(qǐng)求不能通過引用頁的鏈接進(jìn)入 , 則屬于另一個(gè)會(huì)話。 ( 4)最大向前引用算法 ( MF) 。設(shè)一個(gè)用戶會(huì)話里不會(huì)出現(xiàn)用戶以前已經(jīng)訪問過的頁面 , 如果用戶在向前瀏覽到一個(gè)網(wǎng) 4. 路徑補(bǔ)充 用戶會(huì)話對(duì)數(shù)據(jù)挖掘來講,顯得粗糙,仍不夠精確,需把會(huì)話進(jìn)一步分成具有一定語意的事務(wù),如同籃子數(shù)據(jù)中顧客一次購買的商品??梢园?Web頁簡(jiǎn)單地分為兩類:內(nèi) 容頁和導(dǎo)航頁。在編程中采用的區(qū)分導(dǎo)航頁和內(nèi)容頁的方法是時(shí)間點(diǎn)法,即設(shè)定一時(shí)間值,實(shí)際中時(shí)間點(diǎn)的取值為 30秒。當(dāng)用戶對(duì)該網(wǎng)頁訪問的時(shí)間小于時(shí)間點(diǎn)為導(dǎo)航頁,大于時(shí)間點(diǎn)則為內(nèi)容頁。用戶對(duì)網(wǎng)頁的訪問時(shí)間為用戶前后兩次訪問該網(wǎng)頁的時(shí)間差,通過調(diào)用 SQL語句可以查找到用戶訪問網(wǎng)頁的時(shí)間,進(jìn)而區(qū)分出導(dǎo)航頁和內(nèi)容頁。 ( 二 ) 模式發(fā)現(xiàn) 模式發(fā)現(xiàn) , 是對(duì)預(yù)處理后的數(shù)據(jù)用數(shù)據(jù)挖掘算法來分析數(shù)據(jù)。分有統(tǒng)計(jì)、分類、聚類、關(guān)聯(lián)規(guī)則、路徑分析等多種方法。 ( 1)統(tǒng)計(jì)。統(tǒng)計(jì)方法是從 Web 站點(diǎn)中抽取知識(shí)的最常用方法 , 它通過分析會(huì)話文件 , 對(duì)瀏覽時(shí)間、瀏覽路徑等進(jìn)行頻度、平均值等統(tǒng)計(jì)分析。雖然缺乏深度 , 但仍可用于改進(jìn)網(wǎng)站結(jié)構(gòu) , 增強(qiáng)系統(tǒng)安全性 , 提高網(wǎng)站訪問的效率等。 ( 2)分類。分類包括的挖掘技術(shù)將找出定義了一個(gè)項(xiàng)或事件是否屬于數(shù)據(jù)中某特定子集或類的規(guī)則。該類技術(shù)是最廣泛應(yīng)用于各類業(yè)務(wù)問題的一類挖掘技術(shù)。分類算法最知名的是決策樹方法,此外還有神經(jīng)元網(wǎng)絡(luò)、 Bayesian分類等。 ( 3)聚類。聚類是將數(shù)據(jù)集劃分為多個(gè)類,使得在同一類
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1