freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)(論文)-基于關(guān)聯(lián)分析的web日志挖掘-文庫(kù)吧

2025-05-16 01:53 本頁(yè)面


【正文】 已經(jīng)在這個(gè)時(shí)代爆炸了。但是,我們又不得不面對(duì)“人們被數(shù)據(jù)淹沒(méi) ,人們卻饑餓于知識(shí)”的現(xiàn)實(shí)。隨著興起與 20世紀(jì) 80年代末的數(shù)據(jù)挖掘在 web上的應(yīng)用,從某種程度上改善了上述情況。 根據(jù)所挖掘的 Web 數(shù)據(jù)的類(lèi)型,可以將 Web 數(shù)據(jù)挖掘分為以下三類(lèi): Web 內(nèi)容挖掘 (Web Content Mining)、 Web 結(jié)構(gòu)挖掘 (Web Structure Mining)、 Web 使用挖掘 (Web Usage Mining)(也稱(chēng)為 Web日志挖掘)。Web日志挖掘是指采用數(shù)據(jù)挖掘的技術(shù),通過(guò)對(duì) Web服務(wù)器日志中大量的用戶(hù)訪問(wèn)記錄深入分析,發(fā)現(xiàn)用戶(hù)的訪問(wèn)模式和興趣愛(ài)好等有趣、新穎、潛在有用的以及可理解的未知信息和知識(shí),用于分析站點(diǎn)的使用情況,從而輔助管理和支持決策。當(dāng)前, web日志挖掘主要被用于個(gè)性化服務(wù)與定制、改進(jìn)系統(tǒng)性能和結(jié)構(gòu)、站點(diǎn)修改、商業(yè)智能以及 web特征描述等諸多領(lǐng)域。 一、 Web 日志挖掘 Web日志挖掘主要是通過(guò)對(duì) web瀏覽的日志數(shù)據(jù)的分析,發(fā)現(xiàn)用戶(hù)的瀏覽模式 ,更好地規(guī)劃站點(diǎn) 。 下面是一段日志:① 20211017 00:00:00② ③ 80 ④ GET ⑤ / ⑥ Mozilla/+(Windows; +U;+Windows+NT+; +zhCN; +rv: )+Gecko/20210426+Firefox/。主要包括:①訪問(wèn)時(shí)間;② 用戶(hù) IP地址 ;③訪問(wèn)的 URL,端口 ;④ 請(qǐng)求方法 (“ GET”、“ POST”等 ); ⑤ 訪問(wèn)模式; ⑥ agent,即用戶(hù)使用的操作系統(tǒng)類(lèi)型和瀏覽器軟件 。 Web日志挖掘一般都包含以下幾個(gè)過(guò)程: ( 一) 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是 Web 日志挖掘的首要環(huán)節(jié) , 其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式 , 預(yù)處理可以直接簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程,使結(jié)果更具客觀性。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)凈化、用戶(hù)識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充四南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 4 個(gè)步驟。 1.?dāng)?shù)據(jù)凈化 數(shù)據(jù)凈化 , 是指將待處理的日志數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫(kù) ,刪除 Web日志數(shù)據(jù)中的錯(cuò)誤值、缺失值等,同時(shí)把與 Web數(shù)據(jù)挖掘無(wú)關(guān)的變量或數(shù)據(jù)進(jìn)行清理,已達(dá)到簡(jiǎn)便運(yùn)算的目的; 用戶(hù)識(shí)別 , 是從 Web日志數(shù)據(jù)中找出每個(gè)用戶(hù)的訪問(wèn)地址,避免挖掘的重復(fù)性。目前 , 由于本地緩存、代理服務(wù)器和防火墻的存在 , 為用戶(hù)動(dòng)態(tài)的分配 IP 地址 , 想要識(shí)別出每一個(gè)用戶(hù)變得很復(fù)雜。可以通過(guò)以下 3 種方法來(lái)識(shí)別用戶(hù) : ( 1) 如果 Web 服務(wù)器提供 Cookie , 則具有相同 Cookie 值的頁(yè)面請(qǐng)求是來(lái)自同一個(gè)用戶(hù) 。 ( 2) 如果 Web 服務(wù)器沒(méi)有提供 Cookie , 但每個(gè)網(wǎng)站用戶(hù)都要一個(gè)登錄標(biāo)識(shí)符 ( 用戶(hù) ID) 方可訪問(wèn)站點(diǎn) , 則利用登錄標(biāo)識(shí)符識(shí)別用戶(hù) 。 ( 3) 如果 Web 服務(wù)器既沒(méi)有 Cookie 也沒(méi)有用戶(hù) ID,最常用的方法就是采用啟發(fā)式規(guī)則。根據(jù)我們的日志格式采用 兩條啟發(fā)式規(guī)則:①不同的 IP地址代表不同的用戶(hù);② 如果 IP地址相同,但是操作系統(tǒng)類(lèi)型或者瀏覽器軟件不同我們認(rèn)為是不同的用戶(hù)。 會(huì)話 , 是指同一個(gè)用戶(hù)連續(xù)請(qǐng)求的頁(yè)面。在跨越時(shí)間區(qū)段較大的 Web 服務(wù)器日志中 , 用戶(hù)可能多次訪問(wèn)該站點(diǎn)。會(huì)話識(shí)別的目的是將用戶(hù)的所有訪問(wèn)序列分成單個(gè)的訪問(wèn)序列。常用的算法有以下幾種 : ( 1) 對(duì)用戶(hù)在整個(gè)網(wǎng)站的停留時(shí)間設(shè)一個(gè)閾值 T。如果兩個(gè)相鄰的瀏覽頁(yè)面之間的訪問(wèn)時(shí)間超過(guò) T, 則認(rèn)為用戶(hù)又開(kāi)始了一個(gè)新的會(huì)話。一般 T取 30min。 ( 2)對(duì)用戶(hù)在一個(gè)頁(yè)面停留時(shí)間設(shè)一個(gè)域 值△ t。如果 2 個(gè)連續(xù)請(qǐng)求的時(shí)間南京財(cái)經(jīng)大學(xué)本科畢業(yè)論文 5 間隔沒(méi)有超過(guò)這個(gè)值△ t, 則屬于同一會(huì)話。否則 , 分屬于兩個(gè)會(huì)話。△ t 一般取 10min。 ( 3)利用用戶(hù)的訪問(wèn)歷史和引用頁(yè)來(lái)劃分。如果一個(gè)用戶(hù)的請(qǐng)求不能通過(guò)引用頁(yè)的鏈接進(jìn)入 , 則屬于另一個(gè)會(huì)話。 ( 4)最大向前引用算法 ( MF) 。設(shè)一個(gè)用戶(hù)會(huì)話里不會(huì)出現(xiàn)用戶(hù)以前已經(jīng)訪問(wèn)過(guò)的頁(yè)面 , 如果用戶(hù)在向前瀏覽到一個(gè)網(wǎng) 4. 路徑補(bǔ)充 用戶(hù)會(huì)話對(duì)數(shù)據(jù)挖掘來(lái)講,顯得粗糙,仍不夠精確,需把會(huì)話進(jìn)一步分成具有一定語(yǔ)意的事務(wù),如同籃子數(shù)據(jù)中顧客一次購(gòu)買(mǎi)的商品??梢园?Web頁(yè)簡(jiǎn)單地分為兩類(lèi):內(nèi) 容頁(yè)和導(dǎo)航頁(yè)。在編程中采用的區(qū)分導(dǎo)航頁(yè)和內(nèi)容頁(yè)的方法是時(shí)間點(diǎn)法,即設(shè)定一時(shí)間值,實(shí)際中時(shí)間點(diǎn)的取值為 30秒。當(dāng)用戶(hù)對(duì)該網(wǎng)頁(yè)訪問(wèn)的時(shí)間小于時(shí)間點(diǎn)為導(dǎo)航頁(yè),大于時(shí)間點(diǎn)則為內(nèi)容頁(yè)。用戶(hù)對(duì)網(wǎng)頁(yè)的訪問(wèn)時(shí)間為用戶(hù)前后兩次訪問(wèn)該網(wǎng)頁(yè)的時(shí)間差,通過(guò)調(diào)用 SQL語(yǔ)句可以查找到用戶(hù)訪問(wèn)網(wǎng)頁(yè)的時(shí)間,進(jìn)而區(qū)分出導(dǎo)航頁(yè)和內(nèi)容頁(yè)。 ( 二 ) 模式發(fā)現(xiàn) 模式發(fā)現(xiàn) , 是對(duì)預(yù)處理后的數(shù)據(jù)用數(shù)據(jù)挖掘算法來(lái)分析數(shù)據(jù)。分有統(tǒng)計(jì)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則、路徑分析等多種方法。 ( 1)統(tǒng)計(jì)。統(tǒng)計(jì)方法是從 Web 站點(diǎn)中抽取知識(shí)的最常用方法 , 它通過(guò)分析會(huì)話文件 , 對(duì)瀏覽時(shí)間、瀏覽路徑等進(jìn)行頻度、平均值等統(tǒng)計(jì)分析。雖然缺乏深度 , 但仍可用于改進(jìn)網(wǎng)站結(jié)構(gòu) , 增強(qiáng)系統(tǒng)安全性 , 提高網(wǎng)站訪問(wèn)的效率等。 ( 2)分類(lèi)。分類(lèi)包括的挖掘技術(shù)將找出定義了一個(gè)項(xiàng)或事件是否屬于數(shù)據(jù)中某特定子集或類(lèi)的規(guī)則。該類(lèi)技術(shù)是最廣泛應(yīng)用于各類(lèi)業(yè)務(wù)問(wèn)題的一類(lèi)挖掘技術(shù)。分類(lèi)算法最知名的是決策樹(shù)方法,此外還有神經(jīng)元網(wǎng)絡(luò)、 Bayesian分類(lèi)等。 ( 3)聚類(lèi)。聚類(lèi)是將數(shù)據(jù)集劃分為多個(gè)類(lèi),使得在同一類(lèi)
點(diǎn)擊復(fù)制文檔內(nèi)容
畢業(yè)設(shè)計(jì)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1