【正文】
為項。 二 、關(guān)聯(lián)分析 (一) 關(guān)聯(lián)規(guī)則 顧名思義,關(guān)聯(lián)規(guī)則( association rule)挖掘技術(shù)用于于發(fā)現(xiàn)數(shù)據(jù)庫中屬性之間的有趣聯(lián)系。 ( 三 ) 模式分析 基于以上的所有過程,對原始數(shù)據(jù)進行進一步分析,找出用戶的瀏覽模式規(guī)律,即用戶的興趣愛好及習(xí)慣,并使其可視化,為網(wǎng)頁的規(guī)劃及網(wǎng)站建設(shè)的決策提供具體理論依據(jù)。 ( 5) 路徑分析。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動探測以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。主要算法有 k— means、 DBSCAN等。聚類是將數(shù)據(jù)集劃分為多個類,使得在同一類中的數(shù)據(jù)之間有南京財經(jīng)大學(xué)本科畢業(yè)論文 6 較高的相似度,而在不同類中的數(shù)據(jù) 差別盡可能大。分類算法最知名的是決策樹方法,此外還有神經(jīng)元網(wǎng)絡(luò)、 Bayesian分類等。分類包括的挖掘技術(shù)將找出定義了一個項或事件是否屬于數(shù)據(jù)中某特定子集或類的規(guī)則。雖然缺乏深度 , 但仍可用于改進網(wǎng)站結(jié)構(gòu) , 增強系統(tǒng)安全性 , 提高網(wǎng)站訪問的效率等。 ( 1)統(tǒng)計。 ( 二 ) 模式發(fā)現(xiàn) 模式發(fā)現(xiàn) , 是對預(yù)處理后的數(shù)據(jù)用數(shù)據(jù)挖掘算法來分析數(shù)據(jù)。當(dāng)用戶對該網(wǎng)頁訪問的時間小于時間點為導(dǎo)航頁,大于時間點則為內(nèi)容頁??梢园?Web頁簡單地分為兩類:內(nèi)容頁和導(dǎo)航頁。 ( 4)最大向前引用算法 ( MF) 。 ( 3)利用用戶的訪問歷史和引用頁來劃分。否則 , 分屬于兩個會話。 ( 2)對用戶在一個頁面停留時間設(shè)一個域值△ t。如果兩個相鄰的瀏覽頁面之間的訪問時間超過 T, 則認(rèn)為用戶又開始了一個新的會話 。會話識別的目的是將用戶的所有訪問序列分成單個的訪問序列。 會話 , 是指同一個用戶連續(xù)請求的頁面。 ( 3) 如果 Web 服務(wù)器既沒有 Cookie 也沒有用 戶 ID,最常用的方法就是采用啟發(fā)式規(guī)則??梢酝ㄟ^以下 3 種方法來識別用戶 : ( 1) 如果 Web 服務(wù)器提供 Cookie , 則具有相同 Cookie 值的頁面請求是來自同一個用戶 。 1.?dāng)?shù)據(jù)凈化 數(shù)據(jù)凈化 , 是指將待處理的日志數(shù)據(jù)導(dǎo)入到關(guān)系數(shù)據(jù)庫 ,刪除 Web日志數(shù)據(jù)中的錯誤值、缺失值等,同時把與 Web數(shù)據(jù)挖掘無關(guān)的變量或數(shù)據(jù)進行清理,已達(dá)到簡便運算的目的; 用戶識別 , 是從 Web日志數(shù)據(jù)中找出每個用戶的訪問地址,避免挖掘的重復(fù)性。 Web日志挖掘一般都包含以下幾個過程: (一) 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是 Web 日志挖掘的首要環(huán)節(jié) , 其任務(wù)是將原始日志數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所必需的格式 , 預(yù)處理可以直接簡化數(shù)據(jù)挖掘過程,使結(jié)果更具客觀性。 下面是一段日志:① 20221017 00:00:00② ③ 80 ④ GET ⑤ / ⑥ Mozilla/+(Windows; +U;+Windows+NT+; +zhCN; +rv: )+Gecko/20220426+Firefox/。當(dāng)前, web日志挖掘主要被用于個性化服務(wù)與定制、改進系統(tǒng)性能和結(jié)構(gòu)、站點修改、商業(yè)智能以及 web特征描述等諸多領(lǐng)域。 根據(jù)所挖掘的 Web 數(shù)據(jù)的類型,可以將 Web 數(shù)據(jù)挖掘分為以下三類: Web 內(nèi)容挖掘 (Web Content Mining)、 Web 結(jié)構(gòu)挖掘 (Web Structure Mining)、 Web 使用挖掘 (Web Usage Mining)(也稱為 Web日志挖掘)。但是,我們又不得不面對“人們被數(shù)據(jù)淹沒 ,人們卻饑餓于知識”的現(xiàn)實。 Association analysis。s browsing behavior. This essay introduces the method of Association analysis in Web log mining,espacally the method of Apriori, at the same time ,we use this method to analysis a particular site’s log data to find the users’ browsing patterns and association rules between web pages 。實證分析 Web Log Mining Based On Association Analysis Abstract: Web log mining is an important part of web data mining, finding the user39。 關(guān)鍵詞 :web日志挖掘 。南京財經(jīng)大學(xué)本科畢業(yè)論文 1 目 錄 摘要 ................................................................ 1 關(guān)鍵詞 .............................................................. 1 Abstract ........................................................... 1 Keywords ........................................................... 1 一、 Web日志挖掘 .................................................... 2