【正文】
便運(yùn)算的目的; 用戶識別 , 是從 Web日志數(shù)據(jù)中找出每個用戶的訪問地址,避免挖掘的重復(fù)性。實(shí)證分析 Web Log Mining Based On Association Analysis Abstract: Web log mining is an important part of web data mining, finding the user39。隨著興起與 20世紀(jì) 80年代末的數(shù)據(jù)挖掘在 web上的應(yīng)用,從某種程度上改善了上述情況。在跨越時間區(qū)段較大的 Web 服務(wù)器日志中 , 用戶可能多次訪問該站點(diǎn)。用戶對網(wǎng)頁的訪問時間為用戶前后兩次訪問該網(wǎng)頁的時間差,通過調(diào)用 SQL語句可以查找到用戶訪問網(wǎng)頁的時間,進(jìn)而區(qū)分出導(dǎo)航頁和內(nèi)容頁。目前采用的主要關(guān)聯(lián)規(guī)則挖掘算法有 Apriori、 FPgrowth算法等。 一般使用支 持度( support)和置信度( confidence)兩個參數(shù)來描述關(guān)聯(lián)規(guī)則的屬性。 南京財經(jīng)大學(xué)本科畢業(yè)論文 11 /newimg/。 五 、結(jié)束語 本文 先研究了 web日志挖掘當(dāng)前研究成果,介紹了 web日志挖掘的基本流程,然后著重介紹了如何利用 Apririo關(guān)聯(lián)規(guī)則算法來挖掘出用戶頻繁訪問模式,找出瀏覽頁面之間的關(guān)聯(lián)規(guī)則,為個性化推薦系統(tǒng)模型提供了依據(jù)。 (二) 模式發(fā)現(xiàn) 對數(shù)據(jù)進(jìn)行簡單處理,得出以下描述性統(tǒng)計: 總用戶數(shù): 1469 總鏈接數(shù): 146 TOP10訪問頁面 : /new/clubmain/newimg/, 1066。項目集 X 的支持率 support(X) ,南京財經(jīng)大學(xué)本科畢業(yè)論文 7 若 support(X) 不小于用戶指定的最小支持率 (記作: minsupport),則稱 X 為頻繁項目集,否則稱 X 為非頻繁項目集。在聚類技術(shù)中,沒有預(yù)先定義好的類別和訓(xùn)練樣本存在 ,所有記錄都根據(jù)彼此相似程度來加以歸類。設(shè)一個用戶會話里不會出現(xiàn)用戶以前已經(jīng)訪問過的頁面 , 如果用戶在向前瀏覽到一個網(wǎng) 4. 路徑補(bǔ)充 用戶會話對數(shù)據(jù)挖掘來講,顯得粗糙,仍不夠精確,需把會話進(jìn)一步分成具有一定語意的事務(wù),如同籃子數(shù)據(jù)中顧客一次購買的商品。 ( 2) 如果 Web 服務(wù)器沒有提供 Cookie , 但每個網(wǎng)站用戶都要一個登錄標(biāo)識符 ( 用戶 ID) 方可訪問站點(diǎn) , 則利用登錄標(biāo)識符識別用戶 。It also finds the browsing interest of a single user and groups users’ browsing habits, all after then ,we put forward some individual suggestions on web planning. Keywords: Web log mining。 Association analysis。 ( 3) 如果 Web 服務(wù)器既沒有 Cookie 也沒有用戶 ID,最常用的方法就是采用啟發(fā)式規(guī)則??梢园?Web頁簡單地分為兩類:內(nèi) 容頁和導(dǎo)航頁。主要算法有 k— means、 DBSCAN等。設(shè) X , Y 是數(shù)據(jù)集 D 中的項目集。 /new/clubmain/newimg/, 1056。 Web 日志挖掘作為 Web數(shù)據(jù)挖掘的嶄新研究方向 ,今年來已經(jīng)取得了一些突破性的進(jìn)展 , 但是由于 Web 的不確定性和多樣性 ,以及 Web的不斷壯大,還有很多問題亟待解決 , 有待于我們進(jìn)一步去研究和探索。 /new/clubmain/newimg/,1010。 一個 關(guān)聯(lián)規(guī)則是形如 YX?? 的蘊(yùn)涵式,這里 X , Y 都是項目集,且 1CX? ,1?Y ,并且 ??YX? , X , Y 分別稱為關(guān)聯(lián)規(guī)則 YX?? 的前提和結(jié)論。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,自動探測以前未發(fā)現(xiàn)的隱藏著的模式,關(guān)聯(lián)分析經(jīng)常被表達(dá)為規(guī)則的形式。當(dāng)用戶對該網(wǎng)頁訪問的時間小于時間點(diǎn)為導(dǎo)航頁,大于時間點(diǎn)則為內(nèi)容頁。 會話 , 是指同一個用戶連續(xù)請求的頁面。但是,我們又不得不面對“人們被數(shù)據(jù)淹沒 ,人們卻饑餓于知識”的現(xiàn)實(shí)。s access pattern in the Web access logs ,the researcher can predict the user39。目前 , 由于本地緩存、代理服務(wù)器和防火墻的存在 , 為用戶動態(tài)的分配 IP 地址 , 想要識別出每一個用戶變得很復(fù)雜。如果一個用戶的請求不能通過引用頁的鏈接進(jìn)入 , 則屬于另一個會話。 ( 3)聚類。 I 中的任何子集稱為項目集(itemset),若 k|X| ? ,則稱集合 X 為 ?K 項集。 for each 數(shù)據(jù)庫中的事務(wù) t do 增加包含在 t 中的所有候選 Ck+1的計數(shù) Lk+1 = Ck+1 中滿足 min_support的候選 南京財經(jīng)大學(xué)本科畢業(yè)論文 9 圖 2:Apriori算法圖解 數(shù)據(jù)庫 TDB TID Items 10 A, C, D 20 B, C, E 30 A, B, C, E 40 B, E Itemset Sup {A} 2 {B} 3 {C} 3 {D} 1 {E} 3 第一次掃描 C1 Itemset Sup {A} 2 {B} 3 {C} 3 {E} 3 L1 Item