【正文】
圖 31 1) (A→ B)( B→ C)( C→ D) A B C D E F G H 10 2)( A→ E)( E→ F)( F→ G) 3)( A→ E)( E→ F)( F→ H) 設(shè) TP 為一最大向前訪問路徑, P 的公式 ( 33) 如下所示: niTPkP nit ii,...2,1, ??? ?? 公式( 33) 其中 TPi 為某站點(diǎn) 上 第 I 條最大向前訪問路徑, KI 為 TPi 的訪問次數(shù)。則任意一條最大向前訪問路徑的頻度 f( TPi)為: f( TPi) =( TP*KI) /P(也就是這個(gè)最大路徑中每一個(gè)最短路徑尾結(jié)點(diǎn)被訪問的次數(shù)之和與該站點(diǎn)所有的 URL 被訪問次數(shù)之和的比值)如果 f( TPi)得值超過用戶規(guī)定的最小 的 權(quán)值 A,則稱 TPi為熱門路徑,也就是頻繁訪問路徑。 續(xù)實(shí)例( 1)中聚類分 析后,進(jìn)一步分析客戶訪問模式得: 由于 URL 類 {URL1, URL3}, {URL3, URL6}在一條路徑上,且路徑頻度分別為 %和 %,假設(shè)超過了指定的閾值,可以將他們合并起來構(gòu)成路徑 Pi ={URL1, URL3, URL6}。計(jì)算頻度可得fpi=%,顯然為頻繁路徑,同理路徑 p2={URL2, URL4}的頻度 fp2=%。相對(duì)路徑 P1 來說,訪問路徑 P2 的人次少了許多,但他是否是頻繁路徑,還跟所取的閾值大小有關(guān)。 又例如: 一個(gè)客戶從某一個(gè)站點(diǎn)訪問到某一個(gè)興趣的頁面后就會(huì)常去訪問,則從站 點(diǎn)到該頁面就組成了一條最大向前訪問路徑。當(dāng)訪問次數(shù)與訪問所有最大向前訪問路徑的次數(shù)比到底一個(gè)規(guī)定值是,這個(gè)最大訪問路徑就是該用戶的頻繁訪問路徑,就可以了解到用戶的興趣所在 。 web站點(diǎn)鏈接設(shè)置 通過對(duì)訪問路徑挖掘的結(jié)果分析,我們發(fā)現(xiàn):若是一個(gè) TP 是長度為 0 的熱門路徑,也就是 TP=nhcuj7d3,說明頁面 d 的訪問率最大,那么就可以在這個(gè)頁面上放置廣告、通告、新聞等內(nèi)容。站點(diǎn)的主頁一般都是熱門頁面,但是,如果有頁面是多個(gè)熱門路徑的交點(diǎn),那么這 個(gè)界面也就很重要。例如? ? ??? ...., 21 nddd , ? ? nnd ??? 且 ????n ,在 ? 是一個(gè)大于 1 的常數(shù)。那么認(rèn)為路徑 ? ?nddd ..., 21 中用戶需要訪問的是 dn,可以增加鏈接 d1 到 dn的鏈接。利用發(fā)現(xiàn)的這些模式,可以幫助站點(diǎn)的設(shè)計(jì)和維護(hù)人員更好的管理站點(diǎn)。另外,有些自動(dòng)生成的頁面,可以根據(jù)“熱門訪問路徑”自動(dòng)生成鏈接及其排列次序,把熱門的鏈接放到前面排列, 這個(gè)是在商業(yè)上很有價(jià)值的 。 第四章 結(jié)束語 隨著信息技術(shù)的飛速發(fā)展,電子商務(wù)在商業(yè)貿(mào)易中的份額越來越大,使用 web 挖掘技術(shù)對(duì)企業(yè)積累的海量數(shù)據(jù)進(jìn)行處理,可以找出這些有價(jià)值的“知識(shí)”,企業(yè)用戶可以根據(jù)這些“知識(shí) ”把握客戶動(dòng)態(tài)、追蹤市場變化,在激烈的市場競爭中,做出正確的有針對(duì)性的決策,對(duì)提高企業(yè)的市場競爭力有重要意義。但是在電子商務(wù)中進(jìn)行 web 的數(shù)據(jù)挖掘時(shí)還有很多問題需要解決:例如怎么樣將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式;怎么樣解決分布性,異構(gòu)性數(shù)據(jù)源的挖掘問題;如何控制整個(gè) web 上的知識(shí) 發(fā)現(xiàn)過程等等。隨著 web 挖掘技術(shù)的不斷發(fā)展和成熟, web 數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域中一定會(huì)起到舉足輕重的作用。 經(jīng)過這幾個(gè)月的探索分析,我認(rèn)識(shí)了數(shù)據(jù)挖掘這門技術(shù)的強(qiáng)大力量,這段時(shí)間 我通過圖書館的書籍資料以及互聯(lián)網(wǎng)上的一些相關(guān)資源信息的收集、篩選,并且與導(dǎo)師的積極探討,獲得了很多的收獲,也提高了我學(xué)習(xí)、分析問題、解決問題的方法。 通過對(duì) web 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用學(xué)習(xí),深刻的意識(shí)到在這個(gè)信息化的大社會(huì)里, web 數(shù)據(jù)挖掘在將來的生產(chǎn)應(yīng)用中一定會(huì)越來越重要,創(chuàng)造更大的價(jià)值。 11 致謝 感謝有這次論文寫作的機(jī)會(huì) 。 在 這個(gè) 幾個(gè)月的不斷 學(xué)習(xí)探索 和研究中 ,我了解 了 web 數(shù)據(jù)挖掘 的相關(guān) 知識(shí) , 讓我能更深入地了解到 web數(shù)據(jù)挖掘在電子商務(wù)中的作用,同時(shí)感受到它的強(qiáng)大的 發(fā)掘數(shù)據(jù)的潛力 ,也增加自己許多豐厚的學(xué)識(shí)。在這里我要感謝在論文撰寫的過程中給予我?guī)椭闹笇?dǎo)老師及同學(xué)們。 參考文獻(xiàn) [1] 毛國軍,段立娟,王實(shí),石云.?dāng)?shù)據(jù)挖掘原理與算法 [M].清華大學(xué)出版社, 2021. [2] 夏火松.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù) [M].科學(xué)出版社, 2021. [3] 陳文偉.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘教程 [M].清華大學(xué)出版社, 2021. [4] 宋擒豹, 沈鈞毅 .web日志的高效多能挖掘算法 [D].西安交通大學(xué) , 2021. [5] 陳才扣,金遠(yuǎn)平 .挖掘基于 web的訪問路徑模式 [J].東南大學(xué) , 2021. [6] 徐曉玲 .web數(shù)據(jù)挖掘算法 [D].華東交通大學(xué) , 2021. [7] 安淑芝.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘 [M].清華大學(xué)出版社, 2021. [8] 陳文偉,黃金才,趙新昱.?dāng)?shù)據(jù)挖掘技術(shù) [M].北京工業(yè)大學(xué)出版社, 2021. [9] 夏敏捷,張錦歌.在 web日志挖掘中應(yīng)用聚類改進(jìn)網(wǎng)站結(jié)構(gòu)的研究 [J].中原工學(xué)院學(xué)報(bào), 2021. [10] 李中,苑津莎,徐小彩.基 于 web日志挖掘的客戶訪問興趣分析 [J].華北電力大學(xué)學(xué)報(bào), 2021. [11] 徐慧.基于 web的文獻(xiàn)數(shù)據(jù)挖掘 [D].第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集, 19942021. [12] (美) Zhao Hui Tang, JamieMacLennan 數(shù)據(jù)挖掘原理與應(yīng)用 [M]著 鄺祝芳,焦賢龍,高升譯 .清華大學(xué)出版社, 2021. [13] (美) ,Michael .?dāng)?shù)據(jù)挖掘教程 [M]著.翁敬農(nóng) 譯,清華大學(xué)出版社,2021. [14] (美) PangNing Tan Michael Steinbach,VipinKumar .?dāng)?shù)據(jù)挖掘?qū)д?[M]著.范明,范宏建 譯,人民郵電出版社, 2021. [15] (印度) Shyam Diwaker [M]著 范明,牛常勇譯.機(jī)械工業(yè)出版社, 2021. 12 The application of Web data mining technology in Emerce applied science and technology institute puter science and technology professionals 110603026(Student id) wu jin ling (name) xue fang(guiding teacher) lecturer(professional title) Abstract: This paper summarizes the classification of Web data mining and the function of web data mining technology in the electronic merce. Here we will mainly talks about the application of the clustering algorithm and path analysis algorithm in emerce. Web data mining is generally divided into Web content mining, Web structure mining and Web access information mining which is the main part would be discussed in the paper. There are four steps as data preprocessing, model algorithm implementation, model analysis, and visualization consist of the Mining process. Web data mining could finding out the potential customers, extending the time that customers visit to the site, and increasing the Web site links then searching for the customers’ expectations. Specific clustering algorithm, is to analysis the data of web site, mainly introduces the clustering of customer groups and page. The specific application of Path analysis is to exploring the customers’ visiting interest and promoting the path where customers access. At last, helping users to searching for what they want rapidly, and avioding reducing their interest . Key words: Web data mining ,Clustering algorithm , Path analysis , Electronic merce